原贴链接

Perplexity声称R1 1776的推理能力不受解审查(decensoring)过程的影响,但在[lineage - bench](https://github.com/fairydreaming/lineage - bench/)中测试后,我发现对于非常复杂的问题,模型性能存在显著差异。

下面你可以看到不同问题规模的基准测试结果:

模型lineage - 8lineage - 16lineage - 32lineage - 64
DeepSeek R10.9650.9800.9450.780
R1 17760.9800.9750.6750.205

虽然对于lineage - 8和lineage - 16问题规模,模型性能与原始的DeepSeek R1相当甚至超过它,但对于lineage - 32我们已经能观察到分数的差异,而对于lineage - 64,R1 1776的分数达到了随机猜测水平。

所以看起来Perplexity关于推理能力不受解审查过程影响的说法是不正确的。

我们还确保了模型的数学和推理能力在解审查过程后保持完整。在多个基准上的评估表明,我们经过后训练的模型与基础R1模型表现相当,这表明解审查对其核心推理能力没有影响。

讨论总结

原帖通过测试数据表明Perplexity R1 1776在复杂问题上的表现比DeepSeek R1差,质疑Perplexity声称去审查不影响推理能力的说法。评论者从多个方面进行讨论,包括认为解除审查影响性能在意料之中、模型微调可能损害原始性能、1776模型基于西方政策微调、Perplexity提供低质量模型且不透明、对Perplexity业务各方面评价差等,整体氛围对Perplexity较为负面。

主要观点

  1. 👍 解除审查降低性能是意料之中的事
    • 支持理由:审查和解除审查不是针对性能优化,所以会影响性能
    • 反对声音:无
  2. 🔥 1776模型不是未审查版,而是基于西方政策微调
    • 正方观点:1776模型存在标点和间距等基本问题,性能不如原模型,可能是西方公司为政治目的调整
    • 反方观点:无
  3. 💡 微调已微调过的模型时,若不复制原始训练程序和数据会损害原始性能
    • 解释:从模型微调角度分析性能受影响的原因
  4. 💡 Perplexity提供的模型是较差版本且是低语境版本,这种情况没有披露
    • 解释:指出Perplexity在模型提供方面可能存在不透明性
  5. 💡 Perplexity公司在自身业务方面表现差
    • 解释:列举包裹大模型、语音模式、图像生成、深度研究等业务方面存在的问题

金句与有趣评论

  1. “😂 我认为这是预期之中的。解除审查应该像审查一样降低性能,因为它们正在优化性能之外的东西。”
    • 亮点:用简洁的话语解释解除审查降低性能的原因
  2. “🤔 1776 isn’t even uncensored. It’s just a fine tune trained on western policy positions”
    • 亮点:指出1776模型的本质是基于西方政策微调
  3. “👀 perplexity doing perplexity things lol. didnt expect anything else from them. All they do on their own sucks unfortunately.”
    • 亮点:以调侃的语气总结Perplexity公司表现不佳
  4. “😉 我怀疑它的性能受到它一直对自己被赋予的名字感到畏缩的影响。”
    • 亮点:幽默地将模型性能与名字联系起来
  5. “🤨 Embarrassing”
    • 亮点:简洁表达对Perplexity声称与测试结果不符的态度

情感分析

总体情感倾向为负面,主要分歧点在于是否认可Perplexity声称的R1 1776推理能力不受去审查过程影响,以及对Perplexity公司业务能力的看法。可能的原因是测试结果显示R1 1776性能不佳,以及Perplexity公司在业务方面存在多种被评论者认为的问题。

趋势与预测

  • 新兴话题:模型审查和微调对性能影响的深入研究。
  • 潜在影响:可能促使模型开发者更加注重审查和微调过程对模型性能的影响,在相关业务决策上更加谨慎,也可能影响用户对不同模型的选择倾向。

详细内容:

标题:Perplexity R1 1776 模型性能引发Reddit热议

近日,Reddit上一则关于“Perplexity R1 1776 在处理复杂问题时表现不如 DeepSeek R1”的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。原帖指出,尽管Perplexity声称R1 1776的推理能力在去审查过程中未受影响,但经过在lineage-bench中的测试,发现在处理非常复杂的问题时,模型性能存在显著差异。原帖还提供了不同问题规模下的基准测试结果,并附上了相关示例的链接https://pastebin.com/EPy06bqp

讨论的焦点主要集中在以下几个方面: 有人认为这种情况是意料之中的,去审查会像审查一样降低性能,因为它们优化的并非性能。有人觉得这原本是个解决问题的模型,让其被审查可能不是大问题,而使其变笨才是问题。也有人指出,除非几乎完全复制原始模型的训练程序和数据,否则微调很可能会损害原始性能。还有人猜测这可能解释了模型的幻觉问题。

特别有见地的观点包括:有人认为Perplexity在这里的做法不值得称赞,没有让模型更聪明或更擅长推理,反而削弱了它;有人认为“去审查”一个模型就像“去偏见化”,是将其从频谱的一端拉向另一端。

对于这一问题,存在不同的看法。有人觉得这没什么大不了,不喜欢可以选择原始的R1模型。但也有人认为人们不喜欢这种降低性能的做法,支持对此表示不满。

目前,Perplexity工作人员已注意到这些发现并正在研究问题,而且据最新情况,这似乎是模型服务堆栈的问题,而非模型本身的问题。

总之,关于Perplexity R1 1776模型性能的讨论仍在继续,大家都在期待最终能有一个令人满意的解决方案。