原贴链接

Perplexity声称R1 1776的推理能力不受解审查（decensoring）过程的影响，但在[lineage - bench](https://github.com/fairydreaming/lineage - bench/)中测试后，我发现对于非常复杂的问题，模型性能存在显著差异。

下面你可以看到不同问题规模的基准测试结果：

模型	lineage - 8	lineage - 16	lineage - 32	lineage - 64
DeepSeek R1	0.965	0.980	0.945	0.780
R1 1776	0.980	0.975	0.675	0.205

虽然对于lineage - 8和lineage - 16问题规模，模型性能与原始的DeepSeek R1相当甚至超过它，但对于lineage - 32我们已经能观察到分数的差异，而对于lineage - 64，R1 1776的分数达到了随机猜测水平。

所以看起来Perplexity关于推理能力不受解审查过程影响的说法是不正确的。

我们还确保了模型的数学和推理能力在解审查过程后保持完整。在多个基准上的评估表明，我们经过后训练的模型与基础R1模型表现相当，这表明解审查对其核心推理能力没有影响。

讨论总结

原帖通过测试数据表明Perplexity R1 1776在复杂问题上的表现比DeepSeek R1差，质疑Perplexity声称去审查不影响推理能力的说法。评论者从多个方面进行讨论，包括认为解除审查影响性能在意料之中、模型微调可能损害原始性能、1776模型基于西方政策微调、Perplexity提供低质量模型且不透明、对Perplexity业务各方面评价差等，整体氛围对Perplexity较为负面。

主要观点

👍 解除审查降低性能是意料之中的事
- 支持理由：审查和解除审查不是针对性能优化，所以会影响性能
- 反对声音：无
🔥 1776模型不是未审查版，而是基于西方政策微调
- 正方观点：1776模型存在标点和间距等基本问题，性能不如原模型，可能是西方公司为政治目的调整
- 反方观点：无
💡 微调已微调过的模型时，若不复制原始训练程序和数据会损害原始性能
- 解释：从模型微调角度分析性能受影响的原因
💡 Perplexity提供的模型是较差版本且是低语境版本，这种情况没有披露
- 解释：指出Perplexity在模型提供方面可能存在不透明性
💡 Perplexity公司在自身业务方面表现差
- 解释：列举包裹大模型、语音模式、图像生成、深度研究等业务方面存在的问题

金句与有趣评论

“😂 我认为这是预期之中的。解除审查应该像审查一样降低性能，因为它们正在优化性能之外的东西。”
- 亮点：用简洁的话语解释解除审查降低性能的原因
“🤔 1776 isn’t even uncensored. It’s just a fine tune trained on western policy positions”
- 亮点：指出1776模型的本质是基于西方政策微调
“👀 perplexity doing perplexity things lol. didnt expect anything else from them. All they do on their own sucks unfortunately.”
- 亮点：以调侃的语气总结Perplexity公司表现不佳
“😉 我怀疑它的性能受到它一直对自己被赋予的名字感到畏缩的影响。”
- 亮点：幽默地将模型性能与名字联系起来
“🤨 Embarrassing”
- 亮点：简洁表达对Perplexity声称与测试结果不符的态度

情感分析

总体情感倾向为负面，主要分歧点在于是否认可Perplexity声称的R1 1776推理能力不受去审查过程影响，以及对Perplexity公司业务能力的看法。可能的原因是测试结果显示R1 1776性能不佳，以及Perplexity公司在业务方面存在多种被评论者认为的问题。

趋势与预测

新兴话题：模型审查和微调对性能影响的深入研究。
潜在影响：可能促使模型开发者更加注重审查和微调过程对模型性能的影响，在相关业务决策上更加谨慎，也可能影响用户对不同模型的选择倾向。

详细内容：

标题：Perplexity R1 1776 模型性能引发Reddit热议

近日，Reddit上一则关于“Perplexity R1 1776 在处理复杂问题时表现不如 DeepSeek R1”的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。原帖指出，尽管Perplexity声称R1 1776的推理能力在去审查过程中未受影响，但经过在lineage-bench中的测试，发现在处理非常复杂的问题时，模型性能存在显著差异。原帖还提供了不同问题规模下的基准测试结果，并附上了相关示例的链接https://pastebin.com/EPy06bqp。

讨论的焦点主要集中在以下几个方面：有人认为这种情况是意料之中的，去审查会像审查一样降低性能，因为它们优化的并非性能。有人觉得这原本是个解决问题的模型，让其被审查可能不是大问题，而使其变笨才是问题。也有人指出，除非几乎完全复制原始模型的训练程序和数据，否则微调很可能会损害原始性能。还有人猜测这可能解释了模型的幻觉问题。

特别有见地的观点包括：有人认为Perplexity在这里的做法不值得称赞，没有让模型更聪明或更擅长推理，反而削弱了它；有人认为“去审查”一个模型就像“去偏见化”，是将其从频谱的一端拉向另一端。

对于这一问题，存在不同的看法。有人觉得这没什么大不了，不喜欢可以选择原始的R1模型。但也有人认为人们不喜欢这种降低性能的做法，支持对此表示不满。

目前，Perplexity工作人员已注意到这些发现并正在研究问题，而且据最新情况，这似乎是模型服务堆栈的问题，而非模型本身的问题。

总之，关于Perplexity R1 1776模型性能的讨论仍在继续，大家都在期待最终能有一个令人满意的解决方案。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#