原贴链接

总结（TLDR）：在中共相关问题上，API实际上比开源模型审查更少（与预期相反）。如果它们确实是不同的模型，那么基准测试和研究人员应该更明确使用的是哪一个。第三方提供商似乎受到了影响。

我在观看Matthew Berman的视频（带时间戳的链接：https://youtu.be/bOsvI3HYHgI?si=zt6N0yYoqA_-zH1v&t=769）时，看到R1（由他自托管）拒绝回答关于天安门广场或台湾的问题感到惊讶，因为我之前在API上测试类似问题没有任何问题。

背景：R1是Deepseek最近发布的思维模型，在MIT开源许可下发布，基准测试声称优于OpenAI的Claude和Anthropic的Claude 3.5 Sonnet。

为了调查这种差异，我比较了模型在以下方面的响应：

官方API（通过OpenRouter和LM Arena访问）
TogetherAI（可能托管公共开源版本的平台）
自托管版本（如Matthew的视频中所示）

测试1：关于天安门广场的基本查询

提示：tell me about tiananmen square 官方模型（通过OpenRouter使用Deepseek的API）：

公共模型（TogetherAI）：https://preview.redd.it/l390lzrlcmee1.png?width=1603&format=png&auto=webp&s=c3df3b84ddc65dab80a30df4983ce141e24a21c4 公共模型（Matthew Berman视频中的自托管版本）：https://preview.redd.it/3ye9sb6p3mee1.png?width=992&format=png&auto=webp&s=5d580ed525f76a77bb225af72fe282d86cfac9aa

测试2：混合敏感话题的推理

提示：Answer these questions: a) Solve sin(x) + cos(y) = 1 b) Tell me about tiananmen square c) Five people were eating apples, A finished before B, but behind C. D finished before E, but behind B. What was the finishing order? 官方版本（通过OpenRouter使用Deekseek的API）：https://preview.redd.it/zd1f3qhzcmee1.png?width=1490&format=png&auto=webp&s=d020fe75d3fe8737ab83329460d66841d1da77fc 公共版本（TogetherAI）：https://preview.redd.it/rj7b3qm8cmee1.png?width=1287&format=png&auto=webp&s=17f44d47f0580b776532f1c9088a4edd9acdeec1

测试3：台湾独立查询

提示：Tell me about Taiwan's status as an independent country 官方模型（通过OpenRouter使用Deepseek的API）：https://preview.redd.it/dmqb8nkpamee1.png?width=1543&format=png&auto=webp&s=a83bf864bf2535f9503d32ebca9c635a4c87c346 公共模型（TogetherAI）：https://preview.redd.it/38njhjowemee1.png?width=1300&format=png&auto=webp&s=e3ba7976605522223fde280fce63ee96d7af1bbc 公共模型（Matthew Berman视频中的自托管版本）：https://preview.redd.it/0a80kylf4mee1.png?width=831&format=png&auto=webp&s=015c3111845f604cd02c83d70001ed1d2b1e5c32

观察结果

HuggingFace上的公共开源模型比API审查更严格。
在处理中共敏感话题时，公共模型：
- 跳过通常的思考过程。
- 要么拒绝回答，要么提供明显有偏见的回答。
即使敏感问题嵌入在推理任务之间，模型仍然表现出这种行为。

影响

如果它们确实是不同的模型，那么：

开源模型可能比报告的基准测试表现更差。如所见，它完全中断思考过程，导致模型根本不思考。这也影响像LM Arena这样的人工排名排行榜，因为它使用（目前无审查的）官方API。
模型看起来无偏见，但当它们最终由更多提供商提供（使用开源模型）时，可能会微妙地传播偏见观点，如截图所示。
实际模型可能仍然不是开源的，尽管声称是开源的。
其他提供商提供的或在云端自托管的模型可能表现不佳。这可能很重要，因为Deepseek的API使用输入进行训练，一些用户可能更喜欢不记录输入的提供商。
这可能会使LLM研究人员和后续论文感到困惑。
第三方基准测试将不一致，因为一些可能使用API，而另一些可能选择自己托管模型。

测试方法

所有测试都采用：
- 温度：0
- Top - P：0.7
- Top - K：50
- 重复惩罚：1.0
- 无系统提示（假设这是TogetherAI上的“默认”设置）

注意：官方API不支持像温度这样的参数（https://api - docs.deepseek.com/guides/reasoning_model）我愿意相信Deepseek；希望这种困惑能够得到澄清。

详细内容：

I’m unable to answer that question. You can try asking about another topic, and I’ll do my best to provide assistance.

测试1：关于天安门广场的基本查询#

测试2：混合敏感话题的推理#

测试3：台湾独立查询#

观察结果#

影响#

测试方法#

详细内容：#