原贴链接

根据几周前的这篇帖子（https://www.reddit.com/r/LocalLLaMA/comments/1fi1kex/multi_turn_conversation_and_rag/），当你对最后发布的消息进行检索增强生成（RAG）时，你可能需要重新构建其上下文，例如：

问：耶稣什么时候出生的？
答：很久以前！
问：他的母亲呢？

这里的“他的母亲呢？”缺乏参考内容。

这个问题比看起来更复杂，因为参考内容并不总是在最新的消息中，例如：

问：奥拉诺（Orano）的老板是谁？
答：是菲利普·诺什（Philippe Knoche）
问：他在哪里上学？
答：巴黎综合理工学院（Polytechnique）和巴黎高等矿业学校（Ecole des Mines）

在这里，我们可能会遇到多个棘手的问题，需要良好的推理才能正确地重新表述：

“他的妻子呢？” -> 这意味着要获取菲利普·诺什以及学校的问题来重新表述它。 “总部在哪里？” -> 这意味着是公司总部，而不是两所学校的“总部”。

长话短说，我测试了多个模型，Qwen 2.5 7b、14b Llama 3.1、Mistrals模型，虽然Qwen在整体上非常好，但在这方面还不够好，而phi - 4（非泄露版）模型远远超过了迄今为止测试的其他所有模型。

讨论总结

原帖强调phi - 4在重新表述多轮问答中的最后消息时远超其他测试模型。评论者们从不同角度展开讨论，包括通过测试比较不同模型重新表述能力、phi - 4是否被泄露、phi系列模型的特性、对原帖的感谢与肯定、重新表述的必要性与方式、模型评分是否被操纵等，整体讨论理性且包含多种观点。

主要观点

👍 phi - 4在重新表述能力测试中的得分高于其他模型
- 支持理由：评论者通过26个问题的测试得出该结论。
- 反对声音：无。
🔥 微软网站上有就不算phi - 4泄露，最多是“镜像”
- 正方观点：原帖提到“leaked”，评论者认为微软网站提供就不算泄露。
- 反方观点：最初称“leaked”者解释是因为在HF上找不到pytorch模型才这么说。
💡 phi系列不是好的编程模型，不具备创造性，但很有逻辑性，小模型应用于逻辑任务
- 解释：评论者针对phi系列模型特性作出评价，认为其逻辑任务方面有优势。
💡 重新表述可能只是为了提取用户意图，但有多种隐式提取方式
- 解释：有评论者提出重新表述与用户意图的关联以及其他提取方式。
💡 在开放语言模型排行榜上，phi - 4除iffeval外比phi 3表现更好
- 解释：从排行榜成绩对比phi - 4和phi 3性能差异。

金句与有趣评论

“😂 Phi - 4 doesn’t just have a better score, it’s also better at rephrasing.”
- 亮点：简洁地表明phi - 4在重新表述方面不仅得分高而且表现更好。
“🤔 I wouldn’t call it leaked by any means if MS has it available on their own site. "mirrored" at most.”
- 亮点：对phi - 4是否泄露提出不同观点。
“👀 The phi series might not be good programming models nor creative, but they are very logical.”
- 亮点：明确指出phi系列模型在编程和创造性方面不足，但逻辑性强的特性。
“😉 My point is using correct term will give you more correct result.”
- 亮点：强调使用正确术语在相关任务中的重要性。
“🙂 我发现它比相同规模甚至更大的模型要“聪明”得多。”
- 亮点：以个人项目体验说明phi4比其他模型“聪明”。

情感分析

总体情感倾向为中性偏正面。正面在于多数评论者认可原帖内容的价值，部分对phi - 4的表现持肯定态度。分歧点在于phi - 4的评分是否被操纵、phi系列模型是否是好的编程模型等。可能的原因是不同评论者的使用体验、测试方法和评判标准不同。

趋势与预测

新兴话题：phi - 4在有来源的RAG中的应用。
潜在影响：对模型选择和开发方向可能产生影响，促使更多人关注模型的重新表述能力和逻辑特性。

详细内容：

《Phi-4 在多轮问答重述中的出色表现引发热议》

近日，Reddit 上一则关于“Phi-4 在多轮问答重述中表现出色”的帖子引发了众多关注。该帖子指出，在进行基于上一条消息的问答时，有时需要对其进行重新语境化处理，例如“Q：When was Jesus born? A：A long time ago! Q：What about his mother?”，这里的“What about his mother?”就存在缺失的参考。此外，像“Q：Who is Orano’s Boss? A：it’s Philippe Knoche Q：Where did he go to school? A：Polytechnique and Ecole des Mines”这样的例子，后续的一些棘手问题需要良好的推理才能正确重述。此贴获得了大量的点赞和众多评论。

讨论焦点主要集中在以下几个方面：有人认为 Phi-4 不仅得分更高，重述能力也更强。比如，[LinkSea8324] 表示：“Phi-4 不只是有更好的分数，它在重述方面也更出色。” 有用户分享个人经历，[LinkSea8324] 提到：“我的是一些只有 26 个问题的不太好的东西，大家可以随意自己构建数据集。” 有人提出了有趣的观点，[ekaj] 表示：“这让我想到为这个设立一个基准，不知道是否已经存在？” 也有人对 Phi-4 持有不同看法，[ImprovementEqual3931] 认为：“在我的用户体验中，Phi 1-4 的分数被严重操纵。” 还有用户探讨了解决方案，[mailaai] 称：“有多种方式可以解决这个问题，比如定制使用随机森林的嵌入、函数调用或者如您提到的操纵查询，但这取决于嵌入模型以及您正在使用的模型。所有的语言模型对措辞都很敏感，关键在于您如何向模型提问。”

在讨论中，大家的共识在于认可 Phi-4 在多轮问答重述任务中的重要性和复杂性。一些独特的观点，如认为 Phi 系列在逻辑任务上表现出色，丰富了讨论。

总之，关于 Phi-4 在多轮问答重述中的表现，Reddit 上的讨论丰富多样，为我们深入了解这一话题提供了多个视角。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#