原贴链接

嘿，r/LocalLLaMA社区！我正在做一个名为“LLM温度计”的趣味/研究项目，试图回答这个问题：我们能否仅通过分析LLM的输出来推断其使用的温度设置？项目内容：1. 使用相同提示在不同温度下生成多个响应。2. 使用嵌入来测量响应之间的语义相似性。3. 可视化温度和响应相似性之间的关系。早期结果表明这个方法可行，较高温度始终会产生更多样化的响应（相似性得分较低），而较低温度会产生更一致的输出。

。技术细节：使用OpenAI Python SDK，但可以连接到任何兼容的API端点；通过vLLM的OpenAI兼容API与本地模型协同工作；自动生成带有可视化的详细报告；报告可在https://s1m0n38.github.io/llm - thermometer/获取。正在寻求提示建议，我希望得到可能产生有趣的依赖温度变化的提示建议，我已经测试了“2050年的技术将是什么样？”“生命的意义是什么？”“广泛采用AI的伦理影响是什么？”“写一个有六个段落的创意故事。”我还应该尝试什么？特别对那些温度差异产生除措辞变化之外的质的不同响应的提示感兴趣。欢迎任何反馈或想法。项目地址在https://github.com/S1M0N38/llm - thermometer/

讨论总结

原帖作者分享了自己的“LLM Thermometer”项目，旨在通过分析LLM输出推断其温度设置。评论者们积极回应，有人提出新的推断温度的方法，如通过特定乘法运算的错误率或检查对数；有人提供新的测试提示，也有人推荐相关工具，原帖作者与评论者之间进行了积极的互动交流，氛围较为和谐。

主要观点

👍 原帖项目内容比较显而易见
- 支持理由：评论者直接表明观点
- 反对声音：无
🔥 可通过特定数字乘法运算的错误率推断温度
- 正方观点：评论者提出这种方法并进行解释
- 反方观点：原帖作者表示与自己基于语义相似性的方法不同
💡 动态温度是保持LLM可靠性与创造性的好工具
- 正方观点：评论者认为动态温度有此作用
- 反方观点：原帖作者表示自己研究方向并非是增加创造性与保持可靠性
💡 可以通过将输入和生成文本通过同一LLM检查对数来推断温度
- 正方观点：评论者提出该方法并阐述合理性
- 反方观点：原帖作者表示自己项目旨在仅通过采样文本来推断LLM推理设置
💡 原帖项目很有趣
- 支持理由：多位评论者表示认可

金句与有趣评论

“😂 I mean yeah, this is all obvious.”
- 亮点：直白地表达对原帖项目内容的看法
“🤔 Try multiplication of 2 - 3 - 4 digit numbers, and infer the T from the error rate.”
- 亮点：提出一种新的推断温度的思路
“👀 Also try dynamic temperature. It is a great tool, to add creativity while maintaining reliability of LLM.”
- 亮点：推荐动态温度并阐述其作用
“💡 如何将输入和生成的文本通过同一个LLM并检查每个标记的对数（有点像反向操作）。”
- 亮点：提出一种推断温度的技术方法
“👍 This sounds like a really neat project.”
- 亮点：对原帖项目的正面评价

情感分析

总体情感倾向是积极的。主要分歧点在于评论者提出的一些建议与原帖作者的研究方向有所不同，如动态温度的使用、推断温度的方法等。可能的原因是评论者从不同角度思考项目的改进和扩展，而原帖作者有自己既定的研究目标。

趋势与预测

新兴话题：建立多变量系统展示设置对输出的影响。
潜在影响：有助于优化LLM的相关研究，使人们更好地理解LLM的温度设置对输出的影响，可能推动相关工具的发展。

详细内容：

《关于“LLM 温度计”项目的热门讨论》

在 Reddit 的 LocalLLaMA 板块，有一个引起众多关注的帖子，其主题为“LLM 温度计”。这个帖子获得了大量的点赞和众多的评论。

原帖主要介绍了一个名为“LLM 温度计”的玩具/研究项目，旨在回答能否仅通过分析 LLM 的输出推断其使用的温度设置。该工具能在不同温度下生成多个响应，测量响应间的语义相似度，并将温度和响应相似度的关系可视化。早期结果显示，较高温度始终产生更多样的响应，较低温度生成更一致的输出。

帖子中还提到了技术细节，包括使用 OpenAI Python SDK 并能连接到任何兼容的 API 端点，可通过 vLLM 的 OpenAI 兼容 API 与本地模型配合工作，能自动生成带有可视化的详细报告，报告可在https://s1m0n38.github.io/llm-thermometer/获取。此外，作者寻求更多有趣的提示建议，已经测试过“2050 年的技术会是什么样？”“生命的意义是什么？”“广泛采用 AI 的伦理影响是什么？”“写一个有六个段落的创意故事。”等。

帖子引发的主要讨论方向包括如何通过不同方式推断温度，如通过错误率、检查 token 的 logits 等，还有关于动态温度的影响，以及如何选择更能体现温度差异的提示。

有人提出可以尝试乘法运算的数字计算，从错误率推断温度，还可以尝试动态温度。但作者表示并非追求在保证可靠性的同时增加创造力，认为通过语义相似度生成文本的方式与该建议有所不同，不过对利用错误率作为温度值代理的建议表示感谢。

有人建议将输入和生成的文本通过同一 LLM 处理，检查每个 token 的 logits 来计算或近似所选温度，但作者表示在只有生成文本可用的情况下，这种方式有局限性。

还有人提供了新的提示，如“你如何看待创造力和约束的交集？你在解决创造性问题方面的经验与你了解的人类过程有何不同？”，并认为涉及自我、身份、观点、个性等方面的问题都适合测试温度变化。

有人称赞这个项目很棒，并提到如果需要更好地分析或可视化输出数据，不妨试试 preswald。

总之，这场讨论聚焦于如何优化项目以更准确地推断温度设置以及选择更有效的提示来体现温度差异，同时也探讨了项目未来的发展方向和可能的应用场景。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#