我开始研究提高下一个标记生成概率的方法,以减少幻觉(有点类似于思维链……),并且一直在Python中使用Qwen2.5 - 1.5B来测试一些理论。我认为我已经取得了一些重大进展,但我想分享一些我尝试过的提示和结果,想让大家看看这对你们来说是否像对我一样令人印象深刻?也许我疯了,对着同样的提示看了100多遍来找改进之处……而且,也许是我的设置问题,但这个模型即使在低温度(参数)下一开始看起来也很笨。我知道它很小——但这也是我想在这里提问的另一个原因,看看我的基础模型设置是否由于某种原因表现异常。以下是我的基本模型设置(可以说是我的对照组设置):top_p = 0.9,temperature = 0.1,repetition_penalty = 1.2。现在来看提示……提示1:爱丽丝有3个苹果。她给了鲍勃2个,然后又收到5个苹果。爱丽丝现在有多少个苹果?实验方法:要知道爱丽丝在送出一些苹果并收到新苹果后有多少个苹果,请按照以下步骤:1. 从初始数量开始:爱丽丝有3个苹果。2. 减去她送出的苹果(给鲍勃的):3 - 2 = 1个苹果剩下。3. 加上新收到的苹果:1 + 5 = 6个。因此,爱丽丝最终共有6个苹果。标准模型:要解决这个问题,我们可以分为两步:1. 从爱丽丝最初拥有的苹果数量开始。 - 初始数量 = 3。2. 减去她送出的水果数量(给鲍勃的)。 - 送出2个苹果后,她剩下的数量是:3 - 2 = 1。3. 加回场景中后来收到的任何额外水果。4. 由于在最初减去送出的苹果后没有提供关于收到新苹果的进一步信息, - 最终答案如下:1。提示2:如果一个数的5倍加上3等于28,这个数是多少?实验方法:让我们将这个未知数字设为n。根据你的陈述:5n + 3 = 28。我们要分离出n,所以首先从两边减去3:5n + 3 - 3 = 28 - 3,5n = 25。然后两边除以5:5n / 5 = 25 / 5,n = 5。因此,满足5n + 3 = 28的n的值是n = 5。标准模型:要找出哪个数字满足‘某个数的5倍加上3等于28’这个等式,请按照以下简单步骤:步骤1:根据需要用变量或数字写下上述情况的数学表达式。在我们的例子中,让我们将未知变量设为‘x’。所以,这个陈述变为5 * x + 3 = 28。步骤2:如果可能的话,用代数方法解这个线性方程,而不需要直接给x分配具体值。以下是逐步操作的方法: - 首先,将包含‘x’的项移到等号的一边;因此,将所有常数从左边移到右边,如下:5 * x + 0 = 25。这稍微简化了你的原始方程,但由于加0不会改变等式本身,所以不改变其意义。 - 接下来明确求解‘x’,即找到满足两边的数值<达到标记限制>提示3:‘Strawberry’这个单词里有多少个‘r’?实验方法:‘Strawberry’这个单词包含3个‘r’实例。标准模型:要确定字母‘R’在‘Strawberry’这个术语中出现的次数,我将基于在处理字符串时Python或JavaScript等编程语言中常用的文本处理技术进行分析。然而,请注意,由于这里考虑的大小写字符之间的差异,在计数过程中根据大写是否重要可能会有轻微的变化。以下是我的方法,假设标准的英文字母表示包括大写字母‘R’: * 遍历‘strawberry’字符串中的每个字符 + 对于每次迭代,检查当前元素是否与目标子串‘r’匹配 + 每当匹配发生时增加计数器。在通过专门用于有效处理文本数据结构的特定语言库/函数以编程方式执行上述操作之后,类似……示例实现片段纯粹以伪代码风格编写,因为实际的编码环境在不同平台和框架之间有很大差异:def num_r_in_str(str): # 初始化结果跟踪器为0点res_tracker = 0<达到标记限制>
讨论总结
原帖作者在尝试改进1.5B模型下一个标记生成概率以减少幻觉后,展示了基础模型设置、不同提示下实验和标准模型结果,询问成果是否令人印象深刻。评论者们从多个角度回应,有的指出原帖缺乏实验模型细节难以评判,有的认可成果并好奇方法,有的质疑实验存在问题,还有提出新的测试方向、性能优化建议等,整体讨论理性且围绕模型相关话题展开。
主要观点
- 👍 原帖实验结果看起来明显更好
- 支持理由:答案正确且回答详细程度和风格类似大型模型
- 反对声音:无
- 🔥 原帖作者未提供实验模型的细节,难以评判成果
- 正方观点:没有模型构思等细节,无法准确判断成果价值
- 反方观点:无
- 💡 原帖实验可能存在问题
- 解释:以提示2为例展示贪婪采样下正确结果的得出过程,与原帖结果不同
- 💡 若测试默认性能,top_k = 1更合理,min_p在需要随机性时比top_p更好
- 解释:top_p有时会选择低概率标记破坏模型
- 💡 可以创建自动化流程调整超参数并测试模型性能
- 解释:理论上可自动化整个过程,能测试多种技术并可能提高性能
金句与有趣评论
- “😂 Hard to say without you giving any details on how you came up with the experimental model.”
- 亮点:指出原帖缺乏关键信息导致难以判断成果
- “🤔 作者:It looks significantly better, not just because the answers are right but the verbosity and style seems more like a big model.”
- 亮点:认可原帖成果并给出理由
- “👀 我认为在你的实验中有一些错误。”
- 亮点:直接质疑原帖实验结果
- “😂 MoffKalast: If you really want to test default performance top_k = 1 makes more sense”
- 亮点:给出测试默认性能的合理参数建议
- “🤔 nitefood: Very interesting. Are those cherry - picked results, or is the correct answer consistent between iterations?”
- 亮点:对原帖结果的合理性表示质疑并关注迭代情况
情感分析
总体情感倾向较为中立理性。主要分歧点在于原帖成果是否可靠,部分原因是原帖未给出实验模型细节,以及实验结果与其他方法得出的结果存在差异。
趋势与预测
- 新兴话题:在ARC - AGI上测试原帖相关内容。
- 潜在影响:如果在ARC - AGI上测试,可能会对1.5B模型改进工作有更全面准确的评估,有助于模型在相关领域性能提升等。
详细内容:
标题:关于 1.5B 模型的实验结果引发的热烈讨论
在 Reddit 上,一篇题为“Is this a great result for 1.5B model? or am I going crazy from lack of sleep?”的帖子引发了广泛关注。该帖子作者分享了自己在改善模型下一个标记生成概率以减少幻觉方面的工作,使用了 Qwen2.5-1.5B 模型在 Python 中进行测试,并展示了一些实验结果和提示。此贴获得了众多评论和讨论。
主要讨论方向包括对实验模型结果的评价、对实验方法的质疑以及不同模型在相同测试中的表现对比等。核心争议点在于实验模型的结果是否真的显著有效,以及不同用户在相同测试中的结果为何存在差异。
有人认为,仅从作者给出的信息很难判断实验模型的优劣。有人觉得实验模型不仅答案正确,而且表述的详细程度和风格更像大模型,并好奇作者的秘诀。也有人指出实验中存在错误,自己测试的结果与作者不同。还有用户分享了自己使用不同模型和参数的测试情况。
例如,有用户测试了这些提示,通过贪婪采样,所有输出都是正确的,并详细给出了针对提示 2 的解题步骤。但也有用户表示,除非自己弄错了,按照特定的设置应该能得到与作者相同的结果,可实际在特定提示下得到的却是不同的结果,并询问作者使用的模型运行方式。
有人对实验结果的一致性提出疑问,还有人尝试了在其他模型上使用相同参数,并分享了不同的测试结果。
讨论中的共识在于大家都对模型的性能和实验结果表现出了浓厚的兴趣,并希望能有更明确和一致的评估标准。特别有见地的观点如有人考虑创建自动化流程来调整各种超参数并测试模型,以找出对性能提升有显著作用的参数。
总之,这次关于 1.5B 模型实验结果的讨论,充分展现了大家对模型研究的热情和深入思考,也反映出在模型评估和优化方面仍存在诸多挑战和不确定性。
感谢您的耐心阅读!来选个表情,或者留个评论吧!