原贴链接

哇哦。昨晚，经过长时间的编码奋战后，我听到了一个好消息：Gemini发布了一些新模型。今天早上我醒来时超级兴奋地想去试试它们。我的第一次尝试是用Flesh light 2.0做一个快速的光学字符识别（OCR），我对它的速度印象非常深刻。这玩意儿会让复杂的OCR变得轻而易举。我迫不及待地想把它融入我的应用程序中。我估计它会把处理时间缩短一半（就像提前过圣诞节了）。然后我开始测试Gemini 2.0 Pro实验版。多么令人失望啊……这与1206版本相比是一种倒退。我立刻就发现我日常工作（如编码）中的任务质量下降了。它犯了超多错误。生成的代码没有有效的HTML（非常基本的任务），而且它似乎总是未经允许就插入和重构代码。我不知道这些人到底在做什么。每次发布都是这样。他们似乎就是做不好。1206是个很棒的模型，我已经把它当作日常使用的主力模型有一段时间了。实际上我对它印象非常深刻，如果他们把1206作为Gemini 2.0 Pro实验版发布，我会很兴奋的。这完全是一种倒退。我已经在谷歌产品上多次看到这种情况了。上一次0827和Gemini 002也是这样。出于某种原因，当时他们选择强制让所有回答都简洁，基本上不可能得到完整的长篇回复。即使使用系统提示，它也只会不断缩短代码，在所有内容中添加注释，基本上就是强制这种糟糕的简洁模式行为。现在他们又故技重施了。这个模型并不比1206好。他们想要超越的基准或者其他什么东西只是一种幻觉。如果你的模型连输出有效代码这种简单任务都做不好，还总是试图强制重构，那它就是一团糟。为什么他们做不好呢？他们似乎在更新时退步很多。我和懂行的人讨论过，显然要兼顾不同类型人的各种需求是很困难的。例如，有些人可能喜欢冗长详尽的答案，而其他人可能会觉得那很烦人、太啰嗦。所以基本上我们只能忍受这些半吊子的模型，它们似乎没有什么特别擅长的地方。我一直都用这些模型来编码和写作。也许我是少数用户，而且对这个要求太高了。但是，天哪，真让人失望。我可没骗你，我宁愿使用DeepSeek也不愿意用这个。它能够给出长篇详尽的答案，而且不会无意修改代码部分，这对我的使用场景来说非常有价值。不过，谷歌在提供模型服务方面是最大最可靠的，而且我非常喜欢用于构建应用程序的Flash模型。所以可以说我对他们是又爱又恨。一直都是这种感觉。一种爱恨交加的关系。我暗自希望他们成功，但我非常厌恶他们做的一些事情，而且真的很惊讶他们还没有超过ChatGPT/Claude呢。比如怎么会这样呢？也许是时候把他们的大型语言模型（LLM）生产外包给中国了。就像其他所有东西一样。哈哈。

讨论总结

原帖作者对Gemini 2.0 Pro Experimental进行了吐槽，认为其在编码等任务上相比1206版本质量下降、出错多、擅改代码等，是一种倒退。评论者们的观点各异，部分人认同原帖作者，也分享了自己使用Gemini系列产品遇到的类似问题；部分人则根据自己的使用体验，表示这个版本有一定优势或者认为它比其他模型表现更好。

主要观点

👍 Gemini 2.0 Pro Experimental相比1206版本有倒退
- 支持理由：原帖作者指出在日常编码任务中出错、输出代码无有效HTML、未经允许就重构代码等，一些评论者也表示自己遇到了类似问题，如阅读理解能力下降等。
- 反对声音：有评论者认为在自己的测试中它比原帖作者所说的要好很多，如开启代码执行功能时表现更好，还有人指出它比1206有微小改进。
🔥 不同用户对模型有不同需求
- 正方观点：有人认为有些用户想要简洁答案，有些想要详细答案，模型难以满足所有人，所以在更新调整时可能出现顾此失彼的情况。
- 反方观点：原帖作者觉得模型应该先保证基本功能正常，而不是为了满足部分用户的简洁需求而牺牲基本功能。
💡 模型评估与实际应用存在脱节
- 解释：有评论者指出模型发布所使用的评估远离现实场景，难以依据当前评估判断模型在实际任务中的表现。

金句与有趣评论

“😂 Flesh light 2.0buahahah”
- 亮点：针对原帖中的“Flesh light 2.0”这一表述觉得好笑，这是一种幽默的反应，与原帖严肃的吐槽形成对比。
“🤔 I have a feeling all the current evals those model releases are using are just too far away from real work/life scenarios.”
- 亮点：指出了模型评估中的一个重要问题，即与现实场景脱节，引发人们对模型评估有效性的思考。
“👀 I disagree, Gemini Pro 2 solved an ML code problem that Claude, o3 and DeepSeek could not.”
- 亮点：在众多对Gemini 2.0 Pro Experimental的负面评价中，提出不同观点，并且给出具体的例子来支撑自己的观点。

情感分析

总体情感倾向比较复杂，既有对Gemini 2.0 Pro Experimental的不满和失望，也有部分肯定。主要分歧点在于该模型是否真的如原帖所说存在诸多问题，以及与其他模型相比的优劣。产生分歧的可能原因是不同用户使用模型的场景、任务不同，对模型功能和表现的期望也不同。

趋势与预测

新兴话题：关于如何让模型在满足不同用户需求的同时保证基本功能正常，以及如何改进模型评估使其更贴近实际应用场景。
潜在影响：如果能够解决这些问题，将有助于提升模型的质量和用户满意度，推动人工智能领域更好地发展；反之，如果这些问题持续存在，可能会影响用户对模型的信任，阻碍人工智能技术在各个领域的应用推广。

详细内容：

《关于 Gemini Pro 2.0 Experimental 的热议：是进步还是倒退？》

近日，Reddit 上一篇关于 Gemini Pro 2.0 Experimental 的讨论引起了众多网友的关注。该帖子获得了大量的点赞和评论，引发了广泛的讨论。

原帖作者在经历长时间编码后，对 Gemini 新模型满怀期待。试用 Flesh light 2.0 进行快速 OCR 时，作者对其速度印象深刻，但在测试 Gemini 2.0 Pro Experimental 时却大失所望。作者认为这个新模型相比 1206 有明显的退步，存在诸多问题，比如输出代码质量差、未经允许擅自重构代码等。

讨论的焦点主要集中在对 Gemini Pro 2.0 Experimental 性能的评价上。有人表示：“他们最近对 Gemini 做了些糟糕的改动，上周还好好的，这几天就像做了个不怎么样的升级。感觉上下文窗口缩小了，这对我来说可是个大问题。”还有用户提到：“Gemini Pro 2 解决了 Claude、o3 和 DeepSeek 都无法解决的 ML 代码问题。”但也有人认为：“新模型在某些方面表现不错，比如速度更快，但在智能和准确性上存在trade-offs。”

有用户分享道：“我曾有段代码在实现新的 RL 策略时编译器报错，Gemini Pro 2 修复了所有错误，其他模型都不行。”还有用户表示：“每一次基准测试都显示 1206 落后于 0205，但对于创意写作来说，1206 无人能敌，新模型就是垃圾。”

关于新模型表现不佳的原因，大家观点不一。有人认为是为了成本优化，有人猜测与安全相关的调整导致了性能下降。也有人指出，可能是为了满足不同用户的需求，导致模型在某些方面表现失衡。

在这场热烈的讨论中，我们可以看到用户对于人工智能模型的期待和要求越来越高，同时也反映出模型开发和优化面临的挑战。究竟如何才能在性能、成本和用户需求之间找到最佳平衡，还有待进一步探索。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#