太阳能团队已经有一段时间没有发布模型了。
一如既往地宣称是目前为止最好的开源模型。尽管如此,仍然令人兴奋。[编辑:我指的是每个人都在宣称这一点,并非特指太阳能团队]
https://huggingface.co/upstage/solar-pro-preview-instruct
讨论总结
本次讨论围绕新发布的 Solar Pro (preview) Instruct 22B 模型展开,主要关注点包括模型的上下文长度、实际应用表现、未来版本的改进以及与其他模型的比较。评论者普遍对当前预览版的 4k 上下文长度表示不满,认为在当前技术环境下显得过时。同时,许多评论者对模型的实际应用表现和个性化改进表示关注,期待未来版本能够支持更多语言和更长的上下文窗口。讨论中也有不少对模型性能的质疑和不满,但总体上仍保持一定的期待和好奇心。
主要观点
- 👍 Solar 11b 表现出色
- 支持理由:评论者普遍认为 Solar 11b 在之前的版本中表现优秀。
- 反对声音:无明显反对声音。
- 🔥 对 2024 年仅提供 4k 上下文窗口表示不满
- 正方观点:评论者认为 4k 上下文长度在当前技术环境下显得过时。
- 反方观点:无明显反方观点,但有评论者期待未来版本改进。
- 💡 期待未来版本支持更多语言和更长的上下文窗口
- 支持理由:评论者普遍期待正式版本能够提供更多语言支持和更长的上下文窗口。
- 反对声音:无明显反对声音。
- 👀 对模型的实际应用表现表示关注
- 支持理由:评论者希望了解模型在现实世界中的实际表现。
- 反对声音:无明显反对声音。
- 🤔 对模型的宣称持怀疑态度
- 支持理由:评论者提到之前的“reflection-Llama 灾难”,认为这增加了人们对模型宣称的不信任。
- 反对声音:无明显反对声音。
金句与有趣评论
- “😂 Solar 11b was great.”
- 亮点:评论者对之前版本的肯定,为新版本提供了正面参考。
- “🤔 The phi models have notoriously been benchmark snipers that do well on tests but are often dry and dumb in real life.”
- 亮点:评论者对模型在实际应用中的表现提出了质疑,引发了对模型实用性的讨论。
- “👀 4k context is basically unusable now that we’ve been spoiled with 128k Llama-3.1, Phi, etc. and our workflows are adapted/reliant on large context.”
- 亮点:评论者通过对比现有模型,强调了 4k 上下文长度的不足。
- “🤔 After the reflection-Llama disaster, everyone is even more cautious and sceptical of these benchmarks and all those model providers claiming to have the current best LLM.”
- 亮点:评论者对模型宣称的不信任,反映了行业内的普遍态度。
- “👀 Amazing benchmark scores (if true). Would like to know how it performs in the real world.”
- 亮点:评论者对模型的实际应用表现表示好奇,强调了基准测试与实际表现的差异。
情感分析
讨论的总体情感倾向为期待与不满并存。许多评论者对新发布的 Solar Pro (preview) Instruct 22B 模型表示期待,特别是对未来版本的改进充满好奇。然而,也有不少评论者对当前预览版的 4k 上下文长度表示不满,认为在当前技术环境下显得过时。此外,部分评论者对模型的宣称持怀疑态度,认为行业内的模型宣称普遍存在夸大成分。
趋势与预测
- 新兴话题:未来版本的改进,特别是对更多语言支持和更长上下文窗口的期待。
- 潜在影响:如果未来版本能够满足评论者的期待,可能会引发更多关于模型实际应用表现的讨论,并进一步提升模型的市场接受度。反之,如果未能满足期待,可能会导致用户对模型提供商的信任度下降。
详细内容:
《关于“Solar Pro (preview) Instruct - 22B”模型的热门讨论》
Reddit 上一则关于“Solar Pro (preview) Instruct - 22B”模型的帖子引发了众多关注。该帖子指出距离太阳能团队上次发布模型已经过了一段时间,声称这是迄今为止最好的开放模型,同时提供了相关链接https://huggingface.co/upstage/solar-pro-preview-instruct 。此贴获得了大量的点赞和众多评论,引发了一系列热烈的讨论。
讨论的焦点主要集中在以下几个方面: 有人认为 Solar 11b 曾经表现出色。有用户表示,官方版本的 Solar Pro 将于 2024 年 11 月发布,届时将扩展语言支持,并拥有更长的上下文窗口。还有用户指出,当前 4k 的上下文在我们已经习惯了 128k 的 Llama-3.1、Phi 等并且工作流程已适应或依赖于大上下文的情况下,基本无法使用。有人认为 4k 上下文在 8k 已成为最低标准的当下,实在令人扫兴,但也有人表示这只是预览版本。有人称,就像苹果在 2024 年发布 8GB 的 MacBooks 一样。
有用户分享道:“Solar 团队上次也这么宣称,但实际上就其规模而言,性能相当不错。我肯定会好奇地试用一下 GGUF 版本。而且需要澄清的是,他们并没有说自己是迄今为止最好的开放模型,而是说在能适配单个 GPU 的模型中是最好的。这是一个很大的区别,也是一个更现实的说法。”
也有人提到,这个模型昨天也有相关帖子,比如https://www.reddit.com/r/LocalLLaMA/s/NzPGqoig9B 。还有用户指出,非指导版本、基础预训练模型目前仍为私有且无法访问。
有人期待试用其 GGUF 模型,因为它在去年的 10b 模型中表现出色。但也有人在反思-Llama 灾难后,对这些基准测试和所有声称拥有当前最佳 LLM 的模型提供商更加谨慎和怀疑。
在基准测试方面,有人提供了详细的对比数据:
Benchmark | Solar-pro-preview | Phi-3Medium-4K-instruct | Phi-3.5-MoE-instruct | Gemma 2 27B IT | Llama-3.1-8B-instruct | Llama-3.1-70B-instruct |
---|---|---|---|---|---|---|
Release Date | 2024.09.08 | 2024.05.02 | 2024.08.20 | 2024.06.25 | 2024.06.18 | 2024.06.16 |
Model Size | 22B | 14B | 41.9B (6.6B) | 27B | 8B | 70B |
License | MIT | MIT | MIT | gemma | llama3.1 | llama3.1 |
MMLU | 79.14 | 78.02 | 78.66 | 76.13 | 68.25 | 82.09 |
MMLU Pro | 52.11 | 47.51 | 46.99 | 45.68 | 37.88 | 53.01 |
IFEval | 84.37 | 64.37 | 69.15 | 75.36 | 77.40 | 84.13 |
ARC-C | 68.86 | 66.55 | 68.34 | 74.06 | 60.24 | 70.39 |
GPQA | 36.38 | 35.78 | 34.38 | 36.38 | 35.26 | 41.06 |
HellaSwag | 86.36 | 85.68 | 85.97 | 86.02 | 80.08 | 86.42 |
EQBench | 77.91 | 76.78 | 77.22 | 80.32 | 65.80 | 82.52 |
BigBench Hard | 67.31 | 63.09 | 62.58 | 64.88 | 51.06 | 69.54 |
MUSR | 45.85 | 42.28 | 46.79 | 45.67 | 29.68 | 47.22 |
GSM8K | 89.69 | 84.76 | 82.26 | 62.85 | 75.97 | 92.12 |
MBPP | 61.59 | 60.27 | N/A (*) | 63.08 | 52.20 | 65.51 |
有人认为该模型的基准测试分数令人惊叹(如果属实),但想知道其在实际中的表现。也有人表示,这在一些测试中甚至不如 phi 3.5 mini。
总的来说,关于“Solar Pro (preview) Instruct - 22B”模型,大家看法不一。有人对其充满期待,认为可能会带来惊喜;也有人持谨慎态度,认为其可能存在不足。这一讨论充分展现了大家对于新模型的关注和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!