模型与技术 新模型发布

DeepSeek - AI发布DeepSeek - V2.5 - 1210

[围绕DeepSeek - V2.5 - 1210展开讨论,大家表达满意、期待新功能、版本更新等积极态度]

 ·  · 
模型与技术 新模型发布

InternVL2.5发布(1B至78B),能否取代GPT - 4o?

[关于InternVL2.5发布的讨论涵盖其性能、与GPT - 4o的比较、在不同语言中的表现等多方面,同时也涉及中美技术竞争、成果发布时间等话题,讨论热度不一,存在争议也有积极的支持。]

 ·  · 
模型与技术 新模型发布

QwQ-32B -Preview令人印象深刻

[原帖分享使用QwQ - 32B - Preview的体验,引发关于模型推理能力、性能、运行条件等多方面的讨论,整体氛围比较理性探讨]

 ·  · 
模型与技术 技术讨论

大语言模型中被忽视的必要环节: 标记化

[原帖指出大型语言模型中的标记化被忽视且必要,评论者们从不同角度发表观点,包括赞同、反对、补充相关知识、提出新想法等,整体氛围充满技术探讨的理性氛围]

 ·  · 
模型与技术 性能对比

Qwen/QwQ 32B正确回答时代关键问题,EXAONE 32B和Llama 3.3 70B失败

[原帖关于不同模型对NVIDIA RTX 3090是否有48GB版本这一问题的回答情况,评论围绕NVIDIA 3090显存容量、模型表现展开讨论,氛围既有技术交流也有观点冲突]

 ·  · 
模型与技术 新模型发布

CMU和斯坦福发布强大的3B视觉语言模型

[CMU和Stanford发布3B视觉语言模型Ivy - VL,大家围绕模型的技术背景、性能、用途、真假等展开讨论,有疑问也有肯定,整体氛围较为理性]

 ·  · 
模型与技术 训练与微调技术

18分钟内从零创建9个微调模型的工具演示[Kiln AI]

[围绕Kiln工具展开讨论,包括工具试用、数据微调遇到的技术疑问,还有对工具的认可与建设性意见,整体氛围积极正面但讨论热度较低。]

 ·  · 
模型与技术 新模型发布

LG发布三款新模型EXAONE - 3.5,规模分别为2.4B、7.8B和32B

[LG发布EXAONE - 3.5的三个新模型引发讨论,涵盖性能、应用场景、商业使用等方面,既有积极评价也有质疑,整体氛围活跃且多元]

 ·  · 
模型与技术 新模型发布

点赞新的Llama 3.3 Euryale v2.3:48GB讲故事/角色扮演的最佳选择

[围绕Llama 3.3 Euryale v2.3这一模型,大家讨论了其在角色扮演和讲故事方面的表现、与其他模型比较、速度性能等内容,整体氛围积极且充满技术探讨]

 ·  · 
模型与技术 性能对比

EXAONE 3.5 32B使用体验分享

[原帖作者分享EXAONE 3.5 32B模型测试体验,指出存在问题,评论者主要围绕重复惩罚机制、系统提示等对模型表现的影响展开讨论,氛围较为积极探索]

 ·  ·