模型与技术 新模型发布

是否有可替代WizardLM 2 8x22B的模型

[原帖询问WizardLM 2 8x22B的替代模型,评论者们围绕WizardLM的优势、潜在替代模型、模型在不同场景的表现以及模型市场情况等进行讨论,氛围较为理性探讨]

 ·  · 
模型与技术 技术讨论

跟MIT博士从零构建DeepSeek

[原帖宣传从零构建DeepSeek的教学视频,评论围绕教学者身份、视频内容缺失、炫耀背景、对内容的怀疑与赞赏等展开,整体氛围较多元。]

 ·  · 
模型与技术 技术讨论

ReflectionR1蒸馏过程的实时观察

[帖子围绕ReflectionR1蒸馏过程展开,主要讨论了模型学习、模型通用性、模型蒸馏等专业话题,也有一些低热度的如招呼、类比等话题,整体氛围较为专业且理性。]

 ·  · 
模型与技术 新模型发布

Nous推出DeepHermes - 3 8B预览版

[关于Nous DeepHermes - 3 8B这个新的语言模型,大家从模型开发、测试、推理能力等多方面展开讨论,有疑惑也有正面评价,整体氛围比较积极且多元化。]

 ·  · 
模型与技术 性能对比

Gemini在视频OCR基准测试任务中领先

[Gemini在视频OCR基准测试任务中的成果引发多种讨论,包括与其他模型对比、模型表现的不同方面、工作体验等,整体氛围积极探讨且存在部分质疑]

 ·  · 
模型与技术 训练与微调技术

TransformerLab:生成数据集并对大语言模型微调

[围绕TransformerLab展开讨论,涉及技术支持、功能询问、项目评价等方面,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

MatterGen:即将快速改变世界

[关于MatterGen这一利用扩散模型创造新材料的项目,大家总体持正面态度,有人感慨AI的智能,有人询问用途,也有人期待相关技术推动科学发展]

 ·  · 
模型与技术 训练与微调技术

微调大型语言模型时,训练数据集至关重要

[原帖强调微调LLMs时训练数据集的关键作用,评论者们围绕数据集重要性、构建方法、质量好坏、被忽视情况等方面展开讨论,整体氛围理性且充满技术探讨。]

 ·  · 
模型与技术 新模型发布

英伟达发布AceInstruct 1.5B/7B/72B模型

[AceInstruct系列模型发布,评论者认为其发布策略不佳,表现不如预期,部分人将其与Meta Llama对比表示失望,也有少数人认可其基准测试结果,整体对AceInstruct负面评价较多]

 ·  · 
模型与技术 性能对比

Mistral的Le Chat是否真的最快?

[围绕Mistral"s Le Chat是否最快展开讨论,涉及速度与性能的多方面因素,包括模型大小、硬件、适用任务等,大家观点不一且有不少争议]

 ·  ·