模型与技术 技术讨论

对话式NLP博士解答LLM高效推理问题

[正在攻读对话式NLP博士学位的作者欲做模型级优化以加快推理速度的调查,评论者们围绕模型优化相关话题展开讨论,氛围较为积极理性]

 ·  · 
模型与技术 新模型发布

Qwen/Qwen2.5 - VL - 3B/7B/72B - Instruct发布!

[关于Qwen2.5 - VL - 3B/7B/72B - Instruct发布,大家围绕模型功能、版本发布情况、不同平台的支持性、资源需求、与其他模型对比等方面展开讨论,氛围积极且充满好奇]

 ·  · 
模型与技术 新模型发布

SmolVLM2:可在低性能设备运行的开源视频模型

[Hugging Face发布SmolVLM2引发讨论,大家多持积极态度,有人关注其性能、应用等,也有人提出疑问]

 ·  · 
模型与技术 新模型发布

Ozone AI发布新模型Reverb - 7b

[Ozone AI发布Reverb - 7b模型,大家围绕模型的性能、训练数据、与其他模型对比、创意写作能力等方面展开讨论,氛围积极且充满好奇]

 ·  · 
模型与技术 训练与微调技术

Arcee - Blitz与Mistral - Small - 24B - Instruct - 2501微调

[该讨论围绕arcee - ai/Arcee - Blitz和Mistral - Small - 24B - Instruct - 2501 Finetune展开,涉及性能对比、模型改进、不同语言训练、特定应用情况等多方面内容,整体氛围有赞同、期待,也有担忧否定]

 ·  · 
模型与技术 新模型发布

基于Qwen2.5 - Max的推理模型即将发布

[关于阿里巴巴将发布基于Qwen2.5 - Max的推理模型,大家讨论了Qwen的不同版本、性能、与其他模型比较、开源与否、模型参数等,整体氛围积极且充满期待]

 ·  · 
模型与技术 性能对比

R1虽佳,但泛化能力不及O1

[围绕R1和o1等模型展开多方面讨论,包括性能对比、数据污染问题、基准测试情况,同时涉及到一些其他模型如Grok3、o3 - mini等的探讨,整体氛围比较理性且有深度]

 ·  · 
模型与技术 训练与微调技术

Llama2时代后是否还有成功的业余微调?

[讨论Llama2时代成功的业余微调现象如今不再常见的原因,涉及模型训练程度、资源竞争、官方指令微调等方面,氛围较理性客观]

 ·  · 
模型与技术 新模型发布

JoyCaption多模态字幕模型:GGUF可用,可与KoboldCpp和Llama.cpp协同工作

[围绕JoyCaption模型展开讨论,有对模型的正面期待与肯定,也有不少使用者遇到技术问题,包括与其他软件配合、模板解析、变量处理等方面的故障,还有使用者因指出故障被点踩而表达不满。]

 ·  · 
模型与技术 训练与微调技术

若有64个H100可用数月,你会微调什么?

[原帖询问如果有64个H100数月使用权会在哪些数据集/模型/任务上微调,评论者们给出了各种各样的想法,包括模型构建、特定模型的微调、数据集的使用等,整体氛围比较积极且充满创意]

 ·  ·