模型与技术 新模型发布

Redemption_Wind_24B:微调者的新模型

[关于Redemption_Wind_24B新模型,有对模型本身的认可、对其在不同应用场景(如角色扮演)的期待、对模型相关操作(如部署、微调)的讨论,也有对模型中slop问题的争议,整体氛围积极且充满探索性]

 ·  · 
模型与技术 训练与微调技术

大语言模型能否针对逆向工程汇编代码进行微调?

[原帖探讨大型语言模型(LLM)能否微调用于逆向工程汇编代码,评论主要围绕LLM在这方面的能力、存在的问题以及相关技术展开讨论,整体氛围较为理性且积极探讨]

 ·  · 
模型与技术 新模型发布

Dolphin 3.0 R1 Mistral 24B:在HF Spaces应用上轻松推理测试

[关于Dolphin 3.0 R1 Mistral 24B在HF Spaces Apps上测试的讨论,包括进展情况、版本相关、模型思考中提及人物的疑问、模型存在的问题以及与其他技术的兼容性等多方面内容,整体讨论热度较低。]

 ·  · 
模型与技术 新模型发布

免费的o3 - mini和Llama 3.3 70B,Duck.ai无需账号

[帖子提到Duck.ai上免费提供资源,评论者对其资源量、使用限制、与其他产品对比、盈利模式等展开讨论,整体氛围比较平和]

 ·  · 
模型与技术 技术讨论

使用Unsloth以低显存训练推理模型

[原帖介绍Unsloth的推理功能及低VRAM需求等成果,评论者们表达认可、感激、期待,同时提出众多关于技术、模型、设备等方面的疑问]

 ·  · 
模型与技术 新模型发布

菊台的Hibiki:同步语音到语音翻译模型,支持法语到英语

[Hibiki这个法英同步语音 - 语音翻译模型引发讨论,大家惊叹于其功能,有人赞赏有人质疑,还对模型的发展如增加语言支持等提出期待。]

 ·  · 
模型与技术 新模型发布

研究表明:大幅增加密集型大语言模型输入词汇量可提升性能

[新论文提到增加大型语言模型输入词汇量可在相同训练成本下提升性能,评论者从模型性能、词汇量来源、训练相关、标记组合等多方面展开讨论,氛围积极且充满探索欲]

 ·  · 
模型与技术 训练与微调技术

1.49B Llama模型在4060Ti 16GB上13小时的训练结果

[帖子展示在特定硬件上训练1.49B llama的成果,评论有调侃幽默的,有对成果表示惊叹、赞赏或质疑的,也涉及模型性能、安全、能耗等方面的讨论,整体氛围活跃多样。]

 ·  · 
模型与技术 技术讨论

DeepSeek大语言模型家族的纯C++ CPU推理:deepseek.cpp

[围绕deepseek.cpp项目展开讨论,涉及项目速度优化、教育意义、在低端设备上的可行性、与其他版本或项目的关联以及项目存在意义等方面,讨论氛围较为理性且有争议]

 ·  · 
模型与技术 新模型发布

Open WebUI今日发布三个新版本

[Open WebUI发布三个新版本引发讨论,包括新功能的使用、存在的问题、对开发人员的看法等,整体氛围积极与建设性并存]

 ·  ·