模型与技术 技术讨论

微软开发RAG与微调结合技术优化领域适应

[原帖分享微软结合RAG和微调的技术,评论者有的分享相关知识或经历,有的对原帖观点表示认可,也有提出异议认为不是新方法,还有人进行相关技术比较并提及其他有前景的技术]

 ·  · 
模型与技术 新模型发布

查询"Qwen 3"有意外发现

[原帖分享关于Qwen 3在DuckDuckGo上搜索发现的有趣内容,评论以幽默诙谐方式调侃其中可能的发布日期,也涉及对相关链接、网站合法性等的讨论,整体氛围轻松幽默]

 ·  · 
模型与技术 新模型发布

今日是否会发布新的Qwen模型?

[围绕Qwen模型的发布展开讨论,涉及已发布版本、新模型发布时间、期待新功能,还有部分关于模型运行的需求以及表述错误等情况,整体氛围积极且充满期待]

 ·  · 
模型与技术 性能对比

Gemma 3的问题出在哪?

[关于Gemma 3存在的各种问题如像受惊仆人、过度道歉、自我重复等展开讨论,涉及系统提示、参数设置等方面的看法,有调侃也有同情,整体氛围较为理性探讨]

 ·  · 
模型与技术 技术讨论

GPT4与Gemini Flash图像生成器工作原理及技术探究

[围绕GPT4o图像生成器和Gemini Flash工作原理及特定领域复用展开讨论,包含多种猜测、解答、推荐等,氛围积极且充满探索欲]

 ·  · 
模型与技术 性能对比

QwQ - 32B的KV_cache/模型大小比率最高?

[原帖探讨QwQ - 32B的KV_cache/model_size比例,评论主要指出原帖计算错误、提供数据修正并对不同模型缓存相关问题展开讨论,整体氛围较专业理性]

 ·  · 
模型与技术 新模型发布

深度探索Deepseek v3 0324:国内的Sonnet 3.5

[原帖讨论Deepseek v3 0324模型的能力并与Claude 3.5 Sonnet比较,评论围绕模型运行的硬件、成本、性能、推理能力等多方面展开,氛围较理性且有不同观点交流]

 ·  · 
模型与技术 新模型发布

Qwen 2.5 Omni 7B发布

[关于Qwen 2.5 Omni 7B发布,大家从性能、功能、参数、使用体验等多方面展开讨论,整体氛围积极且充满好奇]

 ·  · 
模型与技术 新模型发布

DeepSeek-V3-0324不同位量化版本发布及本地运行

[这是一个关于DeepSeek - V3 - 0324不同量化版本的讨论,多数人对发布者的工作表示赞同和感谢,其中2.71位量化版本受到较多关注,也有一些人在交流相关技术问题]

 ·  · 
模型与技术 新模型发布

谷歌发布用于治疗应用的TxGemma开放模型

[关于Google发布TxGemma用于治疗应用的开放模型,有对其性能的期待、对模型相关的疑惑、责任的疑问、也有表示认可和积极态度的,整体讨论氛围多元。]

 ·  ·