性能对比 | LLM Info

新的大语言模型发散性思维创造力基准

[关于新的LLM发散性思维创造力基准，有对未在测试列表中的模型表示疑惑、对测试中模型存在的问题进行讨论、对测试方法的争议以及对项目文档错误的指出等内容，整体讨论氛围比较理性和平和。]

[围绕Deepseek v3在WebDev领域表现不佳这一观点，大家从不同角度如测试方式、训练数据、使用的API等进行讨论，既有认同也有异议，整体氛围积极探讨且存在一定争议]

[围绕DeepSeek - R1 - Lite - Preview和DeepSeek V3在多个基准测试中的表现展开讨论，涉及两者的性能、特点、热度差异等，大家各抒己见，整体氛围较为理性]

[原帖比较3060 12GB和4060 Ti 16GB的GPU性能，评论从不同方面如价格、VRAM、性价比等进行讨论，整体氛围积极且有建设性]

[关于Deepseek的讨论涉及多个方面，包括性能、成本、试用体验、与其他模型的比较等，大家观点不一，有正面评价也有质疑，整体氛围比较多元。]

[围绕DeepSeek生成价值1美元代币的时长展开讨论，涉及与Sonnet的比较、DeepSeek的性能、质量、审查、硬件运行成本等多方面，既有正面评价也有质疑，整体氛围热烈且多元]

[原帖对DeepSeek 600b模型在网站运行快且API便宜感到疑惑，评论从MoE模型特性、硬件要求、数据隐私等多方面展开讨论，整体氛围积极且充满技术探讨氛围。]

[原帖询问是否有比Mistral Small 22B更好的创意写作模型，评论者们分享了各自使用不同模型的体验、推荐其他模型并对原帖提到的模型进行评价，整体氛围积极交流且各抒己见]

[该讨论围绕Deepseek v3的训练资源远少于同类模型展开，涉及模型训练相关技术、性能比较、成本、审查等多方面的观点分享与讨论，整体氛围积极且多元化]

[关于Deepseek V3在livecodebench的表现展开讨论，涉及计算量、提示缓存、性能表现等方面，还包含对模型是否为非推理模型用词的争议，以及编码模型间的比较等内容，整体氛围积极探讨]