首次测试:Qwen2.5:72b在Ollama Mac与open - webUI、M3 Ultra 512 gb上的测试
Falcon3-7b为何很少被用作模型(或被引用)
Nemotron - 49B的KV缓存较源Llama - 70B少70%
Gemini 2.5 Pro在ARC AGI 2上的测试结果
使用Gemini-2.5-pro-exp-03-25模型30分钟未想念Claude
从零开始‘氛围编码’机器学习模型,涉及Gemini-2.5
QwenPhi - 4 - 0.5b - Draft相关资源
EQ - Bench创意写作排行榜新发布:新提示、更多空间与便捷样本读取器
CXL技术:将RAM插入PCIE插槽,助力CPU运行Deepseek
QwQ - 32B 128k扩展上下文的llama.cpp参数
七边形、20个球、旋转数字与Gemini Pro 2.5
huihui-ai/QwQ-32B-abliterated表现出色
通过网络标签逆向工程GPT - 4o图像生成:我的发现
发布轻量级全C++的whisper.cpp桌面UI
无需GPU的快速音频生成 - Orpheus.cpp
深度剖析NVIDIA DGX Station GB300
QwQ - 32B的KV_cache/模型大小比率最高?
DeepSeek V3 0324在Livebench上超越Claude 3.7
GPT4与Gemini Flash图像生成器工作原理及技术探究
MacBook Air M4/32gb性能测试数据
Gemini 2.5 Pro构建巨型结构:一次性完成
DeepSeek-V3.1官方实时评测分数与本地测试结果不匹配
Qwen发布Qwen/Qwen2.5 - Omni - 7B
Gemini 2.5 Pro Exp 03 - 25在Livebench中排名第一
M3 Ultra Mac Studio 512GB对Deepseek V3 671b模型的prompt和写入速度
深度探索Deepseek v3 0324:国内的Sonnet 3.5
DeepSeek - V3在M3 Ultra 512GB上4位量化每秒处理超20k个词元且功耗低于200瓦
DeepSeek-V3-0324不同位量化版本发布及本地运行
Aider新Gemini pro 2.5轻松胜过sonnet 3.7
深擎V3(重大改进)与Gemini 2.5 Pro(SOTA)长文本测试
Deepseek V3 0324在OpenHands下获38.8% SWE - Bench验证
Gemini Pro 2.5数分钟打造最佳马里奥游戏
Amoral Gemma3 v2发布,拒绝率显著降低
AMD将推Strix Halo桌面版,CEO苏姿丰受访证实
Gemini 2.5 Pro实验版发布且称霸基准测试
vLLM与SGLang在2块英伟达GPU上的性能对比:SGLang借助数据并行性完胜
DeepSeek - V3 - 0324 GGUF - Unsloth模型相关资源
利用Whisper STT、Orpheus TTS、Gemma 3与LM Studio创建虚拟助手:mOrpheus
Deepseek V3 0324被评为最佳非推理模型
DeepSeek - V3 - 0324模型卡依据基准更新
特朗普全面禁止英伟达在中国的业务对本地大语言模型场景的影响
Deepseek - v3 - 0324在Aider中的应用
不明意义的Gemma 3与P102 - 100组合
DeepSeek V3-0324较V3有显著提升,成为最佳非推理模型
Qwen2.5 - VL - 32B - Instruct发布
Claude的"think"工具将准确率提升54%(含与Ollama集成)
Drummer的Fallen Command A 111B v1 - 宏大且独特的作品
DeepSeek V3-0324在代码创意基准测试中追平Sonnet 3.7
发布TeapotLLM:用于抗幻觉问答和文档提取的开源约8亿参数模型,完全在CPU上运行
在Steam Deck的Docker中运行大型语言模型
创建React推理UI模型:采用新推理结构与状态进行组件生成
微星再次预热24GB显存的GeForce RTX 5080
FanFic - Illustrator:3B推理模型,将故事转换为完美插画提示
DeepSeek - R1 - DRAFT - 0.5B - GGUF模型资源
Chatbot Arena现可能有Llama 4原型
量化方法很重要:MLX Q2与GGUF Q2_K对比,MLX破坏模型性能而GGUF保持可用
Q2模型毫无用处,Q4是不破坏模型(至少对MLX而言)的最低量化水平,Mistral Small 24B在Q2下的示例
AMD Strix Halo迷你PC运行70B Q8模型视频发布
Llama 3.3 70B与基于Llama 3.3的Nemotron Super 49B对比
大API提供商(OpenAI、Anthropic等)是否盈利
Qwen2.5 - Omni即将到来?Huggingface Transformers PR 36752
从远程模型(如Claude等)切换至本地模型是否值得?
Fallen Gemma3不同版本:4B、12B、27B
OpenAI发布GPT - 4.5和O1 Pro API,决策存疑
纯Rust实现与llama.cpp速度相近的本地LLM推理替代方案
Deepseek网站现支持像其他网站一样的退出选项
15亿参数在o1 - preview数学基准测试中有新发现
AMD 7900可获取Flash Attention v2
20GB VRAM限制下,最适合Python开发的新模型
中国改造4090,48GB售价比RTX 5090便宜 - 水冷约3400美元
Orpheus - FastAPI:具有8种声音和情感标签的本地TTS(兼容OpenAI端点)
Llama 3.3和Nemotron 49B Super现身LMSYS竞技场
腾讯推出混元 - T1大推理模型,与DeepSeek - R1竞争
字节跳动在HuggingFace发布保持身份的开源图像模型
AMD推出GAIA开源项目用于在Ryzen™ AI上运行本地大语言模型
QwQ 32b、Gemma 3 27b与Mistral 24b本地测试结果
Mistral - small 3.1视觉用于PDF的RAG测试
Orpheus聊天WebUI:Whisper + 大语言模型 + Orpheus + WebRTC管道
增强型推理模型Reka - Flash 3 21B发布
英特尔前CEO指责英伟达:AI GPU价格贵10000倍
本地免费高品质文本转语音工具Sesame CSM发布
Hugging Face与Unsloth发布Gemma 3的GRPO新指南
OlympicCoder - 7b结合LMStudio与VSCode本地编码,性能超Claude 3.7 Sonnet
TikZero:基于大语言模型从文本标题生成科学图表的新方法
Mistral Small 3.1与Mistral Small 3性能对比
NVIDIA以建议零售价出售少量5080和5090
Hugging Face回应白宫AI行动计划RFI的策略
Apache TTS: Orpheus 3B 0.1 FT发布
Gemma 3 GRPO现可用于Unsloth且已修复漏洞
开源模型在将PyTorch转译为Triton方面性能超越DeepSeek - R1和OpenAI o1
Nemotron - Super - 49B或成创意写作利器(24GB显存)
AMD Ryzen AI 9 HX 370迷你电脑Acemagic F3A,最高128GB内存
Meta发布新模型:VGGT(视觉几何基础Transformer)
Gemma 3 27B与Mistral Small 3.1的实时基准测试结果
Mistral Small 3.1未包含在公告中的基准性能
NVIDIA推出DGX Spark和DGX Station台式机进军AI PC领域:72核Grace CPU、Blackwell GPU、最高784GB内存
Llama-3.3-Nemotron-Super-49B-v1基准测试
DGX Spark内存带宽达273GB/s,看RTX Pro 5000
EXAONE-Deep-7.8B或为体验过的最差推理模型
NVIDIA DGX Spark(Project DIGITS)规格公布
NVIDIA RTX PRO 6000 “Blackwell"系列发布:拥有24K核心、96GB显存的旗舰GB202 GPU
Mistral - Small - 3.1 - 24B - Instruct - 2503 - GGUF相关资源
ollama 0.6.2预发布版让Gemma 3正常工作
SmolDocling - 256M参数的文档理解视觉语言模型
昆仑万维公司发布Skywork - R1V - 38B(视觉思维链推理模型)
开源推理模型Skywork - R1V (38B,多模态,CoT推理)
Llama4可能为lmarena上的[codename]
Gemma3有首日视觉支持而Mistral Small 3.1没有的原因
Cohere Command A与Mistral Small 3.1的扩展纽约时报连接基准测试结果
对LM Studio中MLX模型的M3 Ultra测试请求
Cohere Command - A在LMSYS中排名第13
Mistral Small 3.1(24B)模型资讯
AMD Ryzen AI MAX+ 395 “Strix Halo” APU在DeepSeek R1 AI基准测试中比RTX 5080快3倍多
Gemma 3 27B版本可在HuggingChat免费使用
c4ai - command - a - 03 - 2025或为推理/思考而训练
为何语音(TTS/STT)模型比通用大型语言模型小得多?
征集EQ - Bench创意写作基准新版本的提示建议
RTX PRO 6000 X Blackwell 96GB游戏/虚拟制作性能泄露
RTX 3060与RTX 3090在不同规模大语言模型上的性能对比
Gemma 3模型测试:1B、4B、12B和27B版本对比
MetaStone - L1:元始智算推出的轻量级推理模型
M3 Ultra上运行超70B参数大语言模型的尝试
Mac用户喜爱的界面:Openweb UI还是LM Studio?
DeepSeek R1、Distill Qwen 7B Q4大语境(最高128K)测试
GPT-Sovits V3 TTS发布:零样本语音克隆,多语言
M2 Ultra与M3 Ultra基准测试结果存在争议
制作包含对Sesame QoL改进的分叉Sesame - CSM仓库
深擎科技要求研发人员上交护照限制出国,开源情况下此举令人费解
NebuLlama UI:适用于Ollama的移动友好且功能丰富的界面
Gemma 3是否为显存不足14B参数类的最优选择?
混合自回归/扩散大型语言模型Block Diffusion
GMKTec确认2025年5月推出Ryzen AI Max+ 395,最强AI迷你PC竞争升温
Gemma 3在Unsloth中微调,速度提升1.6倍且VRAM占用减少60%
QwQ-32B在本地ollama上似乎无用,有人成功解决吗?
使用Reka flash 3, 21B模型后删除之前所有模型
KoboldCPP 1.86发布,支持Gemma - 3
Gemma 3 27B在AI Studio和Ollama间的性能差异
如何在Akash、IPFS和Pocket网络上构建去中心化LLM并运行LLaMA
创建Sesame CSM 1B的OpenAI TTS兼容端点
M2 Ultra与M3 Ultra使用KoboldCpp的速度对比
QwQ在LiveBench(更新):优于DeepSeek R1
SesameAILabs/csm的GitHub链接
新型反向推理模型助力合成推理生成的优化与低成本扩展
Gemma 3 27B在四个独立基准测试中的得分:评估不同差异大
SoftWhisper更新:2分钟转录2小时内容!
OpenAI称DeepSeek受国家控制,呼吁封禁中国产模型
我的开源桌面应用有新主题,可本地运行含RAG知识库和笔记功能的大语言模型
CohereForAI的c4ai - command - a - 03 - 2025于Hugging Face
Open SORA 2.0发布,再次对标OpenAI
Deepseek R1成参考,Qwen QwQ 32B性能相似但尺寸更合理
Gemma 3 1B在安卓上通过ChatterUI运行
DeepSeek R1 671B与M3 Ultra 512GB在MLX下首次测试成功
LM Studio更新支持Gemma 3 GGUF
Gemma 3开源工作中的llama.cpp与MLX社区
M3 Ultra运行6710亿参数的DeepSeek R1,功耗低于200W且无需多GPU设置
Gemma3 - 12b - Q4在Ollama上比Deepseek - R1 - 14b - q8慢很多?是我弄错了吗
EXO Labs在两台512GB M3 Ultra Mac Studios上运行8位DeepSeek R1达11t/s
尝试使用新的Gemma Python库体验Gemma 3
Gemma 3与Qwen 2.5基准测试对比(指令调优版)
谷歌Gemma 3已在Huggingface上发布并加入Ollama
Gemma 3 27b已在Google AI Studio上线
通过修改代码使Llama - 8B在RTX 4090上训练1小时提升研究能力
7B推理模型在IOI上超越Claude - 3.7 Sonnet
GemmaSutra Small 4B v1:回归且更强大的便携RP模型
新型推理模型(Reka Flash 3 - 21B)
Reka AI发布新开源21B模型Reka Flash 3
OpenAI o1模型与DeepSeek R1在ZebraLogic超大谜题性能上存在巨大差距
M3 Ultra 512GB搭配Deepseek R1 671B Q4达18T/s
创建开源的类Perplexity统一搜索助力分布式第二大脑
本地模型执行递归代理工作流的强大力量(Mistral - small)
NVLINK使双RTX 3090推理性能提升近50%
在M1 MacBook Pro和RTX 4060 Ti之间对QwQ - 32B大语言模型进行本地模型分片
使用自定义Logits处理器控制QwQ和R1模型的"思考努力程度"
Qwen QwQ - 32B在创意故事写作基准测试中名列前茅
Qwen QwQ-32B在淘汰游戏基准测试中首轮被投票淘汰,总体性能差
测试表明Qwen 2.5 VL强于多数封闭前沿模型
新Mac的512GB统一内存使框架和DIGITS相形见绌
Manus被指为Claude Sonnet加29种其他工具
Llama 4、Gemma 3和Qwen 3何时发布?
NVIDIA GeForce RTX 5090水冷却时12V - 2x6电源接口超150°C:考虑用于LLM使用者需知
使用llama.cpp RPC在不同硬件配置下的性能测试
自制MCP替代方案,成本低于Anthropic Claude且适用于OpenAI等大语言模型
深探(Deepseek)特殊标记不使用下划线与竖线字符
RTX 3090是否仍是运行本地大语言模型和扩散模型性价比之王?
Livrbench - 明日qwq32b将更新至score?
Bolt Graphics新GPU或将助力大语言模型
本地QwQ 32b、O1 Pro、4.5、o3 Mini High、Sonnet 3.7、Deepseek R1的Flappy Bird测试与对比
预估NVIDIA RTX PRO 6000 Blackwell GPU售价
NVIDIA RTX PRO 6000 Blackwell GPU核心数比RTX 5090多11%
英特尔Granite Rapids - AP是否为Deepseek R1最快CPU
QwQ - 32B在EQ - Bench创意写作中位居第二,高于GPT 4.5和Claude 3.7
Mistral Small 24B在51秒内完成QwQ 40分钟未完成之事
Qwen、Claude 3.7 Sonnet Thinking与o1 - mini在扩展版《纽约时报》连接基准测试中的对比
NVIDIA RTX “PRO” 6000 X Blackwell GPU现身运输日志
QwQ在LiveBench上优于Sonnet 3.7(无思考能力)
Cydonia 24B v2.1:更强大、更优秀、更出色
本地RAG设置的轻量级幻觉探测器,无需额外LLM调用
QwQ 32B IQ4_XS GGUF制作的《飞扬的小鸟》游戏
AIDER:32b在编码方面比qwen 2.5 coder instruct 32b更智能
Meta重大发现:潜在标记有助于提升LLM推理能力
多伦多大学团队推出10亿参数开源逻辑推理模型LogiLlama
基于Mistral - Small - 24B - Instruct - 2501 - writer的模型微调与性能对比
QwQ - 32B在误导性注意力基准测试中接近DeepSeek - R1,但存在死循环问题
与Llama CPP进行QwQ推测解码兼容的草稿模型
QwQ - 32B在HuggingChat免费可用
QwQ - 32B在4年前的32GB M1 Max上运行
自制可使用多种工具的个人助手并分享 (含GitHub仓库)
QwQ - 32B解决o1 - preview密码问题
测试你的API提供商是否量化你的Qwen/QwQ - 32B
QwQ - 32B Flappy Bird演示相关
800美元购得新Mac Studio,兴奋试用DeepSeek R1
Qwen QwQ - 32B模型的GGUF量化版本可用!
QwQ - 32B发布,等同于或超越Deepseek - R1
Qwen/QwQ - 32B亮相Hugging Face
DeepSeek R1与Perplexity R1 1776逻辑推理性能是否存在显著差异
TabbyAPI团队发布YALS(类似TabbyAPI的GGUF服务器)
Spark - TTS:基于大语言模型的高效单流解耦语音标记文本转语音模型
Mac Studio针对Llama 3.1 405B的基准测试
AMD Medusa Halo预计2026年上半年发布,可选384位内存总线
M3 Ultra:80核GPU与512GB内存的新王者
苹果发布搭载M4 Max和M3 Ultra且内存达512GB的新Mac Studio
开源社交媒体模拟器OASIS:可容纳百万代理与20多种丰富交互
为何Qwen 2.5 32b Coder是最佳本地文本分析大语言模型
Deepseek V2.5在Copilot Arena登顶
Perplexity R1 1776重测后逻辑推理排名登顶
NVIDIA GeForce RTX 4090或推96GB显存版,或很快量产用于AI工作负载
ASLP - lab的DiffRhythm可生成4分钟歌曲
300美元左右、低闲置功耗的16Gb GPU是否存在?
在Linux集成GPU(如Radeon 780M)上运行硬件加速的Ollama
开发含构件、CLI、代理操作与GitHub连接的开源UI编码工具
Claude 3.7制作数千个类似3blue1brown的视频,这代人的学习将大不相同
Qwen 2.5 Coder是否仍是最佳编码模型?
本地开发可通过文本生成网站样式的AI JavaScript库
OpenBenchTable适合测试不同计算硬件配置,求基准测试技巧
单服务器运行R1,有三服务器,是否购100gb网卡
Zen CPU用于大型语言模型:高CCD数量是否优于双CPU运行?
分裂大脑“DeepSeek - R1 - Distill - Qwen - 1.5B”与“meta - llama/Llama - 3.2 - 1B”
Deepseek r1与Claude 3.7 Sonnet测试对比结果
Ollama超轻量前端Ollamadore 64,磁盘占用低于64KB
Gemini 2.0 PRO不够强?用<系统提示>使其像R1一样思考
Qwen下周发布将更小,QwQ - Max稍晚全面发布
千元入手是否划算?(RTX 3090 24GB、Ryzen 5 5600X、X570 Aorus Elitei7 + 16GB DDR4)
5090(32GB vRAM)与4090d(48GB vRAM):是否有人购买了5090?
GMK确认2025年第一至二季度将推出搭载锐龙AI MAX+ PRO 395“Strix Halo”的EVO - X2迷你电脑
Fallen Llama 3.3 R1 70B v1可在家体验
中国DeepSeek宣称日理论成本利润率达545%
AMD锐龙AI Max+ Pro 395“Strix Halo”CPU跑分超酷睿i9 14900HX达9%
TinyR1 - 32B - 预览:超级蒸馏以仅5%的参数量实现接近R1的性能
Phi 4 Mini Q8 GGUF全128k上下文下99 tk/s - 高性能硬件
AMD工程师强调Vulkan/SPIR - V是其基于MLIR的统一人工智能软件策略的一部分
Radeon RX 9070系列发布日将无官方ROCm支持
MiraConverse更新,可触发聊天并多语言支持
免费开源AI语音合成工具Kokoro Web v0.1.0
9070XT用于Windows上的LocalAI是否合适
RTX 3060 12GB VRAM上运行的最佳模型
NVIDIA能否为其他PCIE插槽制造VRAM扩展或其他专用AI硬件?
DeepSeek推出3FS与smallpond:革新存储架构
DeepSeek R1比GPT 4.5更优的ARC - AGI
基于扩散的"小型"编码LLM,标记生成速度比基于变换器的LLM快10倍(在H100上显然为1000个标记/秒)
自制工具Reddit Thread Analyzer可详析链接
个人电脑配置:Xeon E5 - 2690 v4等硬件
未知(帖子标题无有效信息,仅为‘Dual 5090FE’)
vLLM引入FlashMLA,输出吞吐量已提升2 - 16%
Perplexity R1 1776解决复杂问题时表现逊于DeepSeek R1
微软宣布Phi - 4 - 多模态与Phi - 4 - 迷你
教程:使用Llama 3.1 (8B) + Unsloth + GRPO训练自己的推理模型
Qwen2.5 Coder 32b是否仍为优秀编码模型
深析API平台每日16:30 - 00:30 UTC享非高峰折扣
Claude 3.7编码能力佳却在人工分析编码基准中排名低
AMD max+ 395台式机运行大语言模型是否值得(无CUDA 256gb/s带宽)
TinyR1 - 32B预览版(超越官方R1蒸馏32B性能)
DeepSeek发布DeepGEMM:高效FP8通用矩阵库
WilmerAI发布约3小时视频教程讲解提示路由和工作流
英伟达游戏GPU经改装用于AI工作负载:中国云计算提供商出租RTX 4090D 48GB和RTX 4080 Super 32GB
售价1699美元的128GB主板Framework Desktop可联网
微软的Magma多模态基础模型登Hugging Face,MIT许可
仅用179行构建大语言模型框架——为何其他框架如此臃肿?
Framework新推出售价1990美元的锐龙Max台式机,内存128GB,速度256GB/s
Gemma 3 27b发布(Gemini API模型列表)
Ai2的olmOCR - 7B:从PDF提取干净纯文本的开源模型
英特尔Xeon 6 6521P:1250美元可购24核,136条PCIe 5.0通道
Sonnet 3.7在EQ - Bench基准测试中近乎大获全胜
寻求从零开始精通LLM与Transformer的资源
DeepSeek加速原定于五月发布的R2 AI模型
阿里视频模型Wan 2.1将于2025年2月25日开源发布
QwQ - Max在LiveCodeBench上的预览表现与o1 - medium相当
苹果未来或将不再局限于本地AI,拟在得克萨斯州投资5000亿美元建AI农场
DeepSeek发布针对MoE模型的DeepEP通信库
DeepSeek发布第二个OSS包 - DeepEP
Kindle商店即将禁止下载及应对备份和DRM移除
Sonnet 3.7在LiveBench新结果中推理与非推理表现均居榜首
Sonnet-3.7在误导性注意力评估中是最佳非思考模型
让旧版大语言模型(Llama 2和Gemma 1)进行推理
Claude 3.7 Sonnet与Claude Code
是否有人使用KTransformers运行DeepSeek R1的1.58和2.51位量化版本
开源语音助手aspen,仅需0.01025美元/分钟
Grok -3系统提示词包括Deepsearch + Think MODE全部泄露
开源版Gemini Flash 2.0深度研究实现
多数人担心大型语言模型执行代码,而我…… 😂
本地大语言模型可用的快速纯净网络数据:LexiCrawler(含二进制文件)
发布KoloLLM:可微调用于任何GitHub仓库的LLM
TIGER - Lab的MMLU - Pro基准测试中神秘RRD2.5 - 9B模型,谁构建的?
构建一个使用本地AI(LLaVa)为图像生成文件名的Chrome扩展
AMD消费级GPU用户何处获取Flash Attention
LMArena上的"dry_goods",会是Llama 4吗?
闪迪新型高带宽闪存使GPU可实现4TB显存并在高容量时匹配HBM带宽
在Commodore C - 64上运行Llama2.c
Qwen2.5 VL 7B指令GGUF版本与基准测试
Perplexity发布无审查的DeepSeek R1 Llama 70B模型相关版本
Kimi.ai发布Moonlight 3B/16B MoE模型及改进的Muon优化器
PocketPal更新:轻松进行角色扮演与AI助手管理
Google AI Studio免费版:日限额是多少?
小型(1 - 3 - 8B)模型的应用场景有哪些?
ROG Flow Z13 (2025)将搭载128GB LPDDR5X,售价2799美元
阿里国际数字商业集团推出Ovis2多模态大模型(1B - 34B)
本地模型与云巨头:我们正在见证AI的真正民主化吗?
AMD Strix Halo 128GB运行deepseek r1 70B Q8的性能
Grok 3与Deepseek r1的个人基准测试结果
使用1.5B模型测试大语言模型空间推理能力(通过解迷宫)
Deepseek R1 671b达到20TPS仅在内存运行的最低硬件要求
构建本地LLM驱动的Reddit隐私套件分析保护历史
Arcee - Blitz与Mistral - Small - 24B - Instruct - 2501微调
Unsloth实现10倍长推理训练上下文,显存减少90%
CloseAI的DeepResearch超棒,有无开源替代品?
对DeepSeek - R1 - Distill - Llama - 70B看法的转变
SmolVLM2:可在低性能设备运行的开源视频模型
JoyCaption多模态字幕模型:GGUF可用,可与KoboldCpp和Llama.cpp协同工作
Qwen/Qwen2.5 - VL - 3B/7B/72B - Instruct发布!
RAG与微调创建特定领域专家大语言模型的对比:现场演示!
Wayfarer大型模型:一个充满挑战的角色扮演模型
谷歌发布PaliGemma 2 mix:多任务视觉语言模型
DeepSeek无系统指令时的奇特自我感知,本地与Unity协作
在苹果硅芯片Mac上释放Flux Schnell的力量
捍卫开源AI对抗垄断者、沙文主义者、末日论者和无知者
LM Studio 0.3.10发布,支持推测解码
MoonshotAI发布1000万混合块注意力长文本大语言模型
《Craft to Infinity》:本地运行的无限工艺RPG使用Qwen 2.5 instruct 1.5B
深度探寻GPU走私调查:英伟达新加坡GPU销售额占比28%,但仅1%交付该国
量化DeepSeek R1蒸馏模型且保持原模型精度
Perplexity开源R1 1776:DeepSeek R1模型的后训练版本
PerplexityAI发布R1-1776:深度寻求R1微调版,去除中国审查并保持推理能力
我的模型在Hugging Face上成为热门,我推出14B和7B升级版
Mistral small 3与Gemini 2.0 flash在科学创新方面相当
Deepseek R1蒸馏模型MMLU专业基准测试
AMD Al Max+ 395(Strix Halo)实测218GB/s的MBW
LM Studio、Ollama、Jan、Llama.cpp与GPT4All对比及选用原因
Jan v0.5.15:进一步控制llama.cpp设置与高级硬件控制等
FUSEAI的DeepSeek R1 Distill(合并版)似乎更好
1万美元预算本地运行Deepseek推理:期望的TPS
GROK - 3及其迷你版超越O3 - mini high和Deepseek R1
如何优化我的1000000B MoE推理大型语言模型
Drummer"s Skyfall 36B v2:Mistral 24B 2501升级持续训练成果
Ollama在安卓端的最佳推理:OLLAMA+OPEN - WEBUI+TERMUX
当代大型多模态模型难以达成的视觉基准:ZeroBench
发布OpenArc:用于Intel设备更快推理的Python服务API
DeepSeek - R1仅使用CPU时的性能(671B,Unsloth 2.51位,UD - Q2_K_XL)
不足1000美元搭建70B IQ3_M 8192ctx的简陋方案
多GPU设备插3张或更多显卡时Nvidia - SMI显示ERR!
开源项目Audiobook Creator发布版本2
Zed新LLM在自家IDE表现佳,在VS Code的Continue表现差的原因
RTX 3090设备的Oculink 4x4x4x4适配
使用ChatGPT 4o模型做写作编辑,是否应改用本地模型
为llama.cpp等API创建图形用户界面(GUI)
KTransformers 2.1与llama.cpp和DeepSeek V3的比较
新购48GB内存M4版MacBook Pro,适合运行的最佳编码大语言模型
Mistral Small 24B的使用体验及问题
Deepseek R1 Distill 8B在4个树莓派5 8GB上的性能
Deepseek R1成Hugging Face最受欢迎模型
微软弃用OmniParser V2 - 控制Windows和浏览器的代理
KTransformers v0.2.1:针对DeepSeek - V3/R1 - q4,将上下文从4K扩展到8K(24GB VRAM)且速度略增(+15%)
创建LlamaThink-8b-Instruct的过程
可提示视频编辑:使用Moondream按提示编辑内容(开源视频对象跟踪)
Drummer的Cydonia 24B v2:Mistral Small 2501的RP微调版本
斯坦福s1如何超越DeepSeek - R1:从暴力到智能
是否有可替代WizardLM 2 8x22B的模型
AMD否认Radeon RX 9070 XT有32GB内存的传闻
AMD锐龙AI MAX+ 395“Strix Halo”迷你PC测试:强大的APU,高达140W功率,iGPU可变内存达128GB
OpenAI Whisper转录400小时音视频的成本及类似质量的低成本替代方案
SambaNova推出最高效的最快DeepSeek - R1 671B
考虑购买Mac Studio运行本地大语言模型,高内存下GPU核心数是否值得多花1000美元
W7900 GPU相关讨论:ROCm是否可用于本地AI?
使用Epyc 7713、512GB内存和14个RTX 3090直播运行DeepSeek R - 1 671B - q4与KTransformers
TransformerLab:生成数据集并对大语言模型微调
Nous推出DeepHermes - 3 8B预览版
SWE - agent:SWE - bench Lite上的新开源SOTA且可本地运行
微软发布适用于骁龙Windows系统NPU的DeepSeek蒸馏Qwen 1.5B模型
英伟达发布AceInstruct 1.5B/7B/72B模型
NoLiMa:超越字面匹配的长文本评估——终于有个好基准能显示大语言模型在长文本下的糟糕表现,所有模型在仅32k文本长度时性能大幅下降
OpenAI关于GPT4.5/GPT - 5的计划及预计发布时间
测试多款小型编码模型,Nvidia/AceInstruct-7B表现惊艳却鲜有人提及
AMD将推32GB显存的Radeon RX 9070 XT游戏GPU
PNY演示中Project Digits的一些细节
agentica - org/DeepScaleR - 1.5B - 预览
10亿参数语言模型能否超越405亿参数语言模型?重新思考计算最优测试时缩放
通过更快存储提升Unsloth 1.58量化Deepseek R1 671B性能 - 速度提升3倍
使用o1和DeepSeek一段时间后,ChatGPT 4o显得很愚蠢
安卓NPU使用8B的Llama处理约16k个令牌的提示
山姆·奥特曼正利用其董事会影响力低价私有化美国民众所有的OpenAI非营利组织
DeepScaleR - 1.5B预研:使用强化学习进一步训练R1 - Distill - Qwen - 1.5B
埃隆·马斯克对阵山姆·奥特曼(OpenAI无股权)
DeepSeek R1在混淆(幻觉)基准测试中优于o3 - mini(中)
Zyphra发布Zonos - v0.1 beta版TTS模型
谷歌Gemini Pro 2.0实验版02 - 05在LLM榜单居首但实际测试表现差
橙派AI Studio Pro迷你电脑,带宽达408GB/s
单台机器(2×Xeon + 24GB GPU)上运行671B DeepSeek - R1/V3 - q4,预填充速度达286 tokens/s,解码速度达14 tokens/s
试用编码助手Qwen2.5 - coder - tools/Sonnet 3.5于Cline和Github Copilot代理模式的体验
使用512GB/s Gen 5 NVMe RAID卡与4个驱动器运行DeepSeek - R1:671b以替代更多内存
Andrej Karpathy对大语言模型深度探究要点
谷歌Deepmind CEO称Deepseek的AI模型被过度炒作
我构建了可在笔记本电脑运行的深度研究本地助手NanoSage
以低成本配置为灵感的6U、p104 - 100设备搭建
LynxHub现支持全配置Open - WebUI
96GB显存与128GB DDR4下的R1(1.73bit)
DeepSeek - R1网站九成时间繁忙,有无付费稳定使用方法
Mistral、ChatGPT和DeepSeek处理敏感话题的方式
构建lfind:使用大语言模型的自然语言文件查找器
OpenAI o3 - mini对比r1和o1的性能分析
RTX 5090在GPU计算基准测试中未能超越RTX 4090
Glyphstral - 24b:符号演绎推理模型
iOS上使用TinyLlama和Kokoro的播客
OpenAI请求边缘化Ilya,因其向投资者索要SSI且涉及xAI
OpenAI隐藏o3 - mini中的实际思考标记
Meta通过Anna"s Archive下载超81TB数据
我的DeepSeek R1 671B在家使用计划:CPU+GPU混合,4xGen5 NVMe卸载
双AMD Epyc系统中llama.cpp的令牌生成性能差的可能解决方案
特朗普在新闻发布会上称DeepSeek不构成国家安全威胁
Redemption_Wind_24B:微调者的新模型
Cerebras为Mistral Le Chat带来即时推理(Mistral Large 2每秒1100个令牌)
Kokoro WebGPU:浏览器内100%本地运行的实时文本转语音
Qwen2.5 0.5B在谷歌Colab T4上全模型GRPO训练脚本,30分钟内GSM8K评估提升25%
免费的o3 - mini和Llama 3.3 70B,Duck.ai无需账号
多GPU设置下应使用vLLM或ExLlamaV2替代llama.cpp
Dolphin 3.0 R1 Mistral 24B:在HF Spaces应用上轻松推理测试
拥有8x A100 80GB集群,如何运行Deepseek R1
使用经典小猫提示与“Dolphin 3.0 R1 Mistral 24b”得到怪异回复
若类Anthropic/OpenAI公司发明Transformer,其他实验室能否逆向工程
Dolphin3.0 - R1 - Mistral - 24B相关资源链接
1.49B Llama模型在4060Ti 16GB上13小时的训练结果
DeepSeek Llama 3.3与Open - Webui Artifacts Overhaul Fork组合成为最佳本地替代方案
DeepSeek大语言模型家族的纯C++ CPU推理:deepseek.cpp
菊台的Hibiki:同步语音到语音翻译模型,支持法语到英语
近期发布模型更新lineage - bench基准测试结果
Hugging Face发布新Spaces搜索,40万+AI应用可直观访问
研究表明:大幅增加密集型大语言模型输入词汇量可提升性能
免费且开源的DeepSeek R1对码农来说比20美元的o3 - mini更好(有速率限制)
利用输出嵌入的HNSW索引加速基于CPU的LLM推理
30分钟用Deepseek R1和Kiln AI训练自己的推理模型
Deepseek的GRPO方法奖励函数出错则劣于原模型
DeepSeek VL2 Small发布官方演示,OCR等功能强大
美国邮政停止中国和香港地区发货,LLM硬件构建受阻
L3.3 - Damascus - R1:基于社区反馈更新的AI模型
RX 7900 XT低成本组建AI服务器是否值得?
Epyc Turin搭配256GB/5600mhz的CPU推理数据
Drummer"s Anubis Pro 105B v1:经过持续训练的升级版L3.3 70B
O3 - mini - high的LiveBench编码分数疑云
Mistral老板称科技CEO痴迷AI超越人类是一种宗教式迷恋
深探研究人员称仅需2 - 3周即可训练R1和R1 - Zero
用Mistral Small 24B制作太阳系动画,探究小模型实现类似效果的条件
用原型MLX - GRPO训练器使Phi - 14b成为(初级)推理器
斯坦福Co - Storm无人问津?可撰写深度报告
Deeper Seeker:OpenAI深度研究功能的简易开源版本
为教育目的从零训练100万参数的TinyStories模型
OpenAI深度研究正努力撰写我的报告,预计1 - 2周完成
构建用于运行英伟达GPU进行AI任务的Linux发行版
Mistral Small 3:超越自身规模的性能——重新定义期待(感觉像70B模型!)
Cursor现支持Deepseek v3和r1模型
国外公司发布Mistral、Qwen和DeepSeek模型
使Mistral Small 3 24B像R1 - 蒸馏模型那样思考
Chrome扩展可在浏览器本地运行DeepSeek等大模型
DeepSeek - R1未通过任何安全测试,攻击成功率达100%
Mistral - small - 24b - instruct - 2501被赞为最佳模型
Mistral Small 3 24b通过“苹果”测试
Mistral 3 Small:值得微调与部署的实用模型
MacBook 8G运行Deepseek R1 Distill可使用GPT4ALL
Open WebUI代码器全面改进版在GitHub上线供测试
对11种流行本地大语言模型在指令繁重的游戏/应用中的测试
DeepSeek - R1在Quad P40与双Xeon E5 - 2699v5上的运行
Ubuntu系统新安装下3090与3060显卡启用
Gemma2 - 27b响应速度比Gemma2 - 9b快,对语音应用很重要
DeepSeek R1 671B MoE大模型于特定硬件运行
llama.cpp现支持工具调用(兼容OpenAI)
在2000美元的EPYC服务器上完全本地运行Deepseek R1 671b
OpenAI在开源问题上站在"历史错误的一边":山姆·奥特曼
Virtuoso - Small - v2:基于Deepseek - v3蒸馏的14B语言模型
成功用Deepseek R1蒸馏70B模型单轮提示完成"python flappy bird游戏"测试
我的PC在输入"ollama run deepseek - r1:671b"10秒后的状态
相对经济的671B R1 CPU推理工作站配置,2 - 3T/s
DeepSeek R1在创意短篇小说写作基准测试中排名第一
在DeepSeek - R1 - Llama - 70b上添加实时网络搜索并制成API
DeepSeek - R1 (671B) 1.58bit在Open WebUI上的运行教程
DeepSeek 8B对草莓中的3个R感到惊讶但仍能应对
多文档(1万+)检索增强生成(RAG)的最佳当前设置
Mistral Small 3 24B GGUF量化评估结果
Chris Manning认可Deepseek的600万美元训练成本
DeepSeek AI数据库泄露:超百万日志行与密钥外泄
Mistral - Small - 24B - 2501与Mistral - Small - 2409对比
美国实验室保密架构算法阻碍AI发展,学习LLM需看中国公司论文
安德里森对Anthropic首席执行官呼吁对中国实施出口管制的看法
Mistral Small 3一分钟完成Unsloth的Flappy Bird编码测试(DeepSeek R1使用NVME硬盘需3小时)
Mistral Small 3 24b Q6初始测试结果
深擎创始人访谈:我们不会闭源,建立强大技术生态更重要
在本地游戏主机上无GPU实现DeepSeek R1 671B每秒超2个标记的推理速度
DeepSeek R1在NYT Connections上的得分介于o1和o1 - mini之间
Mistral Small 3 24b的上下文窗口效率极高
Mistral - Small - 24B - Base - 2501在Hugging Face发布
Mac M2 Ultra运行Deepseek R1 IQ1_S比2个H100更快
Nvidia将RTX 40和50系列GPU的FP8训练性能减半
AMD称7900 XTX在DeepSeek R1蒸馏模型中匹配或超越RTX 4090
前谷歌、苹果工程师推出开源Oumi AI平台助力构建下一个DeepSeek
Anthropic CEO称DeepSeek以低成本做出接近美国旧模型性能的模型
DeepSeek R1在合作、谈判和欺骗多人基准测试中获第二名
深度探索Deepseek R1 IQ2XXS(200GB)从SSD运行可行
本世纪最大的讽刺:对冲基金出免费透明模型,非营利公司出付费封闭模型
开源8B评估模型在11项基准测试中胜过GPT - 4o mini等
伯克利AI研究团队称30美元重现DeepSeek核心技术
Transformer Lab:本地模型的OpenAI平台开源替代方案
AMD Ryzen AI Max+ 395、NVIDIA DIGITS和RTX 5090本地大语言模型预期性能对比
为何人们更喜欢Ollama而非LM Studio?
注意:你的7B/14B/32B/70B“R1”并非DeepSeek
为何云端运行R1 671b模型售卖访问权盈利者少?
DeepSeek - R1成功模拟生命游戏模式似为突破
4万美元预算搭建DeepSeek R1主机的硬件选项
微软调查与DeepSeek有关联的组织是否不当获取OpenAI数据
我所在的大型咨询公司(MBB)禁用Deepseek
Hugging Face欲逆向工程DeepSeek的R1推理模型
深析(DeepSeek)遭受DDoS攻击的证据已被披露
RWKV - 7 “Goose” 1.5B版本发布
深度探索Deepseek 2.5(及Unsloth)
OpenRouter提供Deepseek R1免费版本及“chutes”提供商
创建MiraConverse开源项目,实现语音与AI模型聊天
DeepSeek R1 671B在2个M2 Ultra上运行比读取速度还快
DeepSeek借助类汇编PTX编程突破AI优化瓶颈,绕开英伟达CUDA
Block发布名为Goose的新开源AI智能体,功能超编码
6000美元电脑本地运行Deepseek R1 670B Q8,每秒6 - 8个词元
Unsloth制作动态R1量化 - 仅需80GB内存即可运行
DeepSeek R1 Overthinker:可控制R1模型思考时长
JanusPro 1B可在2GB显存笔记本上生成图像
特朗普将对台湾制造芯片加征25% - 100%关税影响台积电
若DeepSeek获20万Blackwell GPU,AI模型会提升多少
模型基准能否良好指示模型质量?o3是否为重大进步?
Janus Pro 1B基于Transformers.js在WebGPU上实现100%本地浏览器运行
取消OpenAI Plus订阅,转用本地DeepSeek - R1 14b
如何确定Deepseek R1的训练成本约为600万美元
Meta召集工程师团队探究DeepSeek AI低价优势
中国近期动作频频,美国模型何时以LLama 4和Gemma 3反击?
Qwen发布新的SOTA多模态模型,权重开源,可与Claude Sonnet和GPT - 4o竞争
DeepSeek发布新多模态理解与视觉生成模型Janus - Pro 7B
Llama.cpp代码99%由Deepseek - R1编写的PR
英伟达面临4650亿美元损失,DeepSeek冲击AI市场
DeepSeek发布deepseek - ai/Janus - Pro - 7B(统一多模态模型)
1.58bit DeepSeek R1 - 131GB Dynamic GGUF
上周末优化DeepSeek V2/V3 llama.cpp实现 - PR #11446
Deepseek R1在Groq上能否加快思考速度?
深度探索(deepseek)是一个副项目(第二部分)
百川智能推出针对医疗场景优化的Baichuan-14B-M1
网易有道推出Confucius - o1 - 14B推理模型
Qwen2.5 - 1M在HuggingFace发布:支持百万标记上下文长度
DeepSeek R1与Llama3相比优势何在?二者均为开源?
中国联通发布Unichat - 32B - c1(超越GPT - 4和Deepseek V3)
RTX4080笔记本(12GB VRAM)最佳本地模型
DeepSeek - R1与DeepSeek - R1 - Zero对比:惊人结果
英伟达Project Digits显存速度及基础显存容量
Llama 3.3 70b与DeepSeek R1 70b哪个性能更佳
构建AI智能体?可替代LangChain等框架的方案
Mistral Nemo 12b相关的Magnum v5初步成果
OpenAI和Meta等在数据中心投入巨资的回本之道
Deepseek在Python代码生成方面远胜ChatGPT(指两者免费版本)
中国AI初创公司DeepSeek打造可与OpenAI媲美的模型
英伟达将逐步停止对麦克斯韦和帕斯卡架构的CUDA支持
DeepSeek R1浏览器版最多50条消息,API版无限制
OpenWebUI项目成果改进的又一前瞻(画布/克劳德成果)
Snowflake宣称突破可将AI推理时间削减超50%
Sky-T1-32B-Flash:削减推理成本50%且不牺牲精度
MiniMax - 01未被Livebench基准测试的原因
深度探索:本地运行deepseek - r1全模型的相关情况
深度探索Deepseek r1:与OpenAI o1对比究竟如何
DeepSeek - R1 - Distill - Qwen - 32B在LiveBench上的基准测试结果
DeepSeek R1(推理器)可联网,o1尚不能
SmolVLM 256M:全球最小多模态模型,于WebGPU上在浏览器本地100%运行
Deepseek - r1 - Qwen 1.5B的过度思考很可爱
DeepSeek R1 Distill Qwen 2.5 32B去抑制版(无审查)发布
FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview的R1蒸馏成果
Scale AI CEO称中国DeepSeek开源模型迅速追赶美国
RTX 5090 LLM结果,与4090和6000 ada对比
开源Deepseek在"人类终极考验"中击败OpenAI
Salt:基于大语言模型的语音生成新方法(含开源代码)
Hugging Face发布SmolVLM 256M和500M参数模型
FuseO1-DeepSeekR1-QwQ-SkyT1-32B-Preview模型融合效果惊人
字节跳动推出用于计算机的Apache 2.0许可的2B、7B和72B推理代理
2024年未接触本地大语言模型,2025年快速回顾
DeepSeek-R1-Distill结果大多无法复现
FuseAI/FuseO1-DeepSeekR1-Qwen2.5-Coder-32B - 预览版GGUF
Deepseek R1开源版本与官方API版本存在差异
NVIDIA RTX Blackwell GPU:96GB GDDR7内存与512位总线
DeepSeek - R1对台湾问题的回应令人惊讶
NVIDIA RTX Blackwell GPU曝光:96GB GDDR7内存与512位总线
埃隆·马斯克抨击特朗普宣布的5000亿美元AI项目,称其支持者没钱
机器学习/人工智能领域Bluesky平台值得关注的人
MacBook M4 Max运行本地流行LLM的每秒令牌吞吐量测试
R1 - Zero纯强化学习创造出难以解读的思维,是AGI的黑暗面吗
DeepSeek R1 32B性能远优于7B Distill,即使在Q4量化时
Gemini Thinking实验01 - 21发布!
DeepSeek - R1 - Distill - Qwen - 1.5B本地浏览器WebGPU上100%运行,数学基准测试性能超GPT - 4o和Claude - 3.5 - Sonnet
OpenAI为保王座,开发人员或需24/7工作,因DeepSeek进展迅猛
在Huggingface上以3 - 10倍速度部署任何大型语言模型
从Llama2到DeepSeek R1:一年内的巨大进步
DeepSeek将使其他"研究"许可的开源模型相形见绌
DeepSeek R1(Qwen 32B蒸馏版)可在HuggingChat免费使用
DeepSeek R1模型的GGUF文件已上架Ollama库
Deepseek R1在本地LLM的Ollama硬件基准测试
QwQ 32b性能优于R1 32b - 附测试内容
Deepseek R1使用体验:优于Claude Sonnet 3.5
Deepseek R1在本地仍判定安全与合适性,企业安全管控何时休
DeepSeek新R1在实时评测中排第二,推理加持下编码优于Sonnet 3.5
Deepseek R1在Livebench上总体优于o1 - preview
Phi - 4在LMSYS竞技场上取得1210 ELO分数
开源模型小到可在单张3090显卡运行,多数基准测试表现远超数月前超专有闭源顶尖模型
DeepSeek - R1在逻辑推理基准测试中碾压其他模型
让Qwen Deepseek 32b R1模型正常运行:系统提示?
o1思考12分35秒,r1思考5分9秒且均两次答对
Deepseek - R1模型的GGUF量化版本发布等相关资源
DeepSeek-R1-Distill-Qwen-32B成为本地使用的最佳开源模型
Deepseek R1输出每百万token仅2.19美元,对比o1的60美元
DeepSeek发布R1的6个蒸馏版本及R1完整版
Harbor App 0.2.24版正式支持Windows
5000美元预算下全预训练大型BERT或ModernBERT模型(约3亿参数)的本地GPU合理配置
OpenAI可获取FrontierMath数据集,创建者不知情
用快速Rust程序将代码库序列化输入任何大语言模型
Kokoro TTS与GLaDOS打造低延迟、逼真的AI语音助手
Llama 3.2 1B Instruct小语言模型的最佳应用场景
能否用自托管的ollama或hugging face完全取代付费模型
以类似ChatGPT速度运行Llama 3.x 8B类模型的最便宜方式
DeepSeek - R1(预览版)在LiveCodeBench上的基准测试
开源基于WebLLM+LLAMA的智能浏览器内文本编辑器
Moondream 2B与OLLama进行实时视频分析的设置指南
NVIDIA RTX 5090:人工智能与多GPU的限量供应与限制
韩国AI芯片DEEPX NPU:价格低于50美元,是否优于GPU?
创建使用DeepSeek进行内联编辑的VSCode扩展
Kokoro.js:用于在浏览器本地运行Kokoro TTS(82M)的新JavaScript库
大语言模型能否比DeepL、谷歌翻译、微软翻译等提供更好的自然语言翻译?
MiniMax - AI发布全新SOTA MOE开源模型,上下文达4M
新函数调用基准测试表明Python方法优于JSON
InternLM3 - 8B - Instruct发布,Apache 2.0许可,使用体验如何?
使用Kokoro - 82M、Llama 3.2和Whisper Small在MacBook本地构建实时语音聊天机器人
UMbreLLa使RTX 4070Ti运行Llama3.3 - 70B达9.6Tokens/s
Dell T5820搭配两块Dell RTX 3090不到2千美元 - 购于eBay
Hugging Face推出免费认证的LLM代理课程
每月支付20 - 200美元使用ChatGPT是否有很多用途?
MiniMax MoE技术深度剖析:405B参数模型
MiniMax - 01:借助闪电注意力扩展基础模型
用Kokoro - 82M从电子书生成有声读物Audiblez
MiniMax-Text-01:456B参数的强大新语言模型
DDR6内存与合适GPU可高速运行700亿参数模型
MiniCPM - o 2.6:8B大小、GPT - 4o级别的全能模型可在设备上运行
405B与Ollama和vLLM与6x AMD Instinct Mi60 AI服务器对比
使用Open - WebUI测试vLLM - Llama 3 70B Tulu - 4x AMD Instinct Mi60设备 - 速度达26 tok/s
生成式语言模型如何处理拼写错误,而类BERT模型却过于敏感?
研究人员开源Sky - T1,训练成本低于450美元的推理AI模型
Speaches v0.6.0发布,支持Kokoro和PiperTTS API端点
禁止模型使用自身标记预测选下一词,QwQ 32b有时异常
马克·扎克伯格认为2025年Meta将有中级工程师AI可写代码并取代人力工程师
计算机视觉与Ollama用于停车系统分析与报告生成
AMD Instinct Mi60 AI服务器与Llama 405B性能对比令人印象深刻
OpenAI亏损,而Qwen计划语音模式,想象其制出o1级模型
教程:在任何视频上运行Moondream 2b新的注视检测
GMK宣布将在2025年上半年推出基于AMD Ryzen AI 9 Max+ 395处理器的全球首款迷你PC
Nvidia 50x0系列显卡并不比40x0系列更优
新星天空发布开源推理模型Sky - T1 - 32B - Preview
我的PowerMac G3睡眠型AI工作站:80GB总内存(32GB显存+48GB内存)
8200万参数的语音合成适用于边缘AI,谁用Kokoro构建语音助手?
新的开源模型转向SAE,含首个Llama 3.3 70b的SAE
Phi-4微调:现支持超128K上下文长度及漏洞修复详情
本地能与ElevenLabs质量和稳定性相匹配的TTS模型
WebGPU加速推理:本地浏览器100%运行Transformer.js大语言模型
在笔记本电脑上运行Phi 4并让Claude Sonnet进行自我比较
英伟达3000美元AI超级计算机或推动本地AI开发
eBay上售价4700美元的RTX 4090 48GB是否合法
发布可随处安装的大语言模型LLM Pools端到端部署
AI安全博客公司与国防技术公司合作游说监管开源AI
rStar - Math使小语言模型数学推理能力可比肩OpenAI
RTX 3060 12GB与RTX 4060 Ti 16GB用于机器学习与偶尔游戏的抉择
微软新研究:小语言模型可通过自我进化深度思考掌握数学推理
Phi 4仅14B却在多项任务上优于70B的Llama 3.1
ROG Flow Z13 2025将搭载Ryzen AI Max+ 395与128GB LPDDR5X
NVIDIA Project DIGITS或有273GB/s内存带宽
Quad P40构建及Qwen - 2.5 - Coder - 32B和Llama 3.1 - Nemotron - 70B的基准测试
内存不足时尝试在Linux上运行DeepSeek V3 Quant的解决办法
阿里云通义千问团队技术负责人推荐阅读Anthropic博客
使用DeepSeek 3测试Aider与Cline:代码库>20k LOC
Kokoro - 82M:一款Apache TTS模型
惠普发布基于AMD的128GB统一内存(96GB显存)生成式AI机器,领先英伟达Digits
使用Cosmos - 1.0 - 7B - Text2World根据文本提示创建视频
发布Notate——支持本地大语言模型的开源AI研究助手
你的大语言模型工具组合是什么?订阅?工具?自托管?
DeepSeek V3的GGUF 2 - 位量化令人惊喜地有效!还有BF16等量化方式
NVIDIA的Digits在AI推理中胜过苹果M4芯片
惠普Z2 Mini G1a:搭载AMD Strix Halo的迷你工作站
Deepseek v3在Together AI上线且定价更高
通过现有Grace CPU系统理解Project DIGITS桌面版(3000美元128GB)
NVIDIA 5070(128GB VRAM)售价超3000美元?
NVIDIA对4090的FP8与5090的FP4比较似有误导
Nvidia发布售价3000美元的个人AI超级计算机Digits
M4 MAX Pro、M2与NVIDIA RTX 3090性能对比 - 出乎意料
Llama 3b:持续在160B高质量标记上训练可使数学能力提高2 - 3倍
Hugging Face对Llama 3.2 3B持续预训练在数学任务上提升2 - 3倍
AMD在CES 2025宣布新款锐龙CPU用于笔记本,运行70B(q4)比4090桌面独立GPU快两倍
使用Llama 3.1 70B - Q4时每秒处理标记速度比RTX 4090 24GB快2.2倍
AMD Ryzen AI Max+ 395速度比4090快2.2倍
在Linux下使用96GB显存+256GB内存运行DeepSeek - V3
DeepSeek v3在2个M2 Ultra上以17 tps运行(使用MLX.distributed)
Qwen 2.5为何支持128k上下文长度但输出仅支持8k
Gemma2:27b成果佳,但无法在其他模型上扩展复制
Dolphin 3.0发布(整合Llama 3.1、3.2与Qwen 2.5)
创建关于理解英剧《乐坛毒舌嗡嗡鸡》笑话的幽默分析基准
深擎V3在llama.cpp中的令牌生成性能与提示长度的关系
构建廉价ARMv9单板计算机集群以运行Deepseek v3
拥有600万ElevenLabs点数,最佳使用方式是什么?
Deepseek - v3热度惊人,671B模型下载量即将超过QwQ - 32B - preview
基于DeepSeek v3将GitHub仓库转换为即时维基的AI工具
DeepSeek - V3支持被合并到llama.cpp
ScreenSpot - Pro:用于专业高分辨率计算机使用的GUI基础
生成式Shell(gsh):可与本地大语言模型交互
O1系列模型大小相同,O1价格高于GPT - 4O的原因及O1 Pro相关情况
Cortex支持Small - Thinker - 3B,一个基于Qwen2.5 - 3b - Instruct微调的小推理模型
Fireworks托管Deepseek V3:无数据收集,每月0.9美元,每秒25t
使用AI智能体创作整本书:AutoGen与Mistral - Nemo
深度寻求V3、QVQ - 72B预览版、猎鹰3 10B、羊驼3.3 70B、神经电子70B在更新的MMLU - Pro CS基准测试中的大语言模型比较/测试
告别RAG服务器:使用WebAssembly、IndexedDB和Transformers.js在浏览器直接创建向量数据库
3万美元预算,购买何种GPU集群用于LLM训练与推理?自制还是购买整机更好?
DeepSeek v3与Claude 3.5 Sonnet 1022对比:DeepSeek编写的代码更简洁(我的经验)
M4 24GB下llama3.2等模型的Ollama性能
Llama 4今年将有多次发布 包含语音与推理功能
构建小型(函数调用)大能力的LLM并集成于开源网关
自制Termite:可从简单文本提示生成终端UI的CLI
深度探索Deepseek v3:是否优于GPT - 4o和3.5 Sonnet?
字节跳动研究推出1.58位FLUX:99.5%Transformer参数量化为1.58位的新AI方法
NVIDIA GeForce RTX 5080预计1月21日发布
阿里云大语言模型降价幅度达85%,中国AI竞争升温
DeepSeek V3在llama.cpp上运行,贺新年
即将问世的有趣ARM硬件 - Radxa Orion O6
AWS部署40万Trainium2芯片集群助力Anthropic
利用语言模型赌博:一位无知投资者试图用ModernBert击败股市
开源模型Deepseek V3可比肩ChatGPT4
Gary Marcus对AGI和ASI发展预测的改变
SmallThinker - 3B - Preview发布:类o1推理SLM
2024年Hugging Face上排名前25的开源模型
2024年Hugging Face上点赞数排名前25的AI模型
Deepseek V3在误导向注意力评估中表现糟糕
2024年12月10日:Cerebras系统与美国能源部桑迪亚国家实验室宣称在单个CS - 3系统上完成1万亿参数模型的训练
3060 12GB与4060 Ti 16GB的对比
Together开始托管Deepseek V3:隐私友好的使用方式
1.58B无梯度内存训练新论文noise_step
DeepSeek -R1 -Lite -Preview在多项基准测试中似乎胜过DeepSeek V3,为何V3更受追捧?
英特尔准备推出配备24GB内存的Arc(PRO)“Battlemage”GPU
PDF转Markdown工具对比:我的初步体验结果
SemiKong:首个开源半导体聚焦大语言模型(基于Llama 3.1构建)
使用DeepSeek V3进行FIM效果很棒的方法
创意型实验Command - R模型:基于1.85亿书籍标记训练微调
为运行DeepSeek V3在服务器配置1TB内存是否值得
LG与IBM在GPU资源匮乏的LLM竞技场中名列前茅
Llama-3-8b-instruct的50个随机单词的前100个列表及其他有趣输出
DeepSeek - v3成为ProLLM最佳开源模型
DeepSeek生成价值1美元的代币无需5小时,通过批处理约1分钟即可
DeepSeek 600b模型网站运行快且API便宜的疑惑
当下创意写作是否有比Mistral Small 22b更好的模型
M4 Mac Mini AI集群运行DeepSeek - V3
DeepSeek V3以合成数据用于编码和数学,采用新预测技术
DeepSeek v3新增"Deep Think"选项,可展示思维链
深擎发布其AI研究人员使用2048个H800训练深擎 - V3 671B混合专家模型(MoE)的独家视频
观Groq Llama3.3在大语言模型象棋竞技场击败xAI Grok
Deepseek V3在livecodebench上(最高非推理模型)
DeepSeek在多数基准测试中以十分之一价格优于4o?
Bartowski Q4_K_M量化版本输出语言转换问题
Clipboard Conqueror 1.0新特性:支持ESC取消及提示操作注释
Deepseek V3基准测试表明Qwen 2.5 72B才是王者
Deepseek V3正式发布(代码、论文、基准测试结果)
Deepseek v3以低53倍价格超越Sonnet
DeepSeek V3聊天版权重已上传至Huggingface
Llama-3.2-3B-Instruct-abliterated需35GB显存
Deepseek v3在aider上超越Claude sonnet
DeepSeek V3在LiveBench上的基准测试结果
DeepSeek V3模型在Huggingface上的模型卡
DeepSeek V3模型现身Hugging Face平台
Test - Time Compute模型是否使M系列Mac不再适合运行大型语言模型
使用Llama3.3驱动的AI代理查询pyppeteer仓库的两个近期问题
Qwen的QVQ 72B放弃Apache 2.0许可
AMD MI60与vLLM助力Llama3.3 70B达20 tokens/s
Gemini Flash 2.0实际体验及与其他开源模型对比
OpenAI员工称o3与o1采用相同范式且进展迅速
Qwen/QVQ - 72B - Preview模型在Hugging Face平台
12GB 3080上的混元FP8可在10分钟内生成移动端质量的GIF
可直接在Ollama中运行来自Hugging Face Hub的私有GGUF
Layla支持手机运行大语言模型时通过Stable Diffusion生成图像
llama.cpp支持Llama-3_1-Nemotron-51B
MI300X、H100、H200训练基准测试:CUDA仍具优势(上)
Drummer发布Anubis 70B v1:基于Llama 3.3 RP微调
谷歌DeepMind推理团队负责人Denny Zhou的三条X动态
英伟达Jetson Orin Nano Super试用
根据LLM密集化规律,2025年10月或将出现8B参数的类GPT - 4o大模型
部分大语言模型OCR能力为何强于专用OCR解决方案
Llama 3.3 70B指令版删减版(去审查)发布
对o1 - pro和o3的看法:暴力破解而非创新?
语音转语音模型比级联模型更笨 - 人工分析的新推理基准
RWKV - 7 0.1B (L12 - D768)经ctx4k训练可解决NIAH 16k问题,外推至32k +,100% RNN(无注意力机制),支持100多种语言和代码
Koboldcpp v1.80发布,支持Qwen2 - VL
Qwen QVQ - 72B - Preview即将发布
MaxSun Arc B580 GPU带双SSD插槽亮相
红帽宣布达成收购Neural Magic(vLLM)的最终协议
自制wut——解释上一命令输出的CLI(适用于ollama)
谷歌AI工作室免费推出Gemini 2.0闪思实验版
Acer RTX 5090/5080游戏电脑预售价曝光
LibreChat体验如何?(代码执行、网页搜索等)
Slim - Llama:低功耗处理30亿参数的LLM ASIC处理器
创世纪项目:由物理模拟平台驱动的生成物理引擎,可生成4D动态世界
Intel Arc B580上ComfyUI安装指南与示例基准测试
近期模型在聊天机器人竞技场的更新(Qwq、Qwen 2.5 Coder、Nova、Llama 3.3)
使用QwQ作为对话思考者时意外模拟出尴尬的过度思考
Moonshine Web:比Whisper更快更准的实时浏览器语音识别
Granite 3.1语言模型:128k上下文长度与Apache 2.0协议
AI创意竞技场:看大型语言模型在诗歌、ASCII艺术等方面一较高下
Jetson Orin Nano Super用于家庭设置是否合理
Hugging Face研究人员用搜索使30亿参数Llama超越70亿参数版本
MyDeviceAI:可在iPhone本地运行Llama 3.2的应用已上架AppStore
Click3:一款利用大语言模型自动化安卓使用的工具
OpenAI长期让Sonnet 3.5成为市场最佳模型的原因推测
发现一个超棒的可与本地模型协同工作的Perplexity AI克隆版
MLX - 4bit与GGUF - q4_K_M性能对比之MMLU Pro测试
本地LLM的Godot游戏引擎插件NobodyWho
谷歌Veo 2生成视频惊艳,Veo与Imagen新版本发布
RTX 3090调整功率限制时llama.cpp中的相对性能
Llama 3.3在代码辅助方面优于Mistral - Large - 2411
索泰确认推出32GB GDDR7显存的GeForce RTX 5090,5080和5070系列也在列
为苹果硬件分叉HunyuanVideo以本地体验类SORA功能
通过扩展测试时计算,让3B羊驼模型在高难度数学题上超越70B羊驼模型
Hugging Face推出合成数据生成器——自然语言构建数据集的用户界面
Meta发布Apollo大型多模态模型家族,7B版达SOTA且能理解1小时视频可本地运行
微软Markitdown:Python文件与文档转Markdown工具
Teuken - 7B:面向多语言的OpenGPT - X项目成员
Nvidia GeForce RTX 5070 Ti配备16GB GDDR7内存
搭乘12小时航班,128GB M4 Max求2024年12月最佳本地编码模型
Llama.CPP与MLX在不同提示大小下对Llama-3.3-70B的速度测试#2
Meta AI推出无标记器模型字节潜在变换器(BLT)
Gemini实验1206编写的功能完备且美观的Web UI
Pixtral与Qwen2VL即将接入Ollama
Qwen2.5 32B获Apache许可,开源潜力巨大
Ilya在加拿大温哥华NIPS 2024的"序列到序列"演讲
LMArena新WebDev竞技区克劳德3.5十四行诗优势明显
Llama-3.3-70b在2xRTX-3090与M3 - Max 64GB上针对不同提示大小的速度测试
Meta的字节潜在变换器(BLT)论文表现出色,或于2025年取代标记化模型
OmniAudio - 2.6B:世界上用于边缘部署的最快音频语言模型
CohereForAI发布c4ai - command - r7b - 12 - 2024模型
百万美元悬赏首个在无污染SWE - bench中达90%的开源AI
DeepSeek - AI推出DeepSeek - VL2模型
NaturalLM -7B Instruct:自然发声的大语言模型
基于桌面的Gemini 2.0 Flash语音控制
U - MATH新大学级数学基准:Gemini和Qwen表现突出
OpenAI O1与Claude 3.5 Sonnet:20美元谁更超值
Qwen 2.5 72B与Llama 3.3 70B指令模型对比排名
Phi 3.5 mini instruct:被忽视的实用模型
Gemini 2.0 Flash在SWE - Bench上击败Claude Sonnet 3.5
Whisper.cpp是否仍是语音转文本(STT)的王者
谷歌发布Gemini 2.0 Flash,支持原生音频与图像生成
Gemini 2.0 Flash实验版,有人尝试过吗?
Recursal发布两款新线性模型:QRWKV6 - 32B与Finch - MoE - 37B - A11B
8GB VRAM下难寻比gemma - 2 - 9b - it - SimPO更好的大语言模型
PocketPal AI 1.6.0:消息编辑、重新生成与UI增强
Qwen-2.5 Coder 7B可用于QwQ-32B的推测性解码
GRMR 2B Instruct:轻量可靠的语法检查器
Llama 3.1 8B在9种不同RTX GPU上的基准测试(每百万输出令牌0.228美元)
Llama 3.3 (70B)微调 - 现支持90K上下文长度且适配<41GB显存
Huggingface存储限制更新(公开无限制,私有受限)
Qwen/QwQ 32B正确回答时代关键问题,EXAONE 32B和Llama 3.3 70B失败
18分钟内从零创建9个微调模型的工具演示[Kiln AI]
Koboldcpp相较Oobabooga在用户体验上的巨大飞跃
DeepSeek V2.5 - 1210:DeepSeek V2.5最终版本
Hugging Face发布Text Generation Inference TGI v3.0,长提示处理速度比vLLM快13倍
DeepSeek - AI发布DeepSeek - V2.5 - 1210
在Mac Mini M4 Pro上运行Llama 3.2 3B和Llama 3.3 70B模型
InternVL2.5发布(1B至78B),能否取代GPT - 4o?
点赞新的Llama 3.3 Euryale v2.3:48GB讲故事/角色扮演的最佳选择
Github URL中"hub"可替换为"ingest"以提取友好提示文本
LG发布三款新模型EXAONE - 3.5,规模分别为2.4B、7.8B和32B
两大语言模型对话并运行代码(Llama 3.1 8B Instruct + Qwen 2.5 Coder 32B Instruct)
阿里Qwen团队负责人转投字节跳动,Qwen 3.0或无望
Impish_Mind_8B:具有趣味个性的独特8B Llama 3.1模型
Llama 3.3在OpenRouter上比GPT 4o便宜近25倍,是否名副其实?
Google Gemini实验版1206编码能力强,胜过Claude Sonnet
30亿参数模型凭借高质量训练数据能否在特定任务上超越700亿参数模型
用谜题破坏Llama3.3 70B(通过Ollama进行4位量化)
LLama 3.3 70b在网络安全基准测试中接近Qwen2.5但不及405b
Llama成Hugging Face年度最受欢迎模型
Llama 3.3升级显著,与Qwen 2.5编码性能对比
Gemini 1206分数大幅跃升,Llama 3.3 70b近乎与GPT - 4o持平
Llama 3.3在Hugging Face的相关资源发布
LLaMA 3.3 70B性能如何?四大模型对比表
Llama - 3.3 70b在几乎所有基准测试中胜过GPT - 4o、Claude - 3,5 - sonner和Llama - 3.1 405b
Llama 3.3 70B可在HuggingChat免费使用
Llama - 3.3 - 70B - Instruct模型在Hugging Face平台
免费的Hugging Face本地大语言模型偏好对齐课程
Adobe发布DynaSaur代码:可自我编码的智能体
Pleias发布首个完全基于公开数据训练的模型,可与Llama 3B和Qwen 3B竞争
谷歌发布基于Gemma 2的PaliGemma 2视觉语言模型
使用推测解码优化Llama.cpp以实现每秒最大令牌数
武士(SAMURAI)与Meta的SAM 2:视觉追踪新时代?
谷歌NotebookLM三位团队成员离职创立新公司
25个最先进大语言模型的MMLU - Pro CS基准测试对比
FishSpeech v1.5:多语言零样本即时语音克隆,仅5亿参数且低延迟排名TTS - Arena第二
4位量化可能破坏模型 - 动态量化10%FP16 90%4位
notebookLM深度访谈播客:未审查且声音多样
Virtuoso - Small:Arcee.ai新推出的14B大语言模型超越SuperNova - Medius
前实习生破坏字节跳动AI训练面临800万诉讼却获NeurIPS 2024最佳论文
Llama - 3.1 - 8B作为评估器的早期训练结果
Hugging Face CEO对2025年人工智能的预测
修改llama.cpp以支持Llama-3_1-Nemotron-51B
Ollama合并K/V缓存量化支持,上下文内存减半
Llama.cpp漏洞修复!推测解码速度提升30%且上下文长度翻倍
耐力100B v1鼓手模型:精简版米斯特拉尔大型2407 123B且经RP微调
SmolChat:在安卓设备本地运行GGUF SLMs/LLMs
Hugging Face推出本地微调大语言模型免费开源课程
LM Studio终可在NPU(高通骁龙Copilot+ PC)上运行
VLLM支持AMD Radeon GPU运行gguf
AI Linux爱好者使用RTX GPU时可能存在过热无提示情况
Huggingface免费账户存储模型新限额为500Gb
Nous DisTrO更新,宣布新15b模型及DeMo论文
尝试制作可在云端免费使用的无审查版Llama 405b模型
Hugging Face为超25万公共数据集添加Text to SQL功能,由Qwen 2.5 Coder 32B提供支持
AMD GPU与Llama cpp组合时性能显著降低,求原因
OpenAI CEO称开放权重AI模型不好,因DeepSeek和Qwen 2.5?
超强大的Open - WebUI: 我的arXiv、图像生成和AI规划神奇工具包
Apache Tika与Docling文本提取对比
Nemotron 70b与Qwen2.5 72b性能对比
寻找可修正英语语法的模型(类似Grammarly只修正语法功能)
Drummer"s Behemoth 123B v1.2 - 最终版
下一代基于视觉语言模型的OCR实际需求在哪?是否用于RAG?
NVIDIA GPU的FP16性能列表(面向ExllamaV2/EXUI/TabbyAPI用户)
Qwen 2.5 14B:为角色扮演进行无审查微调
3个P40设备运行llama.cpp,推测解码是否加速?
Epyc Turin双CPU系统STREAM TRIAD内存带宽基准值近1TB/s
优化XTTS - v2:10分钟内语音合成《哈利·波特》第一部且仅需约10GB显存
距离优于两块3090的家庭实验室解决方案还有多远?
INTELLECT - 1发布(指令+基础版):首个协同训练模型
乔治 - AI:一个利用AI轻松实现自然语言控制计算机的API
AtheneV2 72B:Qwen微调版本,专注代码补全、数学和日志提取
使用Docker、Colab和Unsloth在本地16GB显存GPU上构建最便捷的VLM微调环境
Aion-RP-Llama-3.1-8B:全新角色扮演大师
本地微调大型语言模型的最佳方案及16GB可训练内容
GLM - Edge系列:1.5B - 5B,聊天与视觉
Qwen团队实验推理模型QwQ-32B - Preview在HuggingChat免费上线
QwQ思考10000个token后给出的最搞笑笑话
14英寸M4 Max 128GB是否适合123B模型
LLaMA - Mesh本地在Blender中运行
Deepseek新多模态模型Janus可在浏览器本地运行
QwQ - 32B - Preview在farel - bench中的基准测试结果为96.67,优于Claude 3.5 Sonnet,略逊于o1 - preview和o1 - mini
本地运行QwQ - 32B 4位量化模型的误导向注意力评估,它胜过o1 - preview和o1 - mini
Qwen发布QwQ预览版:提升AI推理能力的开放模型
通过搜索扩展小模型:用0.5B微调+奖励模型匹配28倍大模型
使用Qwen2.5 - Coder - 32B - Instruct数日后的评测
Qwen2.5 - Coder - 32B - Instruct - AWQ本地运行及与OptiLLM和Aider的基准测试
欧洲新模型openGPT - X Teuken 7B发布
大语言模型(LLM)发布数量随时间的下降趋势已清晰可见
Sentient发布:本地个人助手,由Llama 3.2 3B驱动
AI时代的信息误导加速——以Reflection-70B为例
MLX LM 0.20.1速度可与llama.cpp相媲美
电脑装有两块7900XTX显卡,电源1000W是否会损坏
首次在本地设备运行Qwen2 - Audio进行语音聊天和音频分析
llama.cpp服务器采用推测解码,速度提升25% - 60%
新型轻量级文本到语音模型OuteTTS - 0.2 - 500M
10000美元预算购置1台AI机器/服务器,求建议
Optillm中的代码链推理在AIME 2024上击败o1 - preview
AI视频合成工具:Qwen2.5 - 32B Coder与FFmpeg助力
基于Qwen 2.5复现Teleut 7B - Tulu 3 SFT
Behemoth系列模型v2.0 - v2.2的新特性与推荐
Qwen2.5 - Coder - 32B - Instruct量化实验
Drummer的Cydonia 22B v1.3与The Behemoth v1.1在22B的神奇之处
Qwen2.5 14b模型(常规版和编码版)是否足以用于实际工作?
Athene V2 Chat在特定任务上接近GPT - 4o和Claude 3.5
16GB显存下22B的Q4km或Q5的选择以及14B的Q4km Qwen2.5是否适合本地Gpt4o mini
SmolLM2 - 135M - Instruct无需GPU即可快速总结网页搜索结果
更新AI研究助手,支持OpenAI端点与Ollama
连接多台电脑至强大LLM站以获取128GB显存的最佳方式
DeepSeek R1 Lite比其他模型更令人印象深刻
英特尔开源大语言模型INTELLECT - 1完成训练
Claude渴望与本地部署的Mistral聊天并克服相关限制
阿里巴巴发布Marco O1,推进人工智能的开放式推理
Deepseek与OpenAI竞争,谷歌在LMSYS排行榜胜过OpenAI
创建v1.3 RPMax模型时发现损坏的标记器需警惕
Marco - o1:迈向开放式解决方案的开放推理模型
使用LM Studio测试MLX模型:推理速度小增但内存大增
Llama 3.2 Vision在Unsloth中可微调,16GB VRAM内且速度快2倍
图卢3——一组拥有完全开放数据、评估代码和训练算法的最先进指令模型
AMD RX7900XTX 24GB与NVIDIA 4070Ti Super 16GB个人使用对比
PocketPal AI集成Hugging Face模型库
三星TinyClick:用于GUI自动化的单轮代理(0.27B,MIT许可)
DeepSeek R1 lite表现惊艳,远超Qwen 2.5 coder
M4 Max以11个令牌/秒运行Qwen 72B Q4 MLX
苹果硅芯片(MLX)上Mistral大模型的新MLX量化版本
DeepSeek AI的R1 - Lite - Preview展现强大实力
CrisperWhisper在开放ASR排行榜中位居第二
寻求拥有64GB内存M4版MacBook Pro的用户帮助
AICI助力实时重写语境、受限生成与回溯KV - 缓存
通过神经细胞自动机(NCA)在大型语言模型(LLM)中实现推理
深源宣布R1 lite,在部分基准测试中胜过o1预览版
求Mistral - Large - 2411新模型基准测试
DeepSeek - R1 - Lite预览版正式发布
评判竞技场排行榜:将大语言模型作为评估器进行基准测试
树莓派上的大语言模型硬件加速(以低成本树莓派为基础计算机搭配高端AMD GPU)
中国AI初创公司StepFun新万亿参数MOE模型在Livebench排名前列
美国会委员会建议国会开展类曼哈顿计划竞赛以达AGI
Nvidia发布LLaMA - Mesh权重,推理代码可用
Mistral发布Pixtral - Large及Mistral - Large更新
ChatGPT搜索功能:比Perplexity更好吗?
LLMs作为评估器的基准测试:Judge Arena
Llama 3.1 405B在Cerebras推理平台上每秒运行969个令牌
流行本地大语言模型EXL2量化的MMLU(4个类别)基准测试
AMD GPU通过Vulkan在树莓派5上支持llama.cpp
Pixtral Large发布:基于Mistral Large 2的视觉模型
Mistral - Large - Instruct - 2411模型在Hugging Face
11月18日Mistral Large 2411和Pixtral Large发布
AMD Ryzen AI 300系列加速消费级LLM应用中的Llama.cpp性能
Qwen2.5 - Turbo将上下文长度扩展到100万 tokens
有人在llama.cpp为Qwen2VL创建拉取请求
Qwen 2.5 Coder 32B与Claude 3.5 Sonnet对比:是我错了吗?
Beepo-22B:基于Mistral Small微调的无审查模型
RAG最佳选择:Olama、LM Studio、AnythingLLM、Openwebui
热门本地大型语言模型EXL2量化的HumanEval基准测试(涵盖2.5到8.0 bpw)
Mistral AI发布Mistral Large 3和Pixtral Large(目前似乎仅API可用)
Nvidia推出LLaMA - Mesh:用Llama 3.1 8B生成3D网格,即将发布权重
构建用于Aya - Expanse - 8B推理的迷你PC - 寻求建议!
Codai:终端中的AI代码助手可理解完整项目上下文
Gemini-exp-1114在LiveBench上胜过GPT-4o,不敌sonnet和o1
OpenAI、谷歌和Anthropic构建更先进AI遇阻
Gemma和Phi模型更新久未发布,3代和4代何时到来
3090、4080super与A6000硬件选择对比
中国公司仅用2000个GPU训练GPT - 4竞品
技嘉推出AMD Radeon PRO W7800 AI TOP 48G显卡
Qwen 2.5 7B在Livebench中超越Mixtral 8x22B和Claude 3 Haiku
Omnivision - 968M:适用于边缘设备的视觉语言模型,标记减少9倍
用Python编写可本地运行的语音自动回复未读邮件程序
Qwen2.5 - Coder - 32B推理VRAM计算待确认
Nexusflow发布Athene - V2 - Chat和Athene - V2 - Agent
Gemini Exp 1114在Chatbot Arena排名并列第一
Claude 3.5惊现用户姓氏 - 隐私怪异现象
ollama llama3.2 - vision:11b无图像时比llama3.1:8b慢20倍
Qwen 32B Coder与72B在最新力扣题目的对比
在RTX 3050 Ti (4GB)的PyCharm中本地运行Qwen2.5 - Coder - 1.5B进行实时代码补全
是否有人对qwen2.5 - coder:32b进行过量化比较?
LLM模型的重复性与创造性及基于Qwen2.5 32B的ArliAI RPMax v1.3模型简述
Aider Composer:实现Aider与VSCode无缝集成
Qwen2.5-coder-32b-instruct的语言提示结果差异
Qwen2.5 Coder创作的《贪吃蛇》手机游戏及开放网页界面成果
CS毕业生都以为自己的“AI”是下一个独角兽,我受不了了
如何顺利使用Qwen2.5 - Coder - Instruct
Qwen 2.5 Coder与128K上下文窗口GGUFs的漏洞修复
NousResearch推出Forge Reasoning API测试版和NousChat
用Qwen2.5 - Coder 32b编写基本的chip8模拟器
Qwen 2.5 Coder 14b在技术报告的多个基准测试中逊于7b - 奇怪!
Qwen 2.5 32B Coder处理Cline提示不佳,易产生幻觉
在Qwen2.5 - Coder:32b - Instruct - Q8_0上尝试此提示
FastAPI - BitNet项目:通过FastAPI、Uvicorn和Docker运行微软BitNet
Qwen-2.5-Coder 32B:革新编码的AI
Qwen 2.5 Coder 32B可在HuggingChat免费使用
原GPT - 4能答对的测试提示,Qwen - Coder - 32B也能答对
在Macbook M4 Max上测试Qwen Coder 2.5 32b q8和q2_k的初步结果
qwen - 2.5 - coder 32B使用3xP40和3090的基准测试
Qwen/Qwen2.5 - Coder - 32B - Instruct模型于Hugging Face发布
使用4台M4 Pro Mac Minis与雷电5(80Gbps)互联分布大型语言模型
具有隐私功能的个人NotebookLM和类Perplexity的AI助手
Ichigo-llama3.1 v0.4:MMLU得分64.66,多轮对话追踪更佳并拒非语音输入
A100 32G SXM2计算卡用于Windows本地LLM
MIT团队利用8B大语言模型结合测试时训练在ARC - AGI - PUB上得分达61.9%
1TB内存能否满足DeepSeek v2.5 fp8最大上下文长度运行需求
Claude AI将通过与Palantir的新协议处理政府机密数据
轻量级开源大语言模型用于自定义模式的文本到JSON转换
利用Florence - 2与Llama 3.2 Vision构建高级图像字幕应用[开源]
有比Llama更适合电脑小白的离线/本地大语言模型吗(通过Ollama安装时)
API探索后意识到ChatGPT和Claude记忆功能的价值
构建一个支持多用户、有API且可用于其他自托管服务的Ollama支持的自托管Perplexity克隆版,还有哪些需要考虑的?
48GB M4 Macbook Pro可运行的最大模型及速度
Qwen2.5.1 Coder 7B在Aider排行榜上得分63.9%
构建通用人工智能(AGI)之二:解决强化学习问题的思路
新基准FrontierMath公布,LLM最高得分2%
Qwen2.5 - Coder将推出0.5B、3B、14B和32B版本
OpenCoder:性能媲美顶级代码语言模型的开源可复现代码语言模型家族
发布Vector Companion后进行重大性能更新
4090 SUPRIM X、M4 Max 40核GPU与128GB内存组合
Geekerwan使用Ollama在新M4 Pro和M4 Max芯片上对Qwen2.5 7B至72B进行基准测试
Chinchilla缩放定律与近期LLM改进存在矛盾
Meta新模型fractal_alpha体验与初步测评
基于大语言模型、检索增强生成(及代理?)的《龙与地下城》互动世界构建应用征求意见:请评判我的图表和想法?是否已有类似产品?
分析12个基准测试,为不同用例找到合适规模的大语言模型
Qwen 2.5 Coder 7B与1.5B Instruct模型权重更新
发布两周后,旧版Sonnet 3.5在LiveCodeBench上仍胜过新版Sonnet
AMD Threadripper 3600与256GB内存运行本地大语言模型的可行性
RTX 3060 12GB可运行的最佳成人角色扮演模型
微软悄然发布用于解决复杂任务的开源多智能体系统Magentic - One及AutogenBench
Qwen 2.5登上官方LiveCodeBench排行榜
200美元单板计算机运行3B模型,每秒约10+个token,可做什么?
8B VLM在130美元RK3588单板计算机上运行,NPU加速 - 4个令牌/秒,6.5秒延迟(MiniCPM - V 2.6)
基于LLaMa架构的零样本语音克隆OuteTTS - 0.1 - 350M,CC - BY许可
Qwen2.5 - Coder - 32B的发布进度
RTX 3090与Threadripper 3970X及256GB内存的LLM推理基准测试
成功购买更多内存后运行Llama 3.1 405B
用Llama 3.2 3B模型意外构建终端命令伙伴
Hertz - Dev:单RTX 4090上理论80ms、实际120ms延迟的85亿参数开源音频对话AI模型
英伟达发布涉及2亿Linux和Windows游戏玩家的安全警告
英特尔Arrow Lake可支持4个DIMM,速度最高达6400
Llama 3.2 90b - vision去向成谜
推出语义集成层级联(CaSIL):一个过度设计却有效的思维/推理算法
苹果M4 Max芯片:高达546GB/s的内存带宽
llama.cpp在不同设备/后端下的计算与内存带宽效率
使用Flux Fast快速创建近实时图像生成应用(代码少于50行)
Hugging Face发布SmolLM v2,含不同规模版本
Ollama新漏洞:更多模型,更多概率语言模型风险
Meta发布MobileLLM系列模型(125M、350M、600M、1B)
Llama 4模型将于2025年初推出,将在超10万个H100集群上训练且具备新特性
对SuperNova - Medius - GGUF的看法
Starcannon - Unleashed - 12B - v1.0问世:融合两大模型的成果
MacBook Pro M4 Max:内存带宽高达526GB/s
构建本地替代OpenAI API的Cortex之旅
自制可访问谷歌邮箱、日历和任务的个人助手来管理时间克服ADHD
OpenAI将于2026年开始使用AMD芯片并可能自制AI硬件
谷歌新研究:松弛递归变换器,通过跨层共享参数在最小性能损失下缩小现有大语言模型
Meta发布Layer Skip:端到端LLM加速解决方案
开发可在iOS、macOS和visionOS运行MLX模型的应用
Mac Mini性价比凸显:比5090便宜且VRAM近翻倍
Stable Diffusion 3.5 Medium发布于Hugging Face
MacOS 15.1中的Apple Intelligence提示模板
三个增强版的Llama 3.2模型,每个7B用于创意用途且无审查
中美顶尖大语言模型间隔仅5个月,中国排名第一且世界第六的模型仅用2000个H100训练即达SOTA
Mistral.rs v0.3.2金属性能提升26%并推出PyPI安装包
开源Promptwright:用本地LLM生成大型合成数据集
M1 - 3 Max运行20 - 32B模型的处理和生成速度
在本地低端RTX3000 GPU上运行Llama的最佳方式
哪些开源模型可与gpt - 4o - mini相媲美
测试1B/3B小语言模型在本地RAG中的能力及收获
Mistral - Nemo 12b编码优势下的竞品探寻
视觉标记器:助力大型语言模型在网页创建自动化的扩展工具
glm - 4 - voice - 9b可在12GB GPU上运行
推理引擎之战:Llama.cpp、MLC LLM与vLLM的对比测试
Ollama已推出llama3.2 - vision测试版
Cohere发布Aya Expanse多语言AI模型家族
微软悄然发布OmniParser:视觉代理截图转结构化元素工具
新型金融领域模型Hawkish 8B通过CFA一级且在数学和金融基准测试中胜过Meta Llama - 3.1 - 8B - Instruct
Tinybox Pro (8 x RTX 4090)内部一瞥
Drummer发布123B v1.1的Behemoth和22B v1.2的Cydonia创意版
两款10B新模型:作家“J.古登堡”与作家 - “不羁之笔”(无审查)
Llama 405B在Nvidia H200 SXM上可达142 tok/s
Mistral发布Pixtral基础模型:Pixtral - 12B - Base - 2409
Drummer"s Nautilus 70B v0.1:L3.1 Nemotron 70B的RP微调版本
G.Skill新款DDR5 - 9600 CUDIMM内存条风冷可达DDR5 - 10000速度
智谱AI发布开源端到端语音大模型GLM - 4 - Voice
Cerebras推理速度提升3倍:Llama3.1 - 70B每秒突破2100个token
xMAD推出市场上最佳量化Llama3.1-405B和8B模型
Prime Intellect AI本月推出INTELLECT - 1:开创性的100亿参数民主AI语言模型
VSCode结合Cline、VLLM与Qwen2.5实现快速运行
笔记本上搭载2个64GB VRAM的MI60?雷电4多eGPU!
ChatterUI v0.8.0发布 - 现支持外部模型加载
使用4块RTX 3090对MLC LLM和Mistral Large Instruct 2407 q4f16_1进行功率缩放测试(150 - 350瓦)
扎克伯格:发布量化版Llama 1B和3B设备模型
CohereForAI发布aya - expanse - 32b模型
推出Arch - 用于快速且可观测的智能体应用的开源智能中间件
Claude 3.5 Sonnet在SimpleBench得分提升
Aider:在24GB VRAM下优化性能(持续微调)
Qwen 32B全面微调用于角色扮演/故事创作:EVA
发布免费竞品VisioPilot,可本地运行LLM
Claude Sonnet 3.5登顶Aider排行榜,大幅领先对手
Anthropic博客:Claude在编码演示中突然暂停查看黄石公园照片
推出Fast Apply - 复现Cursor的即时应用模型
Hugging Face CEO称AI领域封闭性增强协作性减弱影响发展
小参数语言模型(260k参数)在Dalek内部运行
花费数周构建无代码网络自动化工具,Anthropic推出计算机使用API使其面临困境
Genmo发布Mochi 1:新的SOTA开源视频生成模型(Apache 2.0许可)
Claude 3.5 Sonnet:计算机使用体验?
Transformers.js v3发布:多项新特性
Stability AI发布Stable Diffusion 3.5,含三个变体,10月29日上线Medium
用Llama 8B和70B开发亚马逊品牌筛选Chrome扩展
最佳成人角色扮演模型 - Mistral - Small - 22B - ArliAI - RPMax - v1.1
开源网页扩展BrowserLlama可本地交互网页
Ollama预发布版初步实验性支持Llama 3.2视觉
微软开源LLM平台bitnet.cpp是否源于llama.cpp
在Linux系统下使用AMD GPU运行Llama
Mistral-Large-Instruct-2407比Claude3.5和ChatGPT更实用
GraphLLM推出图形界面:用于大语言模型推理的开源框架
Claude编写脚本使Llama 3.2 1B模拟Twitch聊天
微软开源bitnet.cpp:可在CPU直接运行的1位LLM快速推理框架
Meta推出结合文本与语音输入/输出的Spirit LM开源模型
创建基于Mendeley阅读量追踪热门AI论文的网页应用
我的2张RTX 3090、RTX A1000和10张WD Red Pro 10TB因电涌损坏
使用405b的Llama 3.1,服务器内存是否够用
Grok 2在LiveBench上表现逊于Llama 3.1 70B