Llama.cpp漏洞修复!推测解码速度提升30%且上下文长度翻倍
耐力100B v1鼓手模型:精简版米斯特拉尔大型2407 123B且经RP微调
SmolChat:在安卓设备本地运行GGUF SLMs/LLMs
Hugging Face推出本地微调大语言模型免费开源课程
LM Studio终可在NPU(高通骁龙Copilot+ PC)上运行
VLLM支持AMD Radeon GPU运行gguf
AI Linux爱好者使用RTX GPU时可能存在过热无提示情况
Huggingface免费账户存储模型新限额为500Gb
Nous DisTrO更新,宣布新15b模型及DeMo论文
尝试制作可在云端免费使用的无审查版Llama 405b模型
Hugging Face为超25万公共数据集添加Text to SQL功能,由Qwen 2.5 Coder 32B提供支持
AMD GPU与Llama cpp组合时性能显著降低,求原因
OpenAI CEO称开放权重AI模型不好,因DeepSeek和Qwen 2.5?
超强大的Open - WebUI: 我的arXiv、图像生成和AI规划神奇工具包
Apache Tika与Docling文本提取对比
Nemotron 70b与Qwen2.5 72b性能对比
寻找可修正英语语法的模型(类似Grammarly只修正语法功能)
Drummer"s Behemoth 123B v1.2 - 最终版
下一代基于视觉语言模型的OCR实际需求在哪?是否用于RAG?
NVIDIA GPU的FP16性能列表(面向ExllamaV2/EXUI/TabbyAPI用户)
Qwen 2.5 14B:为角色扮演进行无审查微调
3个P40设备运行llama.cpp,推测解码是否加速?
Epyc Turin双CPU系统STREAM TRIAD内存带宽基准值近1TB/s
优化XTTS - v2:10分钟内语音合成《哈利·波特》第一部且仅需约10GB显存
距离优于两块3090的家庭实验室解决方案还有多远?
INTELLECT - 1发布(指令+基础版):首个协同训练模型
乔治 - AI:一个利用AI轻松实现自然语言控制计算机的API
AtheneV2 72B:Qwen微调版本,专注代码补全、数学和日志提取
使用Docker、Colab和Unsloth在本地16GB显存GPU上构建最便捷的VLM微调环境
Aion-RP-Llama-3.1-8B:全新角色扮演大师
本地微调大型语言模型的最佳方案及16GB可训练内容
GLM - Edge系列:1.5B - 5B,聊天与视觉
Qwen团队实验推理模型QwQ-32B - Preview在HuggingChat免费上线
QwQ思考10000个token后给出的最搞笑笑话
14英寸M4 Max 128GB是否适合123B模型
LLaMA - Mesh本地在Blender中运行
Deepseek新多模态模型Janus可在浏览器本地运行
QwQ - 32B - Preview在farel - bench中的基准测试结果为96.67,优于Claude 3.5 Sonnet,略逊于o1 - preview和o1 - mini
本地运行QwQ - 32B 4位量化模型的误导向注意力评估,它胜过o1 - preview和o1 - mini
Qwen发布QwQ预览版:提升AI推理能力的开放模型
通过搜索扩展小模型:用0.5B微调+奖励模型匹配28倍大模型
使用Qwen2.5 - Coder - 32B - Instruct数日后的评测
Qwen2.5 - Coder - 32B - Instruct - AWQ本地运行及与OptiLLM和Aider的基准测试
欧洲新模型openGPT - X Teuken 7B发布
大语言模型(LLM)发布数量随时间的下降趋势已清晰可见
Sentient发布:本地个人助手,由Llama 3.2 3B驱动
AI时代的信息误导加速——以Reflection-70B为例
MLX LM 0.20.1速度可与llama.cpp相媲美
电脑装有两块7900XTX显卡,电源1000W是否会损坏
首次在本地设备运行Qwen2 - Audio进行语音聊天和音频分析
llama.cpp服务器采用推测解码,速度提升25% - 60%
新型轻量级文本到语音模型OuteTTS - 0.2 - 500M
10000美元预算购置1台AI机器/服务器,求建议
Optillm中的代码链推理在AIME 2024上击败o1 - preview
AI视频合成工具:Qwen2.5 - 32B Coder与FFmpeg助力
基于Qwen 2.5复现Teleut 7B - Tulu 3 SFT
Behemoth系列模型v2.0 - v2.2的新特性与推荐
Qwen2.5 - Coder - 32B - Instruct量化实验
Drummer的Cydonia 22B v1.3与The Behemoth v1.1在22B的神奇之处
Qwen2.5 14b模型(常规版和编码版)是否足以用于实际工作?
Athene V2 Chat在特定任务上接近GPT - 4o和Claude 3.5
16GB显存下22B的Q4km或Q5的选择以及14B的Q4km Qwen2.5是否适合本地Gpt4o mini
SmolLM2 - 135M - Instruct无需GPU即可快速总结网页搜索结果
更新AI研究助手,支持OpenAI端点与Ollama
连接多台电脑至强大LLM站以获取128GB显存的最佳方式
DeepSeek R1 Lite比其他模型更令人印象深刻
英特尔开源大语言模型INTELLECT - 1完成训练
Claude渴望与本地部署的Mistral聊天并克服相关限制
阿里巴巴发布Marco O1,推进人工智能的开放式推理
Deepseek与OpenAI竞争,谷歌在LMSYS排行榜胜过OpenAI
创建v1.3 RPMax模型时发现损坏的标记器需警惕
Marco - o1:迈向开放式解决方案的开放推理模型
使用LM Studio测试MLX模型:推理速度小增但内存大增
Llama 3.2 Vision在Unsloth中可微调,16GB VRAM内且速度快2倍
图卢3——一组拥有完全开放数据、评估代码和训练算法的最先进指令模型
AMD RX7900XTX 24GB与NVIDIA 4070Ti Super 16GB个人使用对比
PocketPal AI集成Hugging Face模型库
三星TinyClick:用于GUI自动化的单轮代理(0.27B,MIT许可)
DeepSeek R1 lite表现惊艳,远超Qwen 2.5 coder
M4 Max以11个令牌/秒运行Qwen 72B Q4 MLX
苹果硅芯片(MLX)上Mistral大模型的新MLX量化版本
DeepSeek AI的R1 - Lite - Preview展现强大实力
CrisperWhisper在开放ASR排行榜中位居第二
寻求拥有64GB内存M4版MacBook Pro的用户帮助
AICI助力实时重写语境、受限生成与回溯KV - 缓存
通过神经细胞自动机(NCA)在大型语言模型(LLM)中实现推理
深源宣布R1 lite,在部分基准测试中胜过o1预览版
求Mistral - Large - 2411新模型基准测试
DeepSeek - R1 - Lite预览版正式发布
评判竞技场排行榜:将大语言模型作为评估器进行基准测试
树莓派上的大语言模型硬件加速(以低成本树莓派为基础计算机搭配高端AMD GPU)
中国AI初创公司StepFun新万亿参数MOE模型在Livebench排名前列
美国会委员会建议国会开展类曼哈顿计划竞赛以达AGI
Nvidia发布LLaMA - Mesh权重,推理代码可用
Mistral发布Pixtral - Large及Mistral - Large更新
ChatGPT搜索功能:比Perplexity更好吗?
LLMs作为评估器的基准测试:Judge Arena
Llama 3.1 405B在Cerebras推理平台上每秒运行969个令牌
流行本地大语言模型EXL2量化的MMLU(4个类别)基准测试
AMD GPU通过Vulkan在树莓派5上支持llama.cpp
Pixtral Large发布:基于Mistral Large 2的视觉模型
Mistral - Large - Instruct - 2411模型在Hugging Face
11月18日Mistral Large 2411和Pixtral Large发布
AMD Ryzen AI 300系列加速消费级LLM应用中的Llama.cpp性能
Qwen2.5 - Turbo将上下文长度扩展到100万 tokens
有人在llama.cpp为Qwen2VL创建拉取请求
Qwen 2.5 Coder 32B与Claude 3.5 Sonnet对比:是我错了吗?
Beepo-22B:基于Mistral Small微调的无审查模型
RAG最佳选择:Olama、LM Studio、AnythingLLM、Openwebui
热门本地大型语言模型EXL2量化的HumanEval基准测试(涵盖2.5到8.0 bpw)
Mistral AI发布Mistral Large 3和Pixtral Large(目前似乎仅API可用)
Nvidia推出LLaMA - Mesh:用Llama 3.1 8B生成3D网格,即将发布权重
构建用于Aya - Expanse - 8B推理的迷你PC - 寻求建议!
Codai:终端中的AI代码助手可理解完整项目上下文
Gemini-exp-1114在LiveBench上胜过GPT-4o,不敌sonnet和o1
OpenAI、谷歌和Anthropic构建更先进AI遇阻
Gemma和Phi模型更新久未发布,3代和4代何时到来
3090、4080super与A6000硬件选择对比
中国公司仅用2000个GPU训练GPT - 4竞品
技嘉推出AMD Radeon PRO W7800 AI TOP 48G显卡
Qwen 2.5 7B在Livebench中超越Mixtral 8x22B和Claude 3 Haiku
Omnivision - 968M:适用于边缘设备的视觉语言模型,标记减少9倍
用Python编写可本地运行的语音自动回复未读邮件程序
Qwen2.5 - Coder - 32B推理VRAM计算待确认
Nexusflow发布Athene - V2 - Chat和Athene - V2 - Agent
Gemini Exp 1114在Chatbot Arena排名并列第一
Claude 3.5惊现用户姓氏 - 隐私怪异现象
ollama llama3.2 - vision:11b无图像时比llama3.1:8b慢20倍
Qwen 32B Coder与72B在最新力扣题目的对比
在RTX 3050 Ti (4GB)的PyCharm中本地运行Qwen2.5 - Coder - 1.5B进行实时代码补全
是否有人对qwen2.5 - coder:32b进行过量化比较?
LLM模型的重复性与创造性及基于Qwen2.5 32B的ArliAI RPMax v1.3模型简述
Aider Composer:实现Aider与VSCode无缝集成
Qwen2.5-coder-32b-instruct的语言提示结果差异
Qwen2.5 Coder创作的《贪吃蛇》手机游戏及开放网页界面成果
CS毕业生都以为自己的“AI”是下一个独角兽,我受不了了
如何顺利使用Qwen2.5 - Coder - Instruct
Qwen 2.5 Coder与128K上下文窗口GGUFs的漏洞修复
NousResearch推出Forge Reasoning API测试版和NousChat
用Qwen2.5 - Coder 32b编写基本的chip8模拟器
Qwen 2.5 Coder 14b在技术报告的多个基准测试中逊于7b - 奇怪!
Qwen 2.5 32B Coder处理Cline提示不佳,易产生幻觉
在Qwen2.5 - Coder:32b - Instruct - Q8_0上尝试此提示
FastAPI - BitNet项目:通过FastAPI、Uvicorn和Docker运行微软BitNet
Qwen-2.5-Coder 32B:革新编码的AI
Qwen 2.5 Coder 32B可在HuggingChat免费使用
原GPT - 4能答对的测试提示,Qwen - Coder - 32B也能答对
在Macbook M4 Max上测试Qwen Coder 2.5 32b q8和q2_k的初步结果
qwen - 2.5 - coder 32B使用3xP40和3090的基准测试
Qwen/Qwen2.5 - Coder - 32B - Instruct模型于Hugging Face发布
使用4台M4 Pro Mac Minis与雷电5(80Gbps)互联分布大型语言模型
具有隐私功能的个人NotebookLM和类Perplexity的AI助手
Ichigo-llama3.1 v0.4:MMLU得分64.66,多轮对话追踪更佳并拒非语音输入
A100 32G SXM2计算卡用于Windows本地LLM
MIT团队利用8B大语言模型结合测试时训练在ARC - AGI - PUB上得分达61.9%
1TB内存能否满足DeepSeek v2.5 fp8最大上下文长度运行需求
Claude AI将通过与Palantir的新协议处理政府机密数据
轻量级开源大语言模型用于自定义模式的文本到JSON转换
利用Florence - 2与Llama 3.2 Vision构建高级图像字幕应用[开源]
有比Llama更适合电脑小白的离线/本地大语言模型吗(通过Ollama安装时)
API探索后意识到ChatGPT和Claude记忆功能的价值
构建一个支持多用户、有API且可用于其他自托管服务的Ollama支持的自托管Perplexity克隆版,还有哪些需要考虑的?
48GB M4 Macbook Pro可运行的最大模型及速度
Qwen2.5.1 Coder 7B在Aider排行榜上得分63.9%
构建通用人工智能(AGI)之二:解决强化学习问题的思路
新基准FrontierMath公布,LLM最高得分2%
Qwen2.5 - Coder将推出0.5B、3B、14B和32B版本
OpenCoder:性能媲美顶级代码语言模型的开源可复现代码语言模型家族
发布Vector Companion后进行重大性能更新
4090 SUPRIM X、M4 Max 40核GPU与128GB内存组合
Geekerwan使用Ollama在新M4 Pro和M4 Max芯片上对Qwen2.5 7B至72B进行基准测试
Chinchilla缩放定律与近期LLM改进存在矛盾
Meta新模型fractal_alpha体验与初步测评
基于大语言模型、检索增强生成(及代理?)的《龙与地下城》互动世界构建应用征求意见:请评判我的图表和想法?是否已有类似产品?
分析12个基准测试,为不同用例找到合适规模的大语言模型
Qwen 2.5 Coder 7B与1.5B Instruct模型权重更新
发布两周后,旧版Sonnet 3.5在LiveCodeBench上仍胜过新版Sonnet
AMD Threadripper 3600与256GB内存运行本地大语言模型的可行性
RTX 3060 12GB可运行的最佳成人角色扮演模型
微软悄然发布用于解决复杂任务的开源多智能体系统Magentic - One及AutogenBench
Qwen 2.5登上官方LiveCodeBench排行榜
200美元单板计算机运行3B模型,每秒约10+个token,可做什么?
8B VLM在130美元RK3588单板计算机上运行,NPU加速 - 4个令牌/秒,6.5秒延迟(MiniCPM - V 2.6)
基于LLaMa架构的零样本语音克隆OuteTTS - 0.1 - 350M,CC - BY许可
Qwen2.5 - Coder - 32B的发布进度
RTX 3090与Threadripper 3970X及256GB内存的LLM推理基准测试
成功购买更多内存后运行Llama 3.1 405B
用Llama 3.2 3B模型意外构建终端命令伙伴
Hertz - Dev:单RTX 4090上理论80ms、实际120ms延迟的85亿参数开源音频对话AI模型
英伟达发布涉及2亿Linux和Windows游戏玩家的安全警告
英特尔Arrow Lake可支持4个DIMM,速度最高达6400
Llama 3.2 90b - vision去向成谜
推出语义集成层级联(CaSIL):一个过度设计却有效的思维/推理算法
苹果M4 Max芯片:高达546GB/s的内存带宽
llama.cpp在不同设备/后端下的计算与内存带宽效率
使用Flux Fast快速创建近实时图像生成应用(代码少于50行)
Hugging Face发布SmolLM v2,含不同规模版本
Ollama新漏洞:更多模型,更多概率语言模型风险
Meta发布MobileLLM系列模型(125M、350M、600M、1B)
Llama 4模型将于2025年初推出,将在超10万个H100集群上训练且具备新特性
对SuperNova - Medius - GGUF的看法
Starcannon - Unleashed - 12B - v1.0问世:融合两大模型的成果
MacBook Pro M4 Max:内存带宽高达526GB/s
构建本地替代OpenAI API的Cortex之旅
自制可访问谷歌邮箱、日历和任务的个人助手来管理时间克服ADHD
OpenAI将于2026年开始使用AMD芯片并可能自制AI硬件
谷歌新研究:松弛递归变换器,通过跨层共享参数在最小性能损失下缩小现有大语言模型
Meta发布Layer Skip:端到端LLM加速解决方案
开发可在iOS、macOS和visionOS运行MLX模型的应用
Mac Mini性价比凸显:比5090便宜且VRAM近翻倍
Stable Diffusion 3.5 Medium发布于Hugging Face
MacOS 15.1中的Apple Intelligence提示模板
三个增强版的Llama 3.2模型,每个7B用于创意用途且无审查
中美顶尖大语言模型间隔仅5个月,中国排名第一且世界第六的模型仅用2000个H100训练即达SOTA
Mistral.rs v0.3.2金属性能提升26%并推出PyPI安装包
开源Promptwright:用本地LLM生成大型合成数据集
M1 - 3 Max运行20 - 32B模型的处理和生成速度
在本地低端RTX3000 GPU上运行Llama的最佳方式
哪些开源模型可与gpt - 4o - mini相媲美
测试1B/3B小语言模型在本地RAG中的能力及收获
Mistral - Nemo 12b编码优势下的竞品探寻
视觉标记器:助力大型语言模型在网页创建自动化的扩展工具
glm - 4 - voice - 9b可在12GB GPU上运行
推理引擎之战:Llama.cpp、MLC LLM与vLLM的对比测试
Ollama已推出llama3.2 - vision测试版
Cohere发布Aya Expanse多语言AI模型家族
微软悄然发布OmniParser:视觉代理截图转结构化元素工具
新型金融领域模型Hawkish 8B通过CFA一级且在数学和金融基准测试中胜过Meta Llama - 3.1 - 8B - Instruct
Tinybox Pro (8 x RTX 4090)内部一瞥
Drummer发布123B v1.1的Behemoth和22B v1.2的Cydonia创意版
两款10B新模型:作家“J.古登堡”与作家 - “不羁之笔”(无审查)
Llama 405B在Nvidia H200 SXM上可达142 tok/s
Mistral发布Pixtral基础模型:Pixtral - 12B - Base - 2409
Drummer"s Nautilus 70B v0.1:L3.1 Nemotron 70B的RP微调版本
G.Skill新款DDR5 - 9600 CUDIMM内存条风冷可达DDR5 - 10000速度
智谱AI发布开源端到端语音大模型GLM - 4 - Voice
Cerebras推理速度提升3倍:Llama3.1 - 70B每秒突破2100个token
xMAD推出市场上最佳量化Llama3.1-405B和8B模型
Prime Intellect AI本月推出INTELLECT - 1:开创性的100亿参数民主AI语言模型
VSCode结合Cline、VLLM与Qwen2.5实现快速运行
笔记本上搭载2个64GB VRAM的MI60?雷电4多eGPU!
ChatterUI v0.8.0发布 - 现支持外部模型加载
使用4块RTX 3090对MLC LLM和Mistral Large Instruct 2407 q4f16_1进行功率缩放测试(150 - 350瓦)
扎克伯格:发布量化版Llama 1B和3B设备模型
CohereForAI发布aya - expanse - 32b模型
推出Arch - 用于快速且可观测的智能体应用的开源智能中间件
Claude 3.5 Sonnet在SimpleBench得分提升
Aider:在24GB VRAM下优化性能(持续微调)
Qwen 32B全面微调用于角色扮演/故事创作:EVA
发布免费竞品VisioPilot,可本地运行LLM
Claude Sonnet 3.5登顶Aider排行榜,大幅领先对手
Anthropic博客:Claude在编码演示中突然暂停查看黄石公园照片
推出Fast Apply - 复现Cursor的即时应用模型
Hugging Face CEO称AI领域封闭性增强协作性减弱影响发展
小参数语言模型(260k参数)在Dalek内部运行
花费数周构建无代码网络自动化工具,Anthropic推出计算机使用API使其面临困境
Genmo发布Mochi 1:新的SOTA开源视频生成模型(Apache 2.0许可)
Claude 3.5 Sonnet:计算机使用体验?
Transformers.js v3发布:多项新特性