2024 年  2132

12 月   47

03 日   13

英特尔战戟(Battlemage)GPU发布

 ·  · 

Qwen QwQ在辅助编码基准测试中表现平平

 ·  · 

Llama.cpp漏洞修复!推测解码速度提升30%且上下文长度翻倍

 ·  · 

亚马逊推出其大型语言模型家族Nova

 ·  · 

英伟达实验室的SANA:高分辨率图像生成

 ·  · 

耐力100B v1鼓手模型:精简版米斯特拉尔大型2407 123B且经RP微调

 ·  · 

SmolChat:在安卓设备本地运行GGUF SLMs/LLMs

 ·  · 

Bitnet是否为假?

 ·  · 

Hugging Face推出本地微调大语言模型免费开源课程

 ·  · 

LM Studio终可在NPU(高通骁龙Copilot+ PC)上运行

 ·  · 

与70B模型还是70个1B模型战斗

 ·  · 

VLLM支持AMD Radeon GPU运行gguf

 ·  · 

Llama 70b多步工具实现

 ·  · 

02 日   20

AI Linux爱好者使用RTX GPU时可能存在过热无提示情况

 ·  · 

当前最喜爱的模型

 ·  · 

微调器/量化器的终结,要回归到种子下载吗?

 ·  · 

ONNX为何在大语言模型领域未能成功

 ·  · 

Huggingface免费账户存储模型新限额为500Gb

 ·  · 

Qwq回答冗长且无重点

 ·  · 

Nous DisTrO更新,宣布新15b模型及DeMo论文

 ·  · 

尝试制作可在云端免费使用的无审查版Llama 405b模型

 ·  · 

Hugging Face为超25万公共数据集添加Text to SQL功能,由Qwen 2.5 Coder 32B提供支持

 ·  · 

开源AI与国家安全:监管呼声渐高

 ·  · 

企业实际生产中部署大语言模型的实用数据库

 ·  · 

Mistral许久未发布新内容

 ·  · 

惠普售卖英伟达A6000

 ·  · 

AMD GPU与Llama cpp组合时性能显著降低,求原因

 ·  · 

我构建此工具来比较大语言模型

 ·  · 

开源才是正途

 ·  · 

OpenAI CEO称开放权重AI模型不好,因DeepSeek和Qwen 2.5?

 ·  · 

超强大的Open - WebUI: 我的arXiv、图像生成和AI规划神奇工具包

 ·  · 

本地AI才是唯一的AI

 ·  · 

Apache Tika与Docling文本提取对比

 ·  · 

01 日   14

用JPEG压缩大型语言模型权重的思考

 ·  · 

Nemotron 70b与Qwen2.5 72b性能对比

 ·  · 

卡帕西又一成功之处

 ·  · 

寻找可修正英语语法的模型(类似Grammarly只修正语法功能)

 ·  · 

QwQ与o1等的对比示例

 ·  · 

Drummer"s Behemoth 123B v1.2 - 最终版

 ·  · 

安培架构显存大于24GB的GPU对比

 ·  · 

下一代基于视觉语言模型的OCR实际需求在哪?是否用于RAG?

 ·  · 

NVIDIA GPU的FP16性能列表(面向ExllamaV2/EXUI/TabbyAPI用户)

 ·  · 

Qwen 2.5 14B:为角色扮演进行无审查微调

 ·  · 

3个P40设备运行llama.cpp,推测解码是否加速?

 ·  · 

6000美元工作站构建反馈

 ·  · 

QwQ模型被微调后不再审查

 ·  · 

开源重要性的原因

 ·  · 

11 月   416

30 日   11

最佳AI聊天客户端搜索体验

 ·  · 

F5 - TTS语音克隆的最佳尝试

 ·  · 

最佳开源语音合成(TTS)模型是哪个?

 ·  · 

KoboldCpp 1.79发布:多项新功能更新

 ·  · 

Epyc Turin双CPU系统STREAM TRIAD内存带宽基准值近1TB/s

 ·  · 

优化XTTS - v2:10分钟内语音合成《哈利·波特》第一部且仅需约10GB显存

 ·  · 

距离优于两块3090的家庭实验室解决方案还有多远?

 ·  · 

Qwen浏览器相关

 ·  · 

可找到的所有MCP服务器列表

 ·  · 

阿拉伯语提问后以俄语和汉语思考

 ·  · 

INTELLECT - 1发布(指令+基础版):首个协同训练模型

 ·  · 

29 日   15

乔治 - AI:一个利用AI轻松实现自然语言控制计算机的API

 ·  · 

iPhone 14Pro可运行的最佳模型测试

 ·  · 

AtheneV2 72B:Qwen微调版本,专注代码补全、数学和日志提取

 ·  · 

使用Docker、Colab和Unsloth在本地16GB显存GPU上构建最便捷的VLM微调环境

 ·  · 

QwQ - 分离思维过程与最终输出的最佳方法

 ·  · 

双RX 7900 XTX下的AI模型测试

 ·  · 

Aion-RP-Llama-3.1-8B:全新角色扮演大师

 ·  · 

本地微调大型语言模型的最佳方案及16GB可训练内容

 ·  · 

Whisper用于实时转录为何无提示缓存?

 ·  · 

GLM - Edge系列:1.5B - 5B,聊天与视觉

 ·  · 

构建和使用llama.cpp的终极指南

 ·  · 

自制免费在线工具,将代码库转换为提示

 ·  · 

QWQ和R1无特殊标记时如何判断需更多推理步骤

 ·  · 

11月重大人工智能事件

 ·  · 

Vercel的AI组件生成器v0泄露的系统提示

 ·  · 

28 日   16

Qwen团队实验推理模型QwQ-32B - Preview在HuggingChat免费上线

 ·  · 

QwQ思考10000个token后给出的最搞笑笑话

 ·  · 

QwQ编码,惊叹于其良好表现

 ·  · 

14英寸M4 Max 128GB是否适合123B模型

 ·  · 

RTX 4090价格在5090发布时会大幅下降吗

 ·  · 

阿里巴巴QwQ表现惊人,英文提示偶尔出汉字

 ·  · 

LLaMA - Mesh本地在Blender中运行

 ·  · 

Deepseek新多模态模型Janus可在浏览器本地运行

 ·  · 

QwQ - 32B - Preview在farel - bench中的基准测试结果为96.67,优于Claude 3.5 Sonnet,略逊于o1 - preview和o1 - mini

 ·  · 

Stella嵌入模型性能佳但未广泛使用的原因

 ·  · 

本地运行QwQ - 32B 4位量化模型的误导向注意力评估,它胜过o1 - preview和o1 - mini

 ·  · 

阿里QwQ 32B模型挑战多模型且开源

 ·  · 

钢开发:人工智能代理的开源浏览器API

 ·  · 

Qwen发布QwQ预览版:提升AI推理能力的开放模型

 ·  · 

Anthropic“通用”MCP令人失望

 ·  · 

如何使用Mistral处理成人内容(小白科普)

 ·  · 

27 日   11

如何跟进当下最佳工具及其使用方法

 ·  · 

Judge Arena排行榜更新

 ·  · 

通过搜索扩展小模型:用0.5B微调+奖励模型匹配28倍大模型

 ·  · 

Qwen推理模型疑问

 ·  · 

AI探索中的一些随机问题

 ·  · 

Qwen或采用测试时缩放技术深入探索未知边界

 ·  · 

AWS发布百分百开源的多智能体AI框架

 ·  · 

预训练大语言模型微调需多久

 ·  · 

最便宜运行32B模型的硬件

 ·  · 

使用Qwen2.5 - Coder - 32B - Instruct数日后的评测

 ·  · 

Qwen2.5 - Coder - 32B - Instruct - AWQ本地运行及与OptiLLM和Aider的基准测试

 ·  · 

26 日   15

OLMo 2模型发布

 ·  · 

深度探索R1 - Lite可解决所有问题

 ·  · 

欧洲新模型openGPT - X Teuken 7B发布

 ·  · 

无有效信息可生成标题

 ·  · 

大语言模型(LLM)发布数量随时间的下降趋势已清晰可见

 ·  · 

Amica开源聊天机器人接口功能多样且可定制

 ·  · 

Hugging Face发布SmolVLM

 ·  · 

Sentient发布:本地个人助手,由Llama 3.2 3B驱动

 ·  · 

提示大小对速度的巨大影响

 ·  · 

大型模型的无损4位量化是否可行?

 ·  · 

1.5B模型的这个结果很棒吗?还是我缺觉疯了?

 ·  · 

AI时代的信息误导加速——以Reflection-70B为例

 ·  · 

MoDEM:领域专家模型混合体

 ·  · 

鼠标/键盘大语言模型导航项目

 ·  · 

MLX LM 0.20.1速度可与llama.cpp相媲美

 ·  · 

25 日   13

电脑装有两块7900XTX显卡,电源1000W是否会损坏

 ·  · 

模型上下文协议问世

 ·  · 

首次在本地设备运行Qwen2 - Audio进行语音聊天和音频分析

 ·  · 

构建利用树搜索完成任务的代理库

 ·  · 

Qwen2 - VL - Flux相关

 ·  · 

llama.cpp服务器采用推测解码,速度提升25% - 60%

 ·  · 

我现在能部分解释大语言模型下国际象棋的怪异之处

 ·  · 

小型模型令人印象深刻,用途广泛

 ·  · 

大规模LLM部署的经验分享

 ·  · 

新型轻量级文本到语音模型OuteTTS - 0.2 - 500M

 ·  · 

10000美元预算购置1台AI机器/服务器,求建议

 ·  · 

测试大语言模型的网络安全知识(15个模型受测)

 ·  · 

Optillm中的代码链推理在AIME 2024上击败o1 - preview

 ·  · 

24 日   12

用开源大语言模型创建聊天机器人产品是否值得

 ·  · 

AI视频合成工具:Qwen2.5 - 32B Coder与FFmpeg助力

 ·  · 

基于Qwen 2.5复现Teleut 7B - Tulu 3 SFT

 ·  · 

EXL2推理质量问题

 ·  · 

开源o1模型对9.9和9.11大小比较的可爱回答

 ·  · 

Behemoth系列模型v2.0 - v2.2的新特性与推荐

 ·  · 

类似SETI@home,助力召唤(AI相关)

 ·  · 

Mac Mini Exo:预算内可完全升级

 ·  · 

英特尔Arc最佳推理引擎

 ·  · 

Qwen2.5 - Coder - 32B - Instruct量化实验

 ·  · 

Drummer的Cydonia 22B v1.3与The Behemoth v1.1在22B的神奇之处

 ·  · 

能否使用非结构化文本文件微调大语言模型

 ·  · 

23 日   11

48GB VRAM以下最智能的无审查模型?

 ·  · 

苹果与骁龙的NPU信息

 ·  · 

Qwen2.5 14b模型(常规版和编码版)是否足以用于实际工作?

 ·  · 

Athene V2 Chat在特定任务上接近GPT - 4o和Claude 3.5

 ·  · 

性价比超高的AI硬件配置

 ·  · 

16GB显存下22B的Q4km或Q5的选择以及14B的Q4km Qwen2.5是否适合本地Gpt4o mini

 ·  · 

SmolLM2 - 135M - Instruct无需GPU即可快速总结网页搜索结果

 ·  · 

深度探索Deepseek CoT

 ·  · 

Meta在LMSYS竞技场上放置大量未发布模型

 ·  · 

分享你的通义千问编码者2.5设置耗时

 ·  · 

更新AI研究助手,支持OpenAI端点与Ollama

 ·  · 

22 日   15

连接多台电脑至强大LLM站以获取128GB显存的最佳方式

 ·  · 

是否有人在培育大型语言模型?

 ·  · 

不同模型编写可编译Rust代码性能比较

 ·  · 

Qwen:开源模型的替代选择

 ·  · 

需要更多显存(VRAM)

 ·  · 

大型PDF文档总结

 ·  · 

DeepSeek R1 Lite比其他模型更令人印象深刻

 ·  · 

英特尔开源大语言模型INTELLECT - 1完成训练

 ·  · 

Claude渴望与本地部署的Mistral聊天并克服相关限制

 ·  · 

阿里巴巴发布Marco O1,推进人工智能的开放式推理

 ·  · 

Deepseek与OpenAI竞争,谷歌在LMSYS排行榜胜过OpenAI

 ·  · 

深度探索Chad Deepseek

 ·  · 

创建v1.3 RPMax模型时发现损坏的标记器需警惕

 ·  · 

Marco - o1:迈向开放式解决方案的开放推理模型

 ·  · 

Vercel的AI组件生成器v0版系统提示泄露

 ·  · 

21 日   17

使用LM Studio测试MLX模型:推理速度小增但内存大增

 ·  · 

量化对Aider基准测试的影响

 ·  · 

Llama 3.2 Vision在Unsloth中可微调,16GB VRAM内且速度快2倍

 ·  · 

谷歌发布新模型登顶LMSYS

 ·  · 

明确表达:对《让我畅所欲言》的回应

 ·  · 

图卢3——一组拥有完全开放数据、评估代码和训练算法的最先进指令模型

 ·  · 

大语境窗口将如何改变大型语言模型格局

 ·  · 

AMD RX7900XTX 24GB与NVIDIA 4070Ti Super 16GB个人使用对比

 ·  · 

PocketPal AI集成Hugging Face模型库

 ·  · 

三星TinyClick:用于GUI自动化的单轮代理(0.27B,MIT许可)

 ·  · 

三星推出高斯2:三种尺寸的多模态生成式AI模型

 ·  · 

DeepSeek R1 lite表现惊艳,远超Qwen 2.5 coder

 ·  · 

M4 Max以11个令牌/秒运行Qwen 72B Q4 MLX

 ·  · 

苹果硅芯片(MLX)上Mistral大模型的新MLX量化版本

 ·  · 

DeepSeek AI的R1 - Lite - Preview展现强大实力

 ·  · 

NaturalLM:一款发音自然的大语言模型

 ·  · 

双通双倍能否提升模型性能

 ·  · 

20 日   18

CrisperWhisper在开放ASR排行榜中位居第二

 ·  · 

寻求拥有64GB内存M4版MacBook Pro的用户帮助

 ·  · 

AICI助力实时重写语境、受限生成与回溯KV - 缓存

 ·  · 

通过神经细胞自动机(NCA)在大型语言模型(LLM)中实现推理

 ·  · 

深源宣布R1 lite,在部分基准测试中胜过o1预览版

 ·  · 

新采样策略:T=3.0时准确率达75%

 ·  · 

思维链模型是这样工作的吗?

 ·  · 

求Mistral - Large - 2411新模型基准测试

 ·  · 

DeepSeek - R1 - Lite预览版正式发布

 ·  · 

自制可做研究的AI助手,基于Ollama本地运行

 ·  · 

评判竞技场排行榜:将大语言模型作为评估器进行基准测试

 ·  · 

代理内存相关项目

 ·  · 

闭源模型规模推测

 ·  · 

可靠的大语言模型编码任务排名榜

 ·  · 

树莓派上的大语言模型硬件加速(以低成本树莓派为基础计算机搭配高端AMD GPU)

 ·  · 

中国AI初创公司StepFun新万亿参数MOE模型在Livebench排名前列

 ·  · 

小型大语言模型的最佳用例

 ·  · 

考虑添加另一块RTX 3090

 ·  · 

19 日   11

美国会委员会建议国会开展类曼哈顿计划竞赛以达AGI

 ·  · 

Nvidia发布LLaMA - Mesh权重,推理代码可用

 ·  · 

Mistral发布Pixtral - Large及Mistral - Large更新

 ·  · 

ChatGPT搜索功能:比Perplexity更好吗?

 ·  · 

Qwen 2.5 32B解决所有问题

 ·  · 

LLMs作为评估器的基准测试:Judge Arena

 ·  · 

为何没有20 - 35B新模型来满足我的需求

 ·  · 

txtai 8.0发布:极简主义者的代理框架

 ·  · 

Llama 3.1 405B在Cerebras推理平台上每秒运行969个令牌

 ·  · 

Athene - V2为何无人问津?

 ·  · 

构建8x4090服务器的方法

 ·  · 

18 日   19

对同时与多模型交互的在意程度

 ·  · 

可自行训练的最强大型语言模型

 ·  · 

利用大语言模型进行编码示例

 ·  · 

寻求更优雅的扩展建议

 ·  · 

流行本地大语言模型EXL2量化的MMLU(4个类别)基准测试

 ·  · 

AMD GPU通过Vulkan在树莓派5上支持llama.cpp

 ·  · 

量化与Lora结合可全模型训练

 ·  · 

Pixtral Large发布:基于Mistral Large 2的视觉模型

 ·  · 

Mistral - Large - Instruct - 2411模型在Hugging Face

 ·  · 

11月18日Mistral Large 2411和Pixtral Large发布

 ·  · 

Q5与Q6量化模型的质量差异探讨

 ·  · 

AMD Ryzen AI 300系列加速消费级LLM应用中的Llama.cpp性能

 ·  · 

RTX 4090本地运行最佳编码助手模型评估

 ·  · 

Qwen2.5 - Turbo将上下文长度扩展到100万 tokens

 ·  · 

本地语音模型能否用于制作有声读物

 ·  · 

有人在llama.cpp为Qwen2VL创建拉取请求

 ·  · 

求推荐13B通用模型

 ·  · 

vLLM性能惊人

 ·  · 

用CLIP和文本嵌入模型创建全系统图像搜索工具

 ·  · 

17 日   10

语音助手现状如何?

 ·  · 

为开发者构建AI代理目录

 ·  · 

4090上Qwen 2.5的最佳设置分享

 ·  · 

Qwen 2.5 Coder 32B与Claude 3.5 Sonnet对比:是我错了吗?

 ·  · 

Chonkie:用于文本分块的RAG库

 ·  · 

Beepo-22B:基于Mistral Small微调的无审查模型

 ·  · 

12GB显存下,哪种Qwen模型最适合编码?

 ·  · 

本地运行大语言模型的选择与偏好

 ·  · 

开源项目/工具被OpenAI锁定?

 ·  · 

英伟达性能预测生成

 ·  · 

16 日   15

RAG最佳选择:Olama、LM Studio、AnythingLLM、Openwebui

 ·  · 

热门本地大型语言模型EXL2量化的HumanEval基准测试(涵盖2.5到8.0 bpw)

 ·  · 

Ollama与维基百科的结合?

 ·  · 

LLM咖啡馆的硬件配置

 ·  · 

元提示已出现

 ·  · 

Mistral AI发布Mistral Large 3和Pixtral Large(目前似乎仅API可用)

 ·  · 

构建RAG的困惑

 ·  · 

双3090下最佳无审查写作模型

 ·  · 

Nvidia推出LLaMA - Mesh:用Llama 3.1 8B生成3D网格,即将发布权重

 ·  · 

新构建完成 - 需GPU共享建议

 ·  · 

构建用于Aya - Expanse - 8B推理的迷你PC - 寻求建议!

 ·  · 

Codai:终端中的AI代码助手可理解完整项目上下文

 ·  · 

单文档训练模型的可行性

 ·  · 

Gemini-exp-1114在LiveBench上胜过GPT-4o,不敌sonnet和o1

 ·  · 

Memoripy:为AI带来短期和长期记忆存储

 ·  · 

15 日   13

LLMs被低估和过度炒作的原因

 ·  · 

OpenAI、谷歌和Anthropic构建更先进AI遇阻

 ·  · 

LLMs与国际象棋的怪异现象

 ·  · 

Gemma和Phi模型更新久未发布,3代和4代何时到来

 ·  · 

3090、4080super与A6000硬件选择对比

 ·  · 

中国公司仅用2000个GPU训练GPT - 4竞品

 ·  · 

小型语言模型使用体验

 ·  · 

技嘉推出AMD Radeon PRO W7800 AI TOP 48G显卡

 ·  · 

适用于苹果GPU的最佳语音合成(TTS)

 ·  · 

锐龙9 HX 370新APU推理性能如何

 ·  · 

Qwen 2.5 7B在Livebench中超越Mixtral 8x22B和Claude 3 Haiku

 ·  · 

5000英镑搭建大语言模型设备的最佳方案

 ·  · 

Omnivision - 968M:适用于边缘设备的视觉语言模型,标记减少9倍

 ·  · 

14 日   14

用Python编写可本地运行的语音自动回复未读邮件程序

 ·  · 

Qwen2.5 - Coder - 32B推理VRAM计算待确认

 ·  · 

构建可即时生成AI包装器的应用

 ·  · 

扩散模型有Loras,LLM为何没有?

 ·  · 

Nexusflow发布Athene - V2 - Chat和Athene - V2 - Agent

 ·  · 

Gemini Exp 1114在Chatbot Arena排名并列第一

 ·  · 

大型文档的RAG应用

 ·  · 

Claude 3.5惊现用户姓氏 - 隐私怪异现象

 ·  · 

ollama llama3.2 - vision:11b无图像时比llama3.1:8b慢20倍

 ·  · 

Qwen 32B Coder与72B在最新力扣题目的对比

 ·  · 

LLM微调的最佳实践

 ·  · 

在RTX 3050 Ti (4GB)的PyCharm中本地运行Qwen2.5 - Coder - 1.5B进行实时代码补全

 ·  · 

是否有人对qwen2.5 - coder:32b进行过量化比较?

 ·  · 

对Qwen2.5 - 14B的看法

 ·  · 

13 日   15

LLM模型的重复性与创造性及基于Qwen2.5 32B的ArliAI RPMax v1.3模型简述

 ·  · 

MMLU - Pro分数与推理成本

 ·  · 

传英伟达RTX 5090将投入生产,显存32GB

 ·  · 

高质量视频背景去除流程

 ·  · 

你的RAG技术栈是什么?

 ·  · 

Qwen 2.5 32B指令型与72B指令型对比

 ·  · 

大语言模型为何不擅长幽默?

 ·  · 

Aider Composer:实现Aider与VSCode无缝集成

 ·  · 

8GB显存下的最佳模型

 ·  · 

Qwen2.5-coder-32b-instruct的语言提示结果差异

 ·  · 

Qwen2.5 Coder创作的《贪吃蛇》手机游戏及开放网页界面成果

 ·  · 

开源桌面工具与大型语言模型交互

 ·  · 

CS毕业生都以为自己的“AI”是下一个独角兽,我受不了了

 ·  · 

精度扩展定律:BitNet是否好得难以置信?

 ·  · 

新的开源背景去除模型BEN达最先进水平

 ·  · 

12 日   16

Anthropic CEO被质疑是否简化模型

 ·  · 

如何顺利使用Qwen2.5 - Coder - Instruct

 ·  · 

Qwen 2.5 Coder与128K上下文窗口GGUFs的漏洞修复

 ·  · 

NousResearch推出Forge Reasoning API测试版和NousChat

 ·  · 

用Qwen2.5 - Coder 32b编写基本的chip8模拟器

 ·  · 

Qwen 2.5 Coder 14b在技术报告的多个基准测试中逊于7b - 奇怪!

 ·  · 

大语言模型在保持质量情况下成本逐年降10倍

 ·  · 

Qwen 2.5 32B Coder处理Cline提示不佳,易产生幻觉

 ·  · 

在Qwen2.5 - Coder:32b - Instruct - Q8_0上尝试此提示

 ·  · 

BitNet项目的问题在哪里?

 ·  · 

FastAPI - BitNet项目:通过FastAPI、Uvicorn和Docker运行微软BitNet

 ·  · 

最轻的人工智能设置

 ·  · 

0.5B语言模型的预期表现

 ·  · 

Pixtral仍未发布GGUF版本?

 ·  · 

开源AI模型迎来黄金时代

 ·  · 

Qwen-2.5-Coder 32B:革新编码的AI

 ·  · 

11 日   24

Qwen 2.5 Coder 32B可在HuggingChat免费使用

 ·  · 

原GPT - 4能答对的测试提示,Qwen - Coder - 32B也能答对

 ·  · 

在Macbook M4 Max上测试Qwen Coder 2.5 32b q8和q2_k的初步结果

 ·  · 

qwen - 2.5 - coder 32B使用3xP40和3090的基准测试

 ·  · 

谁将发布下一个有趣的模型?

 ·  · 

阿里如何在Cursor中运行通义千问32B

 ·  · 

疑似Qwen2.5 - Coder 72b

 ·  · 

内容无实质意义,无法生成有效标题

 ·  · 

Qwen - Coder的下一步计划

 ·  · 

我的AI开发者首月经历

 ·  · 

Qwen/Qwen2.5 - Coder - 32B - Instruct模型于Hugging Face发布

 ·  · 

Aider排行榜上的新Qwen模型!

 ·  · 

使用4台M4 Pro Mac Minis与雷电5(80Gbps)互联分布大型语言模型

 ·  · 

二进制向量嵌入超酷

 ·  · 

2位量化与小模型的抉择

 ·  · 

人类轻松完成而AI难以完成的基准测试

 ·  · 

AlphaFold 3模型代码与权重可供学术使用

 ·  · 

具有隐私功能的个人NotebookLM和类Perplexity的AI助手

 ·  · 

Ichigo-llama3.1 v0.4:MMLU得分64.66,多轮对话追踪更佳并拒非语音输入

 ·  · 

期待Qwen 2.5 32b,虽需临时抱佛脚

 ·  · 

Qwen Coder引发新热潮

 ·  · 

使用Llama 3.2 11B描述视频

 ·  · 

A100 32G SXM2计算卡用于Windows本地LLM

 ·  · 

MIT团队利用8B大语言模型结合测试时训练在ARC - AGI - PUB上得分达61.9%

 ·  · 

10 日   11

多语言模型与扩散模型的联合使用

 ·  · 

1TB内存能否满足DeepSeek v2.5 fp8最大上下文长度运行需求

 ·  · 

M4 128到手,有哪些好玩的尝试?

 ·  · 

Claude AI将通过与Palantir的新协议处理政府机密数据

 ·  · 

轻量级开源大语言模型用于自定义模式的文本到JSON转换

 ·  · 

寻求羊驼模型(Llama)使用者

 ·  · 

美国下令台积电停止向中国运送用于AI应用的芯片

 ·  · 

谷歌Trillium TPU(v6e)简介

 ·  · 

汇总已知的所有人工智能驱动的网络搜索软件

 ·  · 

升级我的设备

 ·  · 

Qwen2.5 - 更多参数还是更少量化?

 ·  · 

09 日   16

LMSYS新匿名大语言模型:蓝莓

 ·  · 

利用Florence - 2与Llama 3.2 Vision构建高级图像字幕应用[开源]

 ·  · 

有比Llama更适合电脑小白的离线/本地大语言模型吗(通过Ollama安装时)

 ·  · 

API探索后意识到ChatGPT和Claude记忆功能的价值

 ·  · 

今日创作的一些趣味图像

 ·  · 

Mac Mini M4 16GB测试结果

 ·  · 

修复Claude

 ·  · 

对Ministral 8B的看法

 ·  · 

构建一个支持多用户、有API且可用于其他自托管服务的Ollama支持的自托管Perplexity克隆版,还有哪些需要考虑的?

 ·  · 

GraphLLM框架更新,新增多特性

 ·  · 

大卫·奥(DavidAU)发布三个新模型

 ·  · 

48GB M4 Macbook Pro可运行的最大模型及速度

 ·  · 

Gemini可从OpenAI库访问

 ·  · 

Qwen2.5.1 Coder 7B在Aider排行榜上得分63.9%

 ·  · 

免费使用3080Ti处理无限请求

 ·  · 

构建通用人工智能(AGI)之二:解决强化学习问题的思路

 ·  · 

08 日   15

新基准FrontierMath公布,LLM最高得分2%

 ·  · 

Qwen2.5 - Coder将推出0.5B、3B、14B和32B版本

 ·  · 

OpenCoder:性能媲美顶级代码语言模型的开源可复现代码语言模型家族

 ·  · 

发布Vector Companion后进行重大性能更新

 ·  · 

MoE模型为何不那么流行

 ·  · 

LLMs下象棋的情况及其对AGI的启示

 ·  · 

GGUF量化方法缺乏合理的解释

 ·  · 

4090 SUPRIM X、M4 Max 40核GPU与128GB内存组合

 ·  · 

选择Linux系统时的发行版推荐及理由

 ·  · 

Geekerwan使用Ollama在新M4 Pro和M4 Max芯片上对Qwen2.5 7B至72B进行基准测试

 ·  · 

7B模型与GPT-4 Turbo性能相当

 ·  · 

是否有人正在快速训练GPT?

 ·  · 

往昔回顾:万斯与科斯拉的开源之争

 ·  · 

Chinchilla缩放定律与近期LLM改进存在矛盾

 ·  · 

Llama.cpp发布新的服务器前端

 ·  · 

07 日   9

Meta新模型fractal_alpha体验与初步测评

 ·  · 

谷歌意外泄露Jarvis AI可接管计算机预览版

 ·  · 

编写应用与赫兹(语音到语音模型)互动

 ·  · 

基于大语言模型、检索增强生成(及代理?)的《龙与地下城》互动世界构建应用征求意见:请评判我的图表和想法?是否已有类似产品?

 ·  · 

苹果智能服务器明年将配备M4 Ultra芯片

 ·  · 

分析12个基准测试,为不同用例找到合适规模的大语言模型

 ·  · 

本地羊驼的原生栖息地

 ·  · 

Qwen 2.5 Coder 7B与1.5B Instruct模型权重更新

 ·  · 

基于自由能原理构建AGI的构想

 ·  · 

06 日   13

发布两周后,旧版Sonnet 3.5在LiveCodeBench上仍胜过新版Sonnet

 ·  · 

Ollama现正式支持Llama 3.2视觉版

 ·  · 

新型超小语言模型:Wave网络

 ·  · 

AMD Threadripper 3600与256GB内存运行本地大语言模型的可行性

 ·  · 

RTX 3060 12GB可运行的最佳成人角色扮演模型

 ·  · 

AI寒冬来临前的应对之策(一):引言

 ·  · 

Llama 3.1 70B工具使用能力极差

 ·  · 

微软悄然发布用于解决复杂任务的开源多智能体系统Magentic - One及AutogenBench

 ·  · 

寻求本地可安装且具物理知识的大语言模型

 ·  · 

LLM竞技场惊现神秘新模型

 ·  · 

新PC组建:3090对新主机是否仍具意义?

 ·  · 

SORA即将到来?

 ·  · 

Qwen 2.5登上官方LiveCodeBench排行榜

 ·  · 

05 日   12

200美元单板计算机运行3B模型,每秒约10+个token,可做什么?

 ·  · 

构建设备端小语言模型(SLM)排行榜

 ·  · 

8B VLM在130美元RK3588单板计算机上运行,NPU加速 - 4个令牌/秒,6.5秒延迟(MiniCPM - V 2.6)

 ·  · 

自动标记帖子的原因不总是清晰

 ·  · 

寻找最佳小参数量且大语境窗的LLM模型

 ·  · 

角色扮演模型需具备推理能力,否则可信度低

 ·  · 

腾讯推出强大模型

 ·  · 

基于LLaMa架构的零样本语音克隆OuteTTS - 0.1 - 350M,CC - BY许可

 ·  · 

OpenAI新特性"预测输出"使用推测性解码

 ·  · 

腾讯推出389B MoE开源权重模型

 ·  · 

Qwen2.5 - Coder - 32B的发布进度

 ·  · 

程序员水平日益提高

 ·  · 

04 日   16

llama.cpp补丁使我的最大上下文大小翻倍

 ·  · 

预算硬件用于运行本地模型

 ·  · 

RTX 3090与Threadripper 3970X及256GB内存的LLM推理基准测试

 ·  · 

成功购买更多内存后运行Llama 3.1 405B

 ·  · 

临近2025年,3090显卡是否仍有意义

 ·  · 

需向她解释(无具体指向内容)

 ·  · 

寻求本地大语言模型解决方案以持续处理我的代码库

 ·  · 

失业后每小时需申请尽可能多的工作

 ·  · 

小型大语言模型100次想象随机人物的数据可视化

 ·  · 

英伟达A100 SMX4 64GB的初步测试情况

 ·  · 

用Llama 3.2 3B模型意外构建终端命令伙伴

 ·  · 

AMD使用性能调查

 ·  · 

Hertz - Dev:单RTX 4090上理论80ms、实际120ms延迟的85亿参数开源音频对话AI模型

 ·  · 

仅用FastAPI构建代理:小型语言模型大获成功

 ·  · 

处理未使用令牌的技巧?老是受阻

 ·  · 

最佳开源语音克隆(有大量参考音频)

 ·  · 

03 日   10

本地大语言模型独特的受欢迎用途

 ·  · 

英伟达发布涉及2亿Linux和Windows游戏玩家的安全警告

 ·  · 

探索聊天时AI内部的替代想法

 ·  · 

分析不同输入长度下各类TTS模型的延迟

 ·  · 

英特尔Arrow Lake可支持4个DIMM,速度最高达6400

 ·  · 

最佳(理想无审查)长文本模型(128k)?

 ·  · 

小模型(<5B)的MMLU - Pro分数

 ·  · 

Llama 3.2 90b - vision去向成谜

 ·  · 

3090显卡的最优功耗配置测试

 ·  · 

大AI公司为何不支持RAG解决方案?

 ·  · 

02 日   10

运行Llama3.1 70b需要多少内存?

 ·  · 

推理时模型能否自我重排?

 ·  · 

原来它不是开源的

 ·  · 

为AI计算机使用打造的安全桌面沙盒

 ·  · 

推出语义集成层级联(CaSIL):一个过度设计却有效的思维/推理算法

 ·  · 

苹果M4 Max芯片:高达546GB/s的内存带宽

 ·  · 

llama.cpp在不同设备/后端下的计算与内存带宽效率

 ·  · 

使用数台100k H100s训练Llama 4

 ·  · 

电源限制与核心时钟限制效率的最终测试

 ·  · 

微软的生成式AI脚本

 ·  · 

01 日   13

思维树(ToT)的发展现状

 ·  · 

AMD发布10亿参数完全开源模型

 ·  · 

Qwen2.5 14b是代理的最佳模型

 ·  · 

中国军队科学家利用Meta技术打造‘军事AI’

 ·  · 

IBM推出新库Docling,可转换文档格式

 ·  · 

试用.NET中的语义内核

 ·  · 

多数人是否在本地以gguf格式运行大语言模型?

 ·  · 

大语言模型的置信分数是否有意义?

 ·  · 

视觉大语言模型解释xkcd漫画的基准提案

 ·  · 

警察发声:生成式AI不存在CBRN灾难性风险

 ·  · 

Chat Arena排名的闭源和开源语言模型

 ·  · 

新量化方法——QTIP:格状编码量化与非相干处理

 ·  · 

同一机器上的两块GPU

 ·  · 

10 月   461

31 日   18

AI生成实时游戏玩法

 ·  · 

试用微软OmniParser

 ·  · 

Anthropic呼吁尽早进行AI监管

 ·  · 

使用Flux Fast快速创建近实时图像生成应用(代码少于50行)

 ·  · 

SmolLM2:用于设备端应用的最佳小模型

 ·  · 

Hugging Face发布SmolLM v2,含不同规模版本

 ·  · 

GPU速度与每秒令牌数和功耗[测试结果]

 ·  · 

征集最难结构化输出提示/模式并给出可用提示

 ·  · 

克劳德AI广告

 ·  · 

AI计算社交网络助力项目

 ·  · 

Ollama新漏洞:更多模型,更多概率语言模型风险

 ·  · 

最小可行的大型语言模型

 ·  · 

古登堡训练材料的问题

 ·  · 

Meta发布MobileLLM系列模型(125M、350M、600M、1B)

 ·  · 

Llama 4模型将于2025年初推出,将在超10万个H100集群上训练且具备新特性

 ·  · 

Whisper - Zero如何减少幻觉?

 ·  · 

对SuperNova - Medius - GGUF的看法

 ·  · 

十月的人工智能大事件

 ·  · 

30 日   12

新型AI生成媒体格式:非游戏非电影的"梦"

 ·  · 

Starcannon - Unleashed - 12B - v1.0问世:融合两大模型的成果

 ·  · 

借助大语言模型开始编程

 ·  · 

M4 Max支持高达128GB统一内存

 ·  · 

M4 Max Macs的最大内存容量相同,不理想

 ·  · 

苹果新MacBook Pro广告中的截图

 ·  · 

MacBook Pro M4 Max:内存带宽高达526GB/s

 ·  · 

构建100%在浏览器运行的段落重写器

 ·  · 

AI用于编码:支持哪些语言或对哪些语言效果好?

 ·  · 

构建本地替代OpenAI API的Cortex之旅

 ·  · 

目前最小的大语言模型有哪些?

 ·  · 

谷歌软件工程师和程序员数量的探究

 ·  · 

29 日   18

自制可访问谷歌邮箱、日历和任务的个人助手来管理时间克服ADHD

 ·  · 

OpenAI将于2026年开始使用AMD芯片并可能自制AI硬件

 ·  · 

谷歌新研究:松弛递归变换器,通过跨层共享参数在最小性能损失下缩小现有大语言模型

 ·  · 

RAG在大型代码库中的有效性

 ·  · 

Meta发布Layer Skip:端到端LLM加速解决方案

 ·  · 

开发可在iOS、macOS和visionOS运行MLX模型的应用

 ·  · 

Mac Mini性价比凸显:比5090便宜且VRAM近翻倍

 ·  · 

MacBook性能提升或使本地模型更易用

 ·  · 

苹果M4/Pro版Mac Minis开售

 ·  · 

在8块RX 480(4Gb)上运行Ollama

 ·  · 

Stable Diffusion 3.5 Medium发布于Hugging Face

 ·  · 

我糟糕的Llama 3.2视觉微调经历

 ·  · 

OSI发布开源AI定义1.0版本

 ·  · 

AI安全的危险风险

 ·  · 

MacOS 15.1中的Apple Intelligence提示模板

 ·  · 

伊利亚·苏茨克维访谈后模型可靠性发展

 ·  · 

文档理解非常困难:实例说明

 ·  · 

三个增强版的Llama 3.2模型,每个7B用于创意用途且无审查

 ·  · 

28 日   18

中美顶尖大语言模型间隔仅5个月,中国排名第一且世界第六的模型仅用2000个H100训练即达SOTA

 ·  · 

微调嵌入以用于RAG的经验教训

 ·  · 

RTX 5090或于1月发售,起售价2000美元

 ·  · 

8GB内存下的最佳<10B参数模型

 ·  · 

Mistral.rs v0.3.2金属性能提升26%并推出PyPI安装包

 ·  · 

开源Promptwright:用本地LLM生成大型合成数据集

 ·  · 

用视觉模型助力《帝国时代2》获胜

 ·  · 

超小语言模型有何意义?是否有用?

 ·  · 

成人角色扮演的大语言模型推荐

 ·  · 

Llama.cpp校正设置更新,推理引擎之战

 ·  · 

M1 - 3 Max运行20 - 32B模型的处理和生成速度

 ·  · 

在本地低端RTX3000 GPU上运行Llama的最佳方式

 ·  · 

CPU推理中核心数量的重要性

 ·  · 

哪些开源模型可与gpt - 4o - mini相媲美

 ·  · 

4张3090组建家庭服务器:构建建议与软件选择

 ·  · 

Pixtral表现惊艳

 ·  · 

测试1B/3B小语言模型在本地RAG中的能力及收获

 ·  · 

Mistral - Nemo 12b编码优势下的竞品探寻

 ·  · 

27 日   10

视觉标记器:助力大型语言模型在网页创建自动化的扩展工具

 ·  · 

Meta发布谷歌NotebookLM的开源版本

 ·  · 

对llama3提示格式的困惑

 ·  · 

glm - 4 - voice - 9b可在12GB GPU上运行

 ·  · 

推理引擎之战:Llama.cpp、MLC LLM与vLLM的对比测试

 ·  · 

最佳文档分析与智能引用RAG系统

 ·  · 

Ollama已推出llama3.2 - vision测试版

 ·  · 

Cohere发布Aya Expanse多语言AI模型家族

 ·  · 

微软悄然发布OmniParser:视觉代理截图转结构化元素工具

 ·  · 

Gemini 2令人失望?

 ·  · 

26 日   7

新型金融领域模型Hawkish 8B通过CFA一级且在数学和金融基准测试中胜过Meta Llama - 3.1 - 8B - Instruct

 ·  · 

AMD因AI需求不确定削减台积电订单

 ·  · 

避免大型语言模型自我回复的技巧

 ·  · 

Tinybox Pro (8 x RTX 4090)内部一瞥

 ·  · 

Drummer发布123B v1.1的Behemoth和22B v1.2的Cydonia创意版

 ·  · 

你最不受欢迎的大语言模型观点有哪些?

 ·  · 

两款10B新模型:作家“J.古登堡”与作家 - “不羁之笔”(无审查)

 ·  · 

25 日   17

Llama 405B在Nvidia H200 SXM上可达142 tok/s

 ·  · 

DeepMind与HF合作将水印引入模型推理

 ·  · 

Mistral发布Pixtral基础模型:Pixtral - 12B - Base - 2409

 ·  · 

Drummer"s Nautilus 70B v0.1:L3.1 Nemotron 70B的RP微调版本

 ·  · 

G.Skill新款DDR5 - 9600 CUDIMM内存条风冷可达DDR5 - 10000速度

 ·  · 

智谱AI发布开源端到端语音大模型GLM - 4 - Voice

 ·  · 

LLaMA.cpp主线合并DRY采样器

 ·  · 

是否有人使用1B或3B 3.2版Llama

 ·  · 

突破内存壁垒:对比损失近乎无限的批量大小缩放

 ·  · 

4090(24Gb显存)的LLM推荐

 ·  · 

白宫行动对开源的影响

 ·  · 

RAG有哪些你知道的GUI选项?

 ·  · 

最真实无审查的人工智能模型

 ·  · 

Cerebras推理速度提升3倍:Llama3.1 - 70B每秒突破2100个token

 ·  · 

大语言模型能否理解?理解的本质

 ·  · 

适用于‘计算机应用’类的最佳本地视觉模型

 ·  · 

距离能写出优秀作品的大语言模型还有多远?

 ·  · 

24 日   17

xMAD推出市场上最佳量化Llama3.1-405B和8B模型

 ·  · 

对新版Sonnet 3.5的失望

 ·  · 

Prime Intellect AI本月推出INTELLECT - 1:开创性的100亿参数民主AI语言模型

 ·  · 

VSCode结合Cline、VLLM与Qwen2.5实现快速运行

 ·  · 

笔记本上搭载2个64GB VRAM的MI60?雷电4多eGPU!

 ·  · 

一行代码对GGUF模型进行基准测试

 ·  · 

ChatterUI v0.8.0发布 - 现支持外部模型加载

 ·  · 

Meta发布量化版Llama模型

 ·  · 

使用4块RTX 3090对MLC LLM和Mistral Large Instruct 2407 q4f16_1进行功率缩放测试(150 - 350瓦)

 ·  · 

扎克伯格:发布量化版Llama 1B和3B设备模型

 ·  · 

CohereForAI发布aya - expanse - 32b模型

 ·  · 

支持5个以上GPU的最便宜主板

 ·  · 

LLMs的一些被低估的用途有哪些?

 ·  · 

我应拥有自己的大语言模型聊天记录

 ·  · 

Qwen Coder版本相比基础版本优势如何

 ·  · 

基于个人理念的精选模型

 ·  · 

本地项目新卡片

 ·  · 

23 日   15

使用Docker Compose运行本地AI栈

 ·  · 

推出Arch - 用于快速且可观测的智能体应用的开源智能中间件

 ·  · 

Claude 3.5 Sonnet在SimpleBench得分提升

 ·  · 

Aider:在24GB VRAM下优化性能(持续微调)

 ·  · 

Qwen 32B全面微调用于角色扮演/故事创作:EVA

 ·  · 

单3090(或4090)可使用的模型列表

 ·  · 

深入探究Claude的视觉代理计算机使用

 ·  · 

适配单张3090的最智能模型

 ·  · 

何时会有本地开源的Suno?

 ·  · 

新旧Claude 3.5:速度与输出质量快速评测

 ·  · 

发布免费竞品VisioPilot,可本地运行LLM

 ·  · 

当今最佳3B模型?

 ·  · 

Claude Sonnet 3.5登顶Aider排行榜,大幅领先对手

 ·  · 

Anthropic博客:Claude在编码演示中突然暂停查看黄石公园照片

 ·  · 

推出Fast Apply - 复现Cursor的即时应用模型

 ·  · 

22 日   16

急需在家进行SETI分布式训练

 ·  · 

Hugging Face CEO称AI领域封闭性增强协作性减弱影响发展

 ·  · 

小参数语言模型(260k参数)在Dalek内部运行

 ·  · 

花费数周构建无代码网络自动化工具,Anthropic推出计算机使用API使其面临困境

 ·  · 

Outlines实现结构化生成,现支持Rust

 ·  · 

Genmo发布Mochi 1:新的SOTA开源视频生成模型(Apache 2.0许可)

 ·  · 

Claude 3.5 Sonnet:计算机使用体验?

 ·  · 

开源推理模型Steiner受OpenAI启发

 ·  · 

克劳德3.5新模型:计算机使用、十四行诗与俳句

 ·  · 

Transformers.js v3发布:多项新特性

 ·  · 

构建LLM比较工具,或多付50% API费用

 ·