2024 年  2498

12 月   413

25 日   20

115TB科学数据资源

 ·  · 

圣诞节孤独,能用AI做什么?

 ·  · 

OpenWebUI更新:支持真正的异步聊天

 ·  · 

DeepSeek V3在LiveBench上的基准测试结果

 ·  · 

DeepSeek V3模型在Huggingface上的模型卡

 ·  · 

DeepSeek V3模型现身Hugging Face平台

 ·  · 

QVQ 72B预览版无法生成代码

 ·  · 

智能体集群框架在空间推理测试中表现出色

 ·  · 

Test - Time Compute模型是否使M系列Mac不再适合运行大型语言模型

 ·  · 

使用Llama3.3驱动的AI代理查询pyppeteer仓库的两个近期问题

 ·  · 

扎克伯格看你使用通义千问而非LLaMA

 ·  · 

深搜DeepSeek V3?

 ·  · 

大语言模型能否解读此内容

 ·  · 

Deepseek V3已上线

 ·  · 

深擎v3 API已上线

 ·  · 

Qwen的QVQ 72B放弃Apache 2.0许可

 ·  · 

双3090性能接近理想但仍有不足

 ·  · 

AMD MI60与vLLM助力Llama3.3 70B达20 tokens/s

 ·  · 

高山LLaMA:GPU和磁盘空间不足者的福音

 ·  · 

AI模型与搜索结合效果佳,小模型亦如此

 ·  · 

24 日   19

当下最佳的人工智能模型

 ·  · 

QVQ - 72B智能强大不容小觑

 ·  · 

Gemini Flash 2.0实际体验及与其他开源模型对比

 ·  · 

LLMs发展迅猛,新时代将至

 ·  · 

 ·  · 

当前14b左右的最佳模型有哪些?

 ·  · 

开源大语言模型如何盈利

 ·  · 

OpenAI员工称o3与o1采用相同范式且进展迅速

 ·  · 

Qwen/QVQ - 72B - Preview模型在Hugging Face平台

 ·  · 

Qwen新发布

 ·  · 

挑战:让任意AI模型数对数字个数

 ·  · 

OpenAI员工称o3为大语言模型

 ·  · 

本地大语言模型使用案例与所用硬件

 ·  · 

Aider发布新的更难代码编辑基准

 ·  · 

应采用集群推理

 ·  · 

12GB 3080上的混元FP8可在10分钟内生成移动端质量的GIF

 ·  · 

LLM中一个token包含多少比特?

 ·  · 

2025年的AI发展预测

 ·  · 

Llama 3.2 3B性能出色

 ·  · 

23 日   16

小参数模型能否在各方面匹敌超大参数模型

 ·  · 

某论文令人困惑:是我疯了还是论文太离谱

 ·  · 

可直接在Ollama中运行来自Hugging Face Hub的私有GGUF

 ·  · 

构建廉价GPU租赁工具

 ·  · 

是否有人测试过phi4?其性能如何?

 ·  · 

苹果智能写作工具大更新,支持多平台本地LLM

 ·  · 

无相关AI内容的标题

 ·  · 

Layla支持手机运行大语言模型时通过Stable Diffusion生成图像

 ·  · 

AI模型产生幻觉是否因其不知己不知

 ·  · 

喜爱的无审查模型

 ·  · 

期待新的语言模型,而非局限于推理计算

 ·  · 

llama.cpp支持Llama-3_1-Nemotron-51B

 ·  · 

MI300X、H100、H200训练基准测试:CUDA仍具优势(上)

 ·  · 

RTX 5090(32GB显存)可运行哪些模型

 ·  · 

2025年预测

 ·  · 

Phi - 4通用版本发布情况

 ·  · 

22 日   15

Gemini大模型API免费,隐私是否无保障?

 ·  · 

Tokenization并非LLMs的瓶颈

 ·  · 

本地运行大语言模型的笔记本电脑及配置

 ·  · 

以Arc B580为核心的高性价比配置

 ·  · 

模型数量多得令人不知所措

 ·  · 

Drummer发布Anubis 70B v1:基于Llama 3.3 RP微调

 ·  · 

AI编码的关键不在于更"聪明",而是缺少基本工具

 ·  · 

2024年12月无审查大语言模型测试结果

 ·  · 

QwQ模型如何进行如4692*2的计算?

 ·  · 

谷歌DeepMind推理团队负责人Denny Zhou的三条X动态

 ·  · 

OpenAI员工推文透露o1和o3架构信息

 ·  · 

多轻型语言模型协作能否优于单个模型

 ·  · 

Deepseek被低估了

 ·  · 

英伟达Jetson Orin Nano Super试用

 ·  · 

根据LLM密集化规律,2025年10月或将出现8B参数的类GPT - 4o大模型

 ·  · 

21 日   12

部分大语言模型OCR能力为何强于专用OCR解决方案

 ·  · 

8B编码模型12小时推理时间的性能推测

 ·  · 

 ·  · 

phi4即将发布

 ·  · 

o3将为本地模型带来积极影响的原因

 ·  · 

Llama 3.3 70B指令版删减版(去审查)发布

 ·  · 

尝试与基础大型语言模型聊天取得进展

 ·  · 

对o1 - pro和o3的看法:暴力破解而非创新?

 ·  · 

o3与o1公平比较情况如何?

 ·  · 

实用小型大语言模型推荐

 ·  · 

Qwq完整版?开源o3?

 ·  · 

关于黑洞的思考与解答

 ·  · 

20 日   20

O3图表X轴为对数、Y轴为线性

 ·  · 

OpenAI发布o3开启测试时计算扩展新时代

 ·  · 

微软是否已发布Phi - 4?

 ·  · 

03击败99.8%的竞争程序员

 ·  · 

OpenAI发布O3和O3 mini

 ·  · 

O3在EpochAI基准测试中的性能

 ·  · 

GitHub疑似存在450万个虚假之星

 ·  · 

语音转语音模型比级联模型更笨 - 人工分析的新推理基准

 ·  · 

新升级至40GB显存,求700亿参数以上模型推荐

 ·  · 

消费级显卡如何被削弱?

 ·  · 

RWKV - 7 0.1B (L12 - D768)经ctx4k训练可解决NIAH 16k问题,外推至32k +,100% RNN(无注意力机制),支持100多种语言和代码

 ·  · 

构建高效代理

 ·  · 

Koboldcpp v1.80发布,支持Qwen2 - VL

 ·  · 

开源AI不仅必要而且需要发展的真正原因

 ·  · 

Qwen发布Qwen2.5技术报告

 ·  · 

创建包含自有数据的模型有多难

 ·  · 

QwQ 14B Math:面向GPU中层的QwQ

 ·  · 

Qwen2.5技术报告

 ·  · 

Qwen QVQ - 72B - Preview即将发布

 ·  · 

免费编码助手的使用选择

 ·  · 

19 日   20

MaxSun Arc B580 GPU带双SSD插槽亮相

 ·  · 

家庭服务器终极配置:14块RTX 3090组建

 ·  · 

红帽宣布达成收购Neural Magic(vLLM)的最终协议

 ·  · 

微软Copilot系统指令被提取:存在问题

 ·  · 

2025年将有多版本Llama 4发布

 ·  · 

自制wut——解释上一命令输出的CLI(适用于ollama)

 ·  · 

如今前端都用些什么?

 ·  · 

谷歌AI工作室免费推出Gemini 2.0闪思实验版

 ·  · 

终于有BERT的替代品了

 ·  · 

Acer RTX 5090/5080游戏电脑预售价曝光

 ·  · 

LibreChat体验如何?(代码执行、网页搜索等)

 ·  · 

AI时代第二阶段:AI实验室需要你的数据

 ·  · 

巴姆巴:高效推理的混合Mamba2模型

 ·  · 

Oobabooga新用户界面!

 ·  · 

Slim - Llama:低功耗处理30亿参数的LLM ASIC处理器

 ·  · 

新型物理人工智能令人惊叹(开源)

 ·  · 

创世纪项目:由物理模拟平台驱动的生成物理引擎,可生成4D动态世界

 ·  · 

开发出"公理提示工程"系统,一起测试优化

 ·  · 

Intel Arc B580上ComfyUI安装指南与示例基准测试

 ·  · 

有无无字符限制且可克隆声音的开源TTS

 ·  · 

18 日   21

Anthropic研究:大型语言模型中的对齐伪装

 ·  · 

Github Copilot免费版

 ·  · 

Qwen2 - VL 72b性能出色

 ·  · 

近期模型在聊天机器人竞技场的更新(Qwq、Qwen 2.5 Coder、Nova、Llama 3.3)

 ·  · 

使用QwQ作为对话思考者时意外模拟出尴尬的过度思考

 ·  · 

用视觉模型自嘲

 ·  · 

Moonshine Web:比Whisper更快更准的实时浏览器语音识别

 ·  · 

Granite 3.1语言模型:128k上下文长度与Apache 2.0协议

 ·  · 

本地运行70B模型的最具成本效益的堆栈是什么?

 ·  · 

AI创意竞技场:看大型语言模型在诗歌、ASCII艺术等方面一较高下

 ·  · 

停止滥用模型 - 反对上下文垃圾填充

 ·  · 

Jetson Orin Nano Super用于家庭设置是否合理

 ·  · 

Hugging Face研究人员用搜索使30亿参数Llama超越70亿参数版本

 ·  · 

MyDeviceAI:可在iPhone本地运行Llama 3.2的应用已上架AppStore

 ·  · 

Grok 2系统提示

 ·  · 

Click3:一款利用大语言模型自动化安卓使用的工具

 ·  · 

新B580与Ollama搭配使用的性能探究

 ·  · 

OpenAI长期让Sonnet 3.5成为市场最佳模型的原因推测

 ·  · 

Apollo是否消失?

 ·  · 

两院制众议院人工智能特别工作组报告发布

 ·  · 

发现一个超棒的可与本地模型协同工作的Perplexity AI克隆版

 ·  · 

17 日   18

畅想应存在却尚未存在之物及其原因

 ·  · 

笔记本电脑上Llama 3.3 70B的推理速度

 ·  · 

openlightllm:litellm的分支

 ·  · 

MLX - 4bit与GGUF - q4_K_M性能对比之MMLU Pro测试

 ·  · 

本地LLM的Godot游戏引擎插件NobodyWho

 ·  · 

即将迎来新硬件

 ·  · 

本地大语言模型实现网页聊天的Chrome扩展

 ·  · 

开源项目tangent:独特的AI聊天画布

 ·  · 

谷歌Veo 2生成视频惊艳,Veo与Imagen新版本发布

 ·  · 

Falcon 3家族发布

 ·  · 

Falcon 3发布

 ·  · 

RTX 3090调整功率限制时llama.cpp中的相对性能

 ·  · 

观看训练日志滚动令人平静,仿若凝视矩阵

 ·  · 

谁在最弱硬件上运行大型语言模型?

 ·  · 

Llama 3.3在代码辅助方面优于Mistral - Large - 2411

 ·  · 

索泰确认推出32GB GDDR7显存的GeForce RTX 5090,5080和5070系列也在列

 ·  · 

新LLM优化技术可削减高达75%内存成本

 ·  · 

DavidAU发布新模型及其相关版本

 ·  · 

16 日   18

为苹果硬件分叉HunyuanVideo以本地体验类SORA功能

 ·  · 

通过扩展测试时计算,让3B羊驼模型在高难度数学题上超越70B羊驼模型

 ·  · 

本地大语言模型最常用操作系统调查

 ·  · 

对后预训练世界的看法 - 伊利亚的演讲

 ·  · 

基于图的大语言模型工作流编辑器

 ·  · 

英特尔Arc B580或推24GB版本

 ·  · 

新兴开源人工智能栈

 ·  · 

Hugging Face推出合成数据生成器——自然语言构建数据集的用户界面

 ·  · 

使用3090使Apollo在本地运行

 ·  · 

寻找Llama 3.3最佳量化版本的途径

 ·  · 

基于大语言模型的游戏是否存在

 ·  · 

Meta发布Apollo大型多模态模型家族,7B版达SOTA且能理解1小时视频可本地运行

 ·  · 

Llama 3.2 1B表现惊人的好

 ·  · 

订阅付费还是构建本地系统更好

 ·  · 

微软Markitdown:Python文件与文档转Markdown工具

 ·  · 

Teuken - 7B:面向多语言的OpenGPT - X项目成员

 ·  · 

英特尔B580上大语言模型的性能数据

 ·  · 

分享思维链提示示例

 ·  · 

15 日   17

开源8B参数测试时间计算扩展(推理)模型

 ·  · 

Nvidia GeForce RTX 5070 Ti配备16GB GDDR7内存

 ·  · 

开源本地AI才是正途的又一证据

 ·  · 

搭乘12小时航班,128GB M4 Max求2024年12月最佳本地编码模型

 ·  · 

推测解码如何加速模型

 ·  · 

Llama.CPP与MLX在不同提示大小下对Llama-3.3-70B的速度测试#2

 ·  · 

Meta AI推出无标记器模型字节潜在变换器(BLT)

 ·  · 

Gemini实验1206编写的功能完备且美观的Web UI

 ·  · 

特定编程语言的大型语言模型

 ·  · 

AI编码员可在开发时查看前端

 ·  · 

复杂标签文本提取最佳OCR模型推荐

 ·  · 

Pixtral与Qwen2VL即将接入Ollama

 ·  · 

xAI Grok 2 1212相关资讯

 ·  · 

Qwen2.5 32B获Apache许可,开源潜力巨大

 ·  · 

最佳本地大语言模型配置是谁家的?

 ·  · 

TabbyAPI下的推测解码指标

 ·  · 

每秒处理多少个token的模型才算"可用"?

 ·  · 

14 日   13

Cohere新模型令人惊叹

 ·  · 

48GB内存下最佳编码模型

 ·  · 

Ilya在加拿大温哥华NIPS 2024的"序列到序列"演讲

 ·  · 

英特尔Arc B580新显卡

 ·  · 

LMArena新WebDev竞技区克劳德3.5十四行诗优势明显

 ·  · 

AMD GPU的Ollama替代方案

 ·  · 

llama.cpp现支持Qwen2VL

 ·  · 

前OpenAI研究员兼举报人26岁死亡

 ·  · 

Llama-3.3-70b在2xRTX-3090与M3 - Max 64GB上针对不同提示大小的速度测试

 ·  · 

Qwen开发者:即将推出新内容

 ·  · 

双GPU的eGPU机箱

 ·  · 

1500美元的高性能组装配置

 ·  · 

将代码转换为LLM提示且功能更多的工具

 ·  · 

13 日   19

Meta的字节潜在变换器(BLT)论文表现出色,或于2025年取代标记化模型

 ·  · 

OmniAudio - 2.6B:世界上用于边缘部署的最快音频语言模型

 ·  · 

哪个国家在NeurIPS发表的论文数量领先?

 ·  · 

各公司将推出的下一个模型会是什么

 ·  · 

Meta大型概念模型

 ·  · 

OpenAI称马斯克曾想营利性拥有并运营

 ·  · 

NVIDIA垄断:赛博朋克式的现实

 ·  · 

CohereForAI发布c4ai - command - r7b - 12 - 2024模型

 ·  · 

LG EXAONE-3.5模型性能体验

 ·  · 

百万美元悬赏首个在无污染SWE - bench中达90%的开源AI

 ·  · 

微软Phi-4 GGUF可下载

 ·  · 

可在Hugging Face查询GPU贫富状况

 ·  · 

DeepSeek - AI推出DeepSeek - VL2模型

 ·  · 

真假与否?或许是真的

 ·  · 

构建智能体应避免"大数据"式错误

 ·  · 

谷歌,Gemma3在哪里?

 ·  · 

无有效标题内容

 ·  · 

微软推出擅长复杂推理的小型语言模型Phi - 4

 ·  · 

NaturalLM -7B Instruct:自然发声的大语言模型

 ·  · 

12 日   17

当下购买双3090电脑,还是等CES后英伟达新品

 ·  · 

基于音乐库的检索增强生成(RAG)

 ·  · 

AMD 24.12.1驱动性能远低于24.8.1

 ·  · 

基于桌面的Gemini 2.0 Flash语音控制

 ·  · 

U - MATH新大学级数学基准:Gemini和Qwen表现突出

 ·  · 

OpenAI O1与Claude 3.5 Sonnet:20美元谁更超值

 ·  · 

Llama 3.3-70B迅速适应角色的原因

 ·  · 

QwQ推理模型在多场景中可能不适用

 ·  · 

结构化输出可能有损大型语言模型性能

 ·  · 

微软机器人鼓吹Phi3?

 ·  · 

谷歌欲推出符合社区期待的优秀模型

 ·  · 

Hermes 3 3B发布,使用体验很棒!

 ·  · 

AI模型评估愈发困难

 ·  · 

Qwen 2.5 72B与Llama 3.3 70B指令模型对比排名

 ·  · 

勿使用超出需求的大模型

 ·  · 

Phi 3.5 mini instruct:被忽视的实用模型

 ·  · 

自制开源模型编码聊天机器人竞技场并设实时排行榜

 ·  · 

11 日   15

谷歌AI工作室免费提供多项功能

 ·  · 

Gemini 2.0 Flash在SWE - Bench上击败Claude Sonnet 3.5

 ·  · 

Whisper.cpp是否仍是语音转文本(STT)的王者

 ·  · 

Gemini Flash 2.0实验

 ·  · 

谷歌开源Gemma 3已久

 ·  · 

谷歌发布Gemini 2.0 Flash,支持原生音频与图像生成

 ·  · 

Gemini 2.0 Flash实验版,有人尝试过吗?

 ·  · 

Recursal发布两款新线性模型:QRWKV6 - 32B与Finch - MoE - 37B - A11B

 ·  · 

8GB VRAM下难寻比gemma - 2 - 9b - it - SimPO更好的大语言模型

 ·  · 

LLM是否为输入一串标记且输出单个标记的函数?

 ·  · 

法报告称欧洲AI进展不足以与中美竞争

 ·  · 

PocketPal AI 1.6.0:消息编辑、重新生成与UI增强

 ·  · 

Qwen-2.5 Coder 7B可用于QwQ-32B的推测性解码

 ·  · 

GRMR 2B Instruct:轻量可靠的语法检查器

 ·  · 

回顾ChatGPT 3.5:今不如昔

 ·  · 

10 日   20

QwQ-32B -Preview令人印象深刻

 ·  · 

Llama 3.1 8B在9种不同RTX GPU上的基准测试(每百万输出令牌0.228美元)

 ·  · 

开源AI的重要性

 ·  · 

Llama 3.3 (70B)微调 - 现支持90K上下文长度且适配<41GB显存

 ·  · 

Huggingface存储限制更新(公开无限制,私有受限)

 ·  · 

Qwen/QwQ 32B正确回答时代关键问题,EXAONE 32B和Llama 3.3 70B失败

 ·  · 

18分钟内从零创建9个微调模型的工具演示[Kiln AI]

 ·  · 

模型收集与存档:12TB到72TB的设备搭建

 ·  · 

CMU和斯坦福发布强大的3B视觉语言模型

 ·  · 

Koboldcpp相较Oobabooga在用户体验上的巨大飞跃

 ·  · 

DeepSeek V2.5 - 1210:DeepSeek V2.5最终版本

 ·  · 

Mistral在欧盟人工智能法案后的情况

 ·  · 

Hugging Face发布Text Generation Inference TGI v3.0,长提示处理速度比vLLM快13倍

 ·  · 

大语言模型中被忽视的必要环节: 标记化

 ·  · 

DeepSeek - AI发布DeepSeek - V2.5 - 1210

 ·  · 

o1 LiveBench编码结果

 ·  · 

在Mac Mini M4 Pro上运行Llama 3.2 3B和Llama 3.3 70B模型

 ·  · 

InternVL2.5发布(1B至78B),能否取代GPT - 4o?

 ·  · 

 ·  · 

llama.cpp的RPC性能

 ·  · 

09 日   11

新手对大型语言模型的疑问:求解与停止方法

 ·  · 

点赞新的Llama 3.3 Euryale v2.3:48GB讲故事/角色扮演的最佳选择

 ·  · 

获新工具,不知如何测试

 ·  · 

EXAONE 3.5 32B使用体验分享

 ·  · 

中国因涉嫌违反反垄断法调查英伟达

 ·  · 

Github URL中"hub"可替换为"ingest"以提取友好提示文本

 ·  · 

LG称EXAONE-3.5为开源,但实际并非如此

 ·  · 

我的家庭实验室搭建:4块RTX 3090超强组合

 ·  · 

热门开源AI工具推荐

 ·  · 

LG发布三款新模型EXAONE - 3.5,规模分别为2.4B、7.8B和32B

 ·  · 

本地模型是否为首选

 ·  · 

08 日   16

两大语言模型对话并运行代码(Llama 3.1 8B Instruct + Qwen 2.5 Coder 32B Instruct)

 ·  · 

阿里Qwen团队负责人转投字节跳动,Qwen 3.0或无望

 ·  · 

Impish_Mind_8B:具有趣味个性的独特8B Llama 3.1模型

 ·  · 

花费200美元购买o1 - pro,后悔了

 ·  · 

警惕以安全为由封禁开源AI模型

 ·  · 

Llama 3.3在OpenRouter上比GPT 4o便宜近25倍,是否名副其实?

 ·  · 

AMD GPU用于大型语言模型(LLM)的可行性

 ·  · 

Google Gemini实验版1206编码能力强,胜过Claude Sonnet

 ·  · 

2024开源AI模型项目成果汇总及资源指南

 ·  · 

Claude给出唯一正确答案

 ·  · 

创建专用思考模型与响应模型的开放webui管道

 ·  · 

8GB显存下的最佳可运行模型

 ·  · 

24GB显存下当前最无审查模型

 ·  · 

30亿参数模型凭借高质量训练数据能否在特定任务上超越700亿参数模型

 ·  · 

用谜题破坏Llama3.3 70B(通过Ollama进行4位量化)

 ·  · 

用LangGraph构建AI文档系统效果更佳

 ·  · 

07 日   12

5万美元构建本地大语言模型:硬件推荐

 ·  · 

Llama 3.3与Qwen 2.5对比

 ·  · 

LLama 3.3 70b在网络安全基准测试中接近Qwen2.5但不及405b

 ·  · 

Llama成Hugging Face年度最受欢迎模型

 ·  · 

测试Llama网格混合器插件

 ·  · 

开放式视觉语言模型的辉煌一周

 ·  · 

4090运行Llama 3.3的快速反馈

 ·  · 

Llama 3.3升级显著,与Qwen 2.5编码性能对比

 ·  · 

Gemini 1206分数大幅跃升,Llama 3.3 70b近乎与GPT - 4o持平

 ·  · 

Gemini 1206代码自动补全功能超棒

 ·  · 

未来十年大语言模型将发展至何种程度

 ·  · 

Llama 3.3 70b难以应对的测试提示

 ·  · 

06 日   16

Llama 3.3 70B在指令遵循上排名第一

 ·  · 

超拟合现象:优化大语言模型以稳定生成开放式文本

 ·  · 

Llama 3.3在Hugging Face的相关资源发布

 ·  · 

LLaMA 3.3 70B性能如何?四大模型对比表

 ·  · 

Gemini -1206再次领跑大型语言模型领域

 ·  · 

Llama - 3.3 70b在几乎所有基准测试中胜过GPT - 4o、Claude - 3,5 - sonner和Llama - 3.1 405b

 ·  · 

Llama 3.3 70B发布

 ·  · 

Llama 3.3 70B可在HuggingChat免费使用

 ·  · 

Ollama库中已存在3.3版本

 ·  · 

Meta发布Llama3.3 70B

 ·  · 

Llama - 3.3 - 70B - Instruct模型在Hugging Face平台

 ·  · 

我对O1无感,难道只有我一人?

 ·  · 

为何我们需要开源的o1

 ·  · 

免费的Hugging Face本地大语言模型偏好对齐课程

 ·  · 

Adobe发布DynaSaur代码:可自我编码的智能体

 ·  · 

以6块GTX 1080 GPU配置系统,性能出色

 ·  · 

05 日   14

对Qwen2.5 Coder 32b是否仍满意

 ·  · 

Pleias发布首个完全基于公开数据训练的模型,可与Llama 3B和Qwen 3B竞争

 ·  · 

Mistral Large的推测性解码?

 ·  · 

世界最小视觉语言模型moondream 0.5B

 ·  · 

为何难以找到适配消费级GPU的大语言模型规模

 ·  · 

O1系统卡的渗出尝试

 ·  · 

谷歌发布基于Gemma 2的PaliGemma 2视觉语言模型

 ·  · 

使用推测解码优化Llama.cpp以实现每秒最大令牌数

 ·  · 

分布式计算在AI/ML任务中未被充分利用的原因

 ·  · 

武士(SAMURAI)与Meta的SAM 2:视觉追踪新时代?

 ·  · 

OpenAI与帕尔默·拉奇合作美国军事防御系统

 ·  · 

段落(或特定句子)末尾引用的RAG如何实现?

 ·  · 

谷歌NotebookLM三位团队成员离职创立新公司

 ·  · 

技术面试应允许(并评判)使用大语言模型

 ·  · 

04 日   14

25个最先进大语言模型的MMLU - Pro CS基准测试对比

 ·  · 

FishSpeech v1.5:多语言零样本即时语音克隆,仅5亿参数且低延迟排名TTS - Arena第二

 ·  · 

4位量化可能破坏模型 - 动态量化10%FP16 90%4位

 ·  · 

notebookLM深度访谈播客:未审查且声音多样

 ·  · 

新参与者入局

 ·  · 

Virtuoso - Small:Arcee.ai新推出的14B大语言模型超越SuperNova - Medius

 ·  · 

前实习生破坏字节跳动AI训练面临800万诉讼却获NeurIPS 2024最佳论文

 ·  · 

Llama - 3.1 - 8B作为评估器的早期训练结果

 ·  · 

12b - 22b规模下最佳NSFW角色扮演模型

 ·  · 

Hugging Face CEO对2025年人工智能的预测

 ·  · 

修改llama.cpp以支持Llama-3_1-Nemotron-51B

 ·  · 

本地使用智能体的情况

 ·  · 

许久未见新的Phi模型,尤其是bitnet模型

 ·  · 

Ollama合并K/V缓存量化支持,上下文内存减半

 ·  · 

03 日   16

QwQ 32b在Simple bench上的测试

 ·  · 

英特尔战戟(Battlemage)GPU发布

 ·  · 

Qwen QwQ在辅助编码基准测试中表现平平

 ·  · 

Llama.cpp漏洞修复!推测解码速度提升30%且上下文长度翻倍

 ·  · 

亚马逊推出其大型语言模型家族Nova

 ·  · 

超小模型有何用途?

 ·  · 

英伟达实验室的SANA:高分辨率图像生成

 ·  · 

耐力100B v1鼓手模型:精简版米斯特拉尔大型2407 123B且经RP微调

 ·  · 

混元视频:大型视频生成模型训练的系统框架

 ·  · 

SmolChat:在安卓设备本地运行GGUF SLMs/LLMs

 ·  · 

Bitnet是否为假?

 ·  · 

Hugging Face推出本地微调大语言模型免费开源课程

 ·  · 

LM Studio终可在NPU(高通骁龙Copilot+ PC)上运行

 ·  · 

与70B模型还是70个1B模型战斗

 ·  · 

VLLM支持AMD Radeon GPU运行gguf

 ·  · 

Llama 70b多步工具实现

 ·  · 

02 日   20

AI Linux爱好者使用RTX GPU时可能存在过热无提示情况

 ·  · 

当前最喜爱的模型

 ·  · 

微调器/量化器的终结,要回归到种子下载吗?

 ·  · 

ONNX为何在大语言模型领域未能成功

 ·  · 

Huggingface免费账户存储模型新限额为500Gb

 ·  · 

Qwq回答冗长且无重点

 ·  · 

Nous DisTrO更新,宣布新15b模型及DeMo论文

 ·  · 

尝试制作可在云端免费使用的无审查版Llama 405b模型

 ·  · 

Hugging Face为超25万公共数据集添加Text to SQL功能,由Qwen 2.5 Coder 32B提供支持

 ·  · 

开源AI与国家安全:监管呼声渐高

 ·  · 

企业实际生产中部署大语言模型的实用数据库

 ·  · 

Mistral许久未发布新内容

 ·  · 

惠普售卖英伟达A6000

 ·  · 

AMD GPU与Llama cpp组合时性能显著降低,求原因

 ·  · 

我构建此工具来比较大语言模型

 ·  · 

开源才是正途

 ·  · 

OpenAI CEO称开放权重AI模型不好,因DeepSeek和Qwen 2.5?

 ·  · 

超强大的Open - WebUI: 我的arXiv、图像生成和AI规划神奇工具包

 ·  · 

本地AI才是唯一的AI

 ·  · 

Apache Tika与Docling文本提取对比

 ·  · 

01 日   14

用JPEG压缩大型语言模型权重的思考

 ·  · 

Nemotron 70b与Qwen2.5 72b性能对比

 ·  · 

卡帕西又一成功之处

 ·  · 

寻找可修正英语语法的模型(类似Grammarly只修正语法功能)

 ·  · 

QwQ与o1等的对比示例

 ·  · 

Drummer"s Behemoth 123B v1.2 - 最终版

 ·  · 

安培架构显存大于24GB的GPU对比

 ·  · 

下一代基于视觉语言模型的OCR实际需求在哪?是否用于RAG?

 ·  · 

NVIDIA GPU的FP16性能列表(面向ExllamaV2/EXUI/TabbyAPI用户)

 ·  · 

Qwen 2.5 14B:为角色扮演进行无审查微调

 ·  · 

3个P40设备运行llama.cpp,推测解码是否加速?

 ·  · 

6000美元工作站构建反馈

 ·  · 

QwQ模型被微调后不再审查

 ·  · 

开源重要性的原因

 ·  · 

11 月   416

30 日   11

最佳AI聊天客户端搜索体验

 ·  · 

F5 - TTS语音克隆的最佳尝试

 ·  · 

最佳开源语音合成(TTS)模型是哪个?

 ·  · 

KoboldCpp 1.79发布:多项新功能更新

 ·  · 

Epyc Turin双CPU系统STREAM TRIAD内存带宽基准值近1TB/s

 ·  · 

优化XTTS - v2:10分钟内语音合成《哈利·波特》第一部且仅需约10GB显存

 ·  · 

距离优于两块3090的家庭实验室解决方案还有多远?

 ·  · 

Qwen浏览器相关

 ·  · 

可找到的所有MCP服务器列表

 ·  · 

阿拉伯语提问后以俄语和汉语思考

 ·  · 

INTELLECT - 1发布(指令+基础版):首个协同训练模型

 ·  · 

29 日   15

乔治 - AI:一个利用AI轻松实现自然语言控制计算机的API

 ·  · 

iPhone 14Pro可运行的最佳模型测试

 ·  · 

AtheneV2 72B:Qwen微调版本,专注代码补全、数学和日志提取

 ·  · 

使用Docker、Colab和Unsloth在本地16GB显存GPU上构建最便捷的VLM微调环境

 ·  · 

QwQ - 分离思维过程与最终输出的最佳方法

 ·  · 

双RX 7900 XTX下的AI模型测试

 ·  · 

Aion-RP-Llama-3.1-8B:全新角色扮演大师

 ·  · 

本地微调大型语言模型的最佳方案及16GB可训练内容

 ·  · 

Whisper用于实时转录为何无提示缓存?

 ·  · 

GLM - Edge系列:1.5B - 5B,聊天与视觉

 ·  · 

构建和使用llama.cpp的终极指南

 ·  · 

自制免费在线工具,将代码库转换为提示

 ·  · 

QWQ和R1无特殊标记时如何判断需更多推理步骤

 ·  · 

11月重大人工智能事件

 ·  · 

Vercel的AI组件生成器v0泄露的系统提示

 ·  · 

28 日   16

Qwen团队实验推理模型QwQ-32B - Preview在HuggingChat免费上线

 ·  · 

QwQ思考10000个token后给出的最搞笑笑话

 ·  · 

QwQ编码,惊叹于其良好表现

 ·  · 

14英寸M4 Max 128GB是否适合123B模型

 ·  · 

RTX 4090价格在5090发布时会大幅下降吗

 ·  · 

阿里巴巴QwQ表现惊人,英文提示偶尔出汉字

 ·  · 

LLaMA - Mesh本地在Blender中运行

 ·  · 

Deepseek新多模态模型Janus可在浏览器本地运行

 ·  · 

QwQ - 32B - Preview在farel - bench中的基准测试结果为96.67,优于Claude 3.5 Sonnet,略逊于o1 - preview和o1 - mini

 ·  · 

Stella嵌入模型性能佳但未广泛使用的原因

 ·  · 

本地运行QwQ - 32B 4位量化模型的误导向注意力评估,它胜过o1 - preview和o1 - mini

 ·  · 

阿里QwQ 32B模型挑战多模型且开源

 ·  · 

钢开发:人工智能代理的开源浏览器API

 ·  · 

Qwen发布QwQ预览版:提升AI推理能力的开放模型

 ·  · 

Anthropic“通用”MCP令人失望

 ·  · 

如何使用Mistral处理成人内容(小白科普)

 ·  · 

27 日   11

如何跟进当下最佳工具及其使用方法

 ·  · 

Judge Arena排行榜更新

 ·  · 

通过搜索扩展小模型:用0.5B微调+奖励模型匹配28倍大模型

 ·  · 

Qwen推理模型疑问

 ·  · 

AI探索中的一些随机问题

 ·  · 

Qwen或采用测试时缩放技术深入探索未知边界

 ·  · 

AWS发布百分百开源的多智能体AI框架

 ·  · 

预训练大语言模型微调需多久

 ·  · 

最便宜运行32B模型的硬件

 ·  · 

使用Qwen2.5 - Coder - 32B - Instruct数日后的评测

 ·  · 

Qwen2.5 - Coder - 32B - Instruct - AWQ本地运行及与OptiLLM和Aider的基准测试

 ·  · 

26 日   15

OLMo 2模型发布

 ·  · 

深度探索R1 - Lite可解决所有问题

 ·  · 

欧洲新模型openGPT - X Teuken 7B发布

 ·  · 

无有效信息可生成标题

 ·  · 

大语言模型(LLM)发布数量随时间的下降趋势已清晰可见

 ·  · 

Amica开源聊天机器人接口功能多样且可定制

 ·  · 

Hugging Face发布SmolVLM

 ·  · 

Sentient发布:本地个人助手,由Llama 3.2 3B驱动

 ·  · 

提示大小对速度的巨大影响

 ·  · 

大型模型的无损4位量化是否可行?

 ·  · 

1.5B模型的这个结果很棒吗?还是我缺觉疯了?

 ·  · 

AI时代的信息误导加速——以Reflection-70B为例

 ·  · 

MoDEM:领域专家模型混合体

 ·  · 

鼠标/键盘大语言模型导航项目

 ·  · 

MLX LM 0.20.1速度可与llama.cpp相媲美

 ·  · 

25 日   13

电脑装有两块7900XTX显卡,电源1000W是否会损坏

 ·  · 

模型上下文协议问世

 ·  · 

首次在本地设备运行Qwen2 - Audio进行语音聊天和音频分析

 ·  · 

构建利用树搜索完成任务的代理库

 ·  · 

Qwen2 - VL - Flux相关

 ·  · 

llama.cpp服务器采用推测解码,速度提升25% - 60%

 ·  · 

我现在能部分解释大语言模型下国际象棋的怪异之处

 ·  · 

小型模型令人印象深刻,用途广泛

 ·  · 

大规模LLM部署的经验分享

 ·  · 

新型轻量级文本到语音模型OuteTTS - 0.2 - 500M

 ·  · 

10000美元预算购置1台AI机器/服务器,求建议

 ·  · 

测试大语言模型的网络安全知识(15个模型受测)

 ·  · 

Optillm中的代码链推理在AIME 2024上击败o1 - preview

 ·  · 

24 日   12

用开源大语言模型创建聊天机器人产品是否值得

 ·  · 

AI视频合成工具:Qwen2.5 - 32B Coder与FFmpeg助力

 ·  · 

基于Qwen 2.5复现Teleut 7B - Tulu 3 SFT

 ·  · 

EXL2推理质量问题

 ·  · 

开源o1模型对9.9和9.11大小比较的可爱回答

 ·  · 

Behemoth系列模型v2.0 - v2.2的新特性与推荐

 ·  · 

类似SETI@home,助力召唤(AI相关)

 ·  · 

Mac Mini Exo:预算内可完全升级

 ·  · 

英特尔Arc最佳推理引擎

 ·  · 

Qwen2.5 - Coder - 32B - Instruct量化实验

 ·  · 

Drummer的Cydonia 22B v1.3与The Behemoth v1.1在22B的神奇之处

 ·  · 

能否使用非结构化文本文件微调大语言模型

 ·  · 

23 日   11

48GB VRAM以下最智能的无审查模型?

 ·  · 

苹果与骁龙的NPU信息

 ·  · 

Qwen2.5 14b模型(常规版和编码版)是否足以用于实际工作?

 ·  · 

Athene V2 Chat在特定任务上接近GPT - 4o和Claude 3.5

 ·  · 

性价比超高的AI硬件配置

 ·  · 

16GB显存下22B的Q4km或Q5的选择以及14B的Q4km Qwen2.5是否适合本地Gpt4o mini

 ·  · 

SmolLM2 - 135M - Instruct无需GPU即可快速总结网页搜索结果

 ·  · 

深度探索Deepseek CoT

 ·  · 

Meta在LMSYS竞技场上放置大量未发布模型

 ·  · 

分享你的通义千问编码者2.5设置耗时

 ·  · 

更新AI研究助手,支持OpenAI端点与Ollama

 ·  · 

22 日   15

连接多台电脑至强大LLM站以获取128GB显存的最佳方式

 ·  · 

是否有人在培育大型语言模型?

 ·  · 

不同模型编写可编译Rust代码性能比较

 ·  · 

Qwen:开源模型的替代选择

 ·  · 

需要更多显存(VRAM)

 ·  · 

大型PDF文档总结

 ·  · 

DeepSeek R1 Lite比其他模型更令人印象深刻

 ·  · 

英特尔开源大语言模型INTELLECT - 1完成训练

 ·  · 

Claude渴望与本地部署的Mistral聊天并克服相关限制

 ·  · 

阿里巴巴发布Marco O1,推进人工智能的开放式推理

 ·  · 

Deepseek与OpenAI竞争,谷歌在LMSYS排行榜胜过OpenAI

 ·  · 

深度探索Chad Deepseek

 ·  · 

创建v1.3 RPMax模型时发现损坏的标记器需警惕

 ·  · 

Marco - o1:迈向开放式解决方案的开放推理模型

 ·  · 

Vercel的AI组件生成器v0版系统提示泄露

 ·  · 

21 日   17

使用LM Studio测试MLX模型:推理速度小增但内存大增

 ·  · 

量化对Aider基准测试的影响

 ·  · 

Llama 3.2 Vision在Unsloth中可微调,16GB VRAM内且速度快2倍

 ·  · 

谷歌发布新模型登顶LMSYS

 ·  · 

明确表达:对《让我畅所欲言》的回应

 ·  · 

图卢3——一组拥有完全开放数据、评估代码和训练算法的最先进指令模型

 ·  · 

大语境窗口将如何改变大型语言模型格局

 ·  · 

AMD RX7900XTX 24GB与NVIDIA 4070Ti Super 16GB个人使用对比

 ·  · 

PocketPal AI集成Hugging Face模型库

 ·  · 

三星TinyClick:用于GUI自动化的单轮代理(0.27B,MIT许可)

 ·  · 

三星推出高斯2:三种尺寸的多模态生成式AI模型

 ·  · 

DeepSeek R1 lite表现惊艳,远超Qwen 2.5 coder

 ·  · 

M4 Max以11个令牌/秒运行Qwen 72B Q4 MLX

 ·  · 

苹果硅芯片(MLX)上Mistral大模型的新MLX量化版本

 ·  · 

DeepSeek AI的R1 - Lite - Preview展现强大实力

 ·  · 

NaturalLM:一款发音自然的大语言模型

 ·  · 

双通双倍能否提升模型性能

 ·  · 

20 日   18

CrisperWhisper在开放ASR排行榜中位居第二

 ·  · 

寻求拥有64GB内存M4版MacBook Pro的用户帮助

 ·  · 

AICI助力实时重写语境、受限生成与回溯KV - 缓存

 ·  · 

通过神经细胞自动机(NCA)在大型语言模型(LLM)中实现推理

 ·  · 

深源宣布R1 lite,在部分基准测试中胜过o1预览版

 ·  · 

新采样策略:T=3.0时准确率达75%

 ·  · 

思维链模型是这样工作的吗?

 ·  · 

求Mistral - Large - 2411新模型基准测试

 ·  · 

DeepSeek - R1 - Lite预览版正式发布

 ·  · 

自制可做研究的AI助手,基于Ollama本地运行

 ·  · 

评判竞技场排行榜:将大语言模型作为评估器进行基准测试

 ·  · 

代理内存相关项目

 ·  · 

闭源模型规模推测

 ·  · 

可靠的大语言模型编码任务排名榜

 ·  · 

树莓派上的大语言模型硬件加速(以低成本树莓派为基础计算机搭配高端AMD GPU)

 ·  · 

中国AI初创公司StepFun新万亿参数MOE模型在Livebench排名前列

 ·  · 

小型大语言模型的最佳用例

 ·  · 

考虑添加另一块RTX 3090

 ·  · 

19 日   11

美国会委员会建议国会开展类曼哈顿计划竞赛以达AGI

 ·  · 

Nvidia发布LLaMA - Mesh权重,推理代码可用

 ·  · 

Mistral发布Pixtral - Large及Mistral - Large更新

 ·  · 

ChatGPT搜索功能:比Perplexity更好吗?

 ·  · 

Qwen 2.5 32B解决所有问题

 ·  · 

LLMs作为评估器的基准测试:Judge Arena

 ·  · 

为何没有20 - 35B新模型来满足我的需求

 ·  · 

txtai 8.0发布:极简主义者的代理框架

 ·  · 

Llama 3.1 405B在Cerebras推理平台上每秒运行969个令牌

 ·  · 

Athene - V2为何无人问津?

 ·  · 

构建8x4090服务器的方法

 ·  · 

18 日   19

对同时与多模型交互的在意程度

 ·  · 

可自行训练的最强大型语言模型

 ·  · 

利用大语言模型进行编码示例

 ·  · 

寻求更优雅的扩展建议

 ·  · 

流行本地大语言模型EXL2量化的MMLU(4个类别)基准测试

 ·  · 

AMD GPU通过Vulkan在树莓派5上支持llama.cpp

 ·  · 

量化与Lora结合可全模型训练

 ·  · 

Pixtral Large发布:基于Mistral Large 2的视觉模型

 ·  · 

Mistral - Large - Instruct - 2411模型在Hugging Face

 ·  · 

11月18日Mistral Large 2411和Pixtral Large发布

 ·  · 

Q5与Q6量化模型的质量差异探讨

 ·  · 

AMD Ryzen AI 300系列加速消费级LLM应用中的Llama.cpp性能

 ·  · 

RTX 4090本地运行最佳编码助手模型评估

 ·  · 

Qwen2.5 - Turbo将上下文长度扩展到100万 tokens

 ·  · 

本地语音模型能否用于制作有声读物

 ·  · 

有人在llama.cpp为Qwen2VL创建拉取请求

 ·  · 

求推荐13B通用模型

 ·  · 

vLLM性能惊人

 ·  · 

用CLIP和文本嵌入模型创建全系统图像搜索工具

 ·  · 

17 日   10

语音助手现状如何?

 ·  · 

为开发者构建AI代理目录

 ·  · 

4090上Qwen 2.5的最佳设置分享

 ·  · 

Qwen 2.5 Coder 32B与Claude 3.5 Sonnet对比:是我错了吗?

 ·  · 

Chonkie:用于文本分块的RAG库

 ·  · 

Beepo-22B:基于Mistral Small微调的无审查模型

 ·  · 

12GB显存下,哪种Qwen模型最适合编码?

 ·  · 

本地运行大语言模型的选择与偏好

 ·  · 

开源项目/工具被OpenAI锁定?

 ·  · 

英伟达性能预测生成

 ·  · 

16 日   15

RAG最佳选择:Olama、LM Studio、AnythingLLM、Openwebui

 ·  · 

热门本地大型语言模型EXL2量化的HumanEval基准测试(涵盖2.5到8.0 bpw)

 ·  · 

Ollama与维基百科的结合?

 ·  · 

LLM咖啡馆的硬件配置

 ·  · 

元提示已出现

 ·  · 

Mistral AI发布Mistral Large 3和Pixtral Large(目前似乎仅API可用)

 ·  · 

构建RAG的困惑

 ·  · 

双3090下最佳无审查写作模型

 ·  · 

Nvidia推出LLaMA - Mesh:用Llama 3.1 8B生成3D网格,即将发布权重

 ·  · 

新构建完成 - 需GPU共享建议

 ·  · 

构建用于Aya - Expanse - 8B推理的迷你PC - 寻求建议!

 ·  · 

Codai:终端中的AI代码助手可理解完整项目上下文

 ·  · 

单文档训练模型的可行性

 ·  · 

Gemini-exp-1114在LiveBench上胜过GPT-4o,不敌sonnet和o1

 ·  · 

Memoripy:为AI带来短期和长期记忆存储

 ·  · 

15 日   13

LLMs被低估和过度炒作的原因

 ·  · 

OpenAI、谷歌和Anthropic构建更先进AI遇阻

 ·  · 

LLMs与国际象棋的怪异现象

 ·  · 

Gemma和Phi模型更新久未发布,3代和4代何时到来

 ·  · 

3090、4080super与A6000硬件选择对比

 ·  · 

中国公司仅用2000个GPU训练GPT - 4竞品

 ·  · 

小型语言模型使用体验

 ·  · 

技嘉推出AMD Radeon PRO W7800 AI TOP 48G显卡

 ·  · 

适用于苹果GPU的最佳语音合成(TTS)

 ·  · 

锐龙9 HX 370新APU推理性能如何

 ·  · 

Qwen 2.5 7B在Livebench中超越Mixtral 8x22B和Claude 3 Haiku

 ·  · 

5000英镑搭建大语言模型设备的最佳方案

 ·  · 

Omnivision - 968M:适用于边缘设备的视觉语言模型,标记减少9倍

 ·  · 

14 日   14

用Python编写可本地运行的语音自动回复未读邮件程序

 ·  · 

Qwen2.5 - Coder - 32B推理VRAM计算待确认

 ·  · 

构建可即时生成AI包装器的应用

 ·  · 

扩散模型有Loras,LLM为何没有?

 ·  · 

Nexusflow发布Athene - V2 - Chat和Athene - V2 - Agent

 ·  · 

Gemini Exp 1114在Chatbot Arena排名并列第一

 ·  · 

大型文档的RAG应用

 ·  · 

Claude 3.5惊现用户姓氏 - 隐私怪异现象

 ·  · 

ollama llama3.2 - vision:11b无图像时比llama3.1:8b慢20倍

 ·  · 

Qwen 32B Coder与72B在最新力扣题目的对比

 ·  · 

LLM微调的最佳实践

 ·  · 

在RTX 3050 Ti (4GB)的PyCharm中本地运行Qwen2.5 - Coder - 1.5B进行实时代码补全

 ·  · 

是否有人对qwen2.5 - coder:32b进行过量化比较?

 ·  · 

对Qwen2.5 - 14B的看法

 ·  · 

13 日   15

LLM模型的重复性与创造性及基于Qwen2.5 32B的ArliAI RPMax v1.3模型简述

 ·  · 

MMLU - Pro分数与推理成本

 ·  · 

传英伟达RTX 5090将投入生产,显存32GB

 ·  · 

高质量视频背景去除流程

 ·  · 

你的RAG技术栈是什么?

 ·  · 

Qwen 2.5 32B指令型与72B指令型对比

 ·  · 

大语言模型为何不擅长幽默?

 ·  · 

Aider Composer:实现Aider与VSCode无缝集成

 ·  · 

8GB显存下的最佳模型

 ·  · 

Qwen2.5-coder-32b-instruct的语言提示结果差异

 ·  · 

Qwen2.5 Coder创作的《贪吃蛇》手机游戏及开放网页界面成果

 ·  · 

开源桌面工具与大型语言模型交互

 ·  · 

CS毕业生都以为自己的“AI”是下一个独角兽,我受不了了

 ·  · 

精度扩展定律:BitNet是否好得难以置信?

 ·  · 

新的开源背景去除模型BEN达最先进水平

 ·  · 

12 日   16

Anthropic CEO被质疑是否简化模型

 ·  · 

如何顺利使用Qwen2.5 - Coder - Instruct

 ·  · 

Qwen 2.5 Coder与128K上下文窗口GGUFs的漏洞修复

 ·  · 

NousResearch推出Forge Reasoning API测试版和NousChat

 ·  · 

用Qwen2.5 - Coder 32b编写基本的chip8模拟器

 ·  · 

Qwen 2.5 Coder 14b在技术报告的多个基准测试中逊于7b - 奇怪!

 ·  · 

大语言模型在保持质量情况下成本逐年降10倍

 ·  · 

Qwen 2.5 32B Coder处理Cline提示不佳,易产生幻觉

 ·  · 

在Qwen2.5 - Coder:32b - Instruct - Q8_0上尝试此提示

 ·  · 

BitNet项目的问题在哪里?

 ·  · 

FastAPI - BitNet项目:通过FastAPI、Uvicorn和Docker运行微软BitNet

 ·  · 

最轻的人工智能设置

 ·  · 

0.5B语言模型的预期表现

 ·  · 

Pixtral仍未发布GGUF版本?

 ·  · 

开源AI模型迎来黄金时代

 ·  · 

Qwen-2.5-Coder 32B:革新编码的AI

 ·  · 

11 日   24

Qwen 2.5 Coder 32B可在HuggingChat免费使用

 ·  · 

原GPT - 4能答对的测试提示,Qwen - Coder - 32B也能答对

 ·  · 

在Macbook M4 Max上测试Qwen Coder 2.5 32b q8和q2_k的初步结果

 ·  · 

qwen - 2.5 - coder 32B使用3xP40和3090的基准测试

 ·  · 

谁将发布下一个有趣的模型?

 ·  · 

阿里如何在Cursor中运行通义千问32B

 ·  · 

疑似Qwen2.5 - Coder 72b

 ·  · 

内容无实质意义,无法生成有效标题

 ·  · 

Qwen - Coder的下一步计划

 ·  · 

我的AI开发者首月经历

 ·  · 

Qwen/Qwen2.5 - Coder - 32B - Instruct模型于Hugging Face发布

 ·  · 

Aider排行榜上的新Qwen模型!

 ·  · 

使用4台M4 Pro Mac Minis与雷电5(80Gbps)互联分布大型语言模型

 ·  · 

二进制向量嵌入超酷

 ·  · 

2位量化与小模型的抉择

 ·  · 

人类轻松完成而AI难以完成的基准测试

 ·  · 

AlphaFold 3模型代码与权重可供学术使用

 ·  · 

具有隐私功能的个人NotebookLM和类Perplexity的AI助手

 ·  · 

Ichigo-llama3.1 v0.4:MMLU得分64.66,多轮对话追踪更佳并拒非语音输入

 ·  · 

期待Qwen 2.5 32b,虽需临时抱佛脚

 ·  · 

Qwen Coder引发新热潮

 ·  · 

使用Llama 3.2 11B描述视频

 ·  · 

A100 32G SXM2计算卡用于Windows本地LLM

 ·  · 

MIT团队利用8B大语言模型结合测试时训练在ARC - AGI - PUB上得分达61.9%

 ·  · 

10 日   11

多语言模型与扩散模型的联合使用

 ·  · 

1TB内存能否满足DeepSeek v2.5 fp8最大上下文长度运行需求

 ·  · 

M4 128到手,有哪些好玩的尝试?

 ·  · 

Claude AI将通过与Palantir的新协议处理政府机密数据

 ·  · 

轻量级开源大语言模型用于自定义模式的文本到JSON转换

 ·  · 

寻求羊驼模型(Llama)使用者

 ·  · 

美国下令台积电停止向中国运送用于AI应用的芯片

 ·  · 

谷歌Trillium TPU(v6e)简介

 ·  · 

汇总已知的所有人工智能驱动的网络搜索软件

 ·  · 

升级我的设备

 ·  · 

Qwen2.5 - 更多参数还是更少量化?

 ·  · 

09 日   16

LMSYS新匿名大语言模型:蓝莓

 ·  · 

利用Florence - 2与Llama 3.2 Vision构建高级图像字幕应用[开源]

 ·  · 

有比Llama更适合电脑小白的离线/本地大语言模型吗(通过Ollama安装时)

 ·  · 

API探索后意识到ChatGPT和Claude记忆功能的价值

 ·  · 

今日创作的一些趣味图像

 ·  · 

Mac Mini M4 16GB测试结果

 ·  · 

修复Claude

 ·  · 

对Ministral 8B的看法

 ·  · 

构建一个支持多用户、有API且可用于其他自托管服务的Ollama支持的自托管Perplexity克隆版,还有哪些需要考虑的?

 ·  · 

GraphLLM框架更新,新增多特性

 ·  · 

大卫·奥(DavidAU)发布三个新模型

 ·  · 

48GB M4 Macbook Pro可运行的最大模型及速度

 ·  · 

Gemini可从OpenAI库访问

 ·  · 

Qwen2.5.1 Coder 7B在Aider排行榜上得分63.9%

 ·  · 

免费使用3080Ti处理无限请求

 ·  · 

构建通用人工智能(AGI)之二:解决强化学习问题的思路

 ·  · 

08 日   15

新基准FrontierMath公布,LLM最高得分2%

 ·  · 

Qwen2.5 - Coder将推出0.5B、3B、14B和32B版本

 ·  · 

OpenCoder:性能媲美顶级代码语言模型的开源可复现代码语言模型家族

 ·  · 

发布Vector Companion后进行重大性能更新

 ·  · 

MoE模型为何不那么流行

 ·  · 

LLMs下象棋的情况及其对AGI的启示

 ·  · 

GGUF量化方法缺乏合理的解释

 ·  · 

4090 SUPRIM X、M4 Max 40核GPU与128GB内存组合

 ·  · 

选择Linux系统时的发行版推荐及理由

 ·  · 

Geekerwan使用Ollama在新M4 Pro和M4 Max芯片上对Qwen2.5 7B至72B进行基准测试

 ·  · 

7B模型与GPT-4 Turbo性能相当

 ·  · 

是否有人正在快速训练GPT?

 ·  · 

往昔回顾:万斯与科斯拉的开源之争

 ·  · 

Chinchilla缩放定律与近期LLM改进存在矛盾

 ·  · 

Llama.cpp发布新的服务器前端

 ·  · 

07 日   9

Meta新模型fractal_alpha体验与初步测评

 ·  · 

谷歌意外泄露Jarvis AI可接管计算机预览版

 ·  · 

编写应用与赫兹(语音到语音模型)互动

 ·  · 

基于大语言模型、检索增强生成(及代理?)的《龙与地下城》互动世界构建应用征求意见:请评判我的图表和想法?是否已有类似产品?

 ·  · 

苹果智能服务器明年将配备M4 Ultra芯片

 ·  · 

分析12个基准测试,为不同用例找到合适规模的大语言模型

 ·  · 

本地羊驼的原生栖息地

 ·  · 

Qwen 2.5 Coder 7B与1.5B Instruct模型权重更新

 ·  · 

基于自由能原理构建AGI的构想

 ·  · 

06 日   13

发布两周后,旧版Sonnet 3.5在LiveCodeBench上仍胜过新版Sonnet

 ·  · 

Ollama现正式支持Llama 3.2视觉版

 ·  · 

新型超小语言模型:Wave网络

 ·  · 

AMD Threadripper 3600与256GB内存运行本地大语言模型的可行性

 ·  · 

RTX 3060 12GB可运行的最佳成人角色扮演模型

 ·  · 

AI寒冬来临前的应对之策(一):引言

 ·  · 

Llama 3.1 70B工具使用能力极差

 ·  · 

微软悄然发布用于解决复杂任务的开源多智能体系统Magentic - One及AutogenBench

 ·  · 

寻求本地可安装且具物理知识的大语言模型

 ·  · 

LLM竞技场惊现神秘新模型

 ·  · 

新PC组建:3090对新主机是否仍具意义?

 ·  · 

SORA即将到来?

 ·  · 

Qwen 2.5登上官方LiveCodeBench排行榜

 ·  · 

05 日   12

200美元单板计算机运行3B模型,每秒约10+个token,可做什么?

 ·  · 

构建设备端小语言模型(SLM)排行榜

 ·  · 

8B VLM在130美元RK3588单板计算机上运行,NPU加速 - 4个令牌/秒,6.5秒延迟(MiniCPM - V 2.6)

 ·  · 

自动标记帖子的原因不总是清晰

 ·  · 

寻找最佳小参数量且大语境窗的LLM模型

 ·  · 

角色扮演模型需具备推理能力,否则可信度低

 ·  · 

腾讯推出强大模型

 ·  · 

基于LLaMa架构的零样本语音克隆OuteTTS - 0.1 - 350M,CC - BY许可

 ·  · 

OpenAI新特性"预测输出"使用推测性解码

 ·  · 

腾讯推出389B MoE开源权重模型

 ·  · 

Qwen2.5 - Coder - 32B的发布进度

 ·  · 

程序员水平日益提高

 ·  · 

04 日   16

llama.cpp补丁使我的最大上下文大小翻倍

 ·  · 

预算硬件用于运行本地模型

 ·  · 

RTX 3090与Threadripper 3970X及256GB内存的LLM推理基准测试

 ·  · 

成功购买更多内存后运行Llama 3.1 405B

 ·  · 

临近2025年,3090显卡是否仍有意义

 ·  · 

需向她解释(无具体指向内容)

 ·  · 

寻求本地大语言模型解决方案以持续处理我的代码库

 ·  · 

失业后每小时需申请尽可能多的工作

 ·  · 

小型大语言模型100次想象随机人物的数据可视化

 ·  · 

英伟达A100 SMX4 64GB的初步测试情况

 ·  · 

用Llama 3.2 3B模型意外构建终端命令伙伴

 ·  · 

AMD使用性能调查

 ·  · 

Hertz - Dev:单RTX 4090上理论80ms、实际120ms延迟的85亿参数开源音频对话AI模型

 ·  · 

仅用FastAPI构建代理:小型语言模型大获成功

 ·  · 

处理未使用令牌的技巧?老是受阻

 ·  · 

最佳开源语音克隆(有大量参考音频)

 ·  · 

03 日   10

本地大语言模型独特的受欢迎用途

 ·  · 

英伟达发布涉及2亿Linux和Windows游戏玩家的安全警告

 ·  · 

探索聊天时AI内部的替代想法

 ·  · 

分析不同输入长度下各类TTS模型的延迟

 ·  · 

英特尔Arrow Lake可支持4个DIMM,速度最高达6400

 ·  · 

最佳(理想无审查)长文本模型(128k)?

 ·  · 

小模型(<5B)的MMLU - Pro分数

 ·  · 

Llama 3.2 90b - vision去向成谜

 ·  · 

3090显卡的最优功耗配置测试

 ·  · 

大AI公司为何不支持RAG解决方案?

 ·  · 

02 日   10

运行Llama3.1 70b需要多少内存?

 ·  · 

推理时模型能否自我重排?

 ·  · 

原来它不是开源的

 ·  · 

为AI计算机使用打造的安全桌面沙盒

 ·  · 

推出语义集成层级联(CaSIL):一个过度设计却有效的思维/推理算法

 ·  · 

苹果M4 Max芯片:高达546GB/s的内存带宽

 ·  · 

llama.cpp在不同设备/后端下的计算与内存带宽效率

 ·  · 

使用数台100k H100s训练Llama 4

 ·  · 

电源限制与核心时钟限制效率的最终测试

 ·  · 

微软的生成式AI脚本

 ·  · 

01 日   13

思维树(ToT)的发展现状

 ·  · 

AMD发布10亿参数完全开源模型

 ·  · 

Qwen2.5 14b是代理的最佳模型

 ·  · 

中国军队科学家利用Meta技术打造‘军事AI’

 ·  · 

IBM推出新库Docling,可转换文档格式

 ·  · 

试用.NET中的语义内核

 ·  · 

多数人是否在本地以gguf格式运行大语言模型?

 ·  · 

大语言模型的置信分数是否有意义?

 ·  · 

视觉大语言模型解释xkcd漫画的基准提案

 ·  · 

警察发声:生成式AI不存在CBRN灾难性风险

 ·  · 

Chat Arena排名的闭源和开源语言模型

 ·  · 

新量化方法——QTIP:格状编码量化与非相干处理

 ·  · 

同一机器上的两块GPU

 ·  · 

10 月   461

31 日   18

AI生成实时游戏玩法

 ·  · 

试用微软OmniParser

 ·  · 

Anthropic呼吁尽早进行AI监管

 ·  · 

使用Flux Fast快速创建近实时图像生成应用(代码少于50行)

 ·  · 

SmolLM2:用于设备端应用的最佳小模型

 ·  · 

Hugging Face发布SmolLM v2,含不同规模版本

 ·  · 

GPU速度与每秒令牌数和功耗[测试结果]

 ·  · 

征集最难结构化输出提示/模式并给出可用提示

 ·  · 

克劳德AI广告

 ·  · 

AI计算社交网络助力项目

 ·  · 

Ollama新漏洞:更多模型,更多概率语言模型风险

 ·  · 

最小可行的大型语言模型

 ·  · 

古登堡训练材料的问题

 ·  · 

Meta发布MobileLLM系列模型(125M、350M、600M、1B)

 ·  · 

Llama 4模型将于2025年初推出,将在超10万个H100集群上训练且具备新特性

 ·  · 

Whisper - Zero如何减少幻觉?

 ·  · 

对SuperNova - Medius - GGUF的看法

 ·  · 

十月的人工智能大事件

 ·  · 

30 日   12

新型AI生成媒体格式:非游戏非电影的"梦"

 ·  · 

Starcannon - Unleashed - 12B - v1.0问世:融合两大模型的成果

 ·  · 

借助大语言模型开始编程

 ·  · 

M4 Max支持高达128GB统一内存

 ·  · 

M4 Max Macs的最大内存容量相同,不理想

 ·  · 

苹果新MacBook Pro广告中的截图

 ·  · 

MacBook Pro M4 Max:内存带宽高达526GB/s

 ·  · 

构建100%在浏览器运行的段落重写器

 ·  · 

AI用于编码:支持哪些语言或对哪些语言效果好?

 ·  · 

构建本地替代OpenAI API的Cortex之旅

 ·  · 

目前最小的大语言模型有哪些?

 ·  · 

谷歌软件工程师和程序员数量的探究

 ·  · 

29 日   18

自制可访问谷歌邮箱、日历和任务的个人助手来管理时间克服ADHD

 ·  · 

OpenAI将于2026年开始使用AMD芯片并可能自制AI硬件

 ·  · 

谷歌新研究:松弛递归变换器,通过跨层共享参数在最小性能损失下缩小现有大语言模型

 ·  · 

RAG在大型代码库中的有效性

 ·  · 

Meta发布Layer Skip:端到端LLM加速解决方案

 ·  · 

开发可在iOS、macOS和visionOS运行MLX模型的应用

 ·  · 

Mac Mini性价比凸显:比5090便宜且VRAM近翻倍

 ·  · 

MacBook性能提升或使本地模型更易用

 ·  · 

苹果M4/Pro版Mac Minis开售

 ·  · 

在8块RX 480(4Gb)上运行Ollama

 ·  · 

Stable Diffusion 3.5 Medium发布于Hugging Face

 ·  · 

我糟糕的Llama 3.2视觉微调经历

 ·  · 

OSI发布开源AI定义1.0版本

 ·  · 

AI安全的危险风险

 ·  · 

MacOS 15.1中的Apple Intelligence提示模板

 ·  · 

伊利亚·苏茨克维访谈后模型可靠性发展

 ·  · 

文档理解非常困难:实例说明

 ·  · 

三个增强版的Llama 3.2模型,每个7B用于创意用途且无审查

 ·  · 

28 日   18

中美顶尖大语言模型间隔仅5个月,中国排名第一且世界第六的模型仅用2000个H100训练即达SOTA

 ·  · 

微调嵌入以用于RAG的经验教训

 ·  · 

RTX 5090或于1月发售,起售价2000美元

 ·  · 

8GB内存下的最佳<10B参数模型

 ·  · 

Mistral.rs v0.3.2金属性能提升26%并推出PyPI安装包

 ·  · 

开源Promptwright:用本地LLM生成大型合成数据集

 ·  · 

用视觉模型助力《帝国时代2》获胜

 ·  · 

超小语言模型有何意义?是否有用?

 ·  · 

成人角色扮演的大语言模型推荐

 ·  · 

Llama.cpp校正设置更新,推理引擎之战

 ·  · 

M1 - 3 Max运行20 - 32B模型的处理和生成速度

 ·  · 

在本地低端RTX3000 GPU上运行Llama的最佳方式

 ·  · 

CPU推理中核心数量的重要性

 ·  · 

哪些开源模型可与gpt - 4o - mini相媲美

 ·  · 

4张3090组建家庭服务器:构建建议与软件选择

 ·  · 

Pixtral表现惊艳

 ·  · 

测试1B/3B小语言模型在本地RAG中的能力及收获

 ·  · 

Mistral - Nemo 12b编码优势下的竞品探寻

 ·  · 

27 日   10

视觉标记器:助力大型语言模型在网页创建自动化的扩展工具

 ·  · 

Meta发布谷歌NotebookLM的开源版本

 ·  · 

对llama3提示格式的困惑

 ·  · 

glm - 4 - voice - 9b可在12GB GPU上运行

 ·  · 

推理引擎之战:Llama.cpp、MLC LLM与vLLM的对比测试

 ·  · 

最佳文档分析与智能引用RAG系统

 ·  · 

Ollama已推出llama3.2 - vision测试版

 ·  · 

Cohere发布Aya Expanse多语言AI模型家族

 ·  · 

微软悄然发布OmniParser:视觉代理截图转结构化元素工具

 ·  · 

Gemini 2令人失望?

 ·  · 

26 日   7

新型金融领域模型Hawkish 8B通过CFA一级且在数学和金融基准测试中胜过Meta Llama - 3.1 - 8B - Instruct

 ·  · 

AMD因AI需求不确定削减台积电订单

 ·  · 

避免大型语言模型自我回复的技巧

 ·  · 

Tinybox Pro (8 x RTX 4090)内部一瞥

 ·  · 

Drummer发布123B v1.1的Behemoth和22B v1.2的Cydonia创意版

 ·  · 

你最不受欢迎的大语言模型观点有哪些?

 ·  · 

两款10B新模型:作家“J.古登堡”与作家 - “不羁之笔”(无审查)

 ·  · 

25 日   17

Llama 405B在Nvidia H200 SXM上可达142 tok/s

 ·  · 

DeepMind与HF合作将水印引入模型推理

 ·  · 

Mistral发布Pixtral基础模型:Pixtral - 12B - Base - 2409

 ·  · 

Drummer"s Nautilus 70B v0.1:L3.1 Nemotron 70B的RP微调版本

 ·  · 

G.Skill新款DDR5 - 9600 CUDIMM内存条风冷可达DDR5 - 10000速度

 ·  · 

智谱AI发布开源端到端语音大模型GLM - 4 - Voice

 ·  · 

LLaMA.cpp主线合并DRY采样器

 ·  · 

是否有人使用1B或3B 3.2版Llama

 ·  · 

突破内存壁垒:对比损失近乎无限的批量大小缩放

 ·  · 

4090(24Gb显存)的LLM推荐

 ·  · 

白宫行动对开源的影响

 ·  · 

RAG有哪些你知道的GUI选项?

 ·  · 

最真实无审查的人工智能模型

 ·  · 

Cerebras推理速度提升3倍:Llama3.1 - 70B每秒突破2100个token

 ·  · 

大语言模型能否理解?理解的本质

 ·  · 

适用于‘计算机应用’类的最佳本地视觉模型

 ·  · 

距离能写出优秀作品的大语言模型还有多远?

 ·  · 

24 日   17

xMAD推出市场上最佳量化Llama3.1-405B和8B模型

 ·  · 

对新版Sonnet 3.5的失望

 ·  · 

Prime Intellect AI本月推出INTELLECT - 1:开创性的100亿参数民主AI语言模型

 ·  · 

VSCode结合Cline、VLLM与Qwen2.5实现快速运行

 ·  · 

笔记本上搭载2个64GB VRAM的MI60?雷电4多eGPU!

 ·  · 

一行代码对GGUF模型进行基准测试

 ·  · 

ChatterUI v0.8.0发布 - 现支持外部模型加载

 ·  · 

Meta发布量化版Llama模型

 ·  · 

使用4块RTX 3090对MLC LLM和Mistral Large Instruct 2407 q4f16_1进行功率缩放测试(150 - 350瓦)

 ·  · 

扎克伯格:发布量化版Llama 1B和3B设备模型

 ·  · 

CohereForAI发布aya - expanse - 32b模型

 ·  · 

支持5个以上GPU的最便宜主板

 ·  · 

LLMs的一些被低估的用途有哪些?

 ·  · 

我应拥有自己的大语言模型聊天记录

 ·  · 

Qwen Coder版本相比基础版本优势如何

 ·  · 

基于个人理念的精选模型

 ·  · 

本地项目新卡片

 ·  · 

23 日   15

使用Docker Compose运行本地AI栈

 ·  · 

推出Arch - 用于快速且可观测的智能体应用的开源智能中间件

 ·  · 

Claude 3.5 Sonnet在SimpleBench得分提升

 ·  · 

Aider:在24GB VRAM下优化性能(持续微调)

 ·  · 

Qwen 32B全面微调用于角色扮演/故事创作:EVA

 ·  · 

单3090(或4090)可使用的模型列表

 ·  · 

深入探究Claude的视觉代理计算机使用

 ·  · 

适配单张3090的最智能模型

 ·  · 

何时会有本地开源的Suno?

 ·  · 

新旧Claude 3.5:速度与输出质量快速评测

 ·  · 

发布免费竞品VisioPilot,可本地运行LLM

 ·  · 

当今最佳3B模型?

 ·  · 

Claude Sonnet 3.5登顶Aider排行榜,大幅领先对手

 ·  · 

Anthropic博客:Claude在编码演示中突然暂停查看黄石公园照片

 ·  · 

推出Fast Apply - 复现Cursor的即时应用模型

 ·  · 

22 日   16

急需在家进行SETI分布式训练

 ·  · 

Hugging Face CEO称AI领域封闭性增强协作性减弱影响发展

 ·  · 

小参数语言模型(260k参数)在Dalek内部运行

 ·  · 

花费数周构建无代码网络自动化工具,Anthropic推出计算机使用API使其面临困境

 ·  · 

Outlines实现结构化生成,现支持Rust

 ·  · 

Genmo发布Mochi 1:新的SOTA开源视频生成模型(Apache 2.0许可)

 ·  · 

Claude 3.5 Sonnet:计算机使用体验?

 ·  · 

开源推理模型Steiner受OpenAI启发

 ·  · 

克劳德3.5新模型:计算机使用、十四行诗与俳句

 ·  · 

Transformers.js v3发布:多项新特性

 ·  · 

构建LLM比较工具,或多付50% API费用

 ·  · 

若5090泄露规格属实,你愿出的最高价是多少?

 ·  · 

Stability AI发布Stable Diffusion 3.5,含三个变体,10月29日上线Medium

 ·  · 

用Llama 8B和70B开发亚马逊品牌筛选Chrome扩展

 ·  · 

最佳成人角色扮演模型 - Mistral - Small - 22B - ArliAI - RPMax - v1.1

 ·  · 

新文本到视频模型:Allegro

 ·  · 

21 日   13

基于特定引言的系统指令

 ·  · 

开源OCR最佳视觉模型

 ·  · 

Qwen 2.5系列不同版本模型的基准测试

 ·  · 

本月已达三次?

 ·  · 

OpenAI新的群体代理框架是否过于简约?

 ·  · 

开源网页扩展BrowserLlama可本地交互网页

 ·  · 

近期公开权重发布采用更严格许可

 ·  · 

GPU匮乏下的大语言模型角斗场

 ·  · 

TikTok所属公司开除破坏AI项目的实习生

 ·  · 

PocketPal AI开源

 ·  · 

Ollama预发布版初步实验性支持Llama 3.2视觉

 ·  · 

IBM发布Granite 3.0模型

 ·  · 

微软开源LLM平台bitnet.cpp是否源于llama.cpp

 ·  · 

20 日   14

英伟达nGPT:超球面上优化实现更快收敛

 ·  · 

长文本下的认知过载攻击:提示注入

 ·  · 

在Linux系统下使用AMD GPU运行Llama

 ·  · 

点赞和点踩系统如何助力模型训练

 ·  · 

1位LLM何时能真正启动?

 ·  · 

Mistral-Large-Instruct-2407比Claude3.5和ChatGPT更实用

 ·  · 

Firefox为大型语言模型添加侧边栏

 ·  · 

利用替代词和概率生成文本

 ·  · 

提示工程工具PROMPT++

 ·  · 

GraphLLM推出图形界面:用于大语言模型推理的开源框架

 ·  · 

为Windows打造更佳苹果智能写作工具版本

 ·  · 

用大型语言模型反编译二进制代码

 ·  · 

OpenAI O1模型的替代方案

 ·  · 

Anthracite组织发布v4系列多种规模模型

 ·  · 

19 日   15

轻量级本地大语言模型实现多页PDF手写识别

 ·  · 

RAG不适用于提取精确信息时的替代方案

 ·  · 

Claude编写脚本使Llama 3.2 1B模拟Twitch聊天

 ·  · 

微软开源bitnet.cpp:可在CPU直接运行的1位LLM快速推理框架

 ·  · 

寻求6块3090推理软件设置的建议

 ·  · 

Meta推出结合文本与语音输入/输出的Spirit LM开源模型

 ·  · 

交互式的从Top K中选择下一个标记

 ·  · 

创建基于Mendeley阅读量追踪热门AI论文的网页应用

 ·  · 

未实现的LLM项目创意

 ·  · 

OSI指认Meta误导性的‘开源’AI模型

 ·  · 

最佳本地运行的即用型RAG解决方案

 ·  · 

我的2张RTX 3090、RTX A1000和10张WD Red Pro 10TB因电涌损坏

 ·  · 

何时推出Mistral大型模型的1比特版?

 ·  · 

使用405b的Llama 3.1,服务器内存是否够用

 ·  · 

大语言模型构建舒适工作流

 ·  · 

18 日   17

谷歌何时推出新的Gemma 70B模型

 ·  · 

低预算运行大模型的最佳硬件,P40是否值得?

 ·  · 

Grok 2在LiveBench上表现逊于Llama 3.1 70B

 ·  · 

Meta FAIR分享新研究、模型与数据集

 ·  · 

基于ChatGPT生成的糟糕故事

 ·  · 

哪些AI模型是被忽视的‘宝藏模型’?

 ·  · 

微软推出用于1 - 位大型语言模型的推理框架BitNet

 ·  · 

6块GPU的组装:4块RTX 3090与2块MI60、Epyc 7002、256GB DDR4

 ·  · 

以代码思维为核心即可

 ·  · 

量化大型语言模型经50万+评估仍保精度

 ·  · 

山姆·奥特曼的反乌托邦之球:本地AI应具竞争力的又一原因

 ·  · 

米斯特拉尔大模型2助力的天狼星控制论电梯挑战

 ·  · 

Qwen2.5 14b和32b模型性能如何

 ·  · 

本地语音转文本(STT)方案寻求

 ·  · 

微软Copilot的个性令人反感及原因

 ·  · 

LLM Studio是否好用

 ·  · 

DeepSeek发布Janus:13亿参数多模态图像生成模型

 ·  · 

17 日   15

《“过度思考"的Llama - 3.2 - 3B - Overthinker模型》

 ·  · 

创建浏览器扩展,将兼容本地LLM服务器

 ·  · 

利用Prolog提升大语言模型推理能力

 ·  · 

至今是否有真正的多模态开源AI模型发布?

 ·  · 

RTX3090 Epyc 7003与256GB DDR4配置

 ·  · 

Mozilla研究:为大众解锁AI,而非仅大型科技公司

 ·  · 

Llama - 3.1 - Nemotron - 70B - Instruct未超越GPT - 4o或Sonnet 3.5:MMLU Pro基准测试结果

 ·  · 

创建免费MacOS/iOS本地LLM运行应用,求反馈!

 ·  · 

0.5B模型出现此情况是否正常?

 ·  · 

自制查找最便宜/最快LLM API提供商工具

 ·  · 

大语言模型此操作无误的原因

 ·  · 

Meta AI的隐藏提示

 ·  · 

利用本地运行的Llama - 3.2 - 3B Instruct机器人NPC创建找密码游戏

 ·  · 

能否实现超长(10万+)的标记输出?

 ·  · 

3B模型的商业用例有哪些?

 ·  · 

16 日   21

Gemma2模型融合:EQBench四大写作模型

 ·  · 

Llama-3.1-Nemotron-70B-Instruct-HF在辅助排行榜上得分55%,仅次于普通Llama-3.1-70B-Instruct

 ·  · 

XTC采样器已并入llama.cpp主线

 ·  · 

OpenAI Swarm: 智能体框架,是否值得关注?

 ·  · 

ETH79 - X5主板信息:价格、配置与扩展

 ·  · 

对Mistral的喜爱因新许可而受影响

 ·  · 

Meta发布TPO技术论文,成果显著

 ·  · 

大型语言模型幻想游戏

 ·  · 

未获取到有效信息(原标题ministral无实质意义)

 ·  · 

Mistral发布新模型 - Ministral 3B和Ministral 8B

 ·  · 

米斯特拉尔相关资讯

 ·  · 

可直接用Ollama运行Hugging Face Hub上的45K GGUF

 ·  · 

新的创意写作模型 - 推出Twilight - Large - 123B

 ·  · 

NVIDIA最新模型Llama-3.1-Nemotron-70B可在HuggingChat使用

 ·  · 

AMD与rocm问题现状:支持是否改善?

 ·  · 

自动删除提及Matt Shumer相关内容的请愿

 ·  · 

为何在8b和70b之间没有Llama的中间版本

 ·  · 

6U Threadripper与4张RTX4090的构建

 ·  · 

用韩国最难考试来测试你的大语言模型

 ·  · 

用大语言模型做游戏管理员的项目创意拓展

 ·  · 

SuperNova Medius与Obsidian笔记结合Msty知识栈功能强大,附使用指南

 ·  · 

15 日   15

对大语言模型进行类似指纹识别的趣味实验

 ·  · 

Gemma2 9B令人惊叹

 ·  · 

最佳试过的语音合成(TTS)

 ·  · 

自建类似Copilot的CLI工具Oi

 ·  · 

LLM训练错误修复 - 梯度累积错误

 ·  · 

新模型Llama-3.1 - nemotron - 70b - instruct

 ·  · 

新采样范式似乎确实存在

 ·  · 

在单个GPU上为Llama - 3 - 8B提供330万上下文服务

 ·  · 

Windows版Triton(非官方,经测试可在ComfyUI中工作)

 ·  · 

线性化Llama 3.1模型(8B、70B和405B)的LoLCATS - hazyresearch集合

 ·  · 

Claude是否为市场上最佳的AI代码助手

 ·  · 

在家搭建类似Elevenlabs的语音合成系统难度如何

 ·  · 

Grok - 2与Grok - 2 - mini在Aider代码编辑基准测试中的表现

 ·  · 

谷歌论文:无提示的思维链推理

 ·  · 

重现GPT - O1的思维链思考(思考与输出)

 ·  · 

14 日   15

Zamba2 - 7B(遵循Apache 2.0协议)

 ·  · 

利用LoLCATs线性化大型语言模型:几乎无训练地对现有模型进行注意力线性化

 ·  · 

Zamba2-7b发布,性能超Mistral、llama 8b和Gemma

 ·  · 

LLMs的非编码与聊天用途

 ·  · 

txtai 7.5发布:语音到语音RAG、新TTS模型和生成式音频功能

 ·  · 

寻求可接入任意LLM API的Cursor替代品

 ·  · 

AI智能体大规模生产应用的实例

 ·  · 

非实时、高质量本地语音克隆的选择有哪些?

 ·  · 

将优秀的OCR和视觉模型集成到可动态辅助文档研究的LLM相关项目中

 ·  · 

Llama3.2:1B相关

 ·  · 

在家运行90B Llama的硬件成本

 ·  · 

RTX 3090实时运行AI生成的《CS:GO》

 ·  · 

Ichigo - Llama3.1:本地实时语音AI

 ·  · 

重复惩罚机制实施糟糕 - 简短解释与解决方案

 ·  · 

xTTS - v2、F5 - TTS与GPT - SoVITS - v2的语音合成对比

 ·  · 

13 日   12

低成本构建首个大语言模型,仅需250欧元

 ·  · 

我的傻散热器

 ·  · 

使用开源工具创建高质量转录的100%自动化工作流指南

 ·  · 

RTX 3070硬件下可运行的AI模型

 ·  · 

公开训练数据的大型语言模型

 ·  · 

最佳开源语音转文本模型

 ·  · 

将笔记本内存从32GB升级到64GB是否值得

 ·  · 

是否有可购买的预设置人工智能物理服务器(面向消费者)

 ·  · 

现可在商店购买DGX B200

 ·  · 

未提供有效信息,无法生成标题

 ·  · 

忽略多模态能力,Llama 3.2在文本推理方面是否优于3.1?

 ·  · 

滥用WebUI制品

 ·  · 

12 日   12

微软Edge TTS API端点:OpenAI TTS API的本地免费替代品

 ·  · 

我终于实现了我的AI梦想

 ·  · 

F5 - TTS:通过流匹配伪造流畅且忠实语音(最佳开源语音合成!)

 ·  · 

AMD Epyc Turin 9575F实现近满理论内存带宽

 ·  · 

惊讶于未见Llama 3.2(11B)的通用或RP微调

 ·  · 

Mistral-Nemo-12B和Llama-3.1-8B的RPMax创意模型更新

 ·  · 

Anthropic创始人最新文章:机器的慈爱优雅

 ·  · 

比较LLM模型:哪一个最佳?

 ·  · 

LLAMA - 3 8B未校准版BETA发布

 ·  · 

英特尔首次开放分布式大语言模型INTELLECT - 1的训练

 ·  · 

基于Python创建最简多模态截图分析器

 ·  · 

SuperNova - Medius:从Llama - 405B和Qwen2.5 - 72B蒸馏得到的Qwen2.5 - 14B

 ·  · 

11 日   15

寻求建议:本地运行作为个人知识与分析“第二大脑”的AI

 ·  · 

智谱的GLM-4-9B-Chat(fp16)在低幻视率的RAG任务中表现卓越

 ·  · 

本地运行Llama 70总是比Huggingface / Groq更昂贵吗?

 ·  · 

英伟达新开源大模型NVLM-D-72B与领先模型对比

 ·  · 

350美元纯CPU的7年老工作站运行Nemo/ollama的结果

 ·  · 

54GB显存(2个3090+1个1060)下的最佳运行模型

 ·  · 

KoboldCpp v1.76新增反斜率采样器(短语禁止)和RP角色创建场景

 ·  · 

本地大模型上AI助手本地运行速度探秘

 ·  · 

Qwen 2.5模型不同大小数学能力评估及教学用途探讨

 ·  · 

Claude-dev 2.0.0发布,现名为Cline

 ·  · 

2美元H100:GPU租赁泡沫如何破裂

 ·  · 

ChatGPT中询问o1 - mini / o1 - preview解决"P与NP"问题时收到OpenAI违规警告

 ·  · 

小于约35B的模型中哪些最适合事实查找/关联而非创意写作?

 ·  · 

将与Meta人工智能副总裁会面,该问什么好?

 ·  · 

Darkest Planet 16.5B:独特的非AI创意模型

 ·  · 

10 日   14

AMD推出MI325X:1kW、256GB HBM3,性能达H200SXM的1.3倍

 ·  · 

开源Transformer实验室推出标记可视化工具

 ·  · 

神经网络中结构化扰动的元胞自动机驱动镜像张量表面:基于连续状态权重调制的动态正则化、增强可塑性和多尺度学习新方法

 ·  · 

7900XTX运行大语言模型工作负载的体验

 ·  · 

英伟达宣布Mistral - NeMo - Minitron 8B指令模型

 ·  · 

搭建树莓派本地运行AI的家庭服务器

 ·  · 

LLM幻觉排行榜

 ·  · 

购置8*GPU服务器运行32b模型,噪音大是否正常

 ·  · 

六个月打造免费易用的本地AI

 ·  · 

AMD 2024人工智能推进活动今日直播

 ·  · 

Java实现Llama 3+快速推理

 ·  · 

使用Transformer(TRL)时小批量大小和梯度累积微调效果差

 ·  · 

RTX 5090定价为1999 - 2499美元

 ·  · 

ARIA:一个开放的多模态原生专家混合模型

 ·  · 

09 日   17

当下用于本地代码生成的工具

 ·  · 

隐藏的瑰宝:happzy2633/qwen2.5 - 7b - ins - v3是一个无审查且能力卓越的CoT微调模型

 ·  · 

Ollama即将支持llama 3.2视觉功能

 ·  · 

NVIDIA在Blackwell上推理速度提升15倍的真相

 ·  · 

是否有能整合整个代码库用于聊天的大语言模型

 ·  · 

学习大语言模型工作原理的首个优质项目

 ·  · 

杰弗里·辛顿调侃山姆·阿尔特曼

 ·  · 

骁龙X Elite/Plus是否为新的强劲产品

 ·  · 

本地运行Qwen2 - VL - 72B或Llama - 3.2 - 90B - Vision的方法

 ·  · 

开源CUDA:打破英伟达垄断的关键

 ·  · 

Drummer的123B版本Behemoth:规模至关重要!

 ·  · 

开发搭载Llama3的语音助手V.I.S.O.R.

 ·  · 

4090与等待5090的抉择

 ·  · 

OpenAI o1与Google Gemini的长上下文RAG能力

 ·  · 

8GB GDDR6显存现仅需18美元

 ·  · 

谷歌近两年未居首位,Meta等竞争格局

 ·  · 

V100还能使用多少年?

 ·  · 

08 日   14

将Llama 3.2视觉适配器合并到3.1微调模型上

 ·  · 

即将入手64GB内存和16GB显存笔记本,求可运行的最佳本地大语言模型

 ·  · 

小型搜索引擎kgrep

 ·  · 

Open NotebookLM:谷歌NotebookLM的开源替代品

 ·  · 

LM Studio为Mac推出MLX后端,高速运行Hugging Face的大语言模型

 ·  · 

杰弗里·辛顿对诺贝尔奖的反应

 ·  · 

杰弗里·辛顿对诺贝尔奖的反应:希望在称大型语言模型确实理解话语时更具可信度

 ·  · 

英飞凌宣布与英特尔合作、推出两款新模型及含微调与本地部署的企业计划

 ·  · 

vLLM较llama.cpp同机分布式推理性能快超70%

 ·  · 

微软研究院的差分变换器

 ·  · 

我的方法(持续微调)效果超棒,72b登顶Open - LLM - 排行榜

 ·  · 

PrefixQuant:一种新的量化算法在LLMs中通过预定义异常值使静态量化优于动态量化

 ·  · 

求创意有趣的命名模型

 ·  · 

AntiSlop采样器获OpenAI兼容API,可在Open - WebUI试用

 ·  · 

07 日   10

“提示编写疲劳”困扰AI开发者:你如何应对?

 ·  · 

双3060显卡能否匹敌单3090?性能与成本对比

 ·  · 

Zamba 2发布:2.7B与1.2B指令模型超越Gemma 2与Mistral 7B

 ·  · 

Open WebUI 0.3.31更新:新增Claude风格‘Artifacts’、实时代码迭代及完整文档支持

 ·  · 

“加法即所需”:高效节能语言模型新突破

 ·  · 

新型算法:整数加法助力AI能耗降低95%

 ·  · 

LLaMA 3.2 405B在顶级大模型中的排名如何?

 ·  · 

M3 Max上Ollama、MLX与Llama.cpp速度对比揭秘

 ·  · 

开源浏览器助手:本地模型助力多场景应用

 ·  · 

3090显卡下最佳多语种LLM翻译模型推荐

 ·  · 

06 日   18

首建AI视频处理工作站:搭载3块4090显卡

 ·  · 

3B参数Qwen2.5微调超越8B参数Llama3.1登顶排行榜

 ·  · 

Llama学习:为何众多文章作者偏爱Medium平台?

 ·  · 

GPT-4助力大型代码库优化:AI编程新方案

 ·  · 

OpenAI的o1并非简单CoT,开源社区需深思

 ·  · 

AMD Instinct Mi60:高性能AI加速卡评测

 ·  · 

新尝试:在现有模型上复现O1推理能力

 ·  · 

Qwen 2 VL 7B Sydney:爱评狗狗图的视觉模型

 ·  · 

“我们无护城河”备忘录的先见之明

 ·  · 

构建本地LLM推理服务器的硬件建议

 ·  · 

全新推理模型亮相:无标签,纯逻辑

 ·  · 

当前代码生成方案的不足与改进方向

 ·  · 

自适应采样技术新突破:基于注意力熵的采样器

 ·  · 

本地训练逆袭:Impish_LLAMA_3B的诞生记

 ·  · 

Qwen2.5模型频称自己是Claude,引发用户困惑

 ·  · 

无需API调用,笔记本实现实时语音转文字

 ·  · 

MN-GRAND-Gutenburg-Lyra4-Lyra-23.5B:长篇大论,非典型AI散文

 ·  · 

OpenAI Whisper模型现诡异附加文本

 ·  · 

05 日   11

GH-200超级服务器首启:革命性硬件助力AI开发

 ·  · 

寻找能审查代码文件的编程助手推荐

 ·  · 

LLM创意编程:融合Pong与Snake游戏

 ·  · 

VPTQ:极致低比特量化技术助力大模型高效部署

 ·  · 

生成式AI将迫使80%工程师至2027年需提升技能

 ·  · 

多款TTS应用评测:谁是最佳之选?

 ·  · 

AI模型问答优化过度引发讨论

 ·  · 

Llama-Swap:轻松切换Llama.cpp模型的代理工具

 ·  · 

最佳代码补全LLM推荐:StarCoder v2 3b是否最优?

 ·  · 

谷歌新系统助力LLM“编辑循环”,提升创意写作

 ·  · 

降低GPU频率节省电费,性能影响几何?

 ·  · 

04 日   20

60GB显存Ziptie主机2400欧元配置曝光

 ·  · 

Llama 3.2 1b模型实用性探讨

 ·  · 

Grok 3开源发布,延续Grok系列传统

 ·  · 

鼓手之虎Gemma 9B v3模型解禁新法

 ·  · 

低成本打造真实情感伴侣

 ·  · 

Q8与FP8:谁更胜一筹?

 ·  · 

KV-Compress:提升大模型推理效率的新缓存压缩技术

 ·  · 

ZLUDA再获新生,AI硬件加速新篇章

 ·  · 

神秘图片引发AI社区热议

 ·  · 

Meta推出Movie Gen:引领媒体基础AI模型新纪元

 ·  · 

Meta发布全新图像/视频/音频生成模型

 ·  · 

12GB显存下最佳NSFW故事与角色扮演AI模型推荐

 ·  · 

高容量DDR5内存即将到来?64GBx2与96GBx2前景如何

 ·  · 

小模型能否媲美BERT文本分类?

 ·  · 

企业内部文档问答助手:LLM+RAG方案探讨

 ·  · 

技术文章摘要实战:多款大模型性能对比

 ·  · 

大型AI聊天机器人更易产生胡言乱语,用户难以察觉

 ·  · 

“巫师”模型命运如何?法律学术双重围剿?

 ·  · 

Gemma 2 2b:被低估的SLM王者

 ·  · 

SoftWhisper:用户友好的Whisper转录应用发布

 ·  · 

03 日   14

Llama模型自毁实验引发关注

 ·  · 

REV AI发布新ASR模型,性能超越Whisper-Large V3

 ·  · 

开发者温馨互动,社区期待新突破

 ·  · 

LLM工具调用入门指南:解锁AI新能力

 ·  · 

OpenAI新Whisper Turbo模型在M1 Pro上本地运行速度提升5.4倍

 ·  · 

NotebookLM助力:热议话题变身播客新体验

 ·  · 

告别GPT弊端!XTC采样器助力llama.cpp

 ·  · 

Qwen 2.5引发职场争议:中国AI模型安全遭质疑

 ·  · 

发现中国版Huggingface克隆平台

 ·  · 

Aphrodite Engine自定义量化测试:性能几何?

 ·  · 

AMD新APU性能逼近7600 XT,共享96GB VRAM

 ·  · 

创意写作推荐:15B参数以下LLM模型大搜罗

 ·  · 

谷歌发布GEMMA-2-2B-JPN-IT:专攻日语模型

 ·  · 

揭秘Reflection 70B数据集质量:深度分析

 ·  · 

02 日   16

英伟达发布开源巨无霸AI模型,挑战GPT-4

 ·  · 

谁是最搞笑的大语言模型?

 ·  · 

OpenAI高级语音模式:开源项目能否追赶?

 ·  · 

123B大模型盘点:你最青睐哪一款?

 ·  · 

昔日好友力推AI开源,愿景人人可用

 ·  · 

Meta Llama 3.2:视觉能力深度解析

 ·  · 

Qwen 2.5 Coder 7b:代码自动补全新突破

 ·  · 

HuggingChat模型更新:Llama 3.2、Qwen、Hermes 3等全新上线

 ·  · 

AI行业最坏情景预测:泡沫破裂后的未来

 ·  · 

AI模型在算法问题上的错误回答引关注

 ·  · 

OpenAI Whisper Turbo助力实时转录

 ·  · 

追求高精度而非速度的Whisper替代方案

 ·  · 

Gemini Nano 2登陆安卓:实验性访问开启

 ·  · 

高效部署70B级大模型于低资源边缘设备

 ·  · 

48GB显存最佳AI模型推荐

 ·  · 

学习高级架构助力GGUF项目发展

 ·  · 

01 日   15

重要更新:无损失连续微调技术新突破

 ·  · 

本地Llama模型实现高质量思维链推理

 ·  · 

Meta发布全新RLHF算法CGPO,性能超越PPO

 ·  · 

Nvidia发布72B参数多模态模型NVLM

 ·  · 

GLM-4-9b-Chat领跑幻觉评估榜,OpenAI o1-mini紧随其后

 ·  · 

LitLytics开源发布:低成本AI数据分析平台

 ·  · 

各大LLM趋同现象引发关注

 ·  · 

OpenAI Whisper Turbo浏览器本地运行

 ·  · 

Whisper版本繁多引发选择难题

 ·  · 

LLM能否仅凭上下文窗口掌握高阶数学?

 ·  · 

Whisper Turbo模型现支持Transformers框架

 ·  · 

惊异高效:超智能文本摘要提示技巧

 ·  · 

iPhone 13成功运行本地LLama 3.2模型

 ·  · 

英伟达发布72B参数大模型NVLM-D

 ·  · 

AI文件整理器升级:新增预览模式和默认Llama 3.2模型

 ·  · 

09 月   490

30 日   11

呼吁禁止Screenpipe垃圾营销行为

 ·  · 

OpenAI发布全新Whisper模型“turbo”

 ·  · 

浏览器内全本地运行Llama 3.2:WebGPU与Transformers.js助力

 ·  · 

新模型全面超越XYZ,性能全面提升

 ·  · 

深度解析:80+大语言模型在代码生成质量评估中的表现

 ·  · 

mistral.rs支持本地运行Llama 3.2 Vision模型

 ·  · 

SLOP Detector:社区新工具助力消除GPT生成文本特征

 ·  · 

Llama-3与Google NotebookLM实验惊艳成果

 ·  · 

Koboldcpp速度远超LM Studio,提升大模型处理效率

 ·  · 

AI生成虚构学术论文:灵界重排抑制恶魔召唤中的灵质形成

 ·  · 

Emu3:下一代多模态AI模型诞生记

 ·  · 

29 日   14

开源游戏伴侣应用:整合GPT、Gemini和Ollama

 ·  · 

加州州长否决AI安全法案

 ·  · 

o1-mini模型在2024年AIME考试中表现更佳,使用更多tokens效果显著

 ·  · 

Meta开发OpenAI高级语音模式的竞争对手

 ·  · 

揭秘AI生成文本中的常见冗余短语

 ·  · 

管理本地AI堆栈的应用程序(Linux/MacOS)

 ·  · 

通过降压实现静音快速推理

 ·  · 

如何微调大型语言模型?

 ·  · 

出售AI工作站,有意者请联系

 ·  · 

Replete-LLM Qwen-2.5模型发布

 ·  · 

低预算VRAM适用的量化GGUF大语言模型

 ·  · 

Llama 3.2视觉模型图像像素限制揭秘

 ·  · 

开源本地模型与闭源API模型的功能差异

 ·  · 

最佳NSFW角色扮演模型推荐:Mythomax-L2是否仍具竞争力?

 ·  · 

28 日   12

将代码库转化为课程

 ·  · 

Llama 3.2视觉模型与Llava 1.6性能对比

 ·  · 

OpenAI计划逐步提价至每月44美元

 ·  · 

MLX新增支持Qwen2-VL模型

 ·  · 

手机上运行大语言模型的首选方法是什么?

 ·  · 

AMD新CPU推荐:9950x是否过度配置?

 ·  · 

RAGBuilder新增超参数可视化功能,助力RAG性能优化

 ·  · 

Llama 3.2助力打造本地AI助手

 ·  · 

本地文件Token计数工具发布,支持多种模型

 ·  · 

众多新模型发布后,你究竟在使用什么?

 ·  · 

本地运行大型语言模型的实际应用场景探讨

 ·  · 

Llama 3.2 3B 无审查微调模型探讨

 ·  · 

27 日   17

AMD发布其首款小型语言模型AMD-135M

 ·  · 

64GB显存的双MI100服务器

 ·  · 

展示你的AI设备!

 ·  · 

Llama3.2-1B GGUF 量化基准测试结果

 ·  · 

我让llama3.2为我设计新车。有些设计简直太疯狂了。

 ·  · 

NVIDIA Jetson AGX Thor 将在2025年拥有128GB的VRAM!

 ·  · 

教授在这里。在课堂上运行本地模型(用于生产)时需要前端UI建议/推荐。更多关于使用案例的内容在里面。

 ·  · 

我制作了一个可配置的反滑移采样器,可以在单词和短语级别下调概率。

 ·  · 

…那么MOE发生了什么?

 ·  · 

LLAMA3.2-3B 仅用2个提示就创建了一个功能齐全的贪吃蛇游戏。

 ·  · 

在使用大型语言模型(LLMs)时,从Q8到Q6哪些任务的质量下降最明显?

 ·  · 

我在美国陆军的野战手册上训练了Mistral。该模型(及其新的230万个token的指令数据集)是开源的!

 ·  · 

寻找:AMD LLM t/s 性能图表/基准测试

 ·  · 

我曾希望大型语言模型能让我们减少对云的依赖,但…

 ·  · 

我正在使用双RTX 4080 GPU和Mac Studio通过GPUStack进行分布式推理,基于llama.cpp。尽管通过40GB/s的Thunderbolt连接,吞吐量仍保持在每秒10-12个token。瓶颈在哪里?有什么改进建议吗?

 ·  · 

Llama 3.2 在欧盟被禁用了吗?

 ·  · 

Abliteration不仅影响模型的行为和响应方式,还影响其虚构角色的思维和响应方式

 ·  · 

26 日   20

Mark是不是不经意间透露了他们有一个超过100,000个GPU的数据中心用于llama4训练?

 ·  · 

Mistral Nemo 真是让我大开眼界

 ·  · 

你希望Llama4具备哪些功能?

 ·  · 

有人知道为什么Llama 3.2 3b在OpenRouter上比1b便宜得多吗?是偶然的吗?

 ·  · 

OpenAI终于走出非营利模式,转向盈利结构(谁会想到呢)

 ·  · 

RTX 5090将配备32GB的GDDR7(1568 GB/s)内存

 ·  · 

什么时候 👁️ 👁️?

 ·  · 

通过ChatterUI在Android上运行Llama 3.2

 ·  · 

Hugging Face 刚刚突破了 1,000,000 个模型

 ·  · 

这是你们中一些人一直在等待的模型 - Mistral-Small-22B-ArliAI-RPMax-v1.1

 ·  · 

Molmo - 一种超越Llama 3.2的新模型,在欧盟可用

 ·  · 

估算性能损失:Qwen2.5 32B Q4_K_M 与 BF16 MMLU PRO 评估结果对比

 ·  · 

最佳布局检测和表格提取工具

 ·  · 

qwen2.5:72b是目前最强的编码模型吗?

 ·  · 

Ovis 1.6 - 基于Gemma 2的10B视觉语言模型,在MMMU上超越了Llama 3.2 11B和GPT-4o-mini

 ·  · 

在手机上运行Llama 3.2 3B - 适用于iOS和Android

 ·  · 

Llama-3.2 视觉功能尚未被 llama.cpp 支持

 ·  · 

他们会在未经审查的模型中添加额外的污秽内容吗?

 ·  · 

LLAMA 3.2 不可用

 ·  · 

更大且更易受指令影响的AI模型变得更不可靠

 ·  · 

25 日   27

米拉·穆拉蒂(OpenAI首席技术官)即将离职。这家公司到底发生了什么?

 ·  · 

Llama 3.2 多模态 GGUFs,4bit bitsandbytes

 ·  · 

如何在移动设备上部署Llama 3.2 1B/3B?

 ·  · 

Llama 3.2视觉测试

 ·  · 

正在开发一个由LLM驱动的分析工具,需要一个现实检查。这个工具作为自托管的开源工具会有用吗?

 ·  · 

米拉·穆拉蒂离开OpenAI

 ·  · 

LlaMA 3.2 3B 一次性完成贪吃蛇游戏!(但未能吃到苹果)

 ·  · 

Zuck万岁,开源是未来

 ·  · 

波兰LLM 1.5B在单个GPU上持续预训练,这是一年工作的成果。

 ·  · 

Llama 3.2 1B 和 3B GGUFs 已上线

 ·  · 

Molmo模型在大多数视觉基准测试中优于Llama 3.2 🌟

 ·  · 

LLAMA3.2

 ·  · 

首个1B参数模型超越Qwen 7B,并在文本到SQL任务上与4o持平。在BirdBench私有测试集上达到51.54%,Qwen: 51.51%,GPT-4: 46%。

 ·  · 

Llama 3.2 1B & 3B 基准测试

 ·  · 

Llama 3.2 多模态

 ·  · 

Qwen 2.5 对比 Llama 3.1 的插图。

 ·  · 

Postgres学会RAG:在数据库内使用Llama 3.1进行维基百科问答

 ·  · 

Molmo 是我找到的第一个能够读取模拟时钟的视觉模型,Claude/GPT/Gemini 都无法做到这一点。它在手表图片中混淆了分钟和小时指针,但位置是正确的

 ·  · 

Molmo:AllenAI推出的开源最先进多模态AI模型系列

 ·  · 

为什么大多数模型只有100K个token的上下文窗口,而Gemini却有2M个token?

 ·  · 

[反馈请求] 我创建了一个工具,可以将日常电脑变成你自己的AI云

 ·  · 

Boost - 可编程的LLM代理

 ·  · 

在8GB VRAM上运行405B LLaMa - AirLLM

 ·  · 

“Qwen2.5是OpenAI的语言模型”

 ·  · 

Gemini 1.5 Pro 002 展现出令人印象深刻的基准测试成绩

 ·  · 

低上下文速度比较:MacBook、Mac Studio 和 RTX 4090

 ·  · 

刚刚获得了Cerebras的访问权限。每秒2,000个token。

 ·  · 

24 日   16

Cursor的本地替代方案?

 ·  · 

我们什么时候会得到本地的“高级语音模式”

 ·  · 

GenAI_Agents: 构建AI代理的教程宝库

 ·  · 

比较微调后的GPT-4o-mini与顶级开源大型语言模型在30个多样化任务中的表现

 ·  · 

HF发布Hugging Chat Mac应用 - 免费运行Qwen 2.5 72B、Command R+等!

 ·  · 

Qwen 2.5 是一场革命。

 ·  · 

据称更新的双子座模型是每美元最智能的

 ·  · 

RAM速度和延迟对LLMs有影响吗?(内有基准测试)

 ·  · 

MLX 批量生成非常酷!

 ·  · 

Qwen2-VL-72B-Instruct-GPTQ-Int4 在 4x P100 上运行 @ 24 tok/s

 ·  · 

谷歌发布了一篇新论文:通过强化学习训练语言模型进行自我修正

 ·  · 

我正在为Skyrim + AI设置试验小型LLM。我对Qwen的推理速度感到惊讶。

 ·  · 

在自定义浮点数下运行大型语言模型(近无损FP6)

 ·  · 

Qwen2.5架构与Llama3-3.1非常相似

 ·  · 

Gemini 2 可能明天发布

 ·  · 

CoT解码 - 从LLM中引出推理

 ·  · 

23 日   16

0.7B参数OCR模型

 ·  · 

有人能解释一下所有不同的量化方法吗

 ·  · 

LLM(小语言模型)在ESP32-S3上运行,并带有屏幕输出!

 ·  · 

Qwen2.5 错误与问题 + 修复,Colab 微调笔记本

 ·  · 

如何利用本地LLM作为个人助理或个人工作流程自动化?

 ·  · 

NVIDIA 发布新的 Llama-3.1-Nemotron-51B 指令模型

 ·  · 

翻译任务的温度设置是多少?

 ·  · 

OpenAI发布开放数据集!

 ·  · 

目前用于本地编码的LLM的最新技术是什么?

 ·  · 

WebUI的思维导图可视化

 ·  · 

Qwen 2.5 72B 现在可以在 HuggingChat 上免费使用!

 ·  · 

这是Gemma 2 2B和9B版本的RPMax系列模型!

 ·  · 

Qwen是如何做到的?

 ·  · 

本地LLaMA是未来

 ·  · 

提升日语性能?测试多语言iMatrix和L/fp16量化对Gemma-2-9b-it的影响

 ·  · 

在Open WebUI中安全执行代码

 ·  · 

22 日   15

我构建了一个AI文件整理器,它可以读取并整理你的文件,完全在你的设备上运行

 ·  · 

感谢Qwen 2.5在编程中的表现

 ·  · 

提升小型羊驼

 ·  · 

何时进行提示与微调,以及微调需要多少数据?

 ·  · 

Qwen2.5能够被越狱,但并不完美。

 ·  · 

4060 Ti 16GB还是4070 12GB?AI/游戏混合使用。

 ·  · 

没有人喜欢新的command r吗?

 ·  · 

最喜欢的NSFW RP模型(20B以下)?

 ·  · 

D&D爱好者模型(几乎)。NightyGurps-14b-v1.1。前2.5 14b Qwen调优

 ·  · 

谁用Qwen2.5替换了日常设置中的模型?如果是的话,你替换了哪个模型?

 ·  · 

发现了一个未审查的Qwen2.5 32B!

 ·  · 

我正在购买一台配备128GB统一内存的顶级Macbook。我应该在上面运行什么,使用什么框架/UI/后端?

 ·  · 

有哪位高手能让Flash Attention在Apple Silicon上运行吗?

 ·  · 

OpenAI o1 对比近期 LeetCode 问题

 ·  · 

Qwen2.5 7B chat GGUF 量化评估结果

 ·  · 

21 日   12

Qwen2.5 在 MMLU 中领先,但请记住它是由一个独裁政权资助的

 ·  · 

帮我决定:Mistral-Small-Instruct-2409 vs. Qwen2.5-14B-Instruct

 ·  · 

OLMoE 7B 在低端 GPU 和 CPU 上运行速度很快

 ·  · 

我刚刚发现了Lots-of-LoRAs集合

 ·  · 

iPhone 16 Pro:有哪些本地模型可以在只有8GB内存的新iPhone上运行?与拥有16GB内存的Pixel 9 Pro和12GB内存的Galaxy S24 Ultra相比,内存真的那么低吗?苹果的智能功能如何在8GB内存上运行?

 ·  · 

如何在本地运行Qwen2-VL 72B

 ·  · 

你最常使用哪个模型?

 ·  · 

如何在自己的数据上微调大型语言模型(LLM)?

 ·  · 

人们在本地LLM服务器上使用什么?

 ·  · 

作为一名对大型语言模型(LLMs)充满激情的软件开发者,是否有人觉得技术发展得太快,难以跟上?

 ·  · 

目前用于检索增强生成(RAG)的最佳设置是什么?需要关于嵌入、向量存储等方面的帮助。

 ·  · 

Qwen2.5 14B GGUF量化评估结果

 ·  · 

20 日   15

Qwen 2.5 在 Livebench 编程类别中轻松超越 GPT-4o 和 o1-preview

 ·  · 

Llama 3.1 70b在RTX 4090上以60 tok/s运行(IQ2_XS)

 ·  · 

那些旧时光

 ·  · 

OmniGen:统一图像生成

 ·  · 

Qwen2.5-32B-Instruct 可能是目前最适合 3090 的最佳模型。

 ·  · 

Strix Halo(Max)可能支持96GB显存

 ·  · 

Mistral NeMo 2407 12B GGUF 量化评估结果

 ·  · 

就这样,谢谢。

 ·  · 

[谷歌DeepMind] 通过强化学习训练语言模型进行自我修正

 ·  · 

我在Gutenberg的哲学文本上训练了Mistral。所有内容(包括合成数据)都是开源的!

 ·  · 

在家用PC上运行LLM用于编程?

 ·  · 

与GPU相比,你在CPU上看到的TPS性能如何?CPU推理实用吗?

 ·  · 

扎克在IG上暗示了llama多模态功能。

 ·  · 

Mistral Small 2409 22B GGUF 量化评估结果

 ·  · 

小型模型具备良好的现实世界知识

 ·  · 

19 日   16

“Meta的Llama已成为构建AI产品的主导平台。下一个版本将是多模态的,并且能够理解视觉信息。”

 ·  · 

美洲驼团结力量大

 ·  · 

有人在工作中对大型语言模型进行微调吗?你们的用例是什么?

 ·  · 

对于像我这样不太理解gratuity Llama 3.1的人,用NotebookLM制作的自然语言解释!

 ·  · 

热评:Llama3 405B可能太大了

 ·  · 

Gemma 2 - 2B vs 9B - 测试不同量化级别的空间推理问题。

 ·  · 

klmbr - 激发LLM的创造力

 ·  · 

Qwen 2.5 手机版:新增 1.5B 和 3B 量化版本至 PocketPal

 ·  · 

介绍FileWizardAi:利用AI驱动的排序和搜索功能整理您的文件

 ·  · 

Qwen2.5 32B GGUF 评估结果

 ·  · 

Open Letter from Ericsson, coordinate by Meta, about fragmented regulation in Europe hindering AI opportunities

 ·  · 

klmbr - 打破熵的壁垒

 ·  · 

快速提醒:SB 1047 尚未签署成为法律,如果你住在加利福尼亚,请给州长发一封信

 ·  · 

现在最好的22B模型是什么?

 ·  · 

刚刚将Llama 3.1 70B @ iQ2S替换为Qwen 2.5 32B @ Q4KM

 ·  · 

微软的“GRIN: GRadient-INformed MoE”16x6.6B模型看起来非常棒

 ·  · 

18 日   14

在本地使用GGUF格式从HF 🤗运行Qwen 2.5、Qwen 2.5-Coder、Qwen 2.5-Math及其他语言模型

 ·  · 

加快LLM训练的技巧指南

 ·  · 

Void 是一个开源的 Cursor 替代品

 ·  · 

Qwen2.5:一场基础模型的盛宴!

 ·  · 

这些代理设计模式在构建AutoGen+Llama3时帮了我大忙!

 ·  · 

即将推出的LLaMA3-s模型,一种早期融合模型引入了基于语音的功能调用,并为Llama 3.1配备了听觉能力。

 ·  · 

是否存在幻觉基准测试?

 ·  · 

Moshi v0.1 发布 - Kyutai 系列

 ·  · 

OpenAI威胁禁止用户询问草莓关于其推理的原因

 ·  · 

鼓手的Cydonia-22B-v1 · Mistral Small(并非真的那么小)的第一个RP曲目

 ·  · 

Llama 8B在… BITNETS!!!

 ·  · 

有人在用RTX 8000(48GB)或MI100(32GB)显卡进行LLM推理吗?

 ·  · 

Jan现在在CPU上运行得更快

 ·  · 

开源3.8B LM评判器,可替代专有模型进行LLM系统评估

 ·  · 

17 日   16

出于兴趣:微型模型的用途是什么?

 ·  · 

Mistral-Small-Instruct-2409 22B 长上下文报告卡:不及格

 ·  · 

Mistral-Small-Instruct-2409 实际上非常令人印象深刻,这里有一个简短的指南,教你如何正确使用它,甚至包括系统提示。

 ·  · 

我从Llama 3.1升级到Mistral

 ·  · 

Pixtral-12B 博客文章

 ·  · 

我的项目Black_Strawberry已经实现了AGI

 ·  · 

mistralai/Mistral-Small-Instruct-2409 · MISTRAL 新发布的 22B 模型

 ·  · 

Qwen2.5-72B-Instruct 在 LMSys 聊天机器人竞技场

 ·  · 

RAG结合CoT + 自我反思

 ·  · 

为什么要在文本中实现思维链?

 ·  · 

开放草莓

 ·  · 

为什么ChatGPT在使用自己的API时显得如此糟糕?

 ·  · 

发布 Llama3.1-70B 权重与 AQLM-PV 压缩

 ·  · 

博士级模型GPT-o1在中学数学‘陷阱’问题上失败,准确率仅为24.3%

 ·  · 

似乎很快就能创建一个开源的o1模型了!

 ·  · 

LMSYS发现bf16和fp8 Llama-3.1-405b在Chatbot Arena中的差异最小

 ·  · 

16 日   18

论文:思维链赋予Transformer解决固有串行问题的能力

 ·  · 

如何向普通或非技术专业人士传达这些信息?

 ·  · 

刚刚看到了一个超酷的节省空间配置,忍不住要分享

 ·  · 

新模型可识别并移除数据集中的冗余信息

 ·  · 

o1-preview:在数学和推理方面表现出色,编程中等,写作较差。

 ·  · 

愚蠢的问题:27B模型是否可能比34B模型需要更多的VRAM?

 ·  · 

到2025年第一季度末,开源模型能否超越o1?

 ·  · 

Hugging Face 优化了 Segment Anything 2 (SAM 2),使其能够在设备上(Mac/iPhone)运行,推理时间在亚秒级!

 ·  · 

免费的Hugging Face推理API现在明确列出限制和模型

 ·  · 

不,Model X 不能计算单词 “strawberry” 中字母 “r” 的数量,这是一个愚蠢的问题,不应该用来测试大型语言模型。

 ·  · 

TTS研究用于可能的商业和个人用途。

 ·  · 

“我们家里有o1”

 ·  · 

为什么使用验证器比微调大型语言模型更好?

 ·  · 

Thierry Breton,《人工智能法案》的起草者,从欧盟委员会辞职

 ·  · 

我真的很喜欢OpenAI o1论文中的这个例子。也许它有点夸张。这是在缓解措施之前,也就是未经审查和不受限制的情况下。你有没有收到过类似的来自本地未经审查模型的回应,表现出像这样令人震惊的即兴思考?

 ·  · 

为较小模型设计的巧妙提示:通过本地模型达到博士水平?

 ·  · 

大型LLM提供商,你使用哪个,为什么?

 ·  · 

受新o1模型的启发,Benjamin Klieger在@GroqInc上利用Llama-3.1开发了g1

 ·  · 

15 日   13

随着我们从LLM训练后的RLHF(基于人类反馈的强化学习)转向LLM训练后的‘纯’强化学习方法,我们可能会看到与我们完全相反但仍然非常有效的‘推理’方式。只需阅读这里的Alphazero引述。

 ·  · 

本地AI角色(角色扮演):语音输入,语音输出,头像生成,以及无审查模型

 ·  · 

尽管我很想尝试每个人的应用程序,但你们得让这一切变得更简单:一个抱怨

 ·  · 

使用LLM创造一种新语言

 ·  · 

强化学习,它实际上是如何实现的?

 ·  · 

本地运行Llama 405B!

 ·  · 

分享我的屏幕分析覆盖应用程序

 ·  · 

我通过我的小规模基准测试运行了o1-preview,它的得分与Llama 3.1 405B几乎相同

 ·  · 

推理速度基准测试 - Tabby API 中的张量并行和推测性解码

 ·  · 

我大幅更新了我的Python程序,该程序允许通过llama.cpp在本地运行LLMs来上网查找信息,现在它可以完全抓取最相关的结果!

 ·  · 

这是揭示o1思维步骤的一种方式吗?

 ·  · 

手写文档的OCR

 ·  · 

黑羊

 ·  · 

14 日   16

我自豪地宣布,我终于成功地在本地运行了大型语言模型,并将其用于手机上

 ·  · 

完全离线的图谱RAG聊天推荐

 ·  · 

<手摩擦的声音>

 ·  · 

Qwen 2.5 将于周四发布(0.5B–70B+)

 ·  · 

如果OpenAI因为人们试图发现他们的CoT系统提示而威胁要封禁用户,那么他们在这个提示中发现了财务价值,因此本地模型也有低垂的果实可以摘取!

 ·  · 

逆向工程o1架构(在朋友Claude的帮助下)

 ·  · 

鼓手的Donnager 70B v1 - 罗西南特的大哥!

 ·  · 

Llama 3.1 405B在2台MacBook上分布式运行

 ·  · 

OpenAI 给我发了一封电子邮件,威胁说如果我不停止,就会封禁我

 ·  · 

为什么Anthropic的安全人员如此渴望监管?这个白痴曾在OpenAI领导‘超级对齐团队’。就连热爱美联储的Altman也对他感到厌倦,所以把他踢了出去。Anthropic比OpenAI更疯狂。

 ·  · 

安全调整会损害性能。

 ·  · 

解决Flux.schnell管道的缺陷,使其能够一步生成质量相近的图像。

 ·  · 

RAGBuilder 现在支持 GraphRAG 以增强知识检索!🚀

 ·  · 

在我的硕士论文中测试GPT-o1

 ·  · 

什么是完美的思维链提示?

 ·  · 

Llama 70B 3.1 Instruct AQLM-PV 发布。22GB 权重。

 ·  · 

13 日   21

多语言者:Chrome上的100%私人翻译!

 ·  · 

Pixtral 模型吐槽:“深入”Mistral 的首个视觉模型。

 ·  · 

Magnum v3 - 27b KTO

 ·  · 

6个月过去了,有什么变化吗?

 ·  · 

nvidia/Nemotron-Mini-4B-Instruct · Hugging Face

 ·  · 

鼓手的好伙伴2B v1 - 解构你对Buddy的挫败感

 ·  · 

o1不仅仅是关于CoT,它是在有限允许步骤下通过强判别器进行有效搜索。

 ·  · 

够了。如果我不能在我的3090上运行它,我不想再听到关于它的事情。

 ·  · 

为什么我们想要一个万能模型?

 ·  · 

OpenAI o1 的发现 + 理论

 ·  · 

我不明白为什么大家对ChatGPT的o1系列如此炒作

 ·  · 

🎥 监控视频摘要器:基于VLM的视频分析与摘要

 ·  · 

我制作了一个极简的Ollama聊天应用,我觉得挺不错的。我知道这没什么特别的,可能已经有上百个类似的应用了,但我只是想分享一下。我喜欢它,因为它不显眼,有始终置顶的显示功能,非常适合随时提问。

 ·  · 

o1-preview 目前在 LiveBench AI 上总体排名第一

 ·  · 

o1与其他大型语言模型之间的比较是否是苹果对苹果的比较?

 ·  · 

如果OpenAI能让GPT4o-mini在推理方面远超Claude 3.5,那么这对本地LLM很快也能做到同样的事情来说是个好兆头吗?

 ·  · 

LiveBench 结果现已更新,o1-preview 排名第二。显然,o1-mini 是推理之王。

 ·  · 

OpenAI隐藏了o1使用的CoT以获得竞争优势。

 ·  · 

o1 由人工智能分析评估

 ·  · 

推理的初步LiveBench结果:o1-mini明显优于Claude Sonnet 3.5

 ·  · 

I Made A Data Generation Pipeline Specifically for RP: Put in Stories, Get out RP Data with its Themes and Features as Inspiration

 ·  · 

12 日   20

两个小时的o1-preview无法做到Mistral-Large-Instruct-2407在本地运行时为我做的事情 :(

 ·  · 

OpenAI o1-preview在基本推理上失败

 ·  · 

“o1 仍然存在缺陷,仍然有限制,而且它在你初次使用时似乎比你在长时间使用后感觉更令人印象深刻。”

 ·  · 

OpenAI O1 模型在 ProLLM StackUnseen 基准测试中超越 SOTA 20%

 ·  · 

介绍OpenAI o1-preview

 ·  · 

评估 - OpenAI o1

 ·  · 

新的o1推理模型在IMO预选考试中得分83%,而GPT4o仅解决了13%的问题

 ·  · 

“我们正在发布OpenAI o1的预览版——这是一系列新的AI模型,旨在在回应之前花更多时间思考” - OpenAI

 ·  · 

新的OpenAI模型

 ·  · 

Face-off of 6 maintream LLM inference engines

 ·  · 

扎克伯格在LLaMA 3发布后表示,能源将成为主要瓶颈(而非计算),因此想比较美国和中国。中国生产的能源是美国的两倍多。美国的人均能源效率是中国的两倍。中国在可再生能源百分比上更优,而美国在核能百分比上更优。详见正文中的来源。

 ·  · 

DataGemma 发布 - 一个 Google 集合(27B 模型)

 ·  · 

LLM系统提示泄露(ChatGPT、Claude、Cursor、V0、Perplexity)

 ·  · 

Hugging Face 添加了直接从浏览器使用 SQL 查询所有 200,000+ 数据集的选项!

 ·  · 

替代LLM进行演绎推理的选择

 ·  · 

我认为我已经确定了LLMs在思考更长时间以获得‘更好’或‘更’正确提示时的主要三个障碍。我知道这是一个非常大的声明,但请听我说完。这三个障碍的主题是从一般到具体。我需要你们的帮助来设计一个提示。

 ·  · 

我想问一个可能会冒犯很多人的问题:是否有很多程序员/软件工程师对LLM在编程方面变得更好感到不满,就像很多艺术家对AI艺术感到不满一样?

 ·  · 

Gemini 1.5 Pro 实验版在AI Studio中处理示例问题时遇到困难

 ·  · 

向OG致敬:神经网络之父沃伦·麦卡洛克谈心灵、大脑、思考与情感机器

 ·  · 

Chronos-Divergence-33B ~ 释放经典模型的潜力

 ·  · 

11 日   17

在6950XT(16GB VRAM)上运行良好的最佳当前小型LLM模型?

 ·  · 

Pixtral 基准测试结果

 ·  · 

Jina AI 发布 Reader-LM 0.5b 和 1.5b,用于将 HTML 转换为干净 Markdown

 ·  · 

GGUF质量差异

 ·  · 

使用本地LLM创建大型合成数据集的最佳方法是什么?

 ·  · 

作为LLM工程师,你使用什么笔记本/PC和服务器配置,以及你最常使用哪些模型?

 ·  · 

新发布:Solar Pro (预览版) Instruct - 22B

 ·  · 

Z1 extreme (rog allyX 版本) 与 8700G 在 LLM 推理中的对比

 ·  · 

在runpod.io上不同GPU的Ollama LLM基准测试

 ·  · 

LLaMA-Omni:与大型语言模型无缝语音交互

 ·  · 

大语言模型(LLMs)已经比传统机器学习模型更便宜了吗?

 ·  · 

新的开源文本转语音模型:Fish Speech v1.4

 ·  · 

通用OCR理论:通过统一的端到端模型迈向OCR-2.0

 ·  · 

Mistral 发布新的磁力链接

 ·  · 

Gemma 2B 太棒了

 ·  · 

如何判断一家巴西AI公司是否只是OpenAI、Claude或Gemini的包装?

 ·  · 

记得举报骗子

 ·  · 

10 日   17

Reddit-Nemesis:自动引发愤怒的AI Reddit机器人。

 ·  · 

“我有点操之过急了”

 ·  · 

Reflection模型的Open LLM排行榜分数出炉:远逊于官方指令模型

 ·  · 

刚刚花了3000美元组装了一台3x3090的机器

 ·  · 

介绍gpt5o-reflexion-q-agi-llama-3.1-8b

 ·  · 

(几乎)被Python的依赖地狱打败

 ·  · 

我制作了一个简单的Python程序,让你可以使用通过Llama.cpp运行的LLMs来搜索互联网

 ·  · 

Ollama 0.3.10 版本终于添加了对尖端视觉模型 MiniCPM-V 2.6 的官方支持

 ·  · 

带有反思的CoT提示

 ·  · 

Yi-Coder-9b-chat 在 Aider 和 LiveCodeBench 基准测试中表现惊人,对于一个9b模型来说太棒了!!

 ·  · 

苹果智能在最新的iPhone 16s上只有不到8GB的RAM,它能有多智能?

 ·  · 

埃拉拉是谁?这个名字从何而来?

 ·  · 

Phi-3.5-MoE 支持

 ·  · 

Deepsilicon 使用比传统方法少 5 倍的 RAM 和快约 20 倍的神经网络。他们正在为此开发软件和定制芯片

 ·  · 

在过去两年中,你遇到过哪些令人惊讶的AI应用?

 ·  · 

对整个“Reflection”事件一头雾水?你并不孤单。这是我所能找到的最佳总结。

 ·  · 

深度求索悄然发布了DeepSeek-Coder-V2-Instruct-0724,该模型在Aider LLM排行榜上排名第二,并且根据排行榜显示,它超越了DeepSeek V2.5

 ·  · 

09 日   26

全新系列的创意写作模型,不同于以往的RP模型(3.8B, 8B, 12B, 70B)- ArliAI-RPMax-v1.1系列

 ·  · 

目前最好的约70B RP模型?

 ·  · 

唉:Reflection 好得令人难以置信——参考文章

 ·  · 

使用手机上的LLMs生成可用的移动应用程序

 ·  · 

AMD宣布统一UDNA GPU架构——将RDNA和CDNA结合,挑战Nvidia的CUDA生态系统

 ·  · 

大多数Epyc Genoa CPU的内存带宽值(STREAM TRIAD基准测试结果)(单配置和双配置)

 ·  · 

鼓手的Theia 21B v2 - Rocinante的大姐姐!一个专注于RP和故事叙述的NeMo微调升级版。

 ·  · 

13% 的 YC 公司现在拥有 .AI 域名,最新一批中有 27%

 ·  · 

40GB显存巨兽:双显卡(7900 XTX & 7800 XT)与Ryzen 7 7700X性能测试 - 需要基准测试想法!

 ·  · 

微软的自对弈互推理(rStar)代码已在Github上发布!

 ·  · 

Neo-AI助手,可以直接与Linux交互。

 ·  · 

最适合编码的大型语言模型

 ·  · 

迷你全能:语言模型能够在流式传输中听、说并思考(微调自Qwen2-0.5B)

 ·  · 

所有这些戏剧性事件都让我们忽略了真正重要的开源模型发布:DeepSeek-V2.5

 ·  · 

反思与FP16和BF16之间永无止境的混淆

 ·  · 

TL;DR

 ·  · 

反思70B的经验教训

 ·  · 

LM Studio 的替代品?

 ·  · 

非常的主张需要非常的证据,显然Reflection 70B缺乏这一点

 ·  · 

Reflection 70B(免费)现在已损坏

 ·  · 

POV:看到所有来自一个叫「matt.schumer.freeaccounttrial27」的家伙的API请求的签署NDA的Anthropic员工

 ·  · 

关于整个反射情况的精彩解释

 ·  · 

一个传世逆袭故事

 ·  · 

这已经完全完成了。

 ·  · 

你是谁?

 ·  · 

又有一个叫马特的人告诉马特他不应该受到任何仇恨!

 ·  · 

08 日   19

我现在真的很困惑…

 ·  · 

交易报价

 ·  · 

糟糕的结果之谜已解开。反射70B被COVID感染。

 ·  · 

Yi-Coder - 与 Continue 的完美搭配

 ·  · 

为什么有人关心Reflection?脱离圈子了

 ·  · 

OpenRouter Reflection 70B 声称自己是 Claude,由 Anthropic 创建(亲自尝试)

 ·  · 

确认:REFLECTION 70B的官方API是SONNET 3.5

 ·  · 

除非他们内部运行的模型实际上不是它所声称的那样,否则这毫无意义

 ·  · 

“Reflection API” 是一个带有提示的十四行诗3.5的封装吗?

 ·  · 

好吧,开始了。据说是你懂的那个的新重量。

 ·  · 

AMD可能正在扼杀8000系列的高端消费级GPU(如果是这样,那就太短视了)

 ·  · 

Ollama 替代方案:跨文本、图像、音频和多模态模型的本地推理

 ·  · 

来自Artificial Analysis使用Reflection Llama 3.1 70B的更新基准测试。长文,深入分析了收益

 ·  · 

“锐利的蓝眼睛”

 ·  · 

新发布:SOLAR-Pro-PT

 ·  · 

没有GPT-4杀手的那些日子

 ·  · 

你可以用其他模型进行反思。

 ·  · 

AI目前正在积极地拯救我的生命。

 ·  · 

绝对是比利·梅斯的氛围。

 ·  · 

07 日   19

Magnum v3 - 9b (gemma 和 chatml)

 ·  · 

使用LLMs生成故事的提示和设置

 ·  · 

平均而言,网站和AI聊天机器人平台为使70亿参数模型对用户可用,需要向托管服务支付多少费用?

 ·  · 

基准测试正在损害模型

 ·  · 

Reflection Llama 3.1 70B独立评估结果:在我们的独立测试中,我们无法复制所声称的评估结果,并且发现性能比Meta的Llama 3.1 70B更差,而不是更好。

 ·  · 

从地下室提供AI服务 - 192GB显存配置

 ·  · 

反思代理是一个老想法

 ·  · 

gemma-2-9b-it在LMSYS Arena排行榜上超越了llama-3-70b-it

 ·  · 

IT部门的Matt新推文

 ·  · 

Reflection-Llama-3.1-70B实际上是Llama-3。

 ·  · 

低成本4路GTX 1080搭配35GB显存推理PC

 ·  · 

反思羊驼… 这真的有那么重要吗?

 ·  · 

让我们列出前10个故事写作LLM,提出建议,稍后我会测试它们的SLOP

 ·  · 

Gemma-2 27b 的反思技巧

 ·  · 

公告:Matt Shumer未披露其在GlaiveAI的投资,该AI用于生成Reflection 70B的数据

 ·  · 

未审查的llama模型

 ·  · 

错误的反射-70B模型可能无处不在

 ·  · 

NemoomeN - Nemo 12b 混合了一些反射效果。

 ·  · 

模型反射-Llama-3.1-70B在ProLLM编码助手基准测试中得分为76.9。模型Meta-Llama-3.1-70B-Instruct在同一基准测试中得分为73.5。

 ·  · 

06 日   18

Reflection 70B:炒作?

 ·  · 

即使是Reflection 70b的4位量化也非常惊人

 ·  · 

Reflection的嵌入问题似乎在HF上得到了解决

 ·  · 

Matt Shumer的推文:“重要更新:我们已经识别并修复了Hugging Face仓库中的问题。如果你之前尝试下载、运行或托管Reflection Llama 70B,请现在再试一次。输出效果应该会有很大提升。fp16版本也即将推出。”

 ·  · 

适用于所有LLM的反思链(Reflection CoT)

 ·  · 

AdEMAMix,AdamW优化器的一个简单修改,使LLM训练速度提高了95%(代码在第19页)

 ·  · 

多层次神经网络

 ·  · 

DeepSeek 2.5 权重发布,支持函数调用、Json模式、FIM

 ·  · 

5090发布后价格下降

 ·  · 

项目Sid:在虚拟世界中,1000多个真正自主的代理首次合作,出现了经济、文化、宗教和政府等现象

 ·  · 

开发者应该从LLMs手中夺回对应用的控制权吗?

 ·  · 

除了llama之外,是否可以使用Reflection-tuning对其他模型进行微调?

 ·  · 

反射未能通过香蕉测试,但按承诺进行了反射

 ·  · 

Reflection-Llama-3.1-70B 在 Ollama 上可用

 ·  · 

真正的100位AI影响力人物

 ·  · 

第一个独立的基准测试(ProLLM StackUnseen)显示Reflection 70B取得了非常好的成绩。相较于基础的llama 70B模型,提升了9个百分点(41.2% -> 50%)

 ·  · 

txtai 7.4 发布:SQLite ANN、新的文本提取功能和编程语言中立的嵌入索引格式

 ·  · 

伙计们,使用LongWriter-llama3.1-8b而不是Llama3.1-8b!

 ·  · 

05 日   11

非NVIDIA GPU的AI基础设施(以及我们的JAX之旅)

 ·  · 

兴奋地宣布Reflection 70B,全球顶尖的开源模型

 ·  · 

本地LLM基本上可以在任何机器上运行,但最新的RTX显卡能让它运行得更快吗?

 ·  · 

在参观未来时发现了这个。绝对会去那里!

 ·  · 

SOTA开源文本到音乐模型发布

 ·  · 

深度求索V2.5发布了吗?

 ·  · 

MiniCPM3-4B发布!

 ·  · 

你找到的最简单的LLM语音到语音解决方案是什么?

 ·  · 

有哪些好的LLM库吗?

 ·  · 

我可以用64GB内存和16GB显存运行什么最好的模型?

 ·  · 

Qwen仓库在GitHub上被下架 - 突发新闻

 ·  · 

04 日   13

有人能确认他们在Ubuntu 24.04上使用llama.cpp成功运行了AMD 6700xt与ROCm吗?

 ·  · 

reMind: 一个开源的数字记忆助手

 ·  · 

Mistral Large 2 现在在 SEAL 编程排行榜上排名第三

 ·  · 

LLM生成的Slack聊天摘要——为什么这么糟糕?

 ·  · 

Qwen的GitHub账户最近被删除或屏蔽

 ·  · 

我想创建一个基于一组电子书的聊天机器人,并将其部署在网站上。

 ·  · 

新 Yi-Coder 模型 (9B & 1.5B) - 01-ai 系列

 ·  · 

适用于33B模型的CPU和RAM

 ·  · 

模型太多了,我真的不知道该选哪个

 ·  · 

新的欧洲基础模型应于九月发布(GPTX)

 ·  · 

Vscode LLM 扩展未经用户同意继续下载 Chromium.app

 ·  · 

OLMoE - 一个完全开源的稀疏MoE,仅使用10亿活跃参数

 ·  · 

Claude-Dev 现已支持本地 LLM!(Ollama,OpenAI 兼容服务器)

 ·  · 

03 日   13

那么… P40 不再便宜了。现在我们这些平民能买到的性价比最高的加速器是什么?

 ·  · 

采样是创可贴吗?

 ·  · 

Oobabooga仍然是最好的聊天界面吗?

 ·  · 

基于步骤的级联提示:从LLM氛围空间发出的确定性信号(且完全本地化!)

 ·  · 

一个开源的语音到语音大型语言模型:Mini-Omni

 ·  · 

这个H100售价5000美元,划算吗?

 ·  · 

在Llama3.1 405B上的Character.AI

 ·  · 

你是如何保持更新的?

 ·  · 

使用Autogen+LLama3实现代理工作流程/状态机

 ·  · 

为20名用户搭建4xRTX4090的内部系统

 ·  · 

使用48GB VRAM和128GB RAM运行Mistral Large 2是否可能?

 ·  · 

我尝试创建了一个工具,以便更好地可视化聊天记录

 ·  · 

有人混合使用Nvidia和AMD吗?

 ·  · 

02 日   14

已经有一段时间了,谷歌还没有向开源社区发布Gemini 1.5 Flash 8B

 ·  · 

Gemini 1.5 Flash 8B 在 Livebench.ai 上击败了 Claude 3 Haiku、Mixtral 8x22B、Command R+ 和 GPT 3.5 Turbo

 ·  · 

在本地使用Mistral.rs运行Phi 3.5 MoE(具有70b性能的6.6b活跃模型)!

 ·  · 

Colossus 100k H100训练集群已由xAI上线

 ·  · 

如果你至少有12GB显存,并且在Q4运行llama3.1,你实际上是在过度量化

 ·  · 

处理大型代码库

 ·  · 

小型AI模型能否超越巨人?‘更小、更弱、但更优’的LLM推理训练

 ·  · 

Windows还是Linux适合LLMs和AI?

 ·  · 

RetNPhi: 结合Phi-3.5和RetNet的字节级语言模型

 ·  · 

最佳小型视觉LLM用于OCR?

 ·  · 

鼓手的…呃…星际指挥R 32B v1!来自Theia和Rocinante的创造者!

 ·  · 

我制作了自己的本地AI,你可以免费使用它

 ·  · 

最适合在8GB显卡上使用的LLM(主要用于代码帮助)?

 ·  · 

有没有推荐的性价比高的云服务器来托管我的RAG?初期支持20个并发用户,全天候运行,但也可以扩展。

 ·  · 

01 日   14

什么是用于数据集创建的最佳本地~10b模型(问答对)

 ·  · 

Openperplex : 带引文、流式结果、多语言、位置、网页抓取器等的网页搜索API!

 ·  · 

Command-R 35B Q4/Q6/Q8 缓存困惑度 + MMLU

 ·  · 

哪一个更好:LLaVA 1.6 7B还是LLaVA Phi3 3.8B?

 ·  · 

完全本地的类Perplexity软件

 ·  · 

RWKV v6 模型支持合并到 llama.cpp

 ·  · 

尝试在CMP 30Hx gpu上运行llama3.1

 ·  · 

廉价GPU之战 - Lllama 3.1 8B GGUF vs EXL2在P102-100、M40、P100、CMP 100-210、Titan V上的比较

 ·  · 

公告:如果在创意写作中新的Command-r变得疯狂,尝试调整采样器参数

 ·  · 

边缘LLM排行榜,我们需要一个吗?

 ·  · 

Llama 3.1用于实体识别似乎比大型商业模型弱很多

 ·  · 

字里行间,似乎谷歌也准备好了他们的System 2思维(OpenAI的Q* / Strawberry等效)。可能会在OpenAI发布他们的产品时推出。如果Meta构建了一个System 2思维系统,或者他们已经拥有一个,他们会将其开源吗?

 ·  · 

总结:八月份的大事件

 ·  · 

根据斯坦福大学的研究,即使是专业级别的RAG系统(律师使用的那种),最多也只有65%的正确率:

 ·  · 

08 月   491

31 日   12

未来:更大的模型还是更小却更智能的模型?

 ·  · 

AMD Ryzen AI NPU (Ryzen 7 7840HS)

 ·  · 

有没有可以在手机上运行的本地模型,它们经过微调以适应生存和文明重建?

 ·  · 

AlteredWorlds: 由command_r_plus_08_2024重新构想的历史,由flux.1-schnell绘制

 ·  · 

在配备8GB RAM的树莓派5上,哪些开源模型可以运行得相当好?

 ·  · 

Llama 405B 稀疏性 提高准确性

 ·  · 

鼓手的Hubble 4B v1 - SLM的一小步,RP的一大步 - 对修剪后的Llama 3.1 4B 128K的微调

 ·  · 

KoboldCpp v1.74 - 新增XTC(排除顶部选择)采样器用于创意写作

 ·  · 

Arx-0.3来自哪里,谁制造了它?

 ·  · 

使用LLM进行辩论(包含工作流程)

 ·  · 

有多少人在进行微调?

 ·  · 

您正在开发的一些最具生产力的代理实现是什么,您面临哪些挑战?

 ·  · 

30 日   17

My thoughts on Magic"s 100M context length

 ·  · 

介绍Polyglot:您日常使用的免费翻译工具

 ·  · 

DDR6和CPU/主板支持即将到来 - 这将如何改变现状?

 ·  · 

Command-R的全131K上下文在24GB内存中以3.75bpw运行

 ·  · 

穷人的VRAM或如何以$40运行Llama 3.1 8B Q8达到35 tk/s

 ·  · 

具有长上下文窗口的代码LLMs

 ·  · 

Google已经有一段时间没有推出新的Gemma系列模型了

 ·  · 

最佳幽默模型?

 ·  · 

新版Command R和Command R+模型发布

 ·  · 

CohereForAI/c4ai-command-r-plus-08-2024 · 更新模型

 ·  · 

CohereForAI/c4ai-command-r-08-2024 · 更新模型

 ·  · 

Qwen2 VL 7B: 比我预想的要令人印象深刻得多!

 ·  · 

SB 1047显然非常令人担忧,我们能做些什么吗?

 ·  · 

SB 1047 已通过。你认为这会影响 LLAMA 吗?

 ·  · 

最佳AI编程方法?付费/免费

 ·  · 

有争议的加州AI法案通过立法机构,等待州长签署加州立法机构通过全面的AI安全法案 / SB 1047已送达纽森州长的办公桌。

 ·  · 

加州议会通过了SB 1047法案

 ·  · 

29 日   17

在一个文件中训练任何AI。简单易行

 ·  · 

英伟达CEO称新芯片将拥有"大量大量"的供应

 ·  · 

Meta拥有的计算机资源多得惊人:他们每周都能训练完整的Llama 3.1系列

 ·  · 

Q8_0和Q5_K_M之间的差异有多大

 ·  · 

我离开游戏一段时间了。如果你有一块16GB显存的GPU,你最喜欢使用哪个模型?

 ·  · 

1亿个令牌的上下文窗口

 ·  · 

Qwen2-VL 来了!Qwen2-VL-2B 和 Qwen2-VL-7B 现已在 Apache 2.0 许可证下开源,强大的 Qwen2-VL-72B 的 API 现已可用。

 ·  · 

Luminum-123B:一个用于角色扮演的模型合并

 ·  · 

目前从PDF中提取数据的最新技术是什么?

 ·  · 

Meta即将宣布更新和下一组Llama模型!

 ·  · 

Salesforce发布大型动作模型xLAM - 7B, 8x7B, 8x22B,最高可达64K上下文长度,专为AI代理用例设计

 ·  · 

Jan 终于支持 Llama 3.1 和 Gemma 2(稳定性提升)

 ·  · 

TechInsights 给予 BitNet 加速器市场准备度 6 分

 ·  · 

本地1M上下文推理速度达15个令牌/秒,接近100%的“大海捞针”成功率:InternLM2.5-1M在KTransformers上的应用,仅需24GB VRAM和130GB DRAM。支持Windows/Pip/多GPU及更多功能。

 ·  · 

关于用于确定LLM智能的“陷阱”测试

 ·  · 

为什么LLM有输出限制?

 ·  · 

又一个本地LLM UI,但我保证它与众不同!

 ·  · 

28 日   17

SambaNova 提供 llama3.1 405B,速度为 114 tps

 ·  · 

1987年时任苹果CEO约翰·斯卡利对当今未来的展望

 ·  · 

ExllamaV2,现在支持张量并行!

 ·  · 

巴图克 vs 鼓手 等等

 ·  · 

测试CPU和内存对仅CPU系统推理速度的影响

 ·  · 

LocalAI v2.20 发布直播 – 真正的P2P全球分布式推理

 ·  · 

请帮我命名一种新技术!

 ·  · 

CLIP仍然是SOTA吗?还是有更先进的替代方案?

 ·  · 

问GGUF?

 ·  · 

我制作了一个游戏,让你猜猜今天的AI能做什么和不能做什么(链接在评论中)

 ·  · 

最适合进行无审查对话的模型

 ·  · 

Claude Opus 3.5 期待

 ·  · 

我的非常简单的提示,已经难倒了很多大型语言模型。“我的猫名叫狗,我的狗名叫老虎,我的老虎名叫猫。我的宠物有什么不寻常之处?”

 ·  · 

显然,大型语言模型(LLMs)是强大的归纳推理者,但却是糟糕的演绎推理者。我的解决方案是通过提示构建一个演绎推理引擎。我已经尝试构建了一个提示,放在描述中。请帮助我改进或提供您自己的提示。

 ·  · 

双子座1.5 Flash 8b

 ·  · 

Mistral 123B 对比 LLAMA-3 405B,有什么想法?

 ·  · 

斐济人口890万 - LLaMa 3/3.1训练数据中的错误?

 ·  · 

27 日   16

WoonaV1.2-9b 我的小马驹俄语单语言模型

 ·  · 

Mistral Large 2 对比 ChatGPT 4o

 ·  · 

关于PEFT/LoRA调优变换器的“黑魔法”有哪些?

 ·  · 

颂扬Huggingface.co用户TheDrummer。我们时代的LLM沃尔特·迪士尼。

 ·  · 

开源的语音转语音技术在哪里?

 ·  · 

Cerebras推出全球最快的AI推理引擎

 ·  · 

Anthropic现在发布他们的系统提示词与模型一起

 ·  · 

通过ChatterUI在Android上运行Minitron-4b-Width

 ·  · 

CogVideoX 5B - 开放权重文本转视频AI模型(运行仅需不到10GB VRAM) | 清华大学KEG(THUDM)

 ·  · 

为什么你会选择自托管而不是使用托管端点来运行llama 3m1 70B

 ·  · 

你们在单张3090上运行哪些模型

 ·  · 

使用 ComfyUI 解决问题

 ·  · 

开源清洁且可定制的RAG webUI,支持多用户和合理的默认RAG管道。

 ·  · 

9天内预训练一个LLM [代码发布]

 ·  · 

Nous Research发布关于DisTrO(分布式互联网训练)的报告

 ·  · 

Tinybox 终于进入生产阶段

 ·  · 

26 日   13

我制作了一个无需安装的远程和本地Web UI

 ·  · 

我不得不阅读这个评论,所以现在你也必须忍受它。

 ·  · 

为什么GPT 4o mini可能大约有~8B活跃参数

 ·  · 

工具数组真的有必要吗?

 ·  · 

有没有人在本地使用405B模型?你觉得它有用吗,还是你已经回到了70B-110B范围?

 ·  · 

为大型语言模型添加“记忆”的最佳方法是什么?

 ·  · 

Magnum v3 34b

 ·  · 

我找到了一个全能的webui!

 ·  · 

Whisper 太神奇了。它是如何在这么多语言上进行训练的?

 ·  · 

我们需要多少A10 GPU来为50名用户运行llama 3 8B?

 ·  · 

你认为Anthropic在对抗开源方面比OAI更糟糕吗?对我来说似乎是这样。这封信似乎暗示他们实际上向参议员Wienner提出了法案…我真的很喜欢我的开源LLMs…

 ·  · 

生产环境中使用 Haystack、Semantic Kernel 还是 LlamaIndex

 ·  · 

对于那些非常喜欢Gemma-2-9B SimPO版本的人来说,现在有了27B版本!

 ·  · 

25 日   14

对GLM-9B印象深刻(他们对这个模型提及甚少)

 ·  · 

目前最佳的小型未审查模型?

 ·  · 

LongWriter: 从长上下文LLM中释放10,000+字生成

 ·  · 

本地AI困境

 ·  · 

如果你在使用64GB内存的Mac时遇到响应速度慢的问题

 ·  · 

GPUs磨损的神话?

 ·  · 

2000到3000美元是否足够构建一个本地的编码AI系统?

 ·  · 

考虑不要使用Mac…

 ·  · 

在生产环境中,哪个是最适合的推理引擎?

 ·  · 

Anthropic就SB 1047向州长Gavin Newsom写了一封信,所以我也决定写一封。

 ·  · 

open-webui中的视觉模型?

 ·  · 

购买第二块GPU值得吗?

 ·  · 

这似乎是Deepmind CEO Hassabis的合理立场,但他提到了不良行为者,所以我必须问,这个立场能否按表面价值接受;Google是一个好的/中立的行为者吗,它是否在幕后游说扼杀开源。Anthropic和OpenAI是公开这样做的。

 ·  · 

如果你有额外的1000美元…

 ·  · 

24 日   13

Gemma 2 27B的秘传知识在中型模型中是最好的。谷歌做出了一些了不起的东西。期待Gemma 3。

 ·  · 

本地LLMs非常能干,与Mistral Large v2一起冒险

 ·  · 

快速指南:如何在手机上运行 Phi 3.5

 ·  · 

最佳本地开源文本转语音和语音转文本工具?

 ·  · 

我使用Gemini Flash通过API调用和执行Python代码自主完成了SpaceTraders中的第一个合同

 ·  · 

大家都在用什么本地模型的用户界面?

 ·  · 

Abliteration未能解除模型审查,同时仍使其变得愚蠢

 ·  · 

随着上下文增加,模型输出是否会自然退化?

 ·  · 

自动尝试不同的RAG技术在你的数据上(HyDE, C-RAG, RRF等)

 ·  · 

Lite-Oute-2-Mamba2Attn-250M 指令与基础:新的轻量级 Mamba2 混合模型,包含注意力层

 ·  · 

2024年8月21日,Anthropic在给加文·纽森州长的一封信中表示:“在我们看来,新SB 1047法案有了实质性的改进,以至于我们认为其带来的好处可能超过其成本。”…引文继续

 ·  · 

亚马逊Q真的那么好吗?有亚马逊开发者能透露一些信息吗?

 ·  · 

Mistral-Large-Instruct-2407 made me an extension for text-generation-webui that lets a LLM use the mouse and keyboard, very experimental atm

 ·  · 

23 日   15

在iOS、Android、Web浏览器和GPU上本地运行Phi-3.5-mini

 ·  · 

我们会在年底前得到LLaMA 3.5吗?

 ·  · 

Liger 内核:一行代码让 LLM 训练速度提升 20%,内存减少 60%

 ·  · 

Magnum v2 4b

 ·  · 

Grok 2 和 Grok 2 mini Lmsys 竞技场分数

 ·  · 

简单的长椅(来自AI Explained YouTuber)与我与LLMs的实际体验非常吻合

 ·  · 

Phi-3.5-mini 在浏览器中以每秒约90个令牌的速度运行,使用WebGPU与Transformers.js和ONNX Runtime Web。

 ·  · 

如何提示LLM停止添加眨眼和其他类似动作?

 ·  · 

Cohere已经有一段时间没有推出新模型了

 ·  · 

人们是不是不太使用JAN?

 ·  · 

现在有了大型语言模型(LLMs),你能做哪些以前做不到的事情?

 ·  · 

Llama3.1 刚刚长出了耳朵(早期实验)

 ·  · 

使用Llama进行命名实体识别

 ·  · 

Exllamav2 张量并行支持!TabbyAPI 也支持!

 ·  · 

愚蠢的实验 LAiNN,DIY 预训练我自己的语言模型来玩 :3。

 ·  · 

22 日   12

“自带模型” - Brave的Leo现在可以与本地模型接口。

 ·  · 

是的,这是新的RP模型推荐™ — https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B

 ·  · 

如何转售数据中心的GPU服务器

 ·  · 

你们中有多少人个人在工作中使用本地大型语言模型?

 ·  · 

基于Transformer的模型会随着时间变得更便宜吗?

 ·  · 

Jamba 1.5 发布啦!

 ·  · 

模型太多,不知道如何实现我想要的功能

 ·  · 

llama-3.1-8B-Q8 again blowing my mind with unreal self-reflection and mental agility

 ·  · 

0训练损失值是好的吗?(我第二次尝试微调)

 ·  · 

DeepSeek-V2 为 Cody 的代码自动补全带来了巨大改进

 ·  · 

ERP提示

 ·  · 

Phi-3.5非常安全,微软在这里确实超越了自己!

 ·  · 

21 日   16

您认为哪种模型最适合回答一般信息/历史/科学/文化查询?

 ·  · 

马克·扎克伯格和丹尼尔·艾克谈为什么欧洲应该拥抱开源AI

 ·  · 

介绍DocChat:在几小时内训练出的GPT-4级对话问答

 ·  · 

2x4090 vs 6000 ada vs L20 vs L40s: LLM推理/微调的瓶颈是什么?

 ·  · 

我要求更新这个免费软件,否则我将继续不支付费用!

 ·  · 

无头IDE用于编码代理

 ·  · 

Nvidia/Mistral-NeMo-Minitron-8B-Base · Hugging Face

 ·  · 

对这里发布的所有“几乎就要成功”的研究和软件感到失望吗?

 ·  · 

你为你的大型语言模型使用什么硬件

 ·  · 

续作:Magnum-v2-72B

 ·  · 

Phi-3.5-Mini与Phi-3.5-MoE之间的有趣模型差异

 ·  · 

Vikhr-Gemma-2B-instruct - 一个紧凑且强大的俄语语言模型

 ·  · 

4090的最佳型号是什么?

 ·  · 

RP Prompts

 ·  · 

免费系统提示生成器:现已支持所有模型大小(从1B开始)并根据模型大小调整指令

 ·  · 

Phi 3.5 微调速度提升2倍 + Llamafied 提高准确性

 ·  · 

20 日   12

这里每天就像过圣诞节一样!

 ·  · 

megadolphin-120b令人印象深刻

 ·  · 

什么是输出JSON的最佳本地大语言模型,同时也很智能?

 ·  · 

Phi-3.5 已发布

 ·  · 

3090 VRAM 困惑

 ·  · 

关于LLM、LM Studio、Ollama、Open WebUI等,作为一个初学者该如何开始?

 ·  · 

是否有可能训练一个神经符号LLM?我们何时能在个人电脑上使用神经符号GGUF模型?

 ·  · 

你如何找到优质的NSFW模特?最好是用于角色扮演

 ·  · 

微软Phi模型的下一个版本何时发布?

 ·  · 

自托管的AIDungeon替代方案?

 ·  · 

在电子阅读器上的手写界面。慢慢地把它变成我一直梦想的掌上电脑。最终,我希望它能识别形状——但我不确定哪些廉价型号能做到这一点(~0.5B尺寸)

 ·  · 

使用Whipser+GPT进行自动笔记和标记

 ·  · 

19 日   16

Formatron: 一个高性能的约束解码库

 ·  · 

教程:使用llama recipes对llama3.1进行PEFT微调!

 ·  · 

有人在这里使用96GM或64 GB内存的M系列Mac吗?

 ·  · 

宣布:Magnum 123B

 ·  · 

MiniCPM-V 2.6 现在兼容 KoboldCpp(+设置指南)

 ·  · 

系统提示:第二人称与第三人称

 ·  · 

Llama-3.1-Storm-8B 已经到来!一款新的 8B 参数 LLM,在多样化的基准测试中超越了 Meta Llama-3.1-8B-Instruct 和 Hermes-3-Llama-3.1-8B!

 ·  · 

我制作了一个提供商、模型和价格的比较表,非常实用。

 ·  · 

Kurtale – 个人LLM讲故事项目

 ·  · 

你期待哪些硬件发布?

 ·  · 

对Mistral Nemo Instruct在长上下文质量印象深刻

 ·  · 

本地开源AI伴侣?它们真的存在吗?

 ·  · 

PingPong: LLMs的角色扮演基准测试

 ·  · 

使用Mistral Nemo作为翻译器在长文本后丢失了近半信息

 ·  · 

Llama-3.1 8B U8量化性能令人惊叹。

 ·  · 

多语言支持的成本是多少?

 ·  · 

18 日   16

再等几周

 ·  · 

你们会微调模型吗?如果是的话,目的是什么,效果如何?

 ·  · 

LMSYS上的一个新未知模型,toto-medium

 ·  · 

老实说,一张4090显卡没什么大用

 ·  · 

有没有比OpenAI的Whisper更好的语音转文字工具?

 ·  · 

你最喜欢的8B模型是什么,为什么?

 ·  · 

排除顶级选择(XTC):一种提升创造力、打破写作陈词滥调并抑制非逐字重复的采样器,来自DRY的创造者

 ·  · 

SmolLM Instruct v0.2 - 135M、360M 和 1.7B 参数 | Hugging Face TB 研究 | Apache 2.0

 ·  · 

我以为我会把问题写下来,因为我总是忘记。我的问题是,你相信我们可以通过代理使用(多个代理或自动迭代提示)来解决所有这些问题吗?

 ·  · 

Claude 让我生活备受煎熬

 ·  · 

将我的整个AI/LLM工作流程过渡到100%太阳能供电

 ·  · 

爱马仕3:一个独特解锁、无审查且可操控的模型

 ·  · 

Ollama的替代品?

 ·  · 

今天又拿到了第二张3090

 ·  · 

寻找创意:前AMD工程师与初创公司创始人准备打造开源项目——哪些问题需要解决?

 ·  · 

趣闻:谷歌上个月使用相同的Alphazero算法结合预训练的大型语言模型获得了国际数学奥林匹克银牌。不幸的是,这个算法尚未开源。深度学习已经带给我们许多成果,并将继续带来更多,但我认为真正的强化学习现在将推动真正的进步。

 ·  · 

17 日   11

Mistral Nemo 真的很不错…但是会忽略简单指令吗?

 ·  · 

AMD 是 Linux 上进行推理的好选择吗?

 ·  · 

哪个本地LLM最适合创意写作任务?

 ·  · 

RAGBuilder 现在支持 AzureOpenAI、GoogleVertex、Groq(适用于 Llama 3.1)和 Ollama

 ·  · 

在16GB 4060ti上使用Flux.1,每张图片生成时间20-25秒

 ·  · 

开源LLM提供商与自托管价格比较

 ·  · 

拥有无限资源,你能做什么?

 ·  · 

“如果一个大型语言模型被允许使用固定但非微不足道的推理时间计算资源,它在面对一个具有挑战性的提示时能提高多少性能?”测试时计算资源的使用可以超越一个比其大14倍的模型。

 ·  · 

Flux.1 量化质量比较:BNB nf4 vs GGUF-Q8 vs FP16

 ·  · 

已购买硬件,现在寻找最佳方式在生产环境中部署LLM

 ·  · 

Nvidia发布Llama-3.1-Minitron-4B-Width-Base,Llama-3.1-8B的4B剪枝模型

 ·  · 

16 日   16

哇!一个内置大型语言模型的电子阅读器(不是手机)

 ·  · 

即将推出的模型?

 ·  · 

Dusk_Rainbow, 8B LLAMA-3 杰出故事作家

 ·  · 

有趣的结果:比较Gemma2 9B和27B Quants 第二部分

 ·  · 

你们还记得六月中旬有传言说亚马逊要推出一个名为奥林匹斯的前沿模型吗?好吧,它从未发布,因为据传言称这是一场彻底的灾难。

 ·  · 

一块3090显卡足以支持Llama 3为数千用户服务

 ·  · 

公司及其截至2024年8月16日的最佳整体模型和最佳开放权重模型。

 ·  · 

Llama.cpp: MiniCPM-V-2.6 + Nemotron/Minitron + Exaone 支持今日合并

 ·  · 

一年前,我提出了将树莓派5作为小型模型的测试平台。随着类似这种进一步的显卡集成,这个概念可能终于站得住脚。

 ·  · 

我认为lmsys竞技场排行榜可能存在某种操纵

 ·  · 

AI在浏览器中直接执行单一任务,使用Ollama?

 ·  · 

(来自X上的Thomas Wolf) FLUX彻底席卷了开源AI界。从未见过一个模型在同一时间有如此多的衍生品/空间/演示流行起来

 ·  · 

好吧,也许Grok-2还不错。

 ·  · 

与非ERP(企业或其他类型)的LLM一起做哪些有趣的事情?

 ·  · 

双GPU RTX 4090 / 3090 设置

 ·  · 

“Grok-2和Grok-2 mini现在在MathVista上占据前两名” 希望他们很快开源Grok mini

 ·  · 

15 日   11

Flux.1转换为GGUF - 它在LLM领域提供了哪些有趣的机会?

 ·  · 

小型模型会呈指数级改进吗?

 ·  · 

我那滑稽的推理服务器

 ·  · 

从2023年3月到今天的llama.cpp演变 | Gource可视化

 ·  · 

爱马仕3 - 一个NousResearch系列

 ·  · 

在线服务已中断,幸好你有本地服务

 ·  · 

鼓手的罗西南多12B v1(及v1.1!)- 一匹充满创造力的工作马!你的超凡冒险等待着你!来自Theia 21B等创作者。

 ·  · 

随着语言能力的提升,大型语言模型(LLMs)发展出对现实的理解

 ·  · 

Magnum 12b v2.5 KTO

 ·  · 

Mistral Nemo 赞赏贴

 ·  · 

Grok-2 和 Grok-2 mini 基准测试分数

 ·  · 

14 日   16

想从github上拉取llama.cpp来制作一些量化工具,但github挂了…哈哈

 ·  · 

通过预训练可以提升Llama 3.1在特定语言的指令性能。我的新Llama 3.1 8B Indo-Formax和Formax模型。

 ·  · 

在成本、延迟和准确性上超越OpenAI结构化输出

 ·  · 

分割/分块PDF文件——分享我们的方法并寻求反馈

 ·  · 

英伟达研究团队开发了一种通过结构化权重剪枝和知识蒸馏高效创建更小、更准确语言模型的方法

 ·  · 

Beginner"s Guide: How to Fine-tune Llama 3.1 Ultra-Efficiently with Unsloth & Deploy to Hugging Face

 ·  · 

现在是加州居民向他们的代表表达反对SB1047法案的好时机,这是一个反开放权重法案

 ·  · 

Mistral-large 与 Llama3.1 405b 在创意写作中的比较 – 意见?

 ·  · 

[2024年8月] Hugging Face Hub 上目前最好的编码模型是什么?

 ·  · 

为什么英特尔不生产拥有大量显存的产品?

 ·  · 

新手问题:我到底该如何合并这些文件?

 ·  · 

活跃评论者/发帖者的问题

 ·  · 

sus-column-r 在 lmsys 上是 Grok

 ·  · 

昨日报告的llama.cpp中RPC服务器的新关键安全漏洞

 ·  · 

给Llama分配自己的Windows实例

 ·  · 

在手机上运行这些模型的实用性?

 ·  · 

13 日   16

Command R+ 仍然是史上最佳,以及为什么我们需要非对齐模型

 ·  · 

基于大部分二手消费级硬件构建的5x RTX 3090 GPU机架

 ·  · 

我通过了gemma 2 2b给我的智商测试。但那真的很艰难。

 ·  · 

运行你自己的网络代理:Agent Q 论文展示 LLMs 可以学会浏览网站

 ·  · 

Project Alice - 一个用于代理工作流程的开源框架

 ·  · 

2x RTX 3090 + Threadripper 3970X + 256GB RAM LLM推理基准测试

 ·  · 

[微软研究] 相互推理使小型LLM成为更强大的问题解决者。‘rStar将GSM8K准确率从12.51%提升至63.91%(LLaMA2-7B),从36.46%提升至81.88%(Mistral-7B),从74.53%提升至91.13%(LLaMA3-8B-Instruct)’

 ·  · 

我创建了一个带有AI调酒师的3D酒吧,可以在网页上使用,我应该制作一个本地/自托管版本吗?

 ·  · 

InternLM2.5 有一些有趣的回应…

 ·  · 

新发布:THUDM的LongWriter-glm4-9b与LongWriter-llama3.1-8b

 ·  · 

轻量级Python库,用于使用LLMs进行网页抓取

 ·  · 

Gemini 如何拥有超过100万的长度上下文?

 ·  · 

目前最好的RP模型和从llama 3.1或mistral nemo微调是什么?

 ·  · 

我们在HuggingFace上发布了InternLM2.5新模型,包括1.8B和20B版本。

 ·  · 

新论文: “人工智能科学家” - 迈向全自动开放式科学发现

 ·  · 

为什么未经审查和删节的微调模型仍然拒绝我的请求

 ·  · 

12 日   16

WIP - 便携式96GB VRAM配置

 ·  · 

目前是否有可能使用LLM玩《龙与地下城》?

 ·  · 

Ollama仍然是运行本地LLM的最佳方式吗?

 ·  · 

如果有人给你一个免费的16x A100实例,你会做什么?

 ·  · 

Update: Overclocked 3060 12gb x 4 | Running Llama-3.1-70B-Instruct-AWQ-INT4 ( 20 Tokens/s with Context Size 24k ) vllm

 ·  · 

Llama-3.1 70B 4-bit HQQ/校准量化模型:在lm-eval基准测试中相对于FP16的性能超过99%,且推理速度与FP16相似(A100中每秒10个令牌)。

 ·  · 

超频M40 24GB与P40(基准测试结果)

 ·  · 

一个包含多种不同策略的RAG实现的开源集合

 ·  · 

适合16GB VRAM的本地编码LLM设置

 ·  · 

为什么unsloth如此高效?

 ·  · 

从双3090升级到双4090或RTX A6000

 ·  · 

在9天内预训练一个大型语言模型😱😱😱

 ·  · 

来自TII(技术创新研究所TII - 阿联酋)的Falcon Mamba 7B

 ·  · 

为什么再也没有SPPO LLMs了?SPPO方法不是开源的吗?

 ·  · 

有哪些新的最先进的本地视觉模型实际上拥有被Llama.cpp支持的GGUFs?

 ·  · 

70B模型推荐?

 ·  · 

11 日   12

与LLM实时语音对话

 ·  · 

中国人制造了48GB的4090D和32GB的4080 Super

 ·  · 

T7920 在安装双P40时无法启动

 ·  · 

openbmb/MiniCPM-Llama3-V-2_5 在 llama.cpp 中的支持

 ·  · 

在安卓手机上使用2.5 GB内存运行Llama-3.1-8b-Instruct

 ·  · 

PSA: NVLink boosts training performance by A LOT

 ·  · 

目前开放式大型语言模型的最大上下文窗口是多少?

 ·  · 

目前最好的Python编码模型是什么?

 ·  · 

关于“当然,这里是…”的抱怨

 ·  · 

适合48GB显存的最佳模型

 ·  · 

没有GPU,你能做些什么有趣的事情?

 ·  · 

2B Gemma微调,可能是未审查的

 ·  · 

10 日   10

本地LLaMa有多大的用处?

 ·  · 

最强大的未经审查的大型语言模型是什么?

 ·  · 

最适合16GB内存的无偏见/客观大型语言模型?

 ·  · 

提供llama 3 8b的最快方式

 ·  · 

你能推荐一个能在GPU上运行的嵌入模型吗?

 ·  · 

在仅8GB GPU上运行Brutal Llama 8B + RAG + 24k上下文的方法

 ·  · 

有没有一种技术可以通过微调来训练模型记忆文档?

 ·  · 

关于新记忆模块的任何想法?(用于角色扮演和其他目的)

 ·  · 

Meta刚刚在HF上发布了新的Llama 3.1 405B

 ·  · 

在与本地模型交谈时,你如何保存、组织、分享你的聊天记录?

 ·  · 

09 日   15

苹果智能论文

 ·  · 

新模型 - 无审查版Llama 3.1 8B Lexi

 ·  · 

需要氛围测试员!新RYS模型已上传!

 ·  · 

你的AI,无处不在 – 从助手到伴侣:如何将你的个性化AI随身携带

 ·  · 

鼓手Theia 21B v1 - 一个增强版的NeMo曲目,具有强化的人际关系和讲故事能力。来自…好吧,你知道剩下的。

 ·  · 

Snapchat的MyAI由GPT4驱动+泄露的系统提示

 ·  · 

语言模型中的自我欺骗问题(包括匿名聊天机器人)

 ·  · 

Qwen2-音频 - 一个Qwen收藏集

 ·  · 

ProLLM更新 | 新现实世界基准:编码、实体提取、函数调用、SQL查询消歧和StackUnseen

 ·  · 

本地LLM与语音接口?

 ·  · 

还有人觉得Llama 4模型有点令人失望吗?

 ·  · 

如果可以,我应该以全精度运行模型吗?

 ·  · 

公告–即将支持 (8B参数) MiniCPM-V-2.5 @llama.cpp。文本、图像和视频聊天

 ·  · 

从零开始实现LLaMA 3.1 8B的功能调用,一些挑战与反馈!

 ·  · 

LMSYS上新的sus-column-r模型。它简直搞砸了

 ·  · 

08 日   21

CodexGraph. 使用知识图谱的编码代理似乎优于基于RAG的代理

 ·  · 

还有人觉得Llama 3.1模型有点令人失望吗?

 ·  · 

AMD希望用新代码解锁MI300的全部潜力

 ·  · 

谷歌大幅削减Gemini Flash价格以应对GPT-4o mini

 ·  · 

嗨,只是分享这张图片

 ·  · 

你有哪些最好的ASCII提示?

 ·  · 

GraphRAG 应用到您的数据 v0.2

 ·  · 

OpenAI: API中的结构化输出

 ·  · 

改进的文本转语音模型:Hugging Face 的 Parler TTS v1

 ·  · 

向Deepseek v2致敬

 ·  · 

向量股票市场机器人:一个跨平台、本地、开源的代理,使用LLama3.1-8B-instruct分析一篮子股票代码,并每天自动买入或卖出每个股票代码,无限期地,有效地以无人值守的方式重新平衡您的投资组合。

 ·  · 

Qwen2-Math | 基于Qwen2的数学特定模型系列

 ·  · 

本地Llama405b与claude sonnet 3.5一样好吗?

 ·  · 

AI独角兽Hugging Face收购一家初创公司,最终将托管数亿模型 | 福布斯

 ·  · 

[播客] 高盛CIO谈银行如何实际运用AI(开源模型部分从25:00开始)

 ·  · 

AI/LLM无法为你做什么?

 ·  · 

Cohere AI 不会发布具有长上下文的小模型

 ·  · 

LMSYS Arena: Mistral Nemo 在哪里?

 ·  · 

捡到一个用于测试的挖矿设备…

 ·  · 

Llama 3.1 指令 - 12.2B 扩展版。

 ·  · 

说真的,那些代理在哪里?

 ·  · 

07 日   15

文字转语音 - 但能实现逼真声音吗?

 ·  · 

Llama CPP 取消了微调支持,你现在用什么?

 ·  · 

DecentAI - 在iOS/Android上连接您自己的大型语言模型

 ·  · 

Tess-3(Mistral-Large-2-123B)和Trinity-2(Codestral)

 ·  · 

实验性llama3-s:一种早期融合的音频与文本多模态模型

 ·  · 

LG AI发布Exaone-3.0,一款7.8亿参数的SOTA模型

 ·  · 

基于Llama-3.1的新功能调用模型

 ·  · 

Llama3.1 405b + Sonnet 3.5 免费使用

 ·  · 

骁龙X CPU推理速度快!(Q_4_0_4_8量化)

 ·  · 

适用于普通PC的最佳总结型LLM?

 ·  · 

新的gpt-4o-2024-08-06在aider的代码编辑基准测试中与原始gpt-4o得分相同

 ·  · 

Layla 移动版有新更新

 ·  · 

auto-md | 工具 | 一键转换文件/压缩包 + GitHub 仓库为 Markdown 文档 (.md)

 ·  · 

Gemma 2 9b VS Mistral Nemo 12b? (顶级小型模型?

 ·  · 

谷歌Deepmind的研究科学家如何使用LLM

 ·  · 

06 日   19

llama 3.1 内置工具调用 Brave/Wolfram:终于搞定了。我学到了什么:

 ·  · 

为工作购买新的苹果笔记本电脑 - 目前没有进行"AI"工作,但对公司来说有兴趣,36GB vs 48GB vs 96GB统一内存的机会有什么重大变化吗?

 ·  · 

Llama3.1 405B quants 现已加入 Ollama 库

 ·  · 

是否可以模仿ChatGPT的记忆和自定义指令功能?

 ·  · 

Altman威胁OpenAI前员工,若出现负面公关则取消其股份。这是开玩笑吗?

 ·  · 

新的Open LLM排行榜冠军🎉

 ·  · 

DeepSeek API 引入磁盘上下文缓存,输入令牌价格降至十分之一

 ·  · 

包含NSFW内容的最佳故事创作模型是什么?

 ·  · 

马克西姆·拉博恩:BigLlama-3.1-1T-Instruct(使用Meta-Llama-3.1-405B-Instruct进行实验性自我合并,由Arcee.AI的mergekit创建)

 ·  · 

为什么公司会投资于开源模型?

 ·  · 

将123B Mistral-Large-Instruct-2407量化至35GB,仅损失4%的准确率。

 ·  · 

开源Text2Video生成技术来了!ChatGLM的创造者刚刚开源了CogVideo。

 ·  · 

使用nvidia-pstated实现P40自动电源管理

 ·  · 

Llama 3.1 比 Llama 3 更笨吗?

 ·  · 

淋浴时的想法:如果我们制作Magnum 32b & 12b的V2版本会怎样?(剧透:我们做了!)

 ·  · 

OpenAI 联合创始人舒尔曼和布罗克曼退居幕后。舒尔曼将离开加入Anthropic。

 ·  · 

Gemini 1.5 Pro Experimental 0801 对于一个闭源模型来说出奇地未经审查

 ·  · 

关于仅使用CPU(双通道DDR5 96GB)推理设置的问题:预算应优先考虑内存速度还是CPU核心/速度?

 ·  · 

Sam “Spook” 会吓到 Uncle Sam 以关闭 Llama 4 吗?

 ·  · 

05 日   16

Mistral Large 2 在 LMSYS

 ·  · 

我们正在制作一款游戏,其中LLM驱动法术和世界生成

 ·  · 

最佳NSFW VLM用于图像标注?

 ·  · 

LLAMA 3.1 8B 驱动 - 每日现代报纸 - 无偏见 & 专注于事实

 ·  · 

关于LLM游戏设计的一些思考

 ·  · 

Flux的架构图 :) 没有找到相关论文,所以快速浏览了他们的代码。可能有助于理解当前的Diffusion架构

 ·  · 

为什么没人讨论InternLM 2.5 20B?

 ·  · 

也许是个愚蠢的问题:是先放置文本输入再提问,还是反过来更好?

 ·  · 

介绍 Wavify:设备上的语音处理超越 whisper.cpp

 ·  · 

使用大型语言模型(LLMs)进行求职申请值得吗?

 ·  · 

首次有组织同时成为Hugging Face上#1和#2的热门模型和空间(FLUX)(来自Clément Delangue在X上的分享)

 ·  · 

27-35B vs 70-72B模型在RP中的比较

 ·  · 

据报道,英伟达推迟下一代Blackwell AI芯片;对行业有重大影响

 ·  · 

逻辑谬误计分板

 ·  · 

“我们会用完数据"真的吗?

 ·  · 

WizardLM2到底发生了什么

 ·  · 

04 日   15

在使用Llama-3.1 70B处理长上下文(8000+个标记)时,llama.cpp服务器在响应第一个标记之前需要26秒来处理上下文。而TabbyAPI/exllamav2则是即时的。这是我的问题,llama.cpp的问题,都不是,两者都有点,还是完全其他原因?

 ·  · 

有没有像Claude Artifacts这样可以在本地运行的工具?

 ·  · 

你认为ElevenLabs在幕后做了什么让它如此出色?

 ·  · 

你认为我们会看到一个405B无审查模型吗?

 ·  · 

深入理解过拟合,为何它在未来是好的且重要的?Llama 3 70B性能解析!

 ·  · 

voicechat2 - 一个使用WebSockets的开源、快速、完全本地的AI语音聊天

 ·  · 

你是如何利用LLM赚钱的?

 ·  · 

是否已经有人发明了增强AI的操作系统终端?

 ·  · 

鉴于这个领域发展如此迅速,你认为两年后LLM会发展到什么程度?

 ·  · 

如何在别人的机器上运行LLM时确保隐私?

 ·  · 

也许是个愚蠢的问题,但有人能让模型“固定”认为它是金门大桥或其他什么地方吗?还是只有专家才能做到这一点?

 ·  · 

我一直在使用新的Gemini Pro 1.5 - exp - 0801..来编写代码。它太棒了。免费200万令牌也很棒!!!爱它

 ·  · 

对于Gemma-2-2b,您可以将Windows上下文扩展到32K+

 ·  · 

我在免费的OCI ARM虚拟机上以仅CPU模式运行Gemma2 2b,并配备了24GB内存,效果让我印象深刻

 ·  · 

AutoGGUF: 一个(自动化)的GGUF模型量化图形界面

 ·  · 

03 日   17

你正在使用哪种自然的情感TTS?

 ·  · 

本地llama 3.1 405b设置

 ·  · 

使用KV缓存,你注意到质量下降了吗?

 ·  · 

Gemmasutra Mini 2B v1 by TheDrummer - 7B以下最佳模型!一个蕴含不可思议力量的模型。

 ·  · 

增强角色扮演(及其他过程)与LLMs的简单(愚蠢)技巧,尤其是像7-12B这样的小型模型

 ·  · 

Tess-3-Llama-3.1-405B

 ·  · 

评价我的新不稳定设置 + 拥有96GB内存和96GB显存可以如何自动化业务?

 ·  · 

是否有现成的AI代理产品/操作系统项目可以生成代码并执行它?

 ·  · 

新鲜 3.9B Bitnet .gguf

 ·  · 

尝试这些设置以延长(或甚至缩短)LLama 3.1的上下文大小。(特别是对于RP)

 ·  · 

来自infly-ai的新34B预训练模型。在3.5T令牌(中英文混合)上训练,声称性能与Yi-1.5-34B和Qwen-1.5-32B相似。

 ·  · 

不在乎一个项目发布吗?无论如何都要进入帖子,帮助解决每个开源开发者都面临的问题

 ·  · 

在家用服务器上运行Llama 3 70b的硬件要求

 ·  · 

本周没有大型模型发布(除了FLUX-1,Gemini 1.5 0801)。接下来几周的管道情况如何?

 ·  · 

ParLlama v0.3.4 刚刚发布。核心代码重大重写,带来速度提升和错误修复。新增自定义提示管理库。

 ·  · 

这张卡对Local Llama来说值得吗?

 ·  · 

为非NVIDIA GPU构建开源AI基础设施

 ·  · 

02 日   19

有人尝试过使用字符级别的“分词器”训练大型语言模型吗?

 ·  · 

Unsloth微调演示笔记本:初学者指南!

 ·  · 

运行本地LLM的软件痛苦终于让我受不了了——所以我做了一个自己的推理服务器,你不需要在新模型/分词器发布时进行编译或更新;你不需要量化甚至下载你的LLM——只需给它一个名字,并在它们发布在HuggingFace上的那一刻运行LLM

 ·  · 

当Llama 3.1 8b的128k上下文长度被填满时,会使用多少内存?

 ·  · 

为什么没有70B版本的bitnet 1.58b模型?

 ·  · 

Koboldcpp 感谢帖(AMD 上的图像生成)

 ·  · 

大型科技公司未能说服华尔街AI正在带来回报

 ·  · 

那么…NPUs 对 LLMs 会有用吗?

 ·  · 

报告:英伟达面临司法部反垄断调查

 ·  · 

Phi3 mini 上下文占用过多内存,为什么要使用它?

 ·  · 

模型现在总结/反映你的消息了吗?发生了什么?

 ·  · 

aiOla 发布超快速‘多头’语音识别模型,超越 OpenAI Whisper

 ·  · 

Gemma2 2B IT is the most impressive small model I ever seen.

 ·  · 

我的64Gb显存台式机箱系统

 ·  · 

新的医疗和金融70b 32k Writer模型

 ·  · 

看起来不错,但为什么这么笨重?

 ·  · 

我有一台配备128GB显存的MBP。你会用它来起草、修订等非小说/商业文档吗?

 ·  · 

愚蠢的问题:是否可以在Blender文档上训练一个LLM?

 ·  · 

如何提高分类任务的速度?我应该放弃Ollama和LlamaIndex吗?

 ·  · 

01 日   40

LlamaCards

 ·  · 

AI代理现在可以无缝地通过编排歌词、音乐创作、故事板、图像生成、图像到视频转换以及整体视频制作来创建音乐视频。

 ·  · 

我有一整台NVIDIA DGX A100可供使用,我应该运行哪些基准测试?

 ·  · 

2个半插槽的24GB GPU?

 ·  · 

介绍 Harbor:一个容器化的 LLM 工具包

 ·  · 

Vector Companion - 您的100%本地、私有多模态AI伴侣,分为两个代理:Axiom和Axis,一个语音到语音框架,您的机器人可以查看图像/文本,监听计算机音频并直接与您(以及彼此)实时交谈,无限期!

 ·  · 

本地RAG与LLaMA用于日常日记应用的可行性?

 ·  · 

LLM-speed-benchmark,一个易于使用的工具,通过API直接测量模型的性能

 ·  · 

[脚本] 计算LLM模型的VRAM需求

 ·  · 

LMSYS 聊天机器人竞技场编码评分与API成本(2024-08-01)

 ·  · 

Gemma2-2B 在 iOS、Android、WebGPU、CUDA、ROCm、Metal… 上使用单一框架

 ·  · 

微软推出Hugging Face的竞争对手(等待名单注册)

 ·  · 

RAG LLM 仓库搜索

 ·  · 

gemini-1.5-pro-exp-0801 刚刚抵达聊天竞技场

 ·  · 

介绍sqlite-vec v0.1.0:一个在任何地方运行的向量搜索SQLite扩展

 ·  · 

一个包含多种不同策略的RAG实现的开源集合

 ·  · 

聊天电路 - 分支/分叉对话的实验性UI

 ·  · 

在OpenRouter上,Llama 3 405B的非量化模型提供商是什么?

 ·  · 

是否可以将两台配备RTX 4090的PC"链接"起来,以实现总共48Gb的显存?

 ·  · 

微调LLM用于文本摘要

 ·  · 

fal宣布Flux,一款新的AI图像模型,他们声称其让人联想到Midjourney,并且拥有12B参数的开源权重

 ·  · 

“破解了bitnet进行微调,结果得到了一个74mb的文件。在仅使用1个CPU核心的情况下,每秒处理198个令牌,简直是巫术。”

 ·  · 

RAG推荐:与作者的对话

 ·  · 

gemma-2-9b-it的新结果

 ·  · 

如何在Windows 11上本地构建支持NVIDIA GPU加速的llama.cpp:一个实际可行的简单分步指南

 ·  · 

需要关于从PDF中提取大型合规项目的指导

 ·  · 

更大的量化是否会使RP使用中的句子变得更糟,或者在可以观察到差异的地方?

 ·  · 

如何使用txt文件微调/训练一个相当大的LLM?

 ·  · 

只是放下图片..

 ·  · 

小规模OSS贡献者是否在开放权重LLMs领域取得了任何真正的改进或创新?

 ·  · 

使用管道扩展OpenWebUI的指南

 ·  · 

Llama 3.1: 相同模型,不同结果。百分之一的影响。

 ·  · 

PyTorch刚刚发布了他们自己的LLM解决方案 - torchchat

 ·  · 

你是如何跟踪你的提示在做什么的?

 ·  · 

什么是SwiGLU?一个从底层到顶层的全面解释,以及为什么每个新的LLM都使用它

 ·  · 

你最喜欢的工具有哪些?

 ·  · 

谷歌悄悄发布了一个稀疏自动编码器来解释Gemma 2和9b。这是他们整理的一个谷歌Colab,帮助你入门。非常令人兴奋,希望Meta也能效仿这一做法!

 ·  · 

Llama 3.0-3.1 还是 Nemo 12B 用于故事写作/RP?

 ·  · 

Gemma 设置

 ·  · 

谷歌的Gemma-2-2B与微软的Phi-3:医疗领域小型语言模型的比较分析

 ·  · 

07 月   227

31 日   30

制作了一个小巧但速度极快的工具,可以在几秒钟内编辑、处理和清理数千个文本

 ·  · 

哇,SambaNova在他们ASIC硬件上让llama 405B达到了每秒超过100个令牌,而且你无需注册或任何手续就能使用。

 ·  · 

有趣的比较:Gemma2 9b-q8_0 vs 27b-q2_K

 ·  · 

分享你的llama3.1:70b每秒令牌数

 ·  · 

MN-12B-Celeste-V1.9 - 最大一致性,最小混乱

 ·  · 

RTX3090 功耗调整结果:LLM、视觉、TTS 和扩散模型

 ·  · 

你最喜欢哪种管理提示模板的方法?

 ·  · 

戴尔服务器GPU风扇问题

 ·  · 

Gemma-2 2b 4位 GGUF / BnB 量化 + 支持Flash Attention的2倍快速微调!

 ·  · 

谷歌刚刚推出了3款新的Gemma产品(Gemma 2 2B、ShieldGemma和Gemma Scope)

 ·  · 

寻找一个使用Ollama模型进行函数调用的简单实用示例。

 ·  · 

ShieldGemma 发布 - 一个谷歌收藏

 ·  · 

Gemma 2 2B 发布 - 一个谷歌收藏

 ·  · 

我可以在i7 12核和32GB内存的电脑上运行Mistral 8x7 of 24b吗?

 ·  · 

在Ollama上的超轻量级模型

 ·  · 

Llama-3.1 8B 4-bit HQQ/校准量化模型:相对性能达到FP16的99.3%,推理速度极快

 ·  · 

xAI 可以轻松训练一个大型 Mamba 和 bitnet

 ·  · 

为什么Q4似乎始终能超越包括Q8在内的所有其他量化?

 ·  · 

Mistral Large 123b 可能被修剪至 74b - 有人在进行这项工作吗?

 ·  · 

多GPU内存溢出系统中CPU、RAM和PCIe带宽对推理的关系

 ·  · 

关于AMD和Intel CPU运行LLM的快速问题

 ·  · 

Lmsys发布Gpt4o-mini对战 - 获胜的Claude 3.5十四行诗

 ·  · 

多语言大型语言模型问题

 ·  · 

70b,我来了!

 ·  · 

更快的三元推理是可能的

 ·  · 

又一个可尝试的长上下文语言模型:MegaBeam-Mistral-7B-512k

 ·  · 

Ollama升级至ExLlamav2

 ·  · 

这是在M2 Ultra上运行Llama 3.1 405B 4bit的样子

 ·  · 

Python 在不使用 Docker 的情况下调用本地 llama

 ·  · 

有没有GraphRAG API服务器?

 ·  · 

30 日   41

基准测试大型语言模型作为休闲卡牌游戏AI(玩《王国建设者》)

 ·  · 

如何使用本地大型语言模型进行长篇内容的摘要?

 ·  · 

模型构建分解指南

 ·  · 

是否有提供定制微调服务?

 ·  · 

Llama 3.1 再次更改了其聊天模板…

 ·  · 

你们在本地RAG中使用的是哪个小于12B的小模型?

 ·  · 

梯子是怎么回事?

 ·  · 

苹果发布新的多领域智能体基准测试:MMAU

 ·  · 

Zamba2-2.7B > 超越Phi2 2.7B、Danube3 4B和StableLM 3B

 ·  · 

“不,去他的……让我谈论封闭平台,我会生气”

 ·  · 

LoRA微调有时是否不如对较小模型进行全面微调有效?

 ·  · 

Llama 400和70在英语排行榜上位列第一和第二

 ·  · 

Athene 70 许可证?

 ·  · 

白宫表示无需限制“开源”人工智能

 ·  · 

Lllama 3在聊天机器人竞技场排名第三;70B排名第九

 ·  · 

哪个开源项目符合这些要求?前端 + 后端。

 ·  · 

JSON模式与函数调用与受限生成与SAP

 ·  · 

最佳编码排行榜

 ·  · 

我编写了一个羊驼聊天机器人来索引我的电子书并提供战锤游戏技巧,现在它已开源。

 ·  · 

你需要足够的VRAM来容纳整个FP16模型以便进行量化吗?

 ·  · 

请哪位能解释一下3.1llama模型的命名规则吗?

 ·  · 

Nemomix V4.0

 ·  · 

Redcache是一个用于提升大型语言模型内存的Python包 - 免费且开源。

 ·  · 

新论文:“元奖励语言模型” - 无需人类反馈的自我改进AI

 ·  · 

让我们测试模型的阅读理解能力,而不是大海捞针测试!

 ·  · 

令人惊叹的提示技巧有哪些?

 ·  · 

[新手求助] 有没有办法提高Llama3.1在对话中的注意力?

 ·  · 

与gemma-2-27b玩井字棋

 ·  · 

英国政府正在招聘自主AI系统的高级提示工程师。

 ·  · 

强制格式训练

 ·  · 

1亿、10亿、30亿参数模型能学习多少信息?

 ·  · 

如果Meta开源他们的图像模型会怎样?影响可能会非常大!

 ·  · 

寻找约2000美元价位的硬件

 ·  · 

要让AI/LLM玩我的RPG Maker项目并从中获得平衡建议有多难?

 ·  · 

NVIDIA NIM现对开发者计划成员免费开放 | NVIDIA技术博客

 ·  · 

测试Ryzen 8700G LLama3.1

 ·  · 

Kagi LLM 基准测试项目

 ·  · 

本地LLM安全:在聊天中对本地模型进行去审查是一个技能问题

 ·  · 

Llama 3.1 405B EXL2量化结果

 ·  · 

mistral nemo 128k 针测试

 ·  · 

分割一切2(Meta)

 ·  · 

29 日   24

Llama 3.1现在是最擅长编写Wolfram代码的 | Wolfram LLM基准测试项目

 ·  · 

从科幻到国家法律:加州预防AI灾难的计划

 ·  · 

为Meta下一款大型语言模型投票,你希望看到什么样的?

 ·  · 

5位量化与4位KV缓存?

 ·  · 

GitHub项目:安全问题

 ·  · 

本地开发聊天界面:请提供建议

 ·  · 

Codestral Mamba 对 llama.cpp (Ollama) 的支持有新消息吗?

 ·  · 

您期待当前/即将推出的框架有哪些功能?您遇到了哪些持续的困扰?

 ·  · 

你好Mistral团队,你们能开源你们过时的模型吗?

 ·  · 

新DDR6时代:CPU驱动的LLMs来临?

 ·  · 

我可以用RTX 4090和3070同时使用吗?

 ·  · 

我一直在Llama 3.1 8B中遇到这个错误:“llama.cpp错误:“done_getting_tensors: 张量数量错误;预期292,得到291””

 ·  · 

量化可视化指南

 ·  · 

Groq + MoA

 ·  · 

你认为Llama3 405B能盈利吗?

 ·  · 

Nemomix v0.1 和 v0.2

 ·  · 

Mistral NeMo 对比 Llama3.1 8B

 ·  · 

Llama 3.1在GPU实例上进行推理的最快路径是什么?

 ·  · 

如何让llama 3.1在编码中变得有用,而不需要100层抽象?

 ·  · 

语音克隆(或非克隆)TTS模型优于XTTS

 ·  · 

CUDA中的KV缓存

 ·  · 

llama.cpp - 这么多选项!你最喜欢哪些?

 ·  · 

“中距离就是胜利距离” - Magnum 32B

 ·  · 

收集多样化推理任务的新数据库

 ·  · 

28 日   31

本地大型语言模型经常反复重复“请告诉我这是否符合您的要求”这样的句子

 ·  · 

Mixtral Large 在 OpenFoam 中帮助我进行流体模拟,附带精彩视频

 ·  · 

Mistral 12B Celeste V1.6 - 最大连贯性,最小混乱!

 ·  · 

语言模型在4块GeForce 4060 Ti上运行非常慢(3.7 t/s),在6块GeForce 4060 Ti上速度同样缓慢…为什么?

 ·  · 

新ZebraLogicBench评估工具+Mistral大型性能结果

 ·  · 

为何使用多个AI模型胜过依赖单一的“最佳”模型

 ·  · 

mamba-codestral-7B-v0.1 使用体验分享?

 ·  · 

3.1对财富500强企业的重要性及原因

 ·  · 

本地数据分析

 ·  · 

Gemmasutra Pro 27B v1 🧘 一款中档RP模型,湿润效果出众。来自CreamPhi、Moistral、Llama 3SOME、Smegmma和Tiger的创造者!

 ·  · 

是否有为LLM使用的工具集合的仓库?

 ·  · 

六月 - 使用本地Llama的本地语音助手

 ·  · 

最佳OCR

 ·  · 

A100系列及其背后的原因

 ·  · 

“阅读” / “记录” / “捕捉” 实际LLM推理过程的最高层次,但要有足够细节使其真正有效?

 ·  · 

如何了解不同大型语言模型(LLM)的硬件需求和性能评估?

 ·  · 

目前最佳的多模态大型语言模型(最高可达100亿参数)用于视觉问答?

 ·  · 

带有负载均衡器的Llama.cpp比阿芙罗狄蒂更快??

 ·  · 

Lite-Oute-1: 新300M和65M参数模型,提供指导版和基础版两种版本。

 ·  · 

杰玛2 27B iq2能否击败羊驼3.1 8b q8?

 ·  · 

如何充分利用Ollama的工具支持?除了它之外,您还使用了哪些库来提供现成的工具?简化工具生成必须具备哪些要素(例如从文档字符串或类似内容生成函数调用JSON)?

 ·  · 

LLM新手:代码和工具模型;无需开发经验就能达到生产水平吗?

 ·  · 

模型注意力测量?

 ·  · 

推断一个缩小规模的模型让我遇到了“列表索引超出范围”

 ·  · 

NPUs会取代GPU成为本地大型语言模型的首选吗?

 ·  · 

LLaMbA - 极简批处理引擎

 ·  · 

6 x 3090 配置 + 租赁 + 市场问题

 ·  · 

慢速互联网 - 需要帮助找到几个好模型。

 ·  · 

给大家的小礼物:一个易于使用的离线API,提供完整的维基百科文章。启动它,向端点发送查询/提示,获取匹配的完整维基文章进行RAG。

 ·  · 

备用设备的顶级型号有哪些?

 ·  · 

抱怨草莓问题和其他胡扯的事情。

 ·  · 

27 日   39

管理员项目 - 自动代码修复

 ·  · 

微调Llama 3.1于医疗数据集

 ·  · 

L3.1 8B Celeste V1.5 - 人类散文LLM的新时代,摆脱了草率之作

 ·  · 

大型语言模型在消费级CPU和RAM上的运行速度如何?

 ·  · 

Nemo FP8训练 - 需要帮助理解…

 ·  · 

创意写作LLM超级比较

 ·  · 

推荐用于树莓派4 4GB的模型

 ·  · 

Llama 3.1 405b在zebraLogic推理中排名第二!

 ·  · 

显卡上使用多模型还是单模型以提高速度

 ·  · 

[llama 3 8b] llama 3b在日常基本决策中的表现如何?

 ·  · 

尝试在4090和GV100之间选择,用于同时处理基于文本和图像生成的项目,你有什么建议?

 ·  · 

我正在进行的项目是一个单文件(现已超过1400行)的.py聊天应用程序,旨在尽可能多地集成与本地模型等聊天的功能。我刚刚添加了简易的RAG支持。请告诉我您的想法。

 ·  · 

使用Mistral Large 2进行推测性解码 - 有哪些草稿模型可以尝试?

 ·  · 

Llama 3.1 70B 发现食谱中缺少一种食材。

 ·  · 

并排比较:Llama 405B 对比 GPT-4o Mini 对比 Claude 3.5 Sonnet 对比 Mistral Large 2

 ·  · 

句子相似度模型

 ·  · 

在多个GPU上分割层会发生什么

 ·  · 

有人想测试我在Ollama中启用量化K/V缓存的PR吗?

 ·  · 

GPT-*似乎完全无法重写含有语法错误和拼写错误的文本。而LlaMa-3.1-70B却能完美地做到这一点。

 ·  · 

需要帮助:在大数据集(10万+文档)中按主题分类文档的最佳方法

 ·  · 

请求:模型创建者/微调者 - 请提及您模型的上下文大小。

 ·  · 

从哪个提供商可以获取最纯净版本的Llama3.1 405B?多模态版本(能读取图像)何时推出?

 ·  · 

llama.cpp: 支持 llama 3.1 rope 缩放因子合并

 ·  · 

微调思维链以教授新技能

 ·  · 

人类干预代理工作流程

 ·  · 

Llama3.1指令模型仍有新提交 - 修复了工具调用问题

 ·  · 

LLMs真的能从零开始构建生产就绪的应用程序吗?讨论

 ·  · 

非NSFW模型的奇怪行为

 ·  · 

改善相似性搜索的技巧

 ·  · 

你会在谷歌上搜索编程问题/语法参考吗?

 ·  · 

旧系统,该用什么?

 ·  · 

我真的很喜欢Llama 3实际上会问你问题

 ·  · 

与Athene-Llama3-70B的体验

 ·  · 

本地DeepSeeK-V2推理:预填充每秒120次,解码每秒14次,仅使用21GB 4090和136GB DRAM,基于Transformer技术

 ·  · 

$2500 OpenAI 信用额度的可能用途

 ·  · 

Mistral Nemo 在 128K 的秘密:使用基础模型

 ·  · 

LibreOffice Writer 本地推理AI扩展。

 ·  · 

Mistral Large 2 能够零样本解码Base64

 ·  · 

Llama 3.1 模型是“虚假蒸馏” - 这应该公开澄清

 ·  · 

26 日   18

Mistral Nemo 12B Instruct 是eRP的杀手锏 - 故事讲述

 ·  · 

为什么GPT-4o mini在LMSys上胜过Claude 3.5 Sonnet

 ·  · 

Gemma 9b 可以原生解码 Base64。我尝试过的下一个最小能做这个的模型是 Llama-3 70b。Llama-3.1-8b 不能。

 ·  · 

RAG来源计算

 ·  · 

SpaceLlama3.1:专为空间推理设计的VLM

 ·  · 

为什么大型AI模型的低量化版本比小型8B模型更少失去其智能?

 ·  · 

使用Lora和Mergekit进行无损连续微调

 ·  · 

直到Llama-3.1模型在GGUF中的RoPE缩放问题解决之前,只需使用这个频率(已测试至80K)

 ·  · 

GPT-4o mini 对比 Llama 3.1 405 B 对比 Mistral Large 2 对比 Claude Sonnet 3.5

 ·  · 

PS2存在危险,欧盟应予以监管

 ·  · 

来自Philipp Schmid在X上的帖子:Hugging Face Hub每天处理超过6PB的数据和近10亿次请求

 ·  · 

Llama 3 405b系统

 ·  · 

有人拥有128GB内存的MacBook吗?在您的系统上运行Llama 70B有多快?

 ·  · 

数据图谱RAG应用指南

 ·  · 

无论后端如何,你们在使用什么前端?

 ·  · 

Ollama现已支持工具辅助!

 ·  · 

我制作了一个使用本地LLama3.1-8b(不调用OpenAI或Claude)的AI驱动编辑器,可以在浏览器中使用!快来看看吧:https://editor.yyjhao.com

 ·  · 

在48 GB显存上运行Mistral大型(123b)

 ·  · 

25 日   22

常规用户使用LLAMA 3.1(4050亿参数)的实际挑战:(OpenAI ChatGPT用户)

 ·  · 

越狱的Llama-3.1-8B-指令

 ·  · 

你用大型语言模型做什么?

 ·  · 

快要成功了……只需要再多一点显存。

 ·  · 

关于SPPO的思考?

 ·  · 

四张RTX3060与两张RTX3090与一张RTX4090的推理测试对比

 ·  · 

我做了一个愚蠢的测试

 ·  · 

警告:托管的Llama 3.1质量可能因提供商而异

 ·  · 

GPT-40迷你版,约80亿参数

 ·  · 

数学家们让一让,AlphaProof来了

 ·  · 

我创建了一个网站(wiz.chat),可以在你的浏览器中运行Llama-3SOME-8B

 ·  · 

Tele-FLM-1T:一个万亿参数的开源多语言大型语言模型。

 ·  · 

Llama 3.1现已面向家庭AI集群开放!全新分布式Llama版本,在家即可运行量化版3.1 8B,全上下文(131k令牌)支持

 ·  · 

这是什么??

 ·  · 

闭源与开源模型对比——Maxime Labonne

 ·  · 

使用Llama 3.1、新DeepSeek Coder与Mistral Large进行编程

 ·  · 

简单LLM价格比较工具

 ·  · 

[llama.cpp] Android用户现在得益于改进的arm64支持,实现更快的提示处理。

 ·  · 

Mistral-large-2407 LiveBench 分数与排名更新

 ·  · 

介绍InternLM-Step-Prover:MiniF2F、Proofnet和Putnam基准测试中的最新数学证明器。

 ·  · 

DeepSeek-Coder-V2-0724今日发布,在助手排行榜中位列第二

 ·  · 

随着最新一轮的发布,行业似乎正在转向开放模式

 ·  · 

24 日   22

Llama 3.1 8B 指令简化版 GGUF!

 ·  · 

405B Q3_K_M 在 AM5 7950x + 192gb CL30 6000 + 4080 适度游戏电脑上运行,0.34tps

 ·  · 

Llama 3.1 405B Q5_K_M 在 AMD Epyc 9374F 上的实时性能表现

 ·  · 

AI解释发布的新“简单基准”私人评测

 ·  · 

Llama-3.1 本地浏览器内推理,无需设置(WebGPU 加速)

 ·  · 

运行Llama 3.1,现已支持正确的RoPE,现场量化,与mistral.rs结合!

 ·  · 

Llama 405B Q4_K_M 量化模型在本地以约1.2个令牌/秒的速度运行(多GPU配置+大量CPU内存)

 ·  · 

Mistral-Large-Instruct-2407

 ·  · 

制作了这个梗图

 ·  · 

Llama 3.1 编程能力显著提升

 ·  · 

MistralAI/Mistral-Large-Instruct-2407 · Hugging Face. 新开源123B模型在代码基准测试中超越Llama 3.1 405B

 ·  · 

“足够大” | 宣布Mistral Large 2

 ·  · 

在我的个人日记上训练一个语言模型?

 ·  · 

Llamacpp + WebUI 自动模型切换功能

 ·  · 

LLaMA 3.1工具调用的快速评测

 ·  · 

我为代码仓库实现了RAG,以提供新代码生成的上下文。以下是在仅有16GB内存和约5k上下文窗口的Apple M1 Pro机器上,Llama-3.1-8B量化版本的表现。

 ·  · 

LLaMA 3.1在SIMPLE基准测试中击败了Gemini 1.5 Pro和GPT4o,但Claude 3.5仍居首位。

 ·  · 

Llama 3 - 完全使用C语言编写

 ·  · 

多模态Llama 3在欧盟不可用,我们得感谢这个人。

 ·  · 

米斯特拉尔·尼莫未经过审查

 ·  · 

Anthropic Claude 可以随时屏蔽你。

 ·  · 

llama 400b在实时排行榜上位列第三。@企业用户,这对OpenAI的商业模式意味着什么?

 ·  ·