你现在可以在mistral.rs上运行具有完整128k上下文窗口和原位量化的🦙 Llama 3.1!目前,像llama.cpp这样的平台没有使用正确的RoPE实现,因此会遇到正确性问题。Mistral.rs提供了一个正确的实现。
要开始使用,请查看仓库:https://github.com/EricLBuehler/mistral.rs。我们支持CUDA、Metal和CPU加速器,如Accelerate和MKL。
在快速构建(在我的机器上大约1-2分钟)之后,你可以选择使用CLI工具启动一个OpenAI兼容的服务器,几秒钟内完成量化:
./mistralrs_server --port 1234 --isq Q4K plain -m meta-llama/Meta-Llama-3.1-8B-Instruct -a llama
或者,启动交互模式立即开始聊天,同样在几秒钟内完成量化:
./mistralrs_server -i --isq Q4K plain -m meta-llama/Meta-Llama-3.1-8B-Instruct -a llama
如果你是Python开发者,安装我们的PyPI包(文档在这里,我们还有一个LlamaIndex集成!)并使用一个受OpenAI启发的Python API:
from mistralrs import Runner, Which, ChatCompletionRequest, Architecture
runner = Runner(
which=Which.Plain(
model_id="meta-llama/Meta-Llama-3.1-8B-Instruct",
arch=Architecture.Llama,
),
in_situ_quant="Q4K",
)
res = runner.send_chat_completion_request(
ChatCompletionRequest(
model="mistral",
messages=[
{"role": "user", "content": "珠穆朗玛峰在哪里?"}
],
max_tokens=256,
presence_penalty=1.0,
top_p=0.1,
temperature=0.1,
)
)
print(res.choices[0].message.content)
print(res.usage)
请告诉我们你的想法!我们可以添加什么来让这个更好?
讨论总结
本次讨论主要围绕Mistral.rs项目的正确RoPE实现和现场量化功能展开。评论者对项目的代码质量和功能表示赞赏,并提出了一些改进建议,如增加对text-generation-webui的支持和添加min_p采样功能。同时,也有评论者关注项目的多GPU支持和设备映射问题,以及项目名称可能带来的误导性。整体上,讨论氛围积极,开发者对用户反馈响应迅速,展现了良好的社区互动。
主要观点
- 👍 Mistral.rs支持多GPU设备映射
- 支持理由:可以分配不同层到不同GPU,KV缓存也会分布在相应GPU上。
- 反对声音:目前尚未实现NCCL加速,使用设备映射时需要禁用PagedAttention。
- 🔥 项目代码质量和设计优于llama.cpp
- 正方观点:评论者认为Mistral.rs的代码质量和设计优于llama.cpp。
- 反方观点:项目名称具有误导性,建议更改项目名称以避免与大公司产品名称混淆。
- 💡 Mistral.rs提供了正确的RoPE实现和现场量化功能
- 支持理由:项目支持CUDA、Metal和CPU加速器,提供了Python API和LlamaIndex集成。
- 改进建议:增加对text-generation-webui的支持,添加min_p采样功能。
金句与有趣评论
- “😂 stonegdi:Hey, thanks for sharing such a great project! Does mistral.rs support multi-gpu?”
- 亮点:评论者对项目的兴趣和询问体现了项目的关注度。
- “🤔 -p-e-w-:Loving this project. Code quality and overall design appears to be much better than llama.cpp (of course, Rust helps a lot there…).”
- 亮点:评论者对项目代码质量的赞赏,以及对Rust语言的认可。
- “👀 epicfilemcnulty:Well, min_p sampling would be a nice and useful feature to have. Great project, btw, kudos!”
- 亮点:评论者对项目功能的建议,以及对项目的积极评价。
情感分析
讨论的总体情感倾向积极,评论者对Mistral.rs项目的功能和代码质量表示赞赏。主要分歧点在于项目名称的误导性和部分功能的改进建议。这些分歧可能源于用户对项目的高期望和实际使用体验的差异。
趋势与预测
- 新兴话题:多GPU支持和设备映射的进一步优化,以及项目名称的重新考虑。
- 潜在影响:Mistral.rs项目的改进和优化将进一步推动其在人工智能领域的应用,特别是在大型语言模型和量化技术方面。
感谢您的耐心阅读!来选个表情,或者留个评论吧!