运行Llama 3.1，现已支持*正确的RoPE*，现场量化，与mistral.rs结合！

你现在可以在mistral.rs上运行具有完整128k上下文窗口和原位量化的🦙 Llama 3.1！目前，像llama.cpp这样的平台没有使用正确的RoPE实现，因此会遇到正确性问题。Mistral.rs提供了一个正确的实现。

要开始使用，请查看仓库：https://github.com/EricLBuehler/mistral.rs。我们支持CUDA、Metal和CPU加速器，如Accelerate和MKL。

在快速构建（在我的机器上大约1-2分钟）之后，你可以选择使用CLI工具启动一个OpenAI兼容的服务器，几秒钟内完成量化：

./mistralrs_server --port 1234 --isq Q4K plain -m meta-llama/Meta-Llama-3.1-8B-Instruct -a llama

或者，启动交互模式立即开始聊天，同样在几秒钟内完成量化：

./mistralrs_server -i --isq Q4K plain -m meta-llama/Meta-Llama-3.1-8B-Instruct -a llama

如果你是Python开发者，安装我们的PyPI包（文档在这里，我们还有一个LlamaIndex集成！）并使用一个受OpenAI启发的Python API：

from mistralrs import Runner, Which, ChatCompletionRequest, Architecture

runner = Runner(
    which=Which.Plain(
        model_id="meta-llama/Meta-Llama-3.1-8B-Instruct",
        arch=Architecture.Llama,
    ),
    in_situ_quant="Q4K",
)

res = runner.send_chat_completion_request(
    ChatCompletionRequest(
        model="mistral",
        messages=[
            {"role": "user", "content": "珠穆朗玛峰在哪里？"}
        ],
        max_tokens=256,
        presence_penalty=1.0,
        top_p=0.1,
        temperature=0.1,
    )
)
print(res.choices[0].message.content)
print(res.usage)

请告诉我们你的想法！我们可以添加什么来让这个更好？

讨论总结

本次讨论主要围绕Mistral.rs项目的正确RoPE实现和现场量化功能展开。评论者对项目的代码质量和功能表示赞赏，并提出了一些改进建议，如增加对text-generation-webui的支持和添加min_p采样功能。同时，也有评论者关注项目的多GPU支持和设备映射问题，以及项目名称可能带来的误导性。整体上，讨论氛围积极，开发者对用户反馈响应迅速，展现了良好的社区互动。

主要观点

👍 Mistral.rs支持多GPU设备映射
- 支持理由：可以分配不同层到不同GPU，KV缓存也会分布在相应GPU上。
- 反对声音：目前尚未实现NCCL加速，使用设备映射时需要禁用PagedAttention。
🔥 项目代码质量和设计优于llama.cpp
- 正方观点：评论者认为Mistral.rs的代码质量和设计优于llama.cpp。
- 反方观点：项目名称具有误导性，建议更改项目名称以避免与大公司产品名称混淆。
💡 Mistral.rs提供了正确的RoPE实现和现场量化功能
- 支持理由：项目支持CUDA、Metal和CPU加速器，提供了Python API和LlamaIndex集成。
- 改进建议：增加对text-generation-webui的支持，添加min_p采样功能。

金句与有趣评论

“😂 stonegdi：Hey, thanks for sharing such a great project! Does mistral.rs support multi-gpu?”
- 亮点：评论者对项目的兴趣和询问体现了项目的关注度。
“🤔 -p-e-w-：Loving this project. Code quality and overall design appears to be much better than llama.cpp (of course, Rust helps a lot there…).”
- 亮点：评论者对项目代码质量的赞赏，以及对Rust语言的认可。
“👀 epicfilemcnulty：Well, min_p sampling would be a nice and useful feature to have. Great project, btw, kudos!”
- 亮点：评论者对项目功能的建议，以及对项目的积极评价。

情感分析

讨论的总体情感倾向积极，评论者对Mistral.rs项目的功能和代码质量表示赞赏。主要分歧点在于项目名称的误导性和部分功能的改进建议。这些分歧可能源于用户对项目的高期望和实际使用体验的差异。

趋势与预测

新兴话题：多GPU支持和设备映射的进一步优化，以及项目名称的重新考虑。
潜在影响：Mistral.rs项目的改进和优化将进一步推动其在人工智能领域的应用，特别是在大型语言模型和量化技术方面。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测