原贴链接

你现在可以在mistral.rs上运行具有完整128k上下文窗口和原位量化的🦙 Llama 3.1!目前,像llama.cpp这样的平台没有使用正确的RoPE实现,因此会遇到正确性问题。Mistral.rs提供了一个正确的实现。

要开始使用,请查看仓库:https://github.com/EricLBuehler/mistral.rs。我们支持CUDA、Metal和CPU加速器,如Accelerate和MKL。

在快速构建(在我的机器上大约1-2分钟)之后,你可以选择使用CLI工具启动一个OpenAI兼容的服务器,几秒钟内完成量化:

./mistralrs_server --port 1234 --isq Q4K plain -m meta-llama/Meta-Llama-3.1-8B-Instruct -a llama

或者,启动交互模式立即开始聊天,同样在几秒钟内完成量化:

./mistralrs_server -i --isq Q4K plain -m meta-llama/Meta-Llama-3.1-8B-Instruct -a llama

如果你是Python开发者,安装我们的PyPI包(文档在这里,我们还有一个LlamaIndex集成!)并使用一个受OpenAI启发的Python API:

from mistralrs import Runner, Which, ChatCompletionRequest, Architecture

runner = Runner(
    which=Which.Plain(
        model_id="meta-llama/Meta-Llama-3.1-8B-Instruct",
        arch=Architecture.Llama,
    ),
    in_situ_quant="Q4K",
)

res = runner.send_chat_completion_request(
    ChatCompletionRequest(
        model="mistral",
        messages=[
            {"role": "user", "content": "珠穆朗玛峰在哪里?"}
        ],
        max_tokens=256,
        presence_penalty=1.0,
        top_p=0.1,
        temperature=0.1,
    )
)
print(res.choices[0].message.content)
print(res.usage)

请告诉我们你的想法!我们可以添加什么来让这个更好?

讨论总结

本次讨论主要围绕Mistral.rs项目的正确RoPE实现和现场量化功能展开。评论者对项目的代码质量和功能表示赞赏,并提出了一些改进建议,如增加对text-generation-webui的支持和添加min_p采样功能。同时,也有评论者关注项目的多GPU支持和设备映射问题,以及项目名称可能带来的误导性。整体上,讨论氛围积极,开发者对用户反馈响应迅速,展现了良好的社区互动。

主要观点

  1. 👍 Mistral.rs支持多GPU设备映射
    • 支持理由:可以分配不同层到不同GPU,KV缓存也会分布在相应GPU上。
    • 反对声音:目前尚未实现NCCL加速,使用设备映射时需要禁用PagedAttention。
  2. 🔥 项目代码质量和设计优于llama.cpp
    • 正方观点:评论者认为Mistral.rs的代码质量和设计优于llama.cpp。
    • 反方观点:项目名称具有误导性,建议更改项目名称以避免与大公司产品名称混淆。
  3. 💡 Mistral.rs提供了正确的RoPE实现和现场量化功能
    • 支持理由:项目支持CUDA、Metal和CPU加速器,提供了Python API和LlamaIndex集成。
    • 改进建议:增加对text-generation-webui的支持,添加min_p采样功能。

金句与有趣评论

  1. “😂 stonegdi:Hey, thanks for sharing such a great project! Does mistral.rs support multi-gpu?”
    • 亮点:评论者对项目的兴趣和询问体现了项目的关注度。
  2. “🤔 -p-e-w-:Loving this project. Code quality and overall design appears to be much better than llama.cpp (of course, Rust helps a lot there…).”
    • 亮点:评论者对项目代码质量的赞赏,以及对Rust语言的认可。
  3. “👀 epicfilemcnulty:Well, min_p sampling would be a nice and useful feature to have. Great project, btw, kudos!”
    • 亮点:评论者对项目功能的建议,以及对项目的积极评价。

情感分析

讨论的总体情感倾向积极,评论者对Mistral.rs项目的功能和代码质量表示赞赏。主要分歧点在于项目名称的误导性和部分功能的改进建议。这些分歧可能源于用户对项目的高期望和实际使用体验的差异。

趋势与预测

  • 新兴话题:多GPU支持和设备映射的进一步优化,以及项目名称的重新考虑。
  • 潜在影响:Mistral.rs项目的改进和优化将进一步推动其在人工智能领域的应用,特别是在大型语言模型和量化技术方面。