使用Mistral Large 2进行推测性解码 - 有哪些草稿模型可以尝试？

我最近将后端迁移到了TabbyAPI，与oobabooga不同，它支持推测性解码。对于大型密集模型来说，这可能有助于加速处理，但到目前为止，我还没有找到针对Mistral Large 2的具体讨论或推荐。

我记得在某处读到过，草稿模型必须与目标模型具有相同的词汇表，但我还不确定是否有任何草稿模型与Mistral Large 2兼容。

如果有谁在使用Mistral Large 2进行推测性解码方面有经验，并能分享使用与否的性能差异，那就太好了！或者如果目前Mistral Large 2无法实现这一点，那也很有用。

讨论总结

本次讨论主要聚焦于使用Mistral Large 2进行推测解码的技术细节和实际应用。参与者们探讨了不同草稿模型的兼容性、性能影响以及词汇交换方法。主要观点包括Mistral-7B-Instruct-v0.3与Mistral Large 2的词汇兼容性、使用特定模型带来的速度提升，以及对模型上下文长度的需求。讨论中还涉及了微调Mistral Large 2的可能性，以及如何选择合适的草稿模型以优化推测解码过程。

主要观点

👍 Mistral-7B-Instruct-v0.3与Mistral Large 2的词汇兼容性
- 支持理由：除了一些控制标记的差异外，词汇基本相同，适合作为草稿模型。
- 反对声音：目前只有v0.3版本是兼容的，其他版本可能存在兼容性问题。
🔥 推测解码在Mistral Large 2上的性能表现
- 正方观点：使用Mistral-7B-Instruct-v0.3进行推测解码可以带来速度上的提升。
- 反方观点：其他模型如Codestral-22B和Qwama-0.5B-Instruct在速度和兼容性方面存在问题。
💡 草稿模型的选择与上下文长度需求
- 解释：草稿模型需要至少128K的上下文长度，以避免处理长对话或文档时的速度下降。

金句与有趣评论

“😂 The vocab is the exact same for the 7B instruct model aside from Large having some of the control tokens set (ex [IMG] instead of [control_8])”
- 亮点：明确了Mistral-7B-Instruct-v0.3与Mistral Large 2的词汇兼容性。
“🤔 Yes only mistral v0.3 is compatible. I am using myself and result is good”
- 亮点：分享了使用Mistral v0.3版本进行推测解码的积极体验。
“👀 I tried using EXL2 2.2bpw of Codestral as draft, but the result was that it slowed things down.”
- 亮点：揭示了使用Codestral-22B作为草稿模型时速度下降的问题。

情感分析

讨论的总体情感倾向较为积极，多数参与者对使用Mistral Large 2进行推测解码持乐观态度，并分享了实际应用中的积极体验。主要分歧点在于不同草稿模型的兼容性和性能影响，以及如何选择最合适的模型进行推测解码。

趋势与预测

新兴话题：对Mistral Large 2进行微调的可能性，以及如何通过词汇交换方法优化推测解码过程。
潜在影响：随着更多用户尝试和分享使用Mistral Large 2进行推测解码的经验，可能会推动相关技术和模型的进一步发展。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测