性能需求 | LLM Info

每秒处理多少个token的模型才算"可用"？

[原帖询问模型每秒处理多少令牌数算“可用”，评论者们从不同角度如任务类型、个人使用习惯等出发，给出从1个到1000个以上等不同的“可用”标准，总体氛围积极理性]

[原帖作者反馈ollama中llama3.2 - vision无图像时比llama3.1慢很多，使用8GB显存的显卡运行时还需CPU辅助，评论者从显存需求、推理引擎、图像预处理等方面进行分析探讨]