每秒处理多少个token的模型才算"可用"?
[原帖询问模型每秒处理多少令牌数算“可用”,评论者们从不同角度如任务类型、个人使用习惯等出发,给出从1个到1000个以上等不同的“可用”标准,总体氛围积极理性]
[原帖询问模型每秒处理多少令牌数算“可用”,评论者们从不同角度如任务类型、个人使用习惯等出发,给出从1个到1000个以上等不同的“可用”标准,总体氛围积极理性]
[原帖作者反馈ollama中llama3.2 - vision无图像时比llama3.1慢很多,使用8GB显存的显卡运行时还需CPU辅助,评论者从显存需求、推理引擎、图像预处理等方面进行分析探讨]