在Qwen 2.5发布前一天,我买到了二手的2张3090显卡。我尝试过很多模型。虽然它们都不错,但我更喜欢Claude,因为它给我的答案比ChatGPT更好。我从未在Ollama上得到过接近的效果。但当我测试这个模型时,我觉得我在正确的时间花了钱买了正确的硬件。不过,我仍然使用付费模型的免费版本,从未达到过免费限制…哈哈。
Qwen2.5:72b(Q4_K_M 47GB)无法在2张RTX 3090 GPU(48GB RAM)上运行
成功在GPU上运行:
Q4_K_S(44GB):达到约16.7 T/s Q4_0(41GB):达到约18 T/s
8B模型非常快,处理速度超过80 T/s
我的docker compose
version: '3.8'
services:
tailscale-ai:
image: tailscale/tailscale:latest
container_name: tailscale-ai
hostname: localai
environment:
- TS_AUTHKEY=YOUR-KEY
- TS_STATE_DIR=/var/lib/tailscale
- TS_USERSPACE=false
- TS_EXTRA_ARGS=--advertise-exit-node --accept-routes=false --accept-dns=false --snat-subnet-routes=false
volumes:
- ${PWD}/ts-authkey-test/state:/var/lib/tailscale
- /dev/net/tun:/dev/net/tun
cap_add:
- NET_ADMIN
- NET_RAW
privileged: true
restart: unless-stopped
network_mode: "host"
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ./ollama-data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: unless-stopped
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "80:8080"
volumes:
- ./open-webui:/app/backend/data
extra_hosts:
- "host.docker.internal:host-gateway"
restart: always
volumes:
ollama:
external: true
open-webui:
external: true
更新所有模型
#!/bin/bash
# 从Docker容器中获取模型列表
models=$(docker exec -it ollama bash -c "ollama list | tail -n +2" | awk '{print $1}')
model_count=$(echo "$models" | wc -w)
echo "您有$model_count个模型可用。您想一次性更新所有模型吗?(y/n)"
read -r bulk_response
case "$bulk_response" in
y|Y)
echo "正在更新所有模型..."
for model in $models; do
docker exec -it ollama bash -c "ollama pull '$model'"
done
;;
n|N)
# 遍历每个模型并提示用户输入
for model in $models; do
echo "您想更新模型'$model'吗?(y/n)"
read -r response
case "$response" in
y|Y)
docker exec -it ollama bash -c "ollama pull '$model'"
;;
n|N)
echo "跳过'$model'"
;;
*)
echo "无效输入。跳过'$model'"
;;
esac
done
;;
*)
echo "无效输入。退出。"
exit 1
;;
esac
下载多个模型
#!/bin/bash
# 预定义的模型名称列表
models=(
"llama3.1:70b-instruct-q4_K_M"
"qwen2.5:32b-instruct-q8_0"
"qwen2.5:72b-instruct-q4_K_S"
"qwen2.5-coder:7b-instruct-q8_0"
"gemma2:27b-instruct-q8_0"
"llama3.1:8b-instruct-q8_0"
"codestral:22b-v0.1-q8_0"
"mistral-large:123b-instruct-2407-q2_K"
"mistral-small:22b-instruct-2409-q8_0"
"nomic-embed-text"
)
# 计算模型数量
model_count=${#models[@]}
echo "您有$model_count个预定义模型需要下载。您想继续吗?(y/n)"
read -r response
case "$response" in
y|Y)
echo "正在逐个下载预定义模型..."
for model in "${models[@]}"; do
docker exec -it ollama bash -c "ollama pull '$model'"
if [ $? -ne 0 ]; then
echo "下载模型失败: $model"
exit 1
fi
echo "已下载模型: $model"
done
;;
n|N)
echo "退出,不下载任何模型。"
exit 0
;;
*)
echo "无效输入。退出。"
exit 1
;;
esac
讨论总结
本次讨论主要围绕Qwen 2.5模型的性能、硬件配置、量化技术、编程适用性及成本效益展开。用户分享了在不同硬件平台上的使用体验,讨论了模型的性能提升、量化技术的应用、编程模型的适用性以及投资价值。讨论中还涉及了远程访问、开源模型的使用成本、模型对比等多个方面。总体而言,用户对Qwen 2.5的性能和实用性表示认可,并探讨了其在未来的潜力和可能的影响。
主要观点
👍 Qwen 2.5在不同硬件平台上的性能表现
- 支持理由:用户分享了在RTX 3090、A4000 Ada、M2 Ultra Mac等硬件上的使用体验,认为Qwen 2.5在处理复杂任务时表现出色。
- 反对声音:部分用户提到在某些任务上表现不如其他模型,如Mistral Large 2。
🔥 量化技术对模型性能的提升
- 正方观点:用户讨论了AWQ、IQ4等量化技术对模型性能的提升,认为这些技术能够显著提高模型的运行速度和效率。
- 反方观点:有用户在使用AWQ时遇到了模型重复答案的问题,需要调整温度设置来避免。
💡 Qwen 2.5在编程领域的适用性
- 解释:用户讨论了Qwen 2.5在编程任务中的表现,提到有一个专门的编程模型Qwen2.5-Coder-7B-Instruct,并期待即将推出的32B编程模型。
👍 Qwen 2.5的成本效益分析
- 支持理由:用户通过计算硬件购买和运行成本,对比了租赁服务和自购硬件的经济性,认为自购硬件的长期投资回报较高。
- 反对声音:部分用户认为租赁服务的成本较低,更适合短期使用。
🔥 Qwen 2.5的未来潜力
- 正方观点:用户认为Qwen 2.5在AI集成IDE、创造收入解决方案等方面具有潜力,值得投资。
- 反方观点:有用户对模型的未来发展持观望态度,认为需要更多实际应用案例来验证其价值。
金句与有趣评论
“😂 Qwen2.5 32B seems pretty decent and I can run it on my 4090. Its already my new favorite.”
- 亮点:用户对Qwen 2.5 32B模型的性能表示高度认可,并将其视为新宠。
“🤔 Use exl2 quants and thank me later :)”
- 亮点:评论者建议使用exl2量化技术来提升模型性能,并期待他人的积极反馈。
“👀 Mistral Large 2 123B is better but bigger and slower. Qwen2.5 72B you can run with 2 GPUs, but Mistral Large 2 requires four.”
- 亮点:评论者对比了Qwen 2.5和Mistral Large 2的性能和硬件需求,指出了Qwen 2.5在硬件需求上的优势。
“😂 I test some storytelling. I prefer Qwen2.5 72B q4km edtion more than gpt4o edition.”
- 亮点:用户在故事叙述任务中对比了Qwen 2.5和GPT-4o,认为Qwen 2.5表现更优。
“🤔 do you think it’s worth the money investment in such tools as a coder?”
- 亮点:评论者询问是否值得投资高性能的AI工具,探讨了AI工具在编程领域的投资价值。
情感分析
讨论的总体情感倾向是积极的,用户对Qwen 2.5的性能和实用性表示认可,并分享了各自的使用体验。主要分歧点在于模型的性能提升、量化技术的应用、编程适用性以及成本效益分析。部分用户对模型的未来发展持观望态度,认为需要更多实际应用案例来验证其价值。
趋势与预测
- 新兴话题:量化技术在模型优化中的应用、编程模型的适用性、AI工具的投资价值。
- 潜在影响:Qwen 2.5可能在AI集成IDE、创造收入解决方案等领域发挥重要作用,推动AI技术的普及和应用。
详细内容:
标题:关于 Qwen 2.5 模型的热门讨论
近日,Reddit 上一篇有关 Qwen 2.5 模型的帖子引发了热烈讨论。该帖作者在 Qwen 2.5 到来前入手了二手 3090 显卡,并分享了相关的配置和使用体验,获得了众多关注,点赞数和评论数众多。帖子主要引发了关于 Qwen 2.5 模型在不同硬件配置下的性能表现、与其他模型的对比、适用场景以及成本效益等方面的讨论。
在讨论焦点与观点分析方面,用户们分享了各自的见解。有人称赞作者分享的 Docker Compose 和实用脚本,有人探讨了 Tailscale 的使用方式及DNS设置。对于 Qwen 2.5 模型,有人认为其性能出色,如“Clear_Information228”表示从 Llama 3.1 70B Q8 切换到 Qwen 2.5 72B q8 后效果更好且速度更快;也有人提出不同看法,如“Expensive-Paint-9490”对 32b 微调版本不太满意。
在硬件配置方面,“Vishnu_One”分享了自己为使用 Qwen 2.5 配置双 3090 显卡的成本计算,并表示运行 24/7 未出现问题。关于在苹果硬件上的运行情况,“Clear_Information228”表示在 MBP M3 Max 上运行效果不错。
在模型的使用场景上,有人将其用于工作写作,有人用于编程等。对于是否值得投资此类工具,观点不一。“Vishnu_One”认为对于自己这样的开发者很有用,但也有人认为对于资深开发者可能并非如此。
讨论中也存在一些争议,比如关于不同量化方式和后端的效果对比。
总的来说,这次关于 Qwen 2.5 的讨论展现了用户们在模型使用和配置方面的丰富经验和多样观点,为其他感兴趣的人提供了有价值的参考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!