原贴链接

在Qwen 2.5发布前一天,我买到了二手的2张3090显卡。我尝试过很多模型。虽然它们都不错,但我更喜欢Claude,因为它给我的答案比ChatGPT更好。我从未在Ollama上得到过接近的效果。但当我测试这个模型时,我觉得我在正确的时间花了钱买了正确的硬件。不过,我仍然使用付费模型的免费版本,从未达到过免费限制…哈哈。

Qwen2.5:72b(Q4_K_M 47GB)无法在2张RTX 3090 GPU(48GB RAM)上运行

成功在GPU上运行:

Q4_K_S(44GB):达到约16.7 T/s Q4_0(41GB):达到约18 T/s

8B模型非常快,处理速度超过80 T/s

我的docker compose

text
version: '3.8'

services:
  tailscale-ai:
    image: tailscale/tailscale:latest
    container_name: tailscale-ai
    hostname: localai
    environment:
      - TS_AUTHKEY=YOUR-KEY
      - TS_STATE_DIR=/var/lib/tailscale
      - TS_USERSPACE=false
      - TS_EXTRA_ARGS=--advertise-exit-node --accept-routes=false --accept-dns=false --snat-subnet-routes=false

 
    volumes:
      - ${PWD}/ts-authkey-test/state:/var/lib/tailscale
      - /dev/net/tun:/dev/net/tun
    cap_add:
      - NET_ADMIN
      - NET_RAW
    privileged: true
    restart: unless-stopped
    network_mode: "host"

  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama-data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    restart: unless-stopped

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "80:8080"
    volumes:
      - ./open-webui:/app/backend/data
    extra_hosts:
      - "host.docker.internal:host-gateway"
    restart: always

volumes:
  ollama:
    external: true
  open-webui:
    external: true

更新所有模型

text
#!/bin/bash

# 从Docker容器中获取模型列表
models=$(docker exec -it ollama bash -c "ollama list | tail -n +2" | awk '{print $1}')
model_count=$(echo "$models" | wc -w)

echo "您有$model_count个模型可用。您想一次性更新所有模型吗?(y/n)"
read -r bulk_response

case "$bulk_response" in
  y|Y)
    echo "正在更新所有模型..."
    for model in $models; do
      docker exec -it ollama bash -c "ollama pull '$model'"
    done
    ;;
  n|N)
    # 遍历每个模型并提示用户输入
    for model in $models; do
      echo "您想更新模型'$model'吗?(y/n)"
      read -r response

      case "$response" in
        y|Y)
          docker exec -it ollama bash -c "ollama pull '$model'"
          ;;
        n|N)
          echo "跳过'$model'"
          ;;
        *)
          echo "无效输入。跳过'$model'"
          ;;
      esac
    done
    ;;
  *)
    echo "无效输入。退出。"
    exit 1
    ;;
esac

下载多个模型

text
#!/bin/bash

# 预定义的模型名称列表
models=(
    "llama3.1:70b-instruct-q4_K_M"
    "qwen2.5:32b-instruct-q8_0"
    "qwen2.5:72b-instruct-q4_K_S"
    "qwen2.5-coder:7b-instruct-q8_0"
    "gemma2:27b-instruct-q8_0"
    "llama3.1:8b-instruct-q8_0"
    "codestral:22b-v0.1-q8_0"
    "mistral-large:123b-instruct-2407-q2_K"
    "mistral-small:22b-instruct-2409-q8_0"
    "nomic-embed-text"
)
# 计算模型数量
model_count=${#models[@]}

echo "您有$model_count个预定义模型需要下载。您想继续吗?(y/n)"
read -r response

case "$response" in
  y|Y)
    echo "正在逐个下载预定义模型..."
    for model in "${models[@]}"; do
      docker exec -it ollama bash -c "ollama pull '$model'"
      if [ $? -ne 0 ]; then
        echo "下载模型失败: $model"
        exit 1
      fi
      echo "已下载模型: $model"
    done
    ;;
  n|N)
    echo "退出,不下载任何模型。"
    exit 0
    ;;
  *)
    echo "无效输入。退出。"
    exit 1
    ;;
esac

讨论总结

本次讨论主要围绕Qwen 2.5模型的性能、硬件配置、量化技术、编程适用性及成本效益展开。用户分享了在不同硬件平台上的使用体验,讨论了模型的性能提升、量化技术的应用、编程模型的适用性以及投资价值。讨论中还涉及了远程访问、开源模型的使用成本、模型对比等多个方面。总体而言,用户对Qwen 2.5的性能和实用性表示认可,并探讨了其在未来的潜力和可能的影响。

主要观点

  1. 👍 Qwen 2.5在不同硬件平台上的性能表现

    • 支持理由:用户分享了在RTX 3090、A4000 Ada、M2 Ultra Mac等硬件上的使用体验,认为Qwen 2.5在处理复杂任务时表现出色。
    • 反对声音:部分用户提到在某些任务上表现不如其他模型,如Mistral Large 2。
  2. 🔥 量化技术对模型性能的提升

    • 正方观点:用户讨论了AWQ、IQ4等量化技术对模型性能的提升,认为这些技术能够显著提高模型的运行速度和效率。
    • 反方观点:有用户在使用AWQ时遇到了模型重复答案的问题,需要调整温度设置来避免。
  3. 💡 Qwen 2.5在编程领域的适用性

    • 解释:用户讨论了Qwen 2.5在编程任务中的表现,提到有一个专门的编程模型Qwen2.5-Coder-7B-Instruct,并期待即将推出的32B编程模型。
  4. 👍 Qwen 2.5的成本效益分析

    • 支持理由:用户通过计算硬件购买和运行成本,对比了租赁服务和自购硬件的经济性,认为自购硬件的长期投资回报较高。
    • 反对声音:部分用户认为租赁服务的成本较低,更适合短期使用。
  5. 🔥 Qwen 2.5的未来潜力

    • 正方观点:用户认为Qwen 2.5在AI集成IDE、创造收入解决方案等方面具有潜力,值得投资。
    • 反方观点:有用户对模型的未来发展持观望态度,认为需要更多实际应用案例来验证其价值。

金句与有趣评论

  1. “😂 Qwen2.5 32B seems pretty decent and I can run it on my 4090. Its already my new favorite.”

    • 亮点:用户对Qwen 2.5 32B模型的性能表示高度认可,并将其视为新宠。
  2. “🤔 Use exl2 quants and thank me later :)”

    • 亮点:评论者建议使用exl2量化技术来提升模型性能,并期待他人的积极反馈。
  3. “👀 Mistral Large 2 123B is better but bigger and slower. Qwen2.5 72B you can run with 2 GPUs, but Mistral Large 2 requires four.”

    • 亮点:评论者对比了Qwen 2.5和Mistral Large 2的性能和硬件需求,指出了Qwen 2.5在硬件需求上的优势。
  4. “😂 I test some storytelling. I prefer Qwen2.5 72B q4km edtion more than gpt4o edition.”

    • 亮点:用户在故事叙述任务中对比了Qwen 2.5和GPT-4o,认为Qwen 2.5表现更优。
  5. “🤔 do you think it’s worth the money investment in such tools as a coder?”

    • 亮点:评论者询问是否值得投资高性能的AI工具,探讨了AI工具在编程领域的投资价值。

情感分析

讨论的总体情感倾向是积极的,用户对Qwen 2.5的性能和实用性表示认可,并分享了各自的使用体验。主要分歧点在于模型的性能提升、量化技术的应用、编程适用性以及成本效益分析。部分用户对模型的未来发展持观望态度,认为需要更多实际应用案例来验证其价值。

趋势与预测

  • 新兴话题:量化技术在模型优化中的应用、编程模型的适用性、AI工具的投资价值。
  • 潜在影响:Qwen 2.5可能在AI集成IDE、创造收入解决方案等领域发挥重要作用,推动AI技术的普及和应用。

详细内容:

标题:关于 Qwen 2.5 模型的热门讨论

近日,Reddit 上一篇有关 Qwen 2.5 模型的帖子引发了热烈讨论。该帖作者在 Qwen 2.5 到来前入手了二手 3090 显卡,并分享了相关的配置和使用体验,获得了众多关注,点赞数和评论数众多。帖子主要引发了关于 Qwen 2.5 模型在不同硬件配置下的性能表现、与其他模型的对比、适用场景以及成本效益等方面的讨论。

在讨论焦点与观点分析方面,用户们分享了各自的见解。有人称赞作者分享的 Docker Compose 和实用脚本,有人探讨了 Tailscale 的使用方式及DNS设置。对于 Qwen 2.5 模型,有人认为其性能出色,如“Clear_Information228”表示从 Llama 3.1 70B Q8 切换到 Qwen 2.5 72B q8 后效果更好且速度更快;也有人提出不同看法,如“Expensive-Paint-9490”对 32b 微调版本不太满意。

在硬件配置方面,“Vishnu_One”分享了自己为使用 Qwen 2.5 配置双 3090 显卡的成本计算,并表示运行 24/7 未出现问题。关于在苹果硬件上的运行情况,“Clear_Information228”表示在 MBP M3 Max 上运行效果不错。

在模型的使用场景上,有人将其用于工作写作,有人用于编程等。对于是否值得投资此类工具,观点不一。“Vishnu_One”认为对于自己这样的开发者很有用,但也有人认为对于资深开发者可能并非如此。

讨论中也存在一些争议,比如关于不同量化方式和后端的效果对比。

总的来说,这次关于 Qwen 2.5 的讨论展现了用户们在模型使用和配置方面的丰富经验和多样观点,为其他感兴趣的人提供了有价值的参考。