原贴链接

它是使用单个3090通过以下命令生成的:PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/text2world.py --checkpoint_dir /workspace/checkpoints --diffusion_transformer_dir Cosmos - 1.0 - Diffusion - 7B - Text2World --prompt "water drop hitting the floor" --seed 547312549 --video_save_name Cosmos - 1.0 - Diffusion - 7B - Text2World_memory_efficient --offload_tokenizer --offload_diffusion_transformer --offload_text_encoder_model --offload_prompt_upsampler --offload_guardrail_models。它被转换为gif格式,所以可能会有一些色彩损失。Cosmos的竞争对手Genesis还没有发布他们的生成模型,所以没有可比较的对象。无法使Cosmos - 1.0 - Diffusion - 7B - Video2World正常工作。有人能在单个3090上使它运行起来吗?https://llminfo.image.fangd123.cn/images/zv2y4p9vaobe1.gif!/format/webp

讨论总结

主题是关于使用Cosmos - 1.0 - 7B - Text2World生成视频的相关话题。主要观点包括对7b模型成果的肯定、视频中的特殊现象、技术操作中的转换尝试与问题、性能方面的时间与显存占用等。总体氛围比较积极,大家在交流中分享经验和信息。

主要观点

  1. 👍 7b模型成果令人印象深刻
    • 支持理由:即使存在色彩损失和部分功能无法运行,仍认可其成果。
    • 反对声音:无
  2. 🔥 视频中的水滴呈现量子力学特性
    • 正方观点:观察到视频中的特殊现象并认为有趣。
    • 反方观点:无
  3. 💡 通过禁用提示上采样器可将图片转为视频,但结果不符合预期
    • 解释:分享操作过程与结果,为其他人提供参考。

金句与有趣评论

  1. “😂 That’s pretty impressive for a 7b model”
    • 亮点:简洁地表达对7b模型成果的肯定。
  2. “🤔 那水滴具有量子力学性质。”
    • 亮点:指出视频中特殊现象,引发思考。
  3. “👀 By disabling prompt upsampler, I am able to turn a picture into a video. However, the result doesn’t look what I wanted”
    • 亮点:分享操作尝试与结果,对他人有借鉴意义。

情感分析

总体情感倾向是积极的。主要分歧点较少,大家更多是在分享信息和经验。可能的原因是这是一个比较小众的技术话题,参与者多是基于兴趣分享和交流。

趋势与预测

  • 新兴话题:不同操作下如何优化生成视频的性能。
  • 潜在影响:对人工智能视频生成技术的发展有一定推动作用,为开发者和使用者提供更多经验和思路。

详细内容:

标题:关于 Cosmos-1.0-7B-Text2World 生成视频的热门讨论

最近,Reddit 上有一个关于使用 Cosmos-1.0-7B-Text2World 生成视频的帖子引发了广泛关注。该帖子详细介绍了生成视频所使用的命令及相关参数,还提到了在转换为 gif 格式时出现的一些颜色损失,并且指出由于 Cosmos 的竞争对手 Genesis 尚未发布生成模型,所以无法进行比较。此外,发帖者表示无法让 Cosmos-1.0-Diffusion-7B-Video2World 在单张 3090 显卡上运行,想知道有没有人成功做到。此帖获得了众多点赞和大量评论。

讨论的焦点主要集中在以下几个方面: 有人认为对于 7b 模型来说,能生成这样的视频已经相当出色。有用户表示那滴水在本质上是量子力学的,似乎同时处于两个地方,在落地前就弄湿了地板,但依然很棒。还有人分享通过禁用提示上采样器,能够将图片转换为视频,不过结果并非自己想要的。有人觉得这可以成为很棒的迷幻之旅模拟器。另外,大家还交流了生成视频所花费的时间、所需的 VRAM 以及不同硬件配置的影响。

有用户提到,由于 Pixtral-12B 无法适配单张 3090 显卡,所以使用 llama-3.2-vision-12b 从图像生成提示,结果似乎更好。有人询问生成视频花费了多长时间,回答是在单张 3090 显卡上花费了 2.5 小时。还有人好奇使用一堆较小的显卡是否会比一张更强大的 GPU 加速,以及询问所需的 VRAM 量。有人表示如果不进行任何卸载,7B 模型将需要 80GB 的 VRAM。有用户分享自己在 3090 显卡上运行只用了 40 分钟,并猜测发帖者是不是在桌面端使用从而影响了 VRAM。

讨论中的共识在于大家都对这一技术表现出了浓厚的兴趣,并且积极分享自己的经验和见解。特别有见地的观点如将其视为迷幻之旅模拟器,丰富了讨论的维度。

总的来说,这次关于 Cosmos-1.0-7B-Text2World 生成视频的讨论,充分展示了大家对新技术的探索和思考。未来,随着技术的不断发展和完善,相信会有更多令人惊喜的成果出现。