嗨,Llama的朋友们。大约一个月前,我在回德国的航班上,出发前匆忙下载了一些播客。飞机起飞后,我发现这些播客都很无聊,这让我在四个小时的飞行中无聊地坐着。我没有网络,而设备里存的播客也不是我感兴趣的。这让我开始思考,我想看看能否在我的iPhone上离线生成播客。简而言之,在我详细介绍之前,Botcast一小时前被苹果批准了,有兴趣可以看看。生成播客的挑战:我想要一个能离线工作并用不错的声音生成播客的应用。我使用TinyLlama 1.1B Chat v1.0 Q6_K来生成播客。我最初尝试用单个提示生成每一句台词,但结果发现直接提示TinyLlama生成播客文本就行。这些播客都是两个人之间的对话,性别、名字和声音都是随机选择的。在我的iPhone 14上,生成文本的整个过程大约需要一分钟,在iPhone 16 Pro上快得多,在iPhone SE 2020上需要3 - 4分钟。对于声音,我选择了Kokoro 0.19,因为这些声音似乎是我能找到的在iOS上质量最好的。经过一些测试,我去掉了英式发音,因为听起来太机械了。Botcast的技术细节:Botcast是一个用Xcode构建,用Swift和SwiftUI编写的原生iOS应用。不过,由于iOS上的llama.cpp和Kokoro所需的推理库,大部分是C/C++。涉及到Swift和框架、库之间大量的桥接。这也是我把最低系统要求设为18.2的原因,因为确保早期iOS版本的稳定性工作量太大。和我之前做的所有音频相关的东西一样,这个应用在CPU、Metal GPU和Neural Core Engines上是多线程的。这个应用大约需要1.3GB的内存,所以在iPhone 14上有权限增加到3GB,在iPhone SE 2020上能增加到1.4GB。当然,它也使用GPU的扩展内存区域。大约80%的错误修复就是解决内存问题。当我第一次把它放到TestFlight上时,苹果审核时它直接崩溃了,甚至无法启动。我不得不升级一些推理库并调整它们的实例化。从技术上讲,它已经达到了iPhone 14的极限,但在更高配置上运行就非常流畅了。由于它也兼容Mac Catalyst,在我的M1 Pro上运行得很好。Botcast的未来:Botcast目前是免费的,我打算一直免费。下一步是支持CarPlay,我还想实现Siri集成来实现“生成”功能。想法是让它完全免提操作。此外,推理支持流媒体,所以探索让生成和播放即时运行以提供真正即时的实时播客的选项也在计划之中。Botcast做起来很费劲,我可能会考虑在未来给它做一些定制,对专业版收取一次性费用(例如,定制提示,不同类型的播客,有些是专业版独有的)。在定价方面,专业版可能会收取5美元的一次性费用,因为我非常不喜欢针对人们在自己设备上运行的东西采用订阅模式。告诉我你们对Botcast的看法,你们想看到哪些功能或者有任何问题都可以告诉我。我对Ollama、llama.cpp以及相关的一切都非常兴奋。在iOS上使用llama.cpp能做的事情简直太神奇了。即使是Q6_K量化,性能也非常强。
讨论总结
原帖作者介绍了Botcast这款iOS应用的开发过程、技术细节、未来计划等内容。评论者们从不同角度进行回应,有对Botcast运行效果的质疑,有推荐其他类似应用或功能的,也有对Botcast提出改进建议的,还有因为设备限制无法体验的遗憾,但整体讨论热度较低,没有形成大规模的讨论。
主要观点
- 👍 认为Botcast简洁实用且效果不错
- 支持理由:使用简单,有不错的结果。
- 反对声音:无。
- 🔥 对Botcast运行效果表示好奇并质疑
- 正方观点:关心不使用RAG时的运行效果、受1B模型知识限制影响等。
- 反方观点:无。
- 💡 建议提高Botcast质量
- 解释:可从替换模型、提高可操控性、显示文字记录等方面着手。
- 💡 对Botcast语音生成散热问题好奇并提建议
- 解释:好奇如何解决散热,还建议设置预设话题。
- 💡 推荐相关应用及功能
- 解释:推荐minicpm 2.6o及其特性,推荐Pocket Pal应用。
金句与有趣评论
- “😂 So, how well does this really work?”
- 亮点:直接对Botcast的实际运行效果发出疑问。
- “🤔 Have you looked at minicpm 2.6o? I haven’t tried it but it supports really time audio and video chatting, and is based on Qwen 2.5 7b.”
- 亮点:推荐minicpm 2.6o并介绍其功能。
- “👀 This is really neat, a pocket NotebookLM. Simple to use, decent results.”
- 亮点:认可Botcast的简洁性和使用效果。
- “🤔 I think a good feature would be to let us choose our own models from huggingface, at least for the text generation.”
- 亮点:提出从huggingface选择模型的功能建议。
- “👀 hey, just downloaded your app. i was curious how you solved the thermals issue when generating speech.”
- 亮点:对Botcast语音生成散热问题表示好奇。
情感分析
总体情感倾向较为中性。主要分歧点在于对Botcast运行效果和质量提升方面的不同看法,可能是因为评论者们的使用需求和对应用的期望不同。
趋势与预测
- 新兴话题:关于Botcast在散热优化和功能改进方面的讨论可能会继续。
- 潜在影响:如果Botcast按照建议改进,可能会提高用户体验,在相关应用领域占据一定市场份额。
详细内容:
标题:关于 iOS 上 Botcast 应用的热门讨论
最近,Reddit 上有一篇关于在 iOS 系统上的 Botcast 应用的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。原帖作者讲述了自己在飞机上因对下载的播客感到无聊,从而萌生出开发能在 iPhone 上离线生成播客的应用 Botcast 的想法。
这篇帖子引发了一系列热烈的讨论。主要包括对 Botcast 应用性能和功能的探讨,以及对其未来发展的建议。
有人提出质疑,比如“不使用任何类似 RAG 来获取更多信息,是否会受限于 1B 模型的‘知识’,生成内容中有多少是真实检索的,又有多少是虚构的?”但也有人表示觉得效果不错,称其能很好地了解“奠边府战役”,也能适当讨论 PHP 性能和烹饪相关的内容。
在技术方面,有人提到应用是用 Xcode 以 Swift 和 SwiftUI 编写的,还涉及大量 C/C++,对内存和性能有较高要求。
有人认为 Botcast 简单易用,结果也还不错,但也给出了提高质量的建议,比如提供更多可选择的文本和音频模型,增强可操控性,展示生成的文字记录等。
还有人分享自己因为没有 iPhone 而无法体验,也有人询问在生成语音时如何解决散热问题。
对于 Botcast 的未来,作者表示目前应用免费,后续会考虑加入 CarPlay 支持和 Siri 集成,可能会推出一次性收费的专业版。
总之,关于 Botcast 的讨论丰富多样,既展现了用户对其现有功能的评价,也包含了对未来改进和发展的期待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!