大家好,我启动了一个实验性的AI手机基准测试计划,以帮助我们在超越传统智能手机时更好地理解AI手机的性能。这个基准测试基于GGUF模型和llama.cpp构建,并与PocketPal AI集成。在此加入PocketPal AI 1.6.2(基准测试功能)的测试版计划:[Google Play: https://play.google.com/store/apps/details?id=com.pocketpalai],[TestFlight (iOS): https://testflight.apple.com/join/B3KE74MS]。加入之后:1. 下载测试版(1.6.2);2. 下载/选择一个模型;3. 在应用程序中导航到基准测试页面,并使用下载的模型运行基准测试;4. 重要的是:确保设置为“默认”:PP为512,TG为128;5. 将结果提交到排行榜。排行榜查看结果地址:AI - Phone Leaderboard。排名系统详情:评分算法:1. 权重:提示处理(PP)为40%,令牌生成(TG)为60%(因为PP是每个提示的一次性成本,所以低于TG);2. 量化质量因素:F16/F32为1.0,Q8为0.8,Q6为0.6(线性缩放到Q1为0.1);3. 性能评分公式:基础分数 = (TG速度 * 0.6)+(PP速度 * 0.4),调整后的分数 = 基础分数 * 模型大小 * 量化因子,归一化分数 = (性能分数 / 最大性能分数) * 100。数据聚合:我们通过归一化设备ID和平台对数据进行分组以确保一致性。函数定义:如果设备信息[‘systemName’]为小写的“ios”,则返回“iOS/设备信息[‘model’]”,内存层级 = 设备信息[’totalMemory’]//(1024**3)GB,返回设备信息[‘brand’]/设备信息[‘model’]/内存层级。需要反馈:让我知道你觉得这个基准测试有多有用。具体来说,我正在寻求关于应用程序和基准测试方法(排名、方法等)的反馈。基准测试应用程序是开源的,托管在Hugging Face Spaces上,用户界面使用Streamlit构建(对于可能不知道PocketPal AI的人来说,它也是开源的:https://github.com/a-ghorbani/pocketpal - ai)。在我们改进流程时,您的输入将是非常宝贵的,这样我们作为一个社区就可以创建AI手机基准测试的标准。
讨论总结
原帖发起了一个关于AI - phone的基准测试计划,涉及到模型选择、评分算法等内容。评论中人们提出了各种问题和担忧,包括在测试中应运行的模型、特定模型在安卓系统中的性能问题、UI是否更新、结果分享失败、手机性能差、应用崩溃等,也有通报目前测试结果和表达对更多基准测试期待的评论。总体氛围比较平静,大家专注于提出问题和分享经验。
主要观点
- 👍 询问在AI - phone基准测试中应运行的模型
- 支持理由:想顺利参与测试,需要知道选择哪个模型进行运行。
- 反对声音:无。
- 🔥 llama.cpp在安卓使用Q4_0模型在线重新打包有性能下降问题
- 正方观点:这可能影响数据收集准确性,需要重视。
- 反方观点:小模型可能不受影响。
- 💡 iPhone在提示处理方面有很大领先优势,可能与M系列芯片及Metal支持有关
- 这是对iPhone在AI - phone基准测试中表现的一种推测。
- 💡 目前M1 iPad Pro在苹果设备、Dimensity 9400在安卓设备在基准测试中名列前茅
- 通报当前的测试结果情况。
- 💡 Pixel 7性能差且在应用操作过程中遇到问题(模型下载未完成出现在列表中点击崩溃等)
- 分享个人使用体验。
金句与有趣评论
- “🤔 Judtoff: Is there a preferred model that we run?”
- 亮点:直接提问在测试中应运行的模型,是很多人可能关心的问题。
- “😕 a_slay_nub:Ouch, my pixel 7 sucks lol”
- 亮点:以比较诙谐的方式表达自己手机性能差。
- “👀 1. The latest llama.cpp seems to have some performance degradation for Android specifically when using its online - repacking for Q4_0 models on Android.”
- 亮点:指出特定情况下性能下降的技术问题。
- “💡 M1 iPad Pro and Dimensity 9400 topped the charts for Apple and Android at the moment.”
- 亮点:简洁通报当前测试结果中的领先设备。
- “😉 Iphones seem to have a massive lead on prompt processing, do they put M series chips with Metal support into those?”
- 亮点:对iPhone领先原因进行有趣推测。
情感分析
总体情感倾向比较中性。主要分歧点在于对基准测试中一些技术问题(如llama.cpp性能)的看法。可能的原因是大家来自不同的使用场景和技术背景,对这些问题的影响有不同的理解。
趋势与预测
- 新兴话题:可能会进一步探讨如何优化在不同设备(如安卓设备)上的测试准确性。
- 潜在影响:如果这个基准测试计划不断完善,可能会成为AI - phone性能评估的一个标准,影响消费者对AI - phone的选择以及开发者对产品的优化方向。
详细内容:
标题:《探索 AI 手机性能基准测试的热门讨论》
近日,Reddit 上出现了一个关于实验性 AI 手机基准测试倡议的热门话题,引发了众多网友的热烈讨论。原帖介绍了一项旨在帮助人们更好理解 AI 手机性能的基准测试计划,该测试围绕 GGUF 模型、llama.cpp 以及 PocketPal AI 展开。原帖还提供了多个链接,如 Google Play 商店、TestFlight(iOS)以及 AI 手机排行榜的链接等,截至目前,该帖子获得了众多的关注,评论数也颇为可观。
讨论的焦点主要集中在多个方面。有人询问应该运行哪个模型进行测试;有人提到在测试过程中遇到的一些问题,比如性能降级、无法分享结果、应用版本更新问题、模型下载导致的应用崩溃等。还有人对量化质量因素、排名系统的细节等提出了见解。
有用户指出,最新的 llama.cpp 在 Android 上针对 Q4_0 模型的在线重新打包存在性能降级问题,可能导致收集的数据不准确。同时,有人认为 Q4_0 在 Android 上经过优化,在某些方面表现出色,建议将其作为单独的 Android 层级。
也有用户分享了自己的个人经历,比如某位用户表示自己的 Pixel 7 表现不佳,计划对特定模型进行测试;还有用户提到在下载模型过程中遇到应用崩溃的情况。
在众多观点中,有人认为这项基准测试倡议非常不错,希望能看到更多的基准数据,也有人对测试过程中的一些细节和问题提出了改进的建议。
总的来说,这次关于 AI 手机基准测试的讨论充满了各种有价值的观点和实际经验的分享,为完善测试流程和提升 AI 手机性能评估的准确性提供了丰富的思路。随着更多数据的收集和分析,相信我们能对 AI 手机的性能有更深入和全面的了解。
感谢您的耐心阅读!来选个表情,或者留个评论吧!