原贴链接

我在线进行了快速搜索,但没有找到舒适的方式来对本地文件进行分词。我的用例是快速估算我可以将多少文件放入上下文中。因此,这里有一个简单的程序可以做到这一点。关键之处在于它为文件和文件夹添加了资源管理器上下文菜单。它完全符合我的用例,我希望它对其他人也有用。GitHub仓库 已在单个Win10 PC上测试,但如果从终端运行,它应该在任何地方都能工作。另外,如果您有任何功能请求,请随时评论。Python不是我的主要专长,所以我想在这里非常谦虚。我不确定您是否需要API密钥在PATH/ENV中使用Claude分词器,以及是否任何数据实际上被发送到Anthropic。如果有人知道它是如何工作的,请随时评论。本地LLMs万岁!

讨论总结

本次讨论主要围绕一个名为“Token Counter”的应用程序展开,该程序用于计算本地文件中的token数量,并支持多种模型。讨论内容涵盖了技术分享、代码优化、隐私问题和版本更新等多个方面。总体来看,讨论氛围积极且具有建设性,参与者们分享了自己的项目链接、提出了改进建议,并对隐私问题表示关注。

主要观点

  1. 👍 技术分享与社区贡献
    • 支持理由:评论者分享了自己的项目链接,展示了其开发的“Token Counter”应用程序,并得到了其他用户的积极反馈。
    • 反对声音:无明显反对声音,多数用户对此表示赞赏。
  2. 🔥 代码优化与结构改进
    • 正方观点:评论者提出了代码优化建议,如减少冗余的“else”语句、使用接口创建抽象、创建辅助函数等。
    • 反方观点:无明显反对声音,多数用户认同这些优化建议。
  3. 💡 隐私问题与数据安全
    • 评论者对是否需要API密钥以及数据是否会被发送到API表示关注,强调了数据隐私的重要性。
  4. 🚀 版本更新与bug修复
    • 作者发布了v0.2版本,修复了配置文件保存路径的错误,提升了应用的稳定性和用户体验。
  5. 🤔 计数token的复杂性
    • 评论者讨论了计数token的复杂性,分享了使用OpenAI的tokenizer工具和手动计算token的方法,并指出了这些方法在处理多个文档时的不便之处。

金句与有趣评论

  1. “😂 Never be ashamed or embarrised to share something you’ve written (unless its Java 🤣)! It’s more important that you wrote it than comparing it to what else is out there.”
    • 亮点:鼓励开发者勇敢分享自己的作品,强调创作本身的重要性。
  2. “🤔 Are you open to pull requests or feedback in general? There’s a lot here that can be improved conceptually.”
    • 亮点:提出代码优化的建议,并询问是否接受反馈和拉取请求。
  3. “👀 It’s crazy to me that counting tokens isn’t super straightforward.”
    • 亮点:表达了计数token并不像想象中那么简单的观点。
  4. “🔍 I thought there wasn’t a tokenizer available for the newer claude models?”
    • 亮点:质疑是否有tokenizer支持新版本的Claude模型。
  5. “🚀 v0.2 released with bugfix for config file being saved in working directory, not program directory”
    • 亮点:宣布版本更新,修复了配置文件保存路径的错误。

情感分析

讨论的总体情感倾向积极,多数用户对“Token Counter”应用程序表示赞赏,并提出了建设性的改进建议。主要分歧点在于代码优化和隐私问题,部分用户对代码的可读性和可维护性提出了批评,而另一些用户则对数据隐私表示关注。这些分歧主要源于技术细节和用户需求的不同。

趋势与预测

  • 新兴话题:代码优化和隐私保护可能会引发后续讨论,特别是在开源社区中。
  • 潜在影响:随着“Token Counter”应用程序的不断完善,可能会吸引更多开发者关注和参与,推动相关技术的发展。

详细内容:

《“Token Counter”应用程序引发Reddit热议》

在Reddit上,一个名为“Token Counter”的应用程序引起了众多关注。原帖介绍了开发者因在网上未找到合适的对本地文件进行令牌化(tokenize)的方法,于是自己开发了这个程序,它能为文件和文件夹添加资源管理器上下文菜单,适用于快速估算能在一个上下文中容纳多少文件。该帖还提供了GitHub的代码库链接https://github.com/tropptr-torrptrop/token-counter 。帖子获得了一定的点赞和众多评论,主要讨论方向包括对该程序的评价、改进建议以及相关技术问题的探讨。

在讨论中,有人认为计数令牌并非超级直接,也有人觉得其实很简单,只需通过令牌器运行输入即可。还有用户分享道:“如果您有多个文档,最终会陷入繁琐的复制粘贴例行程序(并且不是私密的)。而且这仅对GPT可行。对于其他令牌器有在线服务,但同样是复制粘贴且不私密。更不用说计算多个文件中的单词数量然后乘以1.25本身就不是那么简单。或许是我遗漏了什么?”

有人提供了自己的项目链接https://github.com/sammcj/ingest ,有人称赞这个项目很棒,也有人提出了具体的改进建议,比如指出在第一个函数中有多余的“else”部分,可以通过短路机制进行优化;可以使用接口创建抽象来改进;通过创建辅助函数来减少重复代码;用字典查找替代大型的“elif”匹配类型等。还有人提出对于较新的Claude模型是否有可用的令牌器的疑问。

总的来说,这次关于“Token Counter”应用程序的讨论,展示了开发者们在技术探索道路上的思考和交流,大家各抒己见,共同为技术的优化和发展贡献力量。