原贴链接

我在线进行了快速搜索，但没有找到舒适的方式来对本地文件进行分词。我的用例是快速估算我可以将多少文件放入上下文中。因此，这里有一个简单的程序可以做到这一点。关键之处在于它为文件和文件夹添加了资源管理器上下文菜单。它完全符合我的用例，我希望它对其他人也有用。GitHub仓库已在单个Win10 PC上测试，但如果从终端运行，它应该在任何地方都能工作。另外，如果您有任何功能请求，请随时评论。Python不是我的主要专长，所以我想在这里非常谦虚。我不确定您是否需要API密钥在PATH/ENV中使用Claude分词器，以及是否任何数据实际上被发送到Anthropic。如果有人知道它是如何工作的，请随时评论。本地LLMs万岁！

讨论总结

本次讨论主要围绕一个名为“Token Counter”的应用程序展开，该程序用于计算本地文件中的token数量，并支持多种模型。讨论内容涵盖了技术分享、代码优化、隐私问题和版本更新等多个方面。总体来看，讨论氛围积极且具有建设性，参与者们分享了自己的项目链接、提出了改进建议，并对隐私问题表示关注。

主要观点

👍 技术分享与社区贡献
- 支持理由：评论者分享了自己的项目链接，展示了其开发的“Token Counter”应用程序，并得到了其他用户的积极反馈。
- 反对声音：无明显反对声音，多数用户对此表示赞赏。
🔥 代码优化与结构改进
- 正方观点：评论者提出了代码优化建议，如减少冗余的“else”语句、使用接口创建抽象、创建辅助函数等。
- 反方观点：无明显反对声音，多数用户认同这些优化建议。
💡 隐私问题与数据安全
- 评论者对是否需要API密钥以及数据是否会被发送到API表示关注，强调了数据隐私的重要性。
🚀 版本更新与bug修复
- 作者发布了v0.2版本，修复了配置文件保存路径的错误，提升了应用的稳定性和用户体验。
🤔 计数token的复杂性
- 评论者讨论了计数token的复杂性，分享了使用OpenAI的tokenizer工具和手动计算token的方法，并指出了这些方法在处理多个文档时的不便之处。

金句与有趣评论

“😂 Never be ashamed or embarrised to share something you’ve written (unless its Java 🤣)! It’s more important that you wrote it than comparing it to what else is out there.”
- 亮点：鼓励开发者勇敢分享自己的作品，强调创作本身的重要性。
“🤔 Are you open to pull requests or feedback in general? There’s a lot here that can be improved conceptually.”
- 亮点：提出代码优化的建议，并询问是否接受反馈和拉取请求。
“👀 It’s crazy to me that counting tokens isn’t super straightforward.”
- 亮点：表达了计数token并不像想象中那么简单的观点。
“🔍 I thought there wasn’t a tokenizer available for the newer claude models?”
- 亮点：质疑是否有tokenizer支持新版本的Claude模型。
“🚀 v0.2 released with bugfix for config file being saved in working directory, not program directory”
- 亮点：宣布版本更新，修复了配置文件保存路径的错误。

情感分析

讨论的总体情感倾向积极，多数用户对“Token Counter”应用程序表示赞赏，并提出了建设性的改进建议。主要分歧点在于代码优化和隐私问题，部分用户对代码的可读性和可维护性提出了批评，而另一些用户则对数据隐私表示关注。这些分歧主要源于技术细节和用户需求的不同。

趋势与预测

新兴话题：代码优化和隐私保护可能会引发后续讨论，特别是在开源社区中。
潜在影响：随着“Token Counter”应用程序的不断完善，可能会吸引更多开发者关注和参与，推动相关技术的发展。

详细内容：

《“Token Counter”应用程序引发Reddit热议》

在Reddit上，一个名为“Token Counter”的应用程序引起了众多关注。原帖介绍了开发者因在网上未找到合适的对本地文件进行令牌化（tokenize）的方法，于是自己开发了这个程序，它能为文件和文件夹添加资源管理器上下文菜单，适用于快速估算能在一个上下文中容纳多少文件。该帖还提供了GitHub的代码库链接https://github.com/tropptr-torrptrop/token-counter 。帖子获得了一定的点赞和众多评论，主要讨论方向包括对该程序的评价、改进建议以及相关技术问题的探讨。

在讨论中，有人认为计数令牌并非超级直接，也有人觉得其实很简单，只需通过令牌器运行输入即可。还有用户分享道：“如果您有多个文档，最终会陷入繁琐的复制粘贴例行程序（并且不是私密的）。而且这仅对GPT可行。对于其他令牌器有在线服务，但同样是复制粘贴且不私密。更不用说计算多个文件中的单词数量然后乘以1.25本身就不是那么简单。或许是我遗漏了什么？”

有人提供了自己的项目链接https://github.com/sammcj/ingest ，有人称赞这个项目很棒，也有人提出了具体的改进建议，比如指出在第一个函数中有多余的“else”部分，可以通过短路机制进行优化；可以使用接口创建抽象来改进；通过创建辅助函数来减少重复代码；用字典查找替代大型的“elif”匹配类型等。还有人提出对于较新的Claude模型是否有可用的令牌器的疑问。

总的来说，这次关于“Token Counter”应用程序的讨论，展示了开发者们在技术探索道路上的思考和交流，大家各抒己见，共同为技术的优化和发展贡献力量。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#