Tele-FLM-1T：一个万亿参数的开源多语言大型语言模型。

它仅在2万亿个token上进行了训练（比Chinchilla法则少10倍）

论文中的发现：

基准测试（仅测试了52B模型）：

本次讨论主要围绕名为Tele-FLM-1T的1万亿参数多语言大型开源语言模型进行。讨论内容涵盖了模型的训练数据量、性能表现、使用难度、技术测试以及相关的研究论文和权重链接。参与者对模型的简洁性、训练方式、量化方法和成本效益等方面进行了深入探讨，同时也表达了对模型使用资源的幽默担忧。

👍 Tele-FLM-1T是目前最大的密集模型
- 支持理由：模型参数达到1万亿，是目前最大的密集模型之一。
- 反对声音：训练数据量仅为150亿个令牌，远低于其他大型模型。
🔥 模型仅在150亿个令牌上进行了训练
- 正方观点：这种训练方式可能节省了一定的计算资源。
- 反方观点：1万亿参数的模型训练程度非常不足，更像是一个工程实践。
💡 模型主要用于技术架构测试
- 解释：该模型并非旨在直接竞争，而是用于技术架构测试，对研究人员来说是一个有用的参考。

“😂 catgirl_liker：Currently it must be the biggest dense model”
- 亮点：强调了模型的规模之大。
“🤔 trajo123：Surprisingly succinct paper for training an 1T model.”
- 亮点：对论文的简洁性表示惊讶。
“👀 fairydreaming：Are you kidding me? I have no more disk space nor terabytes of internets to use this month hides in a cave”
- 亮点：幽默地表达了使用大型模型的资源困境。

讨论的总体情感倾向较为中性，参与者对模型的规模和技术测试表示赞赏，但对训练数据量和性能表现持保留态度。争议点主要集中在模型的实用性与技术测试的价值上。