原贴链接

和互联网上的其他人一样，我对DeepSeek的能力非常着迷，但最吸引我的是他们如何训练DeepSeek - r1 - zero。本质上，似乎可以归结为：“给机器一个目标奖励函数，然后大量训练它，让它进行不定量的思考”。所以我想：嘿，你可以把股票价格的涨跌当作一种目标奖励函数，对吧？不管怎样，我使用了HuggingFace的open - r1编写了一个DeepSeek版本，旨在通过充当某种“股票分析师”来最大化短期股票预测，根据我为每个公司搜集的一些信号提供买卖建议。所有代码、Colab和讨论都在[2084: Deepstock - 你能训练DeepSeek进行股票交易吗?](https://2084.substack.com/p/2084 - deepstock - can - you - train - deepseek)。接下来的一周我正在训练它，我的目标是让它做得比随机（预测）更好，尽管要达到这一点可能需要大量的计算资源。（有人有闲置的（计算资源）吗?）关于我应该如何扩展这个（项目）的想法?

讨论总结

原帖作者想要训练Deepseek - r1来进行股票交易，评论者从不同角度进行了讨论。部分人对原帖中的训练方式提出质疑，如将股票价格涨跌作为目标奖励函数存在缺陷、股票价格作为奖励函数太嘈杂等；还有人分享了自己在相关领域的经验，如量化交易员开发算法盈利、使用PPO的交易算法工作经验等；也有人给出了各种建议，像不应直接用股票价格训练而用指标组合、尝试不同时间框架等。

主要观点

👍 利用股票价格涨跌作为目标奖励函数存在多方面缺陷。
- 支持理由：评论者从统计等多方面考虑，如股票价格波动受多种复杂因素影响，仅以涨跌作为奖励函数过于简单。
- 反对声音：无明确反对声音。
🔥 股票价格作为奖励函数太嘈杂，模型可能出现问题。
- 正方观点：股票价格受众多因素影响，数据杂乱，不利于模型训练。
- 反方观点：无。
💡 用股票市场数据训练强化学习（RL）极具挑战性。
- 解释：RL在样本外随机股票市场回报方面泛化能力差，还需关注数据集结构、奖励设计等。
💡 用Deepseek做股票交易训练会面临强大竞争对手。
- 解释：许多对冲基金都在努力训练更精准盈利的AI模型，且投入巨大。
💡 进行该项目需在奖励设计上投入大量时间。
- 解释：要创建惩罚/奖励特定行为的启发式算法，以优化模型训练。

金句与有趣评论

“😂 Man I bet someone has already made this and is profiting from it 😂, most of the time I think of something new, specially ai related, I find a repo that does the same, so I just suggest searching first before you commit, you might find something that Will make your life easier”
- 亮点：以一种幽默调侃的方式建议原帖作者先搜索，可能已有类似成果。
“🤔 股票价格是最嘈杂的奖励函数，我的猜测是这个模型会发展出精神分裂症。”
- 亮点：形象地描述了股票价格作为奖励函数对模型可能产生的不良影响。
“👀 如果您正在寻找他们没有在看的东西，您就有机会看到他们看不到的东西。但要找到他们没有在看且具有任何预测能力的东西可能非常困难（或非常昂贵，或两者兼而有之）。”
- 亮点：阐述了在强大竞争对手下寻找独特优势的困难。
“🤔 从我的经验来看，用股票市场数据训练它可能非常具有挑战性。RL在样本外的随机股票市场回报方面并不能很好地泛化。”
- 亮点：基于自身经验指出用股票市场数据训练RL的难点。
“👀 你可能把AI工具卖给不懂行的白痴更好。这会让你赚到最多的钱。”
- 亮点：以一种调侃和反常规的方式提出不同观点。

情感分析

总体情感倾向为理性探讨。主要分歧点在于原帖的训练方式是否可行，包括目标奖励函数的设置、数据的使用等方面。原因是不同评论者具有不同的专业背景和经验，有的从量化交易角度，有的从强化学习角度，还有的从实际操作经验出发，从而产生不同观点。

趋势与预测

新兴话题：追踪特定人物（如南希·佩洛西）的投资组合分配、结合新闻情绪分析进行股票交易。
潜在影响：可能影响相关投资者或研究人员对利用AI进行股票交易的思考方向，促使更多人关注训练数据的选择和模型架构的优化，也可能影响人们对股票交易中量化分析和机器学习应用的态度。

详细内容：

《关于训练 DeepSeek R1 进行股票交易的热门讨论》

最近，Reddit 上一则关于训练 DeepSeek R1 以实现股票交易的帖子引发了热烈关注。该帖子获得了众多点赞和大量评论。

原帖作者表示对 DeepSeek 的能力着迷，试图训练它来进行股票交易，以充当“股票分析师”，提供买卖建议。所有相关代码和讨论都在 2084: Deepstock - can you train deepseek to do stock trading? 。作者还表示训练正在进行，目标是让其表现优于随机水平，但这需要大量计算资源。

讨论焦点与观点众多。有人认为，以股票价格涨跌作为奖励函数存在诸多统计学上的缺陷。也有用户分享自己在加密货币交易中的经历，如“[davewolfs] 曾经意识到可以在一个加密交易所限价卖出，然后在其他地方低价买入市场，每天这样操作约 10000 次。这不需要统计学知识。”

一些有趣的观点如 [samuel-i-amuel] 提到的实验[https://elmwealth.com/crystal - ball - challenge/]，表明大多数人在模拟交易中基本收支平衡，专业交易员在预测绿日和红日方面也只是略好，优势主要在于更好的风险管理。

对于能否通过训练模型在股票交易中获利，存在很大争议。[Ray_Dillinger] 指出，在这个领域会与拥有更大预算的人竞争，股票价格由自动化交易驱动，每个对冲基金都在努力训练更精准的 AI 模型，要找到他们未关注且有预测力的东西非常困难。但也有人认为自己通过特定的交易策略能在长期赚钱，比如[Gas_Silent] 表示作为技术交易者，只要看到经过 10000 次回测的特定设置出现并在市场上获得小幅度变动，就是正收益。

有人建议在训练时关注数据集结构和奖励设计，如[the_masterbuilder] 所说，应注重生成买卖股票的日程安排，并为某些行为设置奖惩规则。

也有观点认为，可能已经有人在利用类似方法获利，同时有人认为直接用股票价格训练不可取，应结合多种指标和不同的时间框架进行实验。

总之，关于训练 DeepSeek R1 进行股票交易的讨论十分热烈，各种观点和经验分享丰富多样，让人对这一领域的可能性和挑战有了更深入的思考。但最终能否通过这种方式实现成功的股票交易，仍有待观察和进一步探索。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#