强化学习论文笔记¶
这里整理了强化学习相关的论文阅读笔记,特别关注在足球分析和序列决策中的应用。
📖 已阅读¶
暂无
📝 核心概念¶
Temporal Difference Learning¶
- 定义: 通过自举(bootstrapping)学习价值函数
- 优势: 不需要等到序列结束,可以在线学习
- 应用: 评估球员动作的长期价值
Credit Assignment Problem¶
- 问题: 如何将最终结果归因到之前的动作
- 挑战: 足球中进球稀疏,难以评估中间动作
- 解决思路: 使用 TD Learning 传播价值
Value Function¶
- 状态价值 V(s): 评估某个状态的好坏
- 动作价值 Q(s,a): 评估在某状态下采取某动作的价值
- 足球应用: 评估球员动作对进球概率的贡献
🔗 相关资源¶
📂 相关笔记¶
- Transformer - 注意力机制可用于状态表示
- 足球分析 - RL 在足球中的实际应用
持续更新中...