强化学习,状态,行动,奖励,策略,值函数,环境模型