强化学习,目标定义,奖励函数,长期影响,探索与利用,环境动态性