强化学习,策略,确定性,随机,长期奖励