奖励,惩罚,强化学习,反馈延迟,奖励函数