人类反馈强化学习,传统学习方法,奖励,长期奖励,动态环境,决策能力