人类反馈强化学习,短期利益,长期目标,管理者,激励机制