人类反馈强化学习,逆强化学习,交互式强化学习,基于示教的强化学习,偏好强化学习