Техники и методы

RLHF (Reinforcement Learning from Human Feedback)

Обучение модели на основе обратной связи от людей

RLHF — техника обучения, при которой модель улучшается на основе оценок людей. Это ключевой этап в создании ChatGPT и Claude.

Этапы RLHF:

  1. SFT (Supervised Fine-Tuning) — обучение на примерах диалогов
  2. Reward Model — обучение модели предсказывать оценку человека
  3. PPO — оптимизация через reinforcement learning

Что даёт RLHF:

  • Следование инструкциям
  • Безопасность и этичность
  • Полезные и информативные ответы
  • Отказ от вредных запросов

RLHF — причина, почему ChatGPT "понимает" что от него хотят и отвечает по-человечески.

Примеры использования

  • ChatGPT обучен через RLHF
  • Claude использует RLHF + Constitutional AI

Связанные термины