Техники и методы
RLHF (Reinforcement Learning from Human Feedback)
Обучение модели на основе обратной связи от людей
RLHF — техника обучения, при которой модель улучшается на основе оценок людей. Это ключевой этап в создании ChatGPT и Claude.
Этапы RLHF:
- SFT (Supervised Fine-Tuning) — обучение на примерах диалогов
- Reward Model — обучение модели предсказывать оценку человека
- PPO — оптимизация через reinforcement learning
Что даёт RLHF:
- Следование инструкциям
- Безопасность и этичность
- Полезные и информативные ответы
- Отказ от вредных запросов
RLHF — причина, почему ChatGPT "понимает" что от него хотят и отвечает по-человечески.
Примеры использования
- •ChatGPT обучен через RLHF
- •Claude использует RLHF + Constitutional AI