Техники и методы

RLHF (Reinforcement Learning from Human Feedback)

Обучение модели на основе обратной связи от людей

RLHF — техника обучения, при которой модель улучшается на основе оценок людей. Это ключевой этап в создании ChatGPT и Claude.

Этапы RLHF:

Что даёт RLHF:

RLHF — причина, почему ChatGPT "понимает" что от него хотят и отвечает по-человечески.

Примеры использования