Модели и архитектуры

Transformer

Архитектура нейросети, лежащая в основе LLM

Transformer — архитектура нейронной сети, представленная Google в 2017 году в статье "Attention Is All You Need". Это основа всех современных LLM.

Ключевые особенности:

  • Self-Attention — механизм, позволяющий модели учитывать контекст
  • Параллельная обработка — быстрее RNN/LSTM
  • Масштабируемость — хорошо работает с большим количеством параметров

Варианты Transformer:

  • Encoder-only (BERT) — для понимания текста
  • Decoder-only (GPT) — для генерации текста
  • Encoder-Decoder (T5) — для трансформации текста

Transformer революционизировал NLP и лежит в основе GPT, Claude, LLaMA, Gemini.

Примеры использования

  • GPT — decoder-only Transformer
  • BERT — encoder-only Transformer

Связанные термины