Модели и архитектуры
Transformer
Архитектура нейросети, лежащая в основе LLM
Transformer — архитектура нейронной сети, представленная Google в 2017 году в статье "Attention Is All You Need". Это основа всех современных LLM.
Ключевые особенности:
- Self-Attention — механизм, позволяющий модели учитывать контекст
- Параллельная обработка — быстрее RNN/LSTM
- Масштабируемость — хорошо работает с большим количеством параметров
Варианты Transformer:
- Encoder-only (BERT) — для понимания текста
- Decoder-only (GPT) — для генерации текста
- Encoder-Decoder (T5) — для трансформации текста
Transformer революционизировал NLP и лежит в основе GPT, Claude, LLaMA, Gemini.
Примеры использования
- •GPT — decoder-only Transformer
- •BERT — encoder-only Transformer