Техники и методы
Эмбеддинг (Embedding)
Векторное представление текста для поиска
Эмбеддинг (Embedding) — преобразование текста в вектор чисел (массив из сотен-тысяч чисел), который отражает семантический смысл.
Как используются эмбеддинги:
- Семантический поиск — поиск по смыслу, а не ключевым словам
- RAG — поиск релевантных документов
- Кластеризация — группировка похожих текстов
- Классификация — определение категории текста
Модели для эмбеддингов:
- OpenAI text-embedding-3-large
- Cohere embed-v3
- E5, BGE (open source)
Эмбеддинги хранятся в векторных базах данных: Pinecone, Weaviate, Qdrant, Chroma.
Примеры использования
- •Поиск похожих товаров по описанию
- •Семантический поиск по документам