Техники и методы

Эмбеддинг (Embedding)

Векторное представление текста для поиска

Эмбеддинг (Embedding) — преобразование текста в вектор чисел (массив из сотен-тысяч чисел), который отражает семантический смысл.

Как используются эмбеддинги:

  • Семантический поиск — поиск по смыслу, а не ключевым словам
  • RAG — поиск релевантных документов
  • Кластеризация — группировка похожих текстов
  • Классификация — определение категории текста

Модели для эмбеддингов:

  • OpenAI text-embedding-3-large
  • Cohere embed-v3
  • E5, BGE (open source)

Эмбеддинги хранятся в векторных базах данных: Pinecone, Weaviate, Qdrant, Chroma.

Примеры использования

  • Поиск похожих товаров по описанию
  • Семантический поиск по документам

Связанные термины