Question 1

Какую модель эмбеддингов мне использовать для начала?

Accepted Answer

Начните с text-embedding-3-small для общего использования. Это оптимальный баланс стоимости и качества. Перейдите на text-embedding-3-large, если вам нужна более высокая точность, или voyage-2 для кода и юридического контента.

Question 2

Как выбрать размер чанка?

Accepted Answer

512 токенов — хорошая отправная точка для большинства случаев использования. Корректируйте в зависимости от сложности вашего контента и лимитов токенов модели. Перекрывайте на 50 токенов для сохранения контекста между чанками.

Question 3

Могу ли я использовать локальные модели эмбеддингов?

Accepted Answer

Да. Sentence-transformers поддерживает такие модели, как BAAI/bge-large-en-v1.5 и intfloat/multilingual-e5-large. Они работают локально и хорошо подходят для сценариев с открытым исходным кодом или офлайн-работы.

Question 4

Как оценить качество моих эмбеддингов?

Accepted Answer

Используйте метрики precision@k, recall@k, MRR и NDCG@k. Тестируйте с заранее известными релевантными документами и сравнивайте извлечённые результаты с эталонными данными.

Question 5

Следует ли нормализовать эмбеддинги?

Accepted Answer

Да. Нормализуйте эмбеддинги перед использованием косинусного сходства. Большинство современных моделей эмбеддингов по умолчанию создают нормализованные векторы, но локальные модели могут требовать явной нормализации.

Question 6

Какую предобработку следует применить?

Accepted Answer

Удалите избыточные пробелы, нормализуйте символы Unicode и фильтруйте специальные символы. Сохраняйте семантическую значимость контента. Для кода или структурированных данных может потребоваться специфическая для домена очистка.

embedding-strategies

Протестировать

Аудит безопасности

Оценка качества

Что вы можете построить

Создание систем RAG

Оптимизация семантического поиска

Создание конвейеров эмбеддингов

Попробуйте эти промпты

Лучшие практики

Избегать

Часто задаваемые вопросы

Сведения для разработчиков