Назад к подготовке

ВопросСредняяnlp-ragRAG-вопрос на техническом собеседовании · AgeCode

Почему начинать поиск по статьям с BM25 baseline

Нужно сделать поиск/подсказки по базе статей или банковских ответов. Почему разумно начать с BM25/TF-IDF, а не сразу с embeddings/RAG?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

BM25 дешевый, интерпретируемый и сильный baseline для доменных текстов. Он быстро дает retrieval quality baseline, от которого можно сравнивать embeddings, reranker и RAG.

Полный разбор

Для поиска по статьям сначала нужен простой измеримый baseline. BM25/TF-IDF быстро внедряется, хорошо работает по точным терминам, артиклам, названиям продуктов и доменной лексике, а ошибки легко анализировать. Embeddings и RAG добавляют semantic matching, но стоят дороже и сложнее: нужно выбрать embedding model, chunking, vector index, reranking, оценку hallucination и latency/cost. Без baseline непонятно, стало ли лучше. Практичный план: BM25 top-k как candidate generator, затем dense retrieval или hybrid search, затем reranker/cross-encoder, затем generation only if needed. Для suggest можно использовать top articles/queries, для free text — top answer/article plus related articles.

Теория

В search/RAG системах baseline — обязательная точка отсчета. Часто BM25 + reranker долго остается очень сильной production-схемой.

Типичные ошибки

Сразу строить RAG без retrieval baseline.
Не отделить suggest scenario от free-text answer scenario.
Не учитывать latency/cost semantic pipeline.

Как отвечать на собеседовании

Скажи: сначала BM25, потом hybrid/dense, потом reranker.
Отдельно проговори два сценария: suggest и свободный вопрос.