К тренажеру
ВопросMediumnlp-ragРеальный собес

Почему начинать поиск по статьям с BM25 baseline

Нужно сделать поиск/подсказки по базе статей или банковских ответов. Почему разумно начать с BM25/TF-IDF, а не сразу с embeddings/RAG?

Короткий ответ

BM25 дешевый, интерпретируемый и сильный baseline для доменных текстов. Он быстро дает retrieval quality baseline, от которого можно сравнивать embeddings, reranker и RAG.

Полный разбор

Для поиска по статьям сначала нужен простой измеримый baseline. BM25/TF-IDF быстро внедряется, хорошо работает по точным терминам, артиклам, названиям продуктов и доменной лексике, а ошибки легко анализировать.

Embeddings и RAG добавляют semantic matching, но стоят дороже и сложнее: нужно выбрать embedding model, chunking, vector index, reranking, оценку hallucination и latency/cost. Без baseline непонятно, стало ли лучше.

Практичный план: BM25 top-k как candidate generator, затем dense retrieval или hybrid search, затем reranker/cross-encoder, затем generation only if needed. Для suggest можно использовать top articles/queries, для free text — top answer/article plus related articles.

Теория

В search/RAG системах baseline — обязательная точка отсчета. Часто BM25 + reranker долго остается очень сильной production-схемой.

Типичные ошибки

  • Сразу строить RAG без retrieval baseline.
  • Не отделить suggest scenario от free-text answer scenario.
  • Не учитывать latency/cost semantic pipeline.

Как отвечать на собеседовании

  • Скажи: сначала BM25, потом hybrid/dense, потом reranker.
  • Отдельно проговори два сценария: suggest и свободный вопрос.