Когда нужен LLM поверх поиска по статьям

После hybrid retrieval можно отдать несколько статей LLM. Когда это оправдано, а когда лучше оставить обычный reranker и список результатов?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

LLM оправдан, когда нужно синтезировать ответ, сравнить несколько источников или понять сложный intent. Для простого поиска статей cross-encoder дешевле и стабильнее.

Полный разбор

LLM поверх поиска нужен не всегда. Если пользователь ищет конкретную статью, lexical+dense retrieval и reranker обычно быстрее, дешевле и предсказуемее. LLM добавляет latency, cost, privacy risk и возможность unsupported statements. LLM полезен, когда пользователь задает сложный вопрос, а ответ лежит в нескольких статьях. Тогда pipeline берет top chunks после reranker, собирает context, просит модель ответить с ссылками на источники и возвращает fallback, если контекст не поддерживает ответ. Если LLM используется как final reranker, его стоит ограничивать top-N кандидатами и проверять стабильность: одинаковые запросы не должны получать хаотичный порядок. Для enterprise-контента также нужны private deployment, audit logs и правила по данным, которые нельзя отправлять внешнему провайдеру.

LLM в search/RAG pipeline является дорогим финальным слоем. Его включают там, где генерация или сложное сравнение источников реально меняют пользовательский результат.