Когда нужен LLM поверх поиска по статьям
После hybrid retrieval можно отдать несколько статей LLM. Когда это оправдано, а когда лучше оставить обычный reranker и список результатов?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
LLM оправдан, когда нужно синтезировать ответ, сравнить несколько источников или понять сложный intent. Для простого поиска статей cross-encoder дешевле и стабильнее.
Полный разбор
LLM поверх поиска нужен не всегда. Если пользователь ищет конкретную статью, lexical+dense retrieval и reranker обычно быстрее, дешевле и предсказуемее. LLM добавляет latency, cost, privacy risk и возможность unsupported statements.
LLM полезен, когда пользователь задает сложный вопрос, а ответ лежит в нескольких статьях. Тогда pipeline берет top chunks после reranker, собирает context, просит модель ответить с ссылками на источники и возвращает fallback, если контекст не поддерживает ответ.
Если LLM используется как final reranker, его стоит ограничивать top-N кандидатами и проверять стабильность: одинаковые запросы не должны получать хаотичный порядок. Для enterprise-контента также нужны private deployment, audit logs и правила по данным, которые нельзя отправлять внешнему провайдеру.
Теория
LLM в search/RAG pipeline является дорогим финальным слоем. Его включают там, где генерация или сложное сравнение источников реально меняют пользовательский результат.