Назад к подготовке

ВопросСложнаяsearch-mlsdML System Design на техническом собеседовании · Яндекс

Генерация описаний для объектных ответов в поиске

В международном поиске нужно показывать короткое описание объекта в карточке ответа, например для Китая. Как построить ML-систему генерации таких описаний?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Сначала определить source of truth и UX constraints, затем сделать retrieval/knowledge grounding, генерацию, safety/quality filters и offline плюс online evaluation.

Полный разбор

Описание в поисковой карточке должно быть коротким, factual и полезным в локальном контексте. Система строится вокруг объекта: entity resolution, источники фактов, language/locale, template или LLM generation, grounding citations/internal evidence, dedup и policy filters. Для MVP можно начать с переводного или extractive baseline, затем перейти к RAG/LLM summarization. Важные ограничения: freshness, factuality, локализация, длина сниппета, latency и доверие к источникам. В production нужен human review для sample, automatic checks на hallucination/toxicity/PII и fallback на старый сниппет.

Теория

В поиске генерация не может быть свободной: она должна быть grounded in retrieved evidence и контролироваться UX-ограничениями.

Типичные ошибки

Начать с LLM без источников фактов.
Не описать fallback, когда факты конфликтуют.
Оценивать только fluency вместо factuality и usefulness.

Как отвечать на собеседовании

Раздели object understanding, evidence retrieval, generation и quality gates.