Пройти собеседование: Яндекс ML System Design: object answers и генерация описаний в поиске

1Кейс25 мин

Генерация описаний для объектных ответов в поиске

В международном поиске нужно показывать короткое описание объекта в карточке ответа, например для Китая. Как построить ML-систему генерации таких описаний?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Сначала определить source of truth и UX constraints, затем сделать retrieval/knowledge grounding, генерацию, safety/quality filters и offline плюс online evaluation.

Подробный разбор

Описание в поисковой карточке должно быть коротким, factual и полезным в локальном контексте. Система строится вокруг объекта: entity resolution, источники фактов, language/locale, template или LLM generation, grounding citations/internal evidence, dedup и policy filters. Для MVP можно начать с переводного или extractive baseline, затем перейти к RAG/LLM summarization. Важные ограничения: freshness, factuality, локализация, длина сниппета, latency и доверие к источникам. В production нужен human review для sample, automatic checks на hallucination/toxicity/PII и fallback на старый сниппет.

Типичные ошибки

Начать с LLM без источников фактов.
Не описать fallback, когда факты конфликтуют.
Оценивать только fluency вместо factuality и usefulness.

Как сказать на собеседовании

Раздели object understanding, evidence retrieval, generation и quality gates.

2Вопрос12 мин

Translation baseline против native generation

Для международного поиска можно перевести уже существующее описание или генерировать новое на целевом языке. Как сравнить подходы?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Translation проще и стабильнее для MVP, native generation потенциально лучше локализует факты, но требует stronger grounding и оценки factuality.

Подробный разбор

Перевод существующего описания дешевле, быстрее и наследует проверенную структуру, но может переносить нерелевантные для локального рынка факты, плохо работать с именами и терять freshness. Native generation позволяет выбирать факты под locale/query intent, но повышает риск hallucination и требует retrieval evidence. Сравнивать стоит на одинаковом наборе объектов: factual correctness, locale usefulness, readability, length compliance, coverage, latency/cost и online CTR/satisfaction guardrails.

Типичные ошибки

Не построить translation baseline.
Считать BLEU достаточной метрикой качества карточки.
Не проверять локальную релевантность фактов.

Как сказать на собеседовании

Назови перевод сильным MVP, а не слабым strawman.

3Вопрос16 мин

RAG для factual search snippets

Как бы ты сделал retrieval-augmented generation для короткого factual snippet в поисковой выдаче?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Entity retrieval -> trusted evidence ranking -> constrained generation -> factuality checks -> fallback на extractive/template snippet.

Подробный разбор

RAG path: resolve entity, retrieve trusted documents/knowledge graph facts, score evidence by freshness/authority/locale, generate short answer with constrained prompt/schema, then verify claims against evidence. Для поисковой карточки лучше не давать модели придумывать структуру: ограничить длину, tone, required fields and banned claims. Quality gates: unsupported claims, contradiction, stale facts, language detection, policy checks, near-duplicate detection. Если evidence слабый, система должна деградировать в extractive snippet или не показывать карточку.

Типичные ошибки

Подавать в LLM весь документ без evidence ranking.
Не иметь fallback.
Не проверять каждое важное утверждение.

Как сказать на собеседовании

Опиши pipeline так, чтобы было понятно, где контролируется factuality.

4Вопрос12 мин

Offline evaluation объектных ответов

Какими offline-метриками и ручной оценкой проверить качество генерируемых объектных ответов перед A/B тестом?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Считать factuality, usefulness, localization, length/style compliance и coverage; LLM judge использовать только после калибровки на human labels.

Подробный разбор

Offline набор должен покрывать частотные и long-tail объекты, разные языки, ambiguous entities, stale facts и unsafe cases. Ручная оценка: factual correctness, support by evidence, user usefulness, readability, no hallucination, locale fit. Автоматика: claim support checks, length, language, toxicity, duplicate rate, source coverage. LLM judge полезен для масштабирования, но его нужно откалибровать: agreement с экспертами, bias checks, регулярный audit samples.

Типичные ошибки

Доверять LLM judge без калибровки.
Оценивать только популярные объекты.
Не измерять coverage и fallback rate.

Как сказать на собеседовании

Назови несколько плохих кейсов датасета: ambiguous names, stale facts, low-resource locale.

5Вопрос10 мин

Online metrics для генерируемых карточек в поиске

Какие online-метрики выбрать для A/B теста карточки с генерируемым описанием и какие guardrails поставить?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Primary: satisfaction/CTR на карточку и downstream success; guardrails: abandonment, reformulations, complaints, latency, unsafe/factual incidents.

Подробный разбор

В поиске CTR сам по себе двусмыслен: хороший ответ может снижать клики, потому что пользователь получил ответ сразу. Поэтому нужны query success signals: long click, reformulation rate, return-to-SERP, dwell time, direct answer satisfaction, explicit feedback. Для карточки полезны show rate, expand/click interactions, skips и coverage. Guardrails: latency, page performance, factual complaint rate, policy violations, degradation на сегментах и языках, revenue/ad metrics если карточка влияет на layout.

Типичные ошибки

Оптимизировать CTR карточки как единственную цель.
Не смотреть реформулировки запроса.
Не иметь safety guardrails.

Как сказать на собеседовании

Сразу проговори, что answer card может уменьшить клики и это не всегда плохо.

6Вопрос10 мин

Tokenization и multilingual transformer для поиска

Какие риски возникают при использовании multilingual transformer для китайского/международного поиска и как их диагностировать?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Проверить coverage токенизатора, representation quality по языкам, доменные сущности, latency и bias в training data.

Подробный разбор

Для китайского и других языков ошибки часто появляются из-за сегментации, rare entity names, mixed-script queries, transliteration и доменных терминов. Диагностика: token length distribution, unknown/rare fragments, embedding nearest neighbors, retrieval quality by language/locale, entity resolution errors and manual slices. Если мультиязычная модель слабее на целевом locale, можно дообучать на локальных данных, использовать language-specific adapters, улучшить tokenizer/preprocessing или комбинировать с translation baseline.

Типичные ошибки

Смотреть только aggregate metric.
Не делать language-specific slices.
Игнорировать named entities.

Как сказать на собеседовании

Упомяни диагностику токенизации, а не только выбор новой модели.