К тренажеру
ВопросMediumml-theoryРеальный собес

Tokenization и multilingual transformer для поиска

Какие риски возникают при использовании multilingual transformer для китайского/международного поиска и как их диагностировать?

Короткий ответ

Проверить coverage токенизатора, representation quality по языкам, доменные сущности, latency и bias в training data.

Полный разбор

Для китайского и других языков ошибки часто появляются из-за сегментации, rare entity names, mixed-script queries, transliteration и доменных терминов. Диагностика: token length distribution, unknown/rare fragments, embedding nearest neighbors, retrieval quality by language/locale, entity resolution errors and manual slices.

Если мультиязычная модель слабее на целевом locale, можно дообучать на локальных данных, использовать language-specific adapters, улучшить tokenizer/preprocessing или комбинировать с translation baseline.

Теория

Мультиязычность модели не гарантирует равное качество на всех языках и доменах.

Типичные ошибки

  • Смотреть только aggregate metric.
  • Не делать language-specific slices.
  • Игнорировать named entities.

Как отвечать на собеседовании

  • Упомяни диагностику токенизации, а не только выбор новой модели.