Tokenization и multilingual transformer для поиска
Какие риски возникают при использовании multilingual transformer для китайского/международного поиска и как их диагностировать?
Короткий ответ
Проверить coverage токенизатора, representation quality по языкам, доменные сущности, latency и bias в training data.
Полный разбор
Для китайского и других языков ошибки часто появляются из-за сегментации, rare entity names, mixed-script queries, transliteration и доменных терминов. Диагностика: token length distribution, unknown/rare fragments, embedding nearest neighbors, retrieval quality by language/locale, entity resolution errors and manual slices.
Если мультиязычная модель слабее на целевом locale, можно дообучать на локальных данных, использовать language-specific adapters, улучшить tokenizer/preprocessing или комбинировать с translation baseline.
Теория
Мультиязычность модели не гарантирует равное качество на всех языках и доменах.
Типичные ошибки
- Смотреть только aggregate metric.
- Не делать language-specific slices.
- Игнорировать named entities.
Как отвечать на собеседовании
- Упомяни диагностику токенизации, а не только выбор новой модели.