Назад к подготовке

ВопросЛегкаяnlp-basicsСкрининг · Wisebits / xHamster

Токенизация, Bag of Words, TF-IDF и embeddings

Что такое токенизация и зачем она нужна в задачах обработки текста? Чем отличаются Bag of Words, TF-IDF и embeddings, например word2vec?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Токенизация разбивает текст на единицы, которым модель может сопоставить ids. Bag of Words считает вхождения токенов, TF-IDF перевзвешивает частоты по редкости в корпусе, а embeddings учат dense-векторы, где слова с похожими контекстами оказываются ближе.

Полный разбор

Токенизация переводит текст в последовательность model units: words, subwords, characters или byte-level tokens. Каждому token назначается integer id, который потом можно использовать в embedding table или классических sparse features. Bag of Words игнорирует порядок слов и представляет документ счетчиками токенов. TF-IDF остается sparse-представлением, но уменьшает вес очень частых слов и повышает вес слов, более специфичных для документа. Это простой и сильный baseline для линейных моделей. Embeddings вроде word2vec - dense learned vectors. Они не просто считают слова в документе, а учат геометрию по контекстам: слова, встречающиеся в похожих окружениях, получают близкие векторы. В современных transformers embeddings становятся contextual: одно и то же слово может иметь разные представления в разных предложениях.

Теория

Классические sparse NLP features кодируют статистику встречаемости; embeddings учат semantic geometry из контекста.

Типичные ошибки

Считать токенизацию только split по пробелам.
Забывать, что BoW и TF-IDF теряют порядок слов.
Говорить, что word2vec дает contextual embeddings.

Как отвечать на собеседовании

Приведите пример, где TF-IDF лучше raw counts.
Упомяните subword tokenization для современных моделей.