Как LLM работает на инференсе
Интервьюер просит объяснить базовый inference loop LLM: что подается на вход, что модель возвращает и как получается следующий токен.
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
На вход подаются token ids, модель строит контекстные представления и возвращает logits по словарю для следующего токена. Decoding превращает logits в выбранный token id, он добавляется к контексту, и цикл повторяется.
Полный разбор
На inference текст сначала токенизируется в token ids. Модель получает последовательность токенов, прогоняет ее через transformer blocks и на последней позиции выдает logits по словарю: для каждого возможного токена есть score следующего шага.
Дальше logits превращаются в вероятности или ранжирование: temperature, top-k/top-p, greedy decoding или beam search выбирают следующий токен. Выбранный token id добавляется к уже сгенерированной последовательности, после чего модель снова предсказывает следующий токен. Цикл заканчивается по special token, лимиту длины или stop condition.
Важно не говорить, что модель "сразу пишет весь ответ". Даже если API возвращает текст потоком, под капотом autoregressive LLM генерирует его пошагово.
Теория
LLM inference состоит из tokenization, forward pass, logits, decoding и autoregressive loop. В production к этому добавляются batching, KV cache, memory limits и latency/cost trade-offs.
Типичные ошибки
- Говорить, что модель возвращает готовый текст целиком за один шаг.
- Не отличать logits от уже выбранного токена.
- Не упомянуть decoding parameters и stop conditions.
Как отвечать на собеседовании
- Объясняй через один шаг: tokens in, logits out, decode next token.
- После базового loop добавь KV cache и latency как production детали.