Назад к подготовке

ВопросСложнаяllm-inference-and-ragRAG-вопрос на техническом собеседовании · Toloka AI

Long context в LLM: проблемы и способы решения

Какие проблемы возникают при использовании длинного контекста в LLM и какими подходами их адресуют?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Long context увеличивает стоимость attention/KV cache, может ухудшать поиск нужных фактов и выходить за режим, на котором модель обучалась. Помогают RAG, chunking/summarization, sparse/sliding-window attention, positional scaling и optimized kernels вроде FlashAttention.

Полный разбор

Теория

Long context - это и systems problem, и relevance problem: более дешевый attention полезен, но модели все равно нужно дать правильное evidence в пригодной форме.

Типичные ошибки

Сказать только "use FlashAttention" и проигнорировать retrieval quality.
Смешать размер context window с гарантированной способностью использовать все токены.
Забыть KV cache memory и prefill latency во время inference.
Использовать RAG как buzzword без retrieval, reranking или chunking.

Как отвечать на собеседовании

Раздели ответ на compute, memory, quality и mitigation layers.
Явно отличи exact-kernel optimizations от подходов, которые уменьшают или перестраивают context.