К тренажеру
ВопросEasynlp-agentsРеальный собес

RAG простыми словами

Как объяснить RAG простыми словами: retrieval, augmentation и generation, и почему это похоже на двухстадийные рекомендации?

Короткий ответ

RAG сначала находит релевантные документы, затем добавляет их в контекст LLM, а модель генерирует ответ, опираясь на найденные источники.

Полный разбор

RAG можно объяснить как retrieval plus generation. На первом этапе система по запросу ищет кандидатов в базе документов: через embeddings, keyword search или hybrid retrieval. На втором этапе найденные документы добавляются в prompt, и LLM отвечает уже не только из параметрической памяти, а с опорой на контекст.

Аналогия с рекомендациями полезна: retrieval достает top-K кандидатов, reranking или LLM выбирает и интерпретирует лучшие. В production добавляются chunking, metadata filters, reranker, citations, freshness и fallback при пустой выдаче.

Теория

RAG снижает hallucinations и позволяет подключить частные или свежие знания, но качество зависит от retrieval и контекста.

Типичные ошибки

  • Считать, что LLM сама найдет документы без retrieval.
  • Игнорировать chunking и reranking.
  • Не проверять, действительно ли ответ grounded в источниках.

Как отвечать на собеседовании

  • Объясни RAG в два этапа: find then answer.
  • Упомяни citations или groundedness check.