RAG простыми словами
Как объяснить RAG простыми словами: retrieval, augmentation и generation, и почему это похоже на двухстадийные рекомендации?
Короткий ответ
RAG сначала находит релевантные документы, затем добавляет их в контекст LLM, а модель генерирует ответ, опираясь на найденные источники.
Полный разбор
RAG можно объяснить как retrieval plus generation. На первом этапе система по запросу ищет кандидатов в базе документов: через embeddings, keyword search или hybrid retrieval. На втором этапе найденные документы добавляются в prompt, и LLM отвечает уже не только из параметрической памяти, а с опорой на контекст.
Аналогия с рекомендациями полезна: retrieval достает top-K кандидатов, reranking или LLM выбирает и интерпретирует лучшие. В production добавляются chunking, metadata filters, reranker, citations, freshness и fallback при пустой выдаче.
Теория
RAG снижает hallucinations и позволяет подключить частные или свежие знания, но качество зависит от retrieval и контекста.
Типичные ошибки
- Считать, что LLM сама найдет документы без retrieval.
- Игнорировать chunking и reranking.
- Не проверять, действительно ли ответ grounded в источниках.
Как отвечать на собеседовании
- Объясни RAG в два этапа: find then answer.
- Упомяни citations или groundedness check.