К тренажеру
ВопросMediumnlp-ragРеальный собес

Какая архитектура эмбеддингов была в RAG

Какую архитектуру эмбеддингов вы построили для RAG: обычный retrieval pipeline или что-то сложнее?

Короткий ответ

Базовый ответ: ingestion, chunking, embeddings, vector index, retrieval, reranking, context assembly, generation. Дальше надо объяснить, были ли domain embeddings, cross-encoder reranker, hybrid search и как это оценивалось.

Полный разбор

Сильный ответ не должен ограничиваться словом "RAG". Нужно разложить pipeline: документы очищаются и чанкуются, для чанков считаются эмбеддинги, они кладутся в vector DB, на запросе делается retrieval top-k, затем возможен reranking, сбор контекста и генерация ответа.

Если система простая, это нормально сказать, но стоит добавить, что можно улучшить: hybrid BM25 + dense retrieval, domain-specific embedding model, query rewriting, metadata filters, cross-encoder reranker, дедупликация чанков и контроль длины контекста.

Для конфиденциальных данных важно проговорить self-hosted модели или private deployment, а также мониторинг качества и latency.

Теория

RAG-архитектура обычно состоит из двух независимых контуров: offline ingestion/indexing и online retrieval/generation. Эмбеддинги отвечают за candidate generation, reranker — за точность порядка, генератор — за финальный ответ.

Типичные ошибки

  • Сказать только "использовали embeddings" без ingestion и online flow.
  • Не упомянуть chunking и metadata filters.
  • Не отделить retriever от reranker.

Как отвечать на собеседовании

  • Скажи честно, насколько pipeline был сложным, и сразу предложи следующий уровень улучшений.
  • Обязательно добавь оценку качества retrieval отдельно от качества generation.