Из каких компонентов состоит LLM-агент
Нужно объяснить архитектуру LLM-агента: какие основные блоки нужны, где хранится контекст и как агент вызывает инструменты.
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Минимальная схема: LLM как policy/reasoning layer, prompt/context builder, память или retrieval, tool router, executor, validation и observability.
Подробный разбор
Хороший ответ начинается с разделения ролей. LLM не должен быть всей системой: он выбирает действие и формирует аргументы, а вокруг него есть слой подготовки контекста, retrieval, инструменты и проверка результата.
Типовая архитектура: пользовательский запрос попадает в orchestrator, дальше собирается контекст из истории, профиля, документов и внешних систем. LLM получает инструкции и доступные tools, выбирает tool call, executor выполняет действие, а результат возвращается в модель или пользователю. В production нужны ограничения: schema validation для tool arguments, таймауты, retries, audit log, fallback и лимиты на число шагов.
Если агент работает с бизнес-данными, важны права доступа и трассировка: почему был вызван конкретный tool, какие документы попали в контекст и можно ли воспроизвести ответ.
Типичные ошибки
- Описывать агента как один большой prompt без orchestration.
- Забывать про validation tool arguments и права доступа.
- Не ограничивать число шагов и стоимость выполнения.
Как сказать на собеседовании
- Называй LLM reasoning layer, а не backend всей системы.
- Отдельно проговори tools, memory/retrieval, guardrails и logs.
Как оценивать LLM-фичу бизнес-метриками
В команде делают LLM/agent feature. Как выбрать метрики качества, если обычная accuracy не показывает бизнес-ценность?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Нужно связать offline eval с пользовательским outcome: task success, time saved, manual escalations, correction rate, cost/latency и safety failures.
Подробный разбор
Сначала формулируем, какую работу должна выполнить LLM-фича. Для агента это может быть "решить задачу без оператора", "найти правильный документ", "сформировать корректный action plan". Тогда метрики становятся прикладными: доля успешно завершенных задач, доля ручных эскалаций, среднее время до решения, доля исправленных пользователем ответов, cost per successful task и latency.
Offline eval нужен, но он не должен быть единственной целью. Полезно иметь gold set с экспертной разметкой, regression set для критичных кейсов, LLM-as-judge только как вспомогательный сигнал и online A/B для бизнес-эффекта.
Для production отдельно считаются safety метрики: hallucination rate на критичных вопросах, tool misuse, unauthorized data access, доля ответов с low confidence и частота fallback.
Типичные ошибки
- Свести все к BLEU/ROUGE или общему judge score.
- Не разделить quality, cost, latency и safety.
- Не завести regression set для критичных сценариев.
Как сказать на собеседовании
- Начни с бизнес-задачи, потом переходи к offline и online метрикам.
- Покажи trade-off: качество против latency/cost.
Как безопасно использовать AI coding tools в команде
Команда активно использует AI coding tools. Какие риски нужно контролировать и как встроить это в инженерный процесс?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
AI code должен проходить обычный инженерный gate: review, tests, ownership, security scan, small diffs и понятное reasoning по изменениям.
Подробный разбор
Главный принцип: AI ускоряет написание кода, но не отменяет ответственность инженера. Поэтому process должен требовать small scoped changes, понятного diff, тестов, review владельца области и запрета на вставку секретов/приватного кода в внешние инструменты.
Риски: сгенерированный код может быть правдоподобным, но неверным; может нарушить локальные архитектурные правила; может добавить лишние зависимости; может пропустить edge cases. Для контроля нужны CI, typecheck, тесты, static analysis и обязательный human review.
Полезный team rule: AI хорошо применять для черновиков, refactoring assistance, тестов и объяснений, но production merge должен оцениваться как обычный код автора PR.
Типичные ошибки
- Считать AI-generated code автоматически production-ready.
- Не проверять безопасность prompt/data sharing.
- Принимать большой diff без локального ownership.
Как сказать на собеседовании
- Формулируй как engineering governance, а не как запрет инструмента.
- Подчеркни: автор PR отвечает за код независимо от источника.
Как снижать hallucinations в production LLM-системе
LLM-агент иногда уверенно отвечает неверно. Какие инженерные меры помогут снизить риск hallucinations в production?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Сужаем контекст источниками, требуем citations, валидируем tool outputs, используем confidence/fallback, regression tests и мониторинг ошибок.
Подробный разбор
Нужно работать на нескольких уровнях. На входе: retrieval только из разрешенных источников, явные инструкции "если данных нет, скажи, что не знаешь", ограничение контекста и версии документов. На выходе: schema validation, ссылки на источники, проверка фактов через tools или deterministic rules.
Для agentic workflow важно валидировать не только final answer, но и actions: аргументы tool calls, права доступа, таймауты, retries и человеческое подтверждение для рискованных действий. Если уверенность низкая или источники противоречат друг другу, система должна уходить в fallback или эскалацию.
В production это закрепляется тестами и мониторингом: curated bad cases, regression suite, sampling логов, пользовательские исправления, alert на рост fallback/hallucination rate.
Типичные ошибки
- Надеяться только на более строгий prompt.
- Не логировать документы и tool calls, из которых получен ответ.
- Не делать fallback для low-confidence кейсов.
Как сказать на собеседовании
- Раздели меры на retrieval, generation, validation и monitoring.
- Упомяни human-in-the-loop для рискованных действий.