Как проверить, что ML-система готова к production: какие контракты, rollout, мониторинг, rollback и quality gates нужны перед запуском?
Банк вопросов из реальных собеседований
Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.
Все вопросы
673Полный банк вопросов из реальных собеседований.
ML-теория
119Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.
Python
67Устройство языка, структуры данных, тестирование и инженерная база.
SQL
12Запросы, агрегации, оконные функции и объяснение результата.
ML System Design
259Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.
Метрики и A/B
101Качество моделей, продуктовые метрики, эксперименты и валидация.
Продуктовые кейсы
72Как разложить задачу продукта, ограничения, риски и первый бейзлайн.
Математика и статистика
18Вероятность, статистика, оценки, распределения и аккуратные допущения.
Behavioral Interview
25Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.
ML System Design
259 вопросов из реальных интервью
Как объяснить RAG простыми словами: retrieval, augmentation и generation, и почему это похоже на двухстадийные рекомендации?
Есть релевантные кандидаты поиска, но финальный порядок случайный. Какое простое решение можно запустить быстро?
Интервьюер спрашивает: зачем в Dockerfile нужен multistage build и что он дает в production?
Как объяснить cold start в RecSys и какие практичные решения предложить для нового пользователя и нового item?
Какие offline, online и guardrail-метрики выбрать для A/B-теста динамической стоимости доставки?
Как устроить Airflow-пайплайн для регулярного переобучения и offline inference модели? Какие компоненты, артефакты и оптимизации нужны?
Как использовать уже существующую матричную модель или ALS в задаче рекомендаций к текущей корзине, не потеряв постановку item-to-cart?
Нужно сделать рекомендации товаров в блоке корзины: 10 млн пользователей и 100 тыс. товаров. Как построить простой baseline через совместные покупки?
Объясните разницу между BERT-like encoder моделями и GPT-like decoder моделями, и почему они подходят для разных задач.
Что такое BERT, чем encoder отличается от decoder и какие pretraining-механизмы у BERT?
Как проектировать caching и latency budget для recommendation API?
Чем classified marketplace отличается от ecommerce для pricing, ranking и recommendation моделей?
Что такое continuous batching и зачем он нужен в inference больших языковых моделей?
Что такое data drift, как его выявлять в данных и какие сигналы мониторить у ML-модели в production?
Когда в LLM-ассистенте лучше deterministic routing, а не свободный agent/tool calling?
Как спроектировать endpoint, который вызывает нестабильный downstream или долгий pipeline и должен корректно переживать сбои?
Как превратить документы в признаки для прогноза: один summary, JSON-state или ленту событий?
Как работает function calling и как добиться корректного structured output?
Как использовать скрытый профиль студента и не дать пользователю вытащить его через prompt injection?
Как разложить realtime CTR dashboard на ingestion, stream aggregation, storage и API?
В realtime CTR dashboard есть поток impression/click events. Как разделить роли Kafka, S3 и ClickHouse?
Почему исторический backtest LLM-фичей может быть нечестным, даже если документы подаются с правильными датами?
LLM JSON extraction, контекст филиала и оценка качества
Как использовать локацию и качество изображений в pricing/recommendation модели объявления, не смешивая качество товара с качеством фото?
Какие слабые места появляются у item-item co-occurrence baseline для корзины: long tail, новые товары, популярность и novelty?
Какие логи, метрики и алерты нужны после запуска рекомендательной модели?
Multi-head attention как PyTorch-модуль
Как добавить текстовые и визуальные признаки в рекомендательную систему без поломки serving pipeline?
Какой baseline запустить для новой видео-ленты, если по ней еще нет кликов и покупок?
В invoice parsing часть документов native PDF, часть сканы. Как определить, какой путь обработки использовать и какие ошибки ждать?
Как организовать online inference, если модель рекомендаций тяжелая и должна отвечать в latency budget?
Как встроить ML-реранкер в существующий поиск, если candidate generation уже возвращает itemIds?
Какие подходы к рекомендациям можно использовать и как выбирать между offline precompute и online inference, если важны latency, RPS и качество?
Поиск по статьям можно оценивать offline, но продукту важно, помог ли он пользователю. Какие online-сигналы это показывают?
Какие свежие операционные признаки кухни и курьеров доступны для модели стоимости доставки, и как отделить их от стабильных user/unit features?
Какую строку должен писать stream job в хранилище агрегатов для dashboard?
После запуска CV модели на реальных точках появляются ошибки, новые блюда и новые условия съемки. Как построить поддержку и дообучение?
Explain how LLM tool/function calling works end to end: tool schema in the prompt, model output, real tool execution and final user response.
Design the end-to-end сценарий for a RAG system: data preparation, vector index ingestion and serving-time retrieval.
A video-analytics platform wants an assistant that answers support requests using documentation and prior tickets. How would you design the RAG system?
A векторный поиск returns top-k nearest items, but all results are too similar to each other. How can you keep relevance while increasing diversity?
Каталог и фотографии постоянно меняются. Как организовать переобучение модели и обновление ANN-индекса для visual search?
Какие бывают positional embeddings в Transformer и как работает RoPE?
Пользователь пишет естественный запрос к большой корпоративной базе. Как матчить сущности, аббревиатуры, таблицы и колонки?
Почему признаки продавца могут помогать pricing или ranking модели в classified marketplace, и какие риски нужно контролировать?
Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?
Корзина меняется в текущей сессии. Как online serving должен учитывать add/remove item, cache invalidation и fallback?
Как хранить извлеченный из документов план производства, чтобы новые отчеты корректно обновляли forecast features?
Почему модель на исторической добыче может резко ошибиться, если компания инвестирует в новый способ добычи или расширение рудника?
Почему рекомендация похожего кольца к уже добавленному кольцу может быть хуже, чем рекомендация комплементарной категории?
Нужно прогнозировать поквартальную добычу по рудникам. Какие признаки и baseline-модель стоит построить до LLM-слоя?
Для международного поиска можно перевести уже существующее описание или генерировать новое на целевом языке. Как сравнить подходы?
VAD и разделение спикеров в пайплайнах обработки звонков
Как встроить VLM, поиск по картинкам и чат-ассистента в продукт поиска недвижимости так, чтобы они дополняли основной retrieval/ranking, а не заменяли его?
Чем отличаются схемы quantization для LLM inference и какие trade-off нужно назвать?
Адаптация LLM к медицинской терминологии
Нужно построить систему, которая ищет по внутренним документам и помогает отвечать на вопросы. Какой пайплайн спроектировать?
Как безопасно выкатить новую версию ONNX-модели в production: какие проверки сделать до релиза, как включать трафик, что мониторить и как быстро откатиться?
Как связать бизнес-метрики продукта с offline-метриками рекомендательной модели?
Какие варианты speculative decoding встречаются в LLM serving и чем они отличаются на уровне реализации?
Чем векторный поиск отличается от полнотекстовый поиск и почему часто нужен hybrid?
What main architecture families are used for generative models, and where are they commonly applied?
Explain the difference between BERT and GPT in terms of Transformer architecture and training objective.
How would you evaluate the full search pipeline and its individual components offline and online?
A 72B-parameter LLM is served on an A100 80GB. Estimate whether FP16 fits and explain what quantization changes.
A production service already has data, but you need to change the database schema. Describe a safe миграцию.
Explain the difference between a Kubernetes pod, service, deployment and node.
A deployed ML service has 300 ms latency, but the product now needs 30 ms. What do you investigate and what optimizations can you try?
Explain at a high level how TensorRT or similar inference optimizers speed up neural networks, and why INT8 quantization usually needs calibration.
After launching a feed recommender, how do you decide when and how to retrain the models?
When would you choose a columnar database over Redis, MongoDB or a row-oriented relational database for ML/data pipelines?
What mechanisms would you add so important ML datasets do not disappear because of human error or operational mistakes?
A speech-AI pipeline needs fast analytical queries over training-data processing events. What requirements would you give DevOps before asking for ClickHouse?
A neural network inference pipeline is too slow. What optimizations would you consider before changing the model architecture?
How can you increase LLM serving throughput or batch size on the same GPU without buying a larger GPU?
You have a multi-GPU server and want to host one or more open-source LLMs. What software stack and design choices would you use?
Как сравнивать архитектурные варианты recommender-системы и выбрать устойчивый вариант?
Как выбрать FAISS, HNSW-based CPU индекс, Redis, Qdrant или Elasticsearch для поиска ближайших embedding? Какие параметры и метрики смотреть?
Как выбирать production-модель для marketplace pricing/recommendation задачи, если offline score у сложной модели выше?
Для редких дорожных сценариев можно генерировать synthetic/simulation data. Где главный bottleneck и как использовать такие данные в retrieval-системе?
В MoE LLM где обычно находится Mixture of Experts: в каком слое Transformer и зачем это делают?
LLM-сервис стал медленнее, хуже или дороже. Какие проверки делать?
Как построить архитектуру поиска: от первичных кандидатов до финального ранжирования?
Где провести границу между продуктовым backend, ML-сервисом, feature store и business rules?
Как объяснить, где заканчивается item-to-item рекомендация к корзине и начинается персонализированный user recommender?
Курьеры закреплены за юнитом и зоной, а pricing-система не управляет расписанием. Как это ограничение должно повлиять на дизайн ML решения?
Какие группы признаков стоит назвать в RecSys ML System Design: user, item, context и инженерные фичи?
Где брать positive/negative examples для рекомендательной системы и что считать ground truth?
Для чего нужны positional embeddings и какие виды positional embeddings используются в LLM?
Заказчик может удалить предложенных поставщиков и добавить своих. Как объяснить ценность рекомендательной системы в таком продукте и какие метрики из этого следуют?
Нужно объяснить архитектуру LLM-агента: какие основные блоки нужны, где хранится контекст и как агент вызывает инструменты.
Как обработать новый закупочный запрос и что делать с новыми закупщиками, новыми поставщиками и редкими категориями?
Интервьюер просит объяснить базовый inference loop LLM: что подается на вход, что модель возвращает и как получается следующий токен.
Если embeddings, scores или recommendation lists считаются offline и лежат в S3/DWH, как безопасно передать эти результаты backend/serving-слою?
Как visual language model принимает картинку на вход: что делает vision encoder, как появляются visual tokens и как они совмещаются с текстом?
Модель уже умеет предсказывать вероятность возврата. Как ее применить в продукте и где хранить признаки?
Пользователь пишет запросы вроде "pedestrian crossing at night". Как выбрать и адаптировать text encoder для поиска дорожных сцен?
Команда хочет добавить новые признаки или модель в ранжирующий сервис. Как сделать это безопасно?
Для статьи нужно показать короткие suggest-вопросы или подсказки. Как получить их из текста статьи и не ухудшить качество поиска?
Есть новая возможность: по аудио понять событие вокруг пользователя, например лай собаки, открытие двери или разбитое стекло. Как до обучения модели понять, есть ли продуктовая польза?
С чего начать system design для realtime dashboard CTR рекламных кампаний?
Как сравнивать модели прогноза, если LLM-extractor может знать будущие факты из pretraining?
Как оптимизировать LLM inference pipeline: routing, batching, serving, latency и стоимость? Какие рычаги ускорения и удешевления стоит назвать?
Как оценивали качество: насколько хорошо получается вести диалог, отвечать на вопрос или искать нужные документы?
Как понять, что система поиска по статьям или RAG работает хорошо? Какие offline и online метрики использовать?
В casino-продукте sales-команде нужно как можно раньше понять, станет ли новый игрок VIP по депозитам и обороту. Как сформулировать ML-задачу, target, горизонт прогноза и бизнес-действие?
Как технически построить модель, которая по аудио определяет событие: лай собаки, звук двери, разбитое стекло и похожие классы?
Нужно построить систему, где рекламодатель смотрит CTR кампаний. Дано 200 млрд показов в день и CTR около 1%. Как начать system design с чисел?
Вышла новая open-source LLM. Как проверить, станет ли она лучше текущей модели в продукте и стоит ли ее внедрять?
Интервьюер просит рассказать про токенизатор: какие бывают алгоритмы, как он работает и нужно ли его обучать под домен или язык?
В продукте есть база статей. Пользователь может видеть подсказки или задавать свободный вопрос. Как разделить эти два режима в дизайне поиска?
Для moderation-модели нужны классы и данные. Как собрать labels, обработать дисбаланс и не смешать разные политики в один шумный датасет?
Fairmarkit -- маркетплейс для корпоративных закупок: заказчик создает заявку, а система предлагает подходящих поставщиков. Как сформулировать ML-задачу подбора поставщиков перед выбором модели?
В delivery pricing модели нужна фича нагрузки курьеров. Из каких событий и состояний ее считать, чтобы она была пригодна для online decisioning?
Как LLM генерирует ответ токен за токеном и какую роль в этом играет KV cache?
Расскажи базовую архитектуру Transformer: encoder/decoder, self-attention, Q/K/V, positional encoding и отличия GPT/BERT.
Нужно развернуть сервис модерации текста на BERT/DistilBERT. Как спроектировать input/output, policy layer, thresholds и routing actions?
Если пользователь добавил кольцо, стоит ли рекомендовать еще кольца? Как сформулировать цель и ограничения для рекомендаций в корзине?
Ты упомянул сезонность. Как с ней работать в фичах для рекомендационных систем, прогнозов или продуктовой аналитики?
Клиент видит стоимость доставки или порог бесплатной доставки в корзине. Каталог и корзина меняются, а на чек-ауте нельзя показать другую цену и вызвать негатив. Как спроектировать пересчет и где провести границу между точностью, latency и стоимостью?
Какую архитектуру эмбеддингов вы построили для RAG: обычный retrieval pipeline или что-то сложнее?
Модель модерации работает в production. Какие метрики смотреть offline, online и после запуска, чтобы контролировать качество и нагрузку на ручную проверку?
После базовых latency-вопросов интервьюер спрашивает: какие еще аномалии можно заметить в market-data файле?
Есть исторические сделки, логи платформы, больше миллиона поставщиков и около 100 компаний-заказчиков. Какие данные использовать и как масштаб влияет на архитектуру?
Нужно построить модель для оценки или подсказки цены second-hand объявления в marketplace. Какие признаки и baseline стоит предложить?
Какие факты из PDF-отчетов компаний полезны для прогноза добычи, и как отличать их от шумного текста?
После запуска MVP какие события и признаки нужно собирать, чтобы обучить модель ранжирования user-video?
Какие типовые проблемы рекомендательных систем ты бы назвал и как их можно измерять или снижать?
Какие практические техники prompt engineering помогают получать стабильный и проверяемый ответ от LLM?
Какие catalog features нужны для рекомендаций в корзине и какие проблемы бывают с категориями товаров?
Когда стоит использовать классический batch ETL, а когда streaming для рекомендаций, аналитики или ML-фичей?
Как решить, дообучать LLM или ограничиться prompt engineering/RAG, и что меняется при LoRA adapters?
В поиске есть embeddings и полнотекстовый индекс. Когда использовать оба подхода и как их объединять?
В продукте есть поиск по документам/артефактам. Когда использовать full-text, когда векторный поиск, и зачем может понадобиться hybrid retrieval?
Какие метрики использовать для recommender в marketplace, где клики, контакты, сделки и seller exposure имеют разные цели?
Какие offline, online и guardrail-метрики подходят для блока рекомендаций в корзине, если клики не равны покупке?
Как оценивать качество поиска или RAG-системы offline и online?
Как выбрать thresholds для предупреждения о phishing и какие метрики мониторить в production?
Проектируем ML для поиска на маркетплейсе. Какие бизнес, online и offline метрики выбрать?
Мониторинг drift данных и реакция с переобучением
Расскажи, какие классы моделей есть в рекомендательных системах и где они обычно применяются.
Оптимизация стоимости ASR и LLM-инференса для звонков
Есть response-модель для разных вариантов доставки. Как выбрать итоговую цену или минимальную сумму заказа?
Что должен сделать ML-инженер, чтобы довести модель до production-сервиса: интерфейс, артефакт, Docker, мониторинг и обновления?
Ответственность за полный цикл деплоя модели
Отладка разрыва между офлайн-оценкой и качеством в продукте
Сравните recall@K, precision@K, coverage и NDCG для candidate generation и ранжирования. Как эти метрики ведут себя при изменении K?
На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?
Поиск срезов, где LTV-модель ошибается
Нужно сделать блок рекомендаций в корзине для 10 млн пользователей и 100 тыс. товаров. Как сформулировать цель, ограничения и MVP?
В ML System Design кейсе про доставку нужно спроектировать персонализацию минимальной суммы заказа или платной доставки ниже порога. Как задать цель, границы и базовый план системы?
Построение и обновление HNSW/Qdrant пайплайна векторного поиска
За счет чего speculative decoding сохраняет высокий acceptance ratio при нескольких draft tokens?
Компания дала годовой guidance роста добычи. Почему опасно равномерно размазать его по кварталам?
Нужно сделать поиск/подсказки по базе статей или банковских ответов. Почему разумно начать с BM25/TF-IDF, а не сразу с embeddings/RAG?
Нужно прогнозировать retention, revenue или LTV во времени. Как поставить задачу, выбрать горизонт и гранулярность, построить baseline и провести корректную временную валидацию?
Почему в кейсе доставки стоит сначала разложить путь пользователя и операционный процесс заказа, а уже потом выбирать модель?
Роутинг звонков, отсеивание отказов и метрики
Один факт о руднике встречается в годовом отчете, презентации и call transcript. Как объединить эти источники в один forecasting state?
Как перейти от revenue, seller success и buyer value в marketplace к offline-метрикам pricing/recommendation модели?
Как выбирать число draft tokens в speculative decoding и почему больше не всегда лучше?
Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?
После набора признаков для marketplace pricing/recommendation модели что делать дальше: target, split, baseline, модель и критерий запуска?
Вы обучили и провалидировали ML-модель. Какие файлы и метаданные нужно версионировать, как упаковать сервис и как безопасно выкатить новую версию?
Какие товары нельзя показывать в рекомендациях корзины и где применять эти ограничения в candidate generation/reranking?
В marketplace кейсе модель может score-ить цену, скидку, карусель или промо-тег. Как четко сформулировать output модели и downstream action?
Цели и метрики рекомендательной ленты в банковском приложении
Что вы делаете, когда Airflow DAG-и тормозят, зависают или не укладываются в scheduled window?
Какие подходы есть для обучения большой нейросети на нескольких GPU и чем они отличаются?
В item-item рекомендациях для корзины может не быть соседей: новый товар, редкий товар, новый пользователь или корзина из многих товаров. Какие fallback предусмотреть?
На LLM serving собеседовании спрашивают: знаешь ли ты что-то про FlashAttention? Как объяснить идею без ухода в низкоуровневые детали?
Что для вас надежный pipeline и как проверить, что он действительно надежен?
На собеседовании спрашивают про KV cache в LLM inference. Что это такое, зачем он нужен и какие trade-off появляются в production?
Интервьюер спрашивает, как устроен LLM agent: какие компоненты нужны и чем agent отличается от обычного вызова модели.
Что такое prefill и decode стадии при генерации LLM и почему их важно различать при оптимизации inference?
Интервьюер спрашивает про quantization: зачем она нужна, какие бывают варианты и чем можно заплатить за ускорение.
Как онлайн проверять новую модель выбора контрольных вопросов, если ошибка может пропустить мошенника или заблокировать клиента?
Нужно спроектировать AI-native продукт, который по запросу пользователя генерирует качественные motion graphics. Как выбрать между pipeline и fully agentic архитектурой, как встроить human-in-the-loop evaluation и как управлять trade-off между quality, consistency и latency?
Спроектируйте платформу, где retrieval в основном считается batch, а realtime слой меняет порядок рекомендаций по свежим user interactions.
Как наложить ограничения по категориям и комплементарности, если candidates достаются через ANN по embeddings?
У LLM-agent продукта уже есть offline benchmark: для каждого изменения видно, стала ли метрика лучше или хуже. Как превратить результаты evaluation в цикл улучшения системы, не скатываясь в слепую автоматическую оптимизацию под шумный benchmark?
Спроектируйте систему, которая по фото и метаданным объявления определяет, что в карточке или истории автомобиля появились разные машины.
Deployment, артефакты and format-drift monitoring for document ML
Большая temporal model хорошо ловит события, но слишком дорогая по latency и compute. Как сжать ее для production?
Команда меняет prompts/models/rules для invoice parsing. Как не сломать качество при каждом изменении?
Даны временные рыночные данные для HFT-задачи. Как подойти к постановке target, построению признаков, валидации и первому baseline?
Какие проблемы возникают при использовании длинного контекста в LLM и какими подходами их адресуют?
Design a semantic search layer for geo/address suggestions where users can type categories like "cafe" and expect restaurants, POIs and relevant addresses across many languages.
How would you build item embeddings from text, images/video and categorical/numerical attributes under real serving constraints?
Which offline and online metrics would you use for a similar-items recommender, and what pitfalls are easy to miss?
A bank asks a suspicious legal entity for PDF statements from other banks. Design how ML can extract compliance value from those statements.
How would you parse readable PDF bank statements from many banks into structured transactions without sending personal data to an external API?
Модель ранжирования готова. Как вывести ее в прод: offline batch или online inference?
Если новой карусели еще не было в продукте, как оценить offline precision или релевантность ее рекомендаций?
После baseline и ranker нужно объяснить production: где считаются кандидаты, где хранятся фичи, как часто пересчитывать рекомендации при изменении корзины?
Нужно построить support bot для fintech-приложения. Какие компоненты нужны и как снизить риск неправильного ответа?
Как бы ты сделал retrieval-augmented generation для короткого factual snippet в поисковой выдаче?
Как построить RAG/search систему, если корпус по масштабу похож на большой веб-поиск?
Как спроектировать ассистента, который отвечает по текущему уроку, но не раскрывает будущие материалы?
Есть последовательность embedding-ов дорожной сцены за временное окно. Нужно находить несколько редких событий интереса. Как сформулировать ML-задачу и baseline?
Как сплитовать A/B для динамической доставки, считать MDE и что проверить до запуска?
В кейсе динамической доставки почему цена или минимальная сумма заказа не должны быть target модели? Что тогда предсказывать?
При обучении MLP или бустинга для корзины какие признаки подавать: user, item, item-to-cart или category features?
Нужно спроектировать продукт: пользователь дает текстовую задачу, система делает презентацию со слайдами, таблицами и картинками. Как построить pipeline?
В LLM-инференсе есть несколько GPU-воркеров. Почему наивная round-robin маршрутизация может быть неэффективной, и как спроектировать адаптивный слой маршрутизации с учетом загрузки GPU, KV cache и длины запроса?
Нужно построить систему, которая извлекает полезные поля из PDF-инвойсов разных поставщиков. Какую архитектуру выбрать?
Чем отличаются FSDP, tensor parallelism и pipeline parallelism при обучении больших моделей?
Sketch the online architecture for query parsing, candidate generation, ranking and blending. How do services communicate and fail safely?
В международном поиске нужно показывать короткое описание объекта в карточке ответа, например для Китая. Как построить ML-систему генерации таких описаний?
Как построить датасет для модели, которая оценивает реакцию пользователя на стоимость доставки или минимальную сумму заказа?
Как спроектировать candidate generation и ranking для подбора поставщиков под закупочную заявку в маркетплейсе корпоративных закупок?
Что делать, если исторически стоимость доставки менялась редко и почти нет вариативности для обучения эластичности?
Архив дорожных сцен состоит из последовательностей кадров. Как из кадров получить вектор сегмента для поиска по тексту?
Исторические данные есть только по поставщикам, которых уже показывали или приглашали. Как понять и уменьшить selection bias, и как обращаться с losing bids?
LLM извлекает признаки из PDF-отчета: например, будущий план производства. Как проверить, что признак основан на документе, а не на внешних знаниях или догадках?
Нужно добавить LLM-агента в существующий продуктовый pipeline. Как спроектировать границы агента, tools, контекст, проверки и мониторинг?
Retriever вернул top-K чанков. Как выбрать финальный контекст для LLM и где нужен reranker?
Для marketplace pricing/recommendation модели нужно построить offline validation. Как выбрать строку датасета, train/test split и метрики, чтобы не получить красивую, но бесполезную оценку?
Модель распознавания аудио-событий должна работать на колонке/камере с CPU и ограничениями по latency, privacy и батарее. Как это спроектировать?
Есть item2vec/DSSM-подобная модель, обученная на сессиях кликов: anchor, positive рядом в сессии и negative. У товара есть текстовый embedding из LLM. Как добавить content-информацию в архитектуру?
После ANN retrieval нужно улучшить качество выдачи и понять, когда система деградирует. Как спроектировать reranker, evaluation и monitoring?
Есть доменный поиск, где generic embeddings плохо работают. Как дообучить encoder и проверить, что retrieval стал лучше?
Есть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?
Юридические документы плохо режутся фиксированным окном. Как построить chunking для legal или enterprise RAG?
Нужно получить хорошие embeddings предложений для retrieval/semantic search. Какие данные и loss использовать?
Для обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?
Есть база объявлений авто и якорное объявление. Нужно находить архивные объявления, где визуально другая машина: другой цвет, салон, колеса, кузов или ракурс. Как поставить задачу и обучить модель?
В отчете сказано: производство вырастет на 20% за год, рост начнется во второй половине года. Модели нужен прогноз по кварталам. Что должна вернуть LLM-фича?
Vision Transformer обычно работает с 2D image patches. Как перенести такой подход на дорожные video segments?
Есть LTV/retention прогноз по когортам. Для старых когорт есть 7/30/180 дней истории, а для новых есть только install или trial. Как строить прогноз уже сегодня?
Помимо ответа на free-text вопрос нужно показывать related articles. Как их формировать: заранее или в зависимости от запроса, и где нужен reranker?
Что такое KV cache, почему его можно переиспользовать при decode и от каких факторов зависит его объем?
Интервьюер спрашивает: как можно держать высокий acceptance ratio при большом числе draft tokens в speculative decoding?
У каждого заказчика свое дерево категорий: названия могут быть нормальными словами, внутренними кодами или разной глубины. Как учитывать такие категории при подборе поставщиков?
В production RAG есть FastAPI, vector DB, ranker service, MLflow, Docker и self-hosted LLM. Как описать путь запроса и зоны ответственности сервисов?
LLM-агент иногда уверенно отвечает неверно. Какие инженерные меры помогут снизить риск hallucinations в production?
Данные casino-продукта лежат в хранилище и приходят через очередь сообщений. Нужно регулярно обновлять признаки и скорить пользователей. Как спроектировать production pipeline?
Есть реальный продуктовый use case: customer support automation. Нужно сравнить два LLM/agent variants и выбрать, какой запускать. Как спроектировать evaluation: данные, offline metrics, human/LLM judging, system metrics и online validation?
Поставщика можно представить через прошлые заявки, профиль и категории. Как построить представление поставщика и какие проблемы есть у averaging request embeddings?
Есть большой архив дорожных сцен автономного автомобиля. По текстовому запросу нужно находить релевантные сегменты, например редкие ситуации с пешеходами или необычным трафиком. Как начать ML System Design?
Есть трансформерная модель рекомендаций по истории пользователя. Как сделать так, чтобы она не ломала online-сервис?
Чем Mixture-of-Experts отличается от dense модели, какие преимущества и недостатки, и как устроен router при inference?
Нужно индексировать не одиночные картинки, а последовательности дорожных кадров. Как сделать retrieval-модель и embedding index для text-to-scene search?
ANN retrieval вернул top-K дорожных сегментов. Какие metadata и model signals стоит добавить в reranker, чтобы лучше упорядочить результаты?
После градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?
После hybrid retrieval можно отдать несколько статей LLM. Когда это оправдано, а когда лучше оставить обычный reranker и список результатов?
Какие лейблы собрать для обучения выбора контрольного вопроса и как бороться с тем, что мы видим ответы только на показанные вопросы?
Запрос вроде "книга" возвращает миллион релевантных товаров. Как не скорить весь миллион тяжелой моделью?
Представьте два видеосервиса с миллиардами роликов: в одном нужно быстро находить safe-фрагменты внутри в основном unsafe-контента, в другом - unsafe-фрагменты внутри в основном safe-контента. Разметки почти нет, ресурсов и времени мало. Как бы вы строили pipeline?
Продакшен-архитектура автоматической записи по звонку
В call center нужно выбрать контрольный вопрос для верификации клиента: достаточно безопасный, но не слишком сложный. Как построить ML-систему ранжирования вопросов?
Интернет-провайдер хочет предупреждать пользователей о phishing-страницах. Как спроектировать ML-систему детекта и показа предупреждения?
Расскажите про современную архитектуру LLM и процесс обучения: какие основные этапы, данные, objective и loss используются?
В e-commerce приложении запускается TikTok-like лента видео на главной. К каждому видео привязаны товары, видео около 1500 и живут 1-2 месяца. Истории по новой поверхности нет. Как спроектировать систему рекомендаций?
Какие есть варианты attention для экономии KV cache, например Multi-Query Attention, Grouped-Query Attention и MLA?
Pipeline для PDF-инвойсов работает, но обработка стала медленной и дорогой. Как искать узкие места и оптимизировать?
До добавления reranker нужно закончить candidate retrieval. Какие решения нужны по embedding index, freshness, фильтрам и quality evaluation?
Что такое speculative decoding для LLM inference, как он ускоряет decode, и что за идея у EAGLE-подобных методов?