Что такое receptive field в CNN? Какой receptive field у одной свертки 5x5 и у двух последовательных 3x3, и где меньше параметров?
Банк вопросов из реальных собеседований
Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.
Все вопросы
673Полный банк вопросов из реальных собеседований.
ML-теория
119Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.
Python
67Устройство языка, структуры данных, тестирование и инженерная база.
SQL
12Запросы, агрегации, оконные функции и объяснение результата.
ML System Design
259Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.
Метрики и A/B
101Качество моделей, продуктовые метрики, эксперименты и валидация.
Продуктовые кейсы
72Как разложить задачу продукта, ограничения, риски и первый бейзлайн.
Математика и статистика
18Вероятность, статистика, оценки, распределения и аккуратные допущения.
Behavioral Interview
25Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.
Все вопросы
673 вопроса из реальных интервью
Explain how dropout behaves during training and inference. Why does the implementation need scaling, and what is inverted dropout?
Назовите специфичные для нейросетей способы борьбы с переобучением. Какие способы аугментации данных можно использовать в Computer Vision?
Как бороться с переобучением модели? Чем может быть опасна синтетика и зачем нужен разбиение данных?
Что такое семантическая сегментация? Чем она отличается от instance segmentation? Как работает свертка в CNN?
Что такое токенизация и зачем она нужна в задачах обработки текста? Чем отличаются Bag of Words, TF-IDF и embeddings, например word2vec?
Интервьюер спрашивает: если рассматривать логистическую регрессию, чем она похожа на линейную и чем отличается?
Чем bagging отличается от boosting, где применяются random forest и gradient boosting, и что сказать про склонность к переобучению?
Чем отличаются bagging и gradient boosting? Что будет, если убрать одно дерево из Random Forest и из gradient boosting, и как деревья могут переобучаться на редких категориальных признаках?
Почему Random Forest обычно снижает variance по сравнению с одним деревом и какие trade-offs остаются?
Как CatBoost кодирует категориальные признаки и почему это не дает leakage?
Как работает CLIP-модель и как она обучается? В чем high-level отличие SigLIP-style обучения от классического CLIP?
Есть модель для first-person VR/fisheye, а нужно работать на flat third-person видео. Как переносить качество?
Почему feature importance может обманывать, если признаки сильно коррелируют?
Как использовать графовые модели в рекомендациях? В чем отличие GCN от GraphSAGE и neighbor sampling подходов?
В object detection почему для box regression часто используют IoU-style loss, а не обычный MSE по координатам углов bounding box?
Как сделать рекомендации сочетаемой одежды: embeddings, ограничения по категориям, nearest neighbors и reranker?
Что сказать про линейное программирование, simplex-метод и жадные алгоритмы, если спрашивают на техническом ML-интервью?
Как связаны matrix equation, least squares, gradient descent и L1/L2 regularization?
Как построить logo detection для множества брендов и вариантов логотипов, если ручная bbox-разметка дорогая?
Что такое LoRA? Почему она полезна для fine-tuning больших моделей? Как обычно инициализируют low-rank матрицы, чтобы не исказить базовую модель на старте?
Опиши механизм LoRA. Если LoRA и classic adapters дают одинаковое качество, что выбрать для inference?
Чем LoRA отличается от полного fine-tuning, какие ограничения появляются при multi-GPU обучении LLM и чем RLHF-подход отличается от классического RL?
You can find posts similar to a given post. How do you turn that into user-level candidate generation for a feed?
For a port waiting-time model, what features would you build beyond timestamp features, and how would you detect anomalies or broken tracking data?
What should the output schema of an automatic task checker look like if humans also produce lists of found errors?
Как бороться с переобучением модели? Объясните L1/L2, dropout 0.5 и что происходит с dropout на inference.
Как сделать так, чтобы события одной кампании попадали к нужному worker и корректно агрегировались?
Сравни pointwise, pairwise и listwise подходы для ранжирования видео в рекомендательной ленте.
Команда хочет улучшить качество VLM в продукте. Когда достаточно prompt engineering, когда нужен fine-tuning, а когда лучше улучшать данные?
PyTorch: view против reshape
Что такое regularization, как работает dropout и почему поведение отличается на train и inference?
Как сформулировать RL-задачу для оптимизации молекул и почему direct optimization может быть недостаточной?
Объясните SASRec как последовательную рекомендательную модель, устройство self-attention в Transformer и отличие SASRec от BERT4Rec.
Что такое skip connection и почему residual-связи помогают обучать глубокие сети?
Что такое stride и padding в сверточной сети, и как они влияют на размер feature map?
Что такое systematic exploration в reinforcement learning, зачем оно нужно и почему это проблема?
Объясните основные параметры генерации LLM: temperature, max length, top-k и top-p. Как они влияют на ответы support bot?
Как построить feature matrix на регулярной 100 ms сетке из нерегулярных trades и order book events?
Какие риски возникают при использовании multilingual transformer для китайского/международного поиска и как их диагностировать?
Какие сигналы обычно извлекают из trades и order book при HFT-задаче прогноза цены?
Какие сигналы и loss-функции использовать для обучения recommendation/ranking модели?
Transformer attention, токенизация и cross-attention
Как использовать transformer в рекомендациях и чем это отличается от RNN-подхода?
Слышали ли вы про модели transformers? Чем они отличаются от RNN и почему они популярны в NLP?
Как обучать LSTM на последовательности длиной 100k шагов, если полный backprop слишком дорогой?
Можно ли добавлять теги от VLM/image captioning модели в поиск по фото? Где они помогут, а где навредят?
База Transformer: токены, positional encoding и cross-attention
Коротко объясните, из каких блоков состоит Transformer и какую роль играет attention.
Важность признаков в линейных моделях при мультиколлинеарности
Для задачи матчинга фото еды и категорий что выбрать: CLIP-подход или supervised multilabel classifier?
Когда выбирать линейную модель, а когда tree-based model или boosting?
If a YOLO-style detector was trained at one image resolution, what can happen if you run inference at a different resolution? When is it technically possible?
Which lightweight model would you use to extract fields such as INN, amount, date and payment purpose from noisy statement text, and what should it output?
What are the main generation/inference hyperparameters of an LLM and how do they affect output?
Что такое градиент и почему в глубоких сетях возникает затухающий градиент?
Чем gradient boosting отличается от Random Forest и где в бустинге появляется градиент?
Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?
Есть дискриминативные и генеративные модели. Чем они отличаются с математической точки зрения? Приведите примеры современных генеративных моделей.
Как объединить текстовые и визуальные сигналы в одном retrieval/ranking пространстве?
Почему нельзя просто полностью fine-tune всю LLM? Что выигрывает LoRA и как это влияет на batch size?
В PyTorch inference код часто оборачивают в `torch.no_grad()`. Что это дает и когда это важно?
Почему residual connections помогают обучать глубокие сети?
Интуиция Adam, momentum и RMSProp
Как дерево в gradient boosting выбирает split с учетом loss function?
Как обнаруживать overfitting и чем регуляризовать
Объясните интуицию gradient boosting: что учит каждое следующее дерево и как это связано с loss.
Как работает LoRA fine-tuning
Объясни технически, что делает LoRA при дообучении большой модели и почему это экономит память.
Объясните self-attention и основные блоки трансформера так, чтобы было понятно без формального вывода.
В модели есть категориальные признаки товара и пользователя. Как их кодировать и где возникают риски?
Есть рекомендации похожих или сочетаемых товаров. Какие источники кандидатов и признаки можно использовать?
Модель сегментирует объект в видео, но маска мерцает и ломается при взаимодействии с человеком. Что делать?
Как устроены числа с плавающей точкой? Чем bfloat16 отличается от float16 и почему его используют в нейросетях?
После retrieval есть набор кандидатов. Какие признаки использовать для реранжирования и что можно считать заранее?
Какие события, сущности и масштабы нужно уточнить перед проектированием ads CTR dashboard?
По данным с primary и secondary feed нужно понять, через какой канал события приходят на сервер раньше. Как это посчитать корректно?
Почему transformer может быть полезен для поиска/рекомендаций, и когда он избыточен?
Когда одно дерево решений может обойти Random Forest
Как объяснить линейную регрессию, MSE и почему аналитическое решение через матрицу не всегда удобно?
Какие агрегаты считать по campaign_id и минутному окну, чтобы строить CTR график?
Какие loss, backbone и augmentations уместны для embeddings-модели, сравнивающей изображения объектов?
Для бинарной классификации есть очень много признаков. Какие проблемы это создает, как заметить переобучение и как подбирать гиперпараметры без утечки в тест?
Как детектировать посты, которые не соответствуют выбранному тегу игры: если есть сильная VLM-модель и если ресурсы ограничены?
Если item2vec обучен на последовательностях кликов в сессиях, почему это ближе к collaborative filtering, а не к content-based модели?
Какой смысл имеет time dimension в LSTM input и почему порядок шагов важен?
Почему нулевая инициализация ломает нейросети
Почему современные subword tokenizers вроде BPE/SentencePiece редко используют unknown token, и какие trade-off есть у такого подхода?
Какие особенности и риски есть у item-to-item рекомендаций в fashion каталоге?
GPT генерирует autoregressive, токен за токеном. Сколько forward-pass нужно сделать для одного training batch и почему?
Какая минимальная схема события нужна в Kafka для подсчета CTR кампаний?
Устойчивость градиентов, активации, skip connections и инициализация
Какие признаки подать в модель ранжирования товаров в поиске маркетплейса?
3D-сегментация dental lesions при ограниченной разметке
ASR для low-resource языка, когда Whisper не справляется
Как работает Distributed Data Parallel training и почему overlap gradient all-reduce с backprop помогает ускорить обучение?
Компания генерирует текстовые user profiles из истории пользователя с помощью GPT-like модели. Как использовать такие профили в recommender system?
При обучении на сотнях тысяч токенов обычный/Flash Attention все равно не помещается в GPU. Что раздувает память и какие классы решений есть?
How would you train the ranker for real-estate search, choose negatives, and blend paid monetized listings without destroying relevance?
How would you use векторный поиск, user clustering and domain-specific text/image embeddings to improve a social-feed recommender?
How would you train a two-tower or CLIP-like text-image recommender using user-post interactions?
How would you build and validate a training dataset for extracting transaction fields from many bank-statement formats with limited human labeling?
Какие проблемы есть у in-batch negatives и как обучать embeddings объявлений, если пользовательских действий еще нет?
Каталог содержит много цветов и текстовых описаний, а пользователи ищут по фото. Как извлекать и использовать цветовые атрибуты, если словарь не полностью закрыт?
Что такое self-distillation и зачем модель учить на собственных предсказаниях? Как устроен DINO-style teacher-student подход?
Есть много неразмеченных driving/log sequences и мало labels для редких событий. Какие self-supervised подходы можно использовать до supervised fine-tuning?
Почему UCB может быть плохой идеей при 1000 actions и горизонте 2000 или 20 шагов? Что делать вместо этого?
Большая VLM неплохо распознает блюда, если дать ей фото и меню, но отвечает десятки секунд. Как использовать такую модель в продукте с жестким latency?
Есть много фотографий ресторана и фиксированные категории еды. Как выбрать наиболее подходящее фото для категории в поисковой выдаче?
При autoregressive generation модель генерирует токены по одному. Что такое KV cache и как он ускоряет inference?
На странице конкретного автомобиля все пользователи видят одинаковые item-to-item рекомендации. Как добавить персонализацию, сохранив связь с текущим item и низкую latency?
Есть числовые, категориальные и поведенческие признаки пользователя и товара. Как превратить их во вход трансформера?
Пользователь пишет свободный текстовый запрос по недвижимости, в котором могут быть частые атрибуты и редкие бытовые детали. Как превратить такой query в кандидатов через structured attributes, полнотекстовый поиск и векторный поиск?
На какие сущности уходит GPU memory при обучении LLM, и почему KV cache обычно используют на inference, а не на training?
Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?
Модель на временном ряде показывает хороший offline score, но в реальности не работает. Какие причины проверить первыми?
На ревью notebook для временного ряда нужно найти leakage. Что проверять в feature generation и split?
Токенизация и BERT-style разметка против autoregressive rewriting
Спроектируйте систему, которая ищет в интернете потенциальные нарушения бренда и фильтрует массу нерелевантных результатов для 1000+ клиентов.
Что означают `_attr` и `__attr` в Python class, и чем convention отличается от name mangling?
Python dict lookup, декораторы и генераторы
Базовые проверки аномалий в sales DataFrame
Если у функции несколько decorators, в каком порядке они применяются при объявлении и в каком порядке выполняются при вызове?
In Python, what actually makes a tuple: parentheses or comma? Give examples.
What is a Python context manager, what do __enter__ and __exit__ do, and why not just wait for garbage collection?
Интервьюер спрашивает про pytest fixtures: зачем они нужны и какие scopes у них бывают?
Что произойдет, если присвоить один список другой переменной и изменить его? Чем отличаются shallow copy и deep copy?
Интервьюер просит рассказать SOLID: какие есть принципы и зачем они нужны в поддерживаемом коде.
Когда использовать async, threading и multiprocessing в Python, и как GIL влияет на этот выбор?
Как не заблокировать систему, если fallback или cleanup тоже может упасть?
Нужно устно спроектировать простой in-memory векторный поиск: add, search top-K, cosine similarity, stats. На что обратить внимание?
Какие edge cases появляются, если LRU cache должен хранить любые пользовательские значения?
LTV-метрики, когда бизнесу нужна консервативная оценка
You need to forecast how long a ship will wait at a port. How would you define the ML target, time granularity and prediction horizon so the result is useful for operations?
Что такое GIL в CPython, когда использовать multiprocessing вместо multithreading и как работает garbage collection?
Python-сервис под нагрузкой потребляет много CPU или памяти. Как диагностировать и что можно делать, если проблема действительно в Python-коде?
Какие базовые runtime-вопросы по Python часто идут после алгоритмической задачи?
Какой backoff выбрать для retry и зачем добавлять jitter?
ROC-AUC, ранжирующая интерпретация и бинаризованные предсказания
Чем отличаются RDD, DataFrame и Dataset в Spark? Почему DataFrame обычно быстрее, и как использовать repartition, coalesce, cache и persist?
Как должен выглядеть stream job, который считает CTR по campaign_id и временным окнам?
Why does a custom nn.Module need super().__init__()? Separately, why is tags=[] as a default argument in Python dangerous?
Does Python int overflow? How can you roughly estimate how much memory n! needs without computing the factorial?
What happens under the hood in a Python for-loop? How do iterators and generators differ, and what is StopIteration?
How does @dataclass reduce boilerplate, what does frozen=True do, and how do descriptors or properties relate to attribute access?
Explain what the GIL is, why CPython has it, and what happens at a high level when you run a Python file.
How are arguments passed to functions in Python? What happens if a function mutates a list argument versus reassigning an immutable value?
Write and explain a function decorator that logs calls. What does functools.wraps preserve? How would a decorator with arguments lazily import modules only when the function is called?
You review code that loops over texts, calls an embedding model one by one and appends outputs to a NumPy array. What would you improve?
You can run four Python applications as systemd services on one VM or as four containers. What practical guarantees do containers add?
Какие генераторы кандидатов можно использовать в рекомендательной системе? Где в этом стеке находится ALS по implicit feedback, в чем его сильные стороны и ограничения?
Градиентный бустинг, остатки и диапазон предсказаний
Что такое декоратор, зачем он нужен, и почему код внутри генератора выполняется не при создании, а при итерации?
Объясни разницу между async Lock, Event и Semaphore и где они нужны в backend-коде.
Как работает async/await в Python и чем concurrency через event loop отличается от parallel execution?
Зачем нужны MLflow, пайплайны, PySpark и Feature Store в production ML?
В Python есть код со списками, ссылками на объекты, циклическими ссылками и mutable default arguments. Как пройтись по нему и объяснить, что останется в памяти и почему?
Как задать LTV-таргет и первый когортный бейзлайн
Модель дает prediction для trading/time-series задачи. Как оценить confidence и использовать его в решении?
Бизнес хочет понимать, вернется ли пользователь и стоит ли давать ему скидку. Как сформулировать ML-задачу, таргет и признаки?
На собеседовании показывают класс, который читает файл, хранит DataFrame и делает обработку. Какие проблемы искать в таком коде?
Объясни, как работает Python dict и чем обычный list отличается от NumPy array.
Какие нейросетевые подходы можно использовать в RecSys и где они стоят в пайплайне?
Когда пробовать бустинг для прогноза LTV
Что именно считать в метриках: timestamps, длительность операции или сами значения ошибки?
Для нового игрока нужно понять, когда уже можно доверять прогнозу VIP-статуса. Как оценить, на каком дне жизни клиента модель дает достаточно полезный сигнал?
Backend-сервис на Python стал медленным под нагрузкой. Как бы ты локализовал bottleneck и понял, что именно оптимизировать?
Как перевести исследовательский ноутбук с LTV-моделью в воспроизводимое обучение, хранение версий, деплой и инференс/API предсказаний?
Чем отличаются потоки и процессы? Что такое GIL в CPython, когда нужны синхронизация и IPC?
Объясните, как устроен hash table в Python dict и почему операции lookup/insert обычно O(1), но иногда деградируют.
Признаки из истории подписок для частично наблюдаемых пользователей
Как проверять код студента и давать подсказку, не раскрывая готовое решение?
Сравните сложности добавления и доступа для односвязного списка, Python list, Python dict и конкатенации строк. Где нужен amortized O(1), а где важен worst-case?
За сколько вставить n различных строк длины k в Python set? Что изменится, если hash для всех объектов возвращает одно и то же значение?
За сколько работает добавление элемента в начало и в конец Python list? Почему append в конец обычно O(1), но не всегда строго O(1)?
Как считать attempts в retry-декораторе так, чтобы логи и метрики не искажали реальное число вызовов?
Когда выбирать потоки, когда процессы, и как GIL влияет на CPU-bound и IO-bound задачи?
Объясните, что делает await в asyncio и почему он важен для неблокирующего сервиса.
How can a forecasting system support multiple prediction horizons, and what does it mean that SHAP is model-agnostic?
Есть legacy C-компонент и желание дать пользователям удобный Python/API слой. Как рассуждать: делать обертку вокруг C или полностью переписывать реализацию на Python?
После BM25 baseline нужно усилить поиск по статьям. Как спроектировать candidate generator, hybrid retrieval и reranker?
Как должен выглядеть stream job для CTR dashboard: что он читает, что считает и куда пишет результат для графика рекламодателя?
Даны trades и order book. Как сформулировать target для предсказания будущего движения mid-price?
В Waymo уже есть perception, prediction и map stack. Как использовать этот контекст при проектировании поиска дорожных сцен по тексту?
В истории заявок можно использовать winner label, bid/no-bid, ручное удаление поставщика и другие события. Какие labels и метрики выбрать для candidate generator и ranker?
Если поток CTR dashboard - миллионы событий в секунду, как оценить число partitions/workers и где искать bottleneck?
Precision и recall для спам-классификатора
IoU-метрики детекции и one-to-one matching
You collected months of human-reviewer decisions for task outputs. How could you use this data to improve the automatic checker?
Spark Broadcast Join и производительность Python UDF
When are SQL window functions useful, how are they different from GROUP BY, and what ClickHouse MergeTree details matter when writing analytical queries?
How would you choose between SQL and NoSQL storage, and what would you add so the data is not lost?
В Postgres медленно работает сложный запрос с join-ами и фильтрами. Как расследовать проблему и какие варианты исправления рассмотреть?
Text2SQL copilot возвращает SQL для закрытой продовой базы. Как спроектировать agent critic, который валидирует запрос до запуска?
Cold start и плавный LTV-переход для нового приложения
Как проверить, что сгенерированный SQL возвращает именно то, что пользователь попросил на человеческом языке?
Two players repeatedly toss a fair coin. One waits for HH, the other waits for HT. Who finishes faster on average and how would you reason about it?
You have a large blacklist of bad INNs and noisy PDF text where digits can be glued together. How would you find likely blacklist hits efficiently and accurately?
Как проверить, что ML-система готова к production: какие контракты, rollout, мониторинг, rollback и quality gates нужны перед запуском?
Как объяснить RAG простыми словами: retrieval, augmentation и generation, и почему это похоже на двухстадийные рекомендации?
Есть релевантные кандидаты поиска, но финальный порядок случайный. Какое простое решение можно запустить быстро?
Интервьюер спрашивает: зачем в Dockerfile нужен multistage build и что он дает в production?
Как объяснить cold start в RecSys и какие практичные решения предложить для нового пользователя и нового item?
Какие offline, online и guardrail-метрики выбрать для A/B-теста динамической стоимости доставки?
Как устроить Airflow-пайплайн для регулярного переобучения и offline inference модели? Какие компоненты, артефакты и оптимизации нужны?
Как использовать уже существующую матричную модель или ALS в задаче рекомендаций к текущей корзине, не потеряв постановку item-to-cart?
Нужно сделать рекомендации товаров в блоке корзины: 10 млн пользователей и 100 тыс. товаров. Как построить простой baseline через совместные покупки?
Объясните разницу между BERT-like encoder моделями и GPT-like decoder моделями, и почему они подходят для разных задач.
Что такое BERT, чем encoder отличается от decoder и какие pretraining-механизмы у BERT?
Как проектировать caching и latency budget для recommendation API?
Чем classified marketplace отличается от ecommerce для pricing, ranking и recommendation моделей?
Что такое continuous batching и зачем он нужен в inference больших языковых моделей?
Что такое data drift, как его выявлять в данных и какие сигналы мониторить у ML-модели в production?
Когда в LLM-ассистенте лучше deterministic routing, а не свободный agent/tool calling?
Как спроектировать endpoint, который вызывает нестабильный downstream или долгий pipeline и должен корректно переживать сбои?
Как превратить документы в признаки для прогноза: один summary, JSON-state или ленту событий?
Как работает function calling и как добиться корректного structured output?
Как использовать скрытый профиль студента и не дать пользователю вытащить его через prompt injection?
Как разложить realtime CTR dashboard на ingestion, stream aggregation, storage и API?
В realtime CTR dashboard есть поток impression/click events. Как разделить роли Kafka, S3 и ClickHouse?
Почему исторический backtest LLM-фичей может быть нечестным, даже если документы подаются с правильными датами?
LLM JSON extraction, контекст филиала и оценка качества
Как использовать локацию и качество изображений в pricing/recommendation модели объявления, не смешивая качество товара с качеством фото?
Какие слабые места появляются у item-item co-occurrence baseline для корзины: long tail, новые товары, популярность и novelty?
Какие логи, метрики и алерты нужны после запуска рекомендательной модели?
Multi-head attention как PyTorch-модуль
Как добавить текстовые и визуальные признаки в рекомендательную систему без поломки serving pipeline?
Какой baseline запустить для новой видео-ленты, если по ней еще нет кликов и покупок?
В invoice parsing часть документов native PDF, часть сканы. Как определить, какой путь обработки использовать и какие ошибки ждать?
Как организовать online inference, если модель рекомендаций тяжелая и должна отвечать в latency budget?
Как встроить ML-реранкер в существующий поиск, если candidate generation уже возвращает itemIds?
Какие подходы к рекомендациям можно использовать и как выбирать между offline precompute и online inference, если важны latency, RPS и качество?
Поиск по статьям можно оценивать offline, но продукту важно, помог ли он пользователю. Какие online-сигналы это показывают?
Какие свежие операционные признаки кухни и курьеров доступны для модели стоимости доставки, и как отделить их от стабильных user/unit features?
Какую строку должен писать stream job в хранилище агрегатов для dashboard?
После запуска CV модели на реальных точках появляются ошибки, новые блюда и новые условия съемки. Как построить поддержку и дообучение?
Explain how LLM tool/function calling works end to end: tool schema in the prompt, model output, real tool execution and final user response.
Design the end-to-end сценарий for a RAG system: data preparation, vector index ingestion and serving-time retrieval.
A video-analytics platform wants an assistant that answers support requests using documentation and prior tickets. How would you design the RAG system?
A векторный поиск returns top-k nearest items, but all results are too similar to each other. How can you keep relevance while increasing diversity?
Каталог и фотографии постоянно меняются. Как организовать переобучение модели и обновление ANN-индекса для visual search?
Какие бывают positional embeddings в Transformer и как работает RoPE?
Пользователь пишет естественный запрос к большой корпоративной базе. Как матчить сущности, аббревиатуры, таблицы и колонки?
Почему признаки продавца могут помогать pricing или ranking модели в classified marketplace, и какие риски нужно контролировать?
Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?
Корзина меняется в текущей сессии. Как online serving должен учитывать add/remove item, cache invalidation и fallback?
Как хранить извлеченный из документов план производства, чтобы новые отчеты корректно обновляли forecast features?
Почему модель на исторической добыче может резко ошибиться, если компания инвестирует в новый способ добычи или расширение рудника?
Почему рекомендация похожего кольца к уже добавленному кольцу может быть хуже, чем рекомендация комплементарной категории?
Нужно прогнозировать поквартальную добычу по рудникам. Какие признаки и baseline-модель стоит построить до LLM-слоя?
Для международного поиска можно перевести уже существующее описание или генерировать новое на целевом языке. Как сравнить подходы?
VAD и разделение спикеров в пайплайнах обработки звонков
Как встроить VLM, поиск по картинкам и чат-ассистента в продукт поиска недвижимости так, чтобы они дополняли основной retrieval/ranking, а не заменяли его?
Чем отличаются схемы quantization для LLM inference и какие trade-off нужно назвать?
Адаптация LLM к медицинской терминологии
Нужно построить систему, которая ищет по внутренним документам и помогает отвечать на вопросы. Какой пайплайн спроектировать?
Как безопасно выкатить новую версию ONNX-модели в production: какие проверки сделать до релиза, как включать трафик, что мониторить и как быстро откатиться?
Как связать бизнес-метрики продукта с offline-метриками рекомендательной модели?
Какие варианты speculative decoding встречаются в LLM serving и чем они отличаются на уровне реализации?
Чем векторный поиск отличается от полнотекстовый поиск и почему часто нужен hybrid?
What main architecture families are used for generative models, and where are they commonly applied?
Explain the difference between BERT and GPT in terms of Transformer architecture and training objective.
How would you evaluate the full search pipeline and its individual components offline and online?
A 72B-parameter LLM is served on an A100 80GB. Estimate whether FP16 fits and explain what quantization changes.
A production service already has data, but you need to change the database schema. Describe a safe миграцию.
Explain the difference between a Kubernetes pod, service, deployment and node.
A deployed ML service has 300 ms latency, but the product now needs 30 ms. What do you investigate and what optimizations can you try?
Explain at a high level how TensorRT or similar inference optimizers speed up neural networks, and why INT8 quantization usually needs calibration.
After launching a feed recommender, how do you decide when and how to retrain the models?
When would you choose a columnar database over Redis, MongoDB or a row-oriented relational database for ML/data pipelines?
What mechanisms would you add so important ML datasets do not disappear because of human error or operational mistakes?
A speech-AI pipeline needs fast analytical queries over training-data processing events. What requirements would you give DevOps before asking for ClickHouse?
A neural network inference pipeline is too slow. What optimizations would you consider before changing the model architecture?
How can you increase LLM serving throughput or batch size on the same GPU without buying a larger GPU?
You have a multi-GPU server and want to host one or more open-source LLMs. What software stack and design choices would you use?
Как сравнивать архитектурные варианты recommender-системы и выбрать устойчивый вариант?
Как выбрать FAISS, HNSW-based CPU индекс, Redis, Qdrant или Elasticsearch для поиска ближайших embedding? Какие параметры и метрики смотреть?
Как выбирать production-модель для marketplace pricing/recommendation задачи, если offline score у сложной модели выше?
Для редких дорожных сценариев можно генерировать synthetic/simulation data. Где главный bottleneck и как использовать такие данные в retrieval-системе?
В MoE LLM где обычно находится Mixture of Experts: в каком слое Transformer и зачем это делают?
LLM-сервис стал медленнее, хуже или дороже. Какие проверки делать?
Как построить архитектуру поиска: от первичных кандидатов до финального ранжирования?
Где провести границу между продуктовым backend, ML-сервисом, feature store и business rules?
Как объяснить, где заканчивается item-to-item рекомендация к корзине и начинается персонализированный user recommender?
Курьеры закреплены за юнитом и зоной, а pricing-система не управляет расписанием. Как это ограничение должно повлиять на дизайн ML решения?
Какие группы признаков стоит назвать в RecSys ML System Design: user, item, context и инженерные фичи?
Где брать positive/negative examples для рекомендательной системы и что считать ground truth?
Для чего нужны positional embeddings и какие виды positional embeddings используются в LLM?
Заказчик может удалить предложенных поставщиков и добавить своих. Как объяснить ценность рекомендательной системы в таком продукте и какие метрики из этого следуют?
Нужно объяснить архитектуру LLM-агента: какие основные блоки нужны, где хранится контекст и как агент вызывает инструменты.
Как обработать новый закупочный запрос и что делать с новыми закупщиками, новыми поставщиками и редкими категориями?
Интервьюер просит объяснить базовый inference loop LLM: что подается на вход, что модель возвращает и как получается следующий токен.
Если embeddings, scores или recommendation lists считаются offline и лежат в S3/DWH, как безопасно передать эти результаты backend/serving-слою?
Как visual language model принимает картинку на вход: что делает vision encoder, как появляются visual tokens и как они совмещаются с текстом?
Модель уже умеет предсказывать вероятность возврата. Как ее применить в продукте и где хранить признаки?
Пользователь пишет запросы вроде "pedestrian crossing at night". Как выбрать и адаптировать text encoder для поиска дорожных сцен?
Команда хочет добавить новые признаки или модель в ранжирующий сервис. Как сделать это безопасно?
Для статьи нужно показать короткие suggest-вопросы или подсказки. Как получить их из текста статьи и не ухудшить качество поиска?
Есть новая возможность: по аудио понять событие вокруг пользователя, например лай собаки, открытие двери или разбитое стекло. Как до обучения модели понять, есть ли продуктовая польза?
С чего начать system design для realtime dashboard CTR рекламных кампаний?
Как сравнивать модели прогноза, если LLM-extractor может знать будущие факты из pretraining?
Как оптимизировать LLM inference pipeline: routing, batching, serving, latency и стоимость? Какие рычаги ускорения и удешевления стоит назвать?
Как оценивали качество: насколько хорошо получается вести диалог, отвечать на вопрос или искать нужные документы?
Как понять, что система поиска по статьям или RAG работает хорошо? Какие offline и online метрики использовать?
В casino-продукте sales-команде нужно как можно раньше понять, станет ли новый игрок VIP по депозитам и обороту. Как сформулировать ML-задачу, target, горизонт прогноза и бизнес-действие?
Как технически построить модель, которая по аудио определяет событие: лай собаки, звук двери, разбитое стекло и похожие классы?
Нужно построить систему, где рекламодатель смотрит CTR кампаний. Дано 200 млрд показов в день и CTR около 1%. Как начать system design с чисел?
Вышла новая open-source LLM. Как проверить, станет ли она лучше текущей модели в продукте и стоит ли ее внедрять?
Интервьюер просит рассказать про токенизатор: какие бывают алгоритмы, как он работает и нужно ли его обучать под домен или язык?
В продукте есть база статей. Пользователь может видеть подсказки или задавать свободный вопрос. Как разделить эти два режима в дизайне поиска?
Для moderation-модели нужны классы и данные. Как собрать labels, обработать дисбаланс и не смешать разные политики в один шумный датасет?
Fairmarkit -- маркетплейс для корпоративных закупок: заказчик создает заявку, а система предлагает подходящих поставщиков. Как сформулировать ML-задачу подбора поставщиков перед выбором модели?
В delivery pricing модели нужна фича нагрузки курьеров. Из каких событий и состояний ее считать, чтобы она была пригодна для online decisioning?
Как LLM генерирует ответ токен за токеном и какую роль в этом играет KV cache?
Расскажи базовую архитектуру Transformer: encoder/decoder, self-attention, Q/K/V, positional encoding и отличия GPT/BERT.
Нужно развернуть сервис модерации текста на BERT/DistilBERT. Как спроектировать input/output, policy layer, thresholds и routing actions?
Если пользователь добавил кольцо, стоит ли рекомендовать еще кольца? Как сформулировать цель и ограничения для рекомендаций в корзине?
Ты упомянул сезонность. Как с ней работать в фичах для рекомендационных систем, прогнозов или продуктовой аналитики?
Клиент видит стоимость доставки или порог бесплатной доставки в корзине. Каталог и корзина меняются, а на чек-ауте нельзя показать другую цену и вызвать негатив. Как спроектировать пересчет и где провести границу между точностью, latency и стоимостью?
Какую архитектуру эмбеддингов вы построили для RAG: обычный retrieval pipeline или что-то сложнее?
Модель модерации работает в production. Какие метрики смотреть offline, online и после запуска, чтобы контролировать качество и нагрузку на ручную проверку?
После базовых latency-вопросов интервьюер спрашивает: какие еще аномалии можно заметить в market-data файле?
Есть исторические сделки, логи платформы, больше миллиона поставщиков и около 100 компаний-заказчиков. Какие данные использовать и как масштаб влияет на архитектуру?
Нужно построить модель для оценки или подсказки цены second-hand объявления в marketplace. Какие признаки и baseline стоит предложить?
Какие факты из PDF-отчетов компаний полезны для прогноза добычи, и как отличать их от шумного текста?
После запуска MVP какие события и признаки нужно собирать, чтобы обучить модель ранжирования user-video?
Какие типовые проблемы рекомендательных систем ты бы назвал и как их можно измерять или снижать?
Какие практические техники prompt engineering помогают получать стабильный и проверяемый ответ от LLM?
Какие catalog features нужны для рекомендаций в корзине и какие проблемы бывают с категориями товаров?
Когда стоит использовать классический batch ETL, а когда streaming для рекомендаций, аналитики или ML-фичей?
Как решить, дообучать LLM или ограничиться prompt engineering/RAG, и что меняется при LoRA adapters?
В поиске есть embeddings и полнотекстовый индекс. Когда использовать оба подхода и как их объединять?
В продукте есть поиск по документам/артефактам. Когда использовать full-text, когда векторный поиск, и зачем может понадобиться hybrid retrieval?
Какие метрики использовать для recommender в marketplace, где клики, контакты, сделки и seller exposure имеют разные цели?
Какие offline, online и guardrail-метрики подходят для блока рекомендаций в корзине, если клики не равны покупке?
Как оценивать качество поиска или RAG-системы offline и online?
Как выбрать thresholds для предупреждения о phishing и какие метрики мониторить в production?
Проектируем ML для поиска на маркетплейсе. Какие бизнес, online и offline метрики выбрать?
Мониторинг drift данных и реакция с переобучением
Расскажи, какие классы моделей есть в рекомендательных системах и где они обычно применяются.
Оптимизация стоимости ASR и LLM-инференса для звонков
Есть response-модель для разных вариантов доставки. Как выбрать итоговую цену или минимальную сумму заказа?
Что должен сделать ML-инженер, чтобы довести модель до production-сервиса: интерфейс, артефакт, Docker, мониторинг и обновления?
Ответственность за полный цикл деплоя модели
Отладка разрыва между офлайн-оценкой и качеством в продукте
Сравните recall@K, precision@K, coverage и NDCG для candidate generation и ранжирования. Как эти метрики ведут себя при изменении K?
На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?
Поиск срезов, где LTV-модель ошибается
Нужно сделать блок рекомендаций в корзине для 10 млн пользователей и 100 тыс. товаров. Как сформулировать цель, ограничения и MVP?
В ML System Design кейсе про доставку нужно спроектировать персонализацию минимальной суммы заказа или платной доставки ниже порога. Как задать цель, границы и базовый план системы?
Построение и обновление HNSW/Qdrant пайплайна векторного поиска
За счет чего speculative decoding сохраняет высокий acceptance ratio при нескольких draft tokens?
Компания дала годовой guidance роста добычи. Почему опасно равномерно размазать его по кварталам?
Нужно сделать поиск/подсказки по базе статей или банковских ответов. Почему разумно начать с BM25/TF-IDF, а не сразу с embeddings/RAG?
Нужно прогнозировать retention, revenue или LTV во времени. Как поставить задачу, выбрать горизонт и гранулярность, построить baseline и провести корректную временную валидацию?
Почему в кейсе доставки стоит сначала разложить путь пользователя и операционный процесс заказа, а уже потом выбирать модель?
Роутинг звонков, отсеивание отказов и метрики
Один факт о руднике встречается в годовом отчете, презентации и call transcript. Как объединить эти источники в один forecasting state?
Как перейти от revenue, seller success и buyer value в marketplace к offline-метрикам pricing/recommendation модели?
Как выбирать число draft tokens в speculative decoding и почему больше не всегда лучше?
Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?
После набора признаков для marketplace pricing/recommendation модели что делать дальше: target, split, baseline, модель и критерий запуска?
Вы обучили и провалидировали ML-модель. Какие файлы и метаданные нужно версионировать, как упаковать сервис и как безопасно выкатить новую версию?
Какие товары нельзя показывать в рекомендациях корзины и где применять эти ограничения в candidate generation/reranking?
В marketplace кейсе модель может score-ить цену, скидку, карусель или промо-тег. Как четко сформулировать output модели и downstream action?
Цели и метрики рекомендательной ленты в банковском приложении
Что вы делаете, когда Airflow DAG-и тормозят, зависают или не укладываются в scheduled window?
Какие подходы есть для обучения большой нейросети на нескольких GPU и чем они отличаются?
В item-item рекомендациях для корзины может не быть соседей: новый товар, редкий товар, новый пользователь или корзина из многих товаров. Какие fallback предусмотреть?
На LLM serving собеседовании спрашивают: знаешь ли ты что-то про FlashAttention? Как объяснить идею без ухода в низкоуровневые детали?
Что для вас надежный pipeline и как проверить, что он действительно надежен?
На собеседовании спрашивают про KV cache в LLM inference. Что это такое, зачем он нужен и какие trade-off появляются в production?
Интервьюер спрашивает, как устроен LLM agent: какие компоненты нужны и чем agent отличается от обычного вызова модели.
Что такое prefill и decode стадии при генерации LLM и почему их важно различать при оптимизации inference?
Интервьюер спрашивает про quantization: зачем она нужна, какие бывают варианты и чем можно заплатить за ускорение.
Как онлайн проверять новую модель выбора контрольных вопросов, если ошибка может пропустить мошенника или заблокировать клиента?
Нужно спроектировать AI-native продукт, который по запросу пользователя генерирует качественные motion graphics. Как выбрать между pipeline и fully agentic архитектурой, как встроить human-in-the-loop evaluation и как управлять trade-off между quality, consistency и latency?
Спроектируйте платформу, где retrieval в основном считается batch, а realtime слой меняет порядок рекомендаций по свежим user interactions.
Как наложить ограничения по категориям и комплементарности, если candidates достаются через ANN по embeddings?
У LLM-agent продукта уже есть offline benchmark: для каждого изменения видно, стала ли метрика лучше или хуже. Как превратить результаты evaluation в цикл улучшения системы, не скатываясь в слепую автоматическую оптимизацию под шумный benchmark?
Спроектируйте систему, которая по фото и метаданным объявления определяет, что в карточке или истории автомобиля появились разные машины.
Deployment, артефакты and format-drift monitoring for document ML
Большая temporal model хорошо ловит события, но слишком дорогая по latency и compute. Как сжать ее для production?
Команда меняет prompts/models/rules для invoice parsing. Как не сломать качество при каждом изменении?
Даны временные рыночные данные для HFT-задачи. Как подойти к постановке target, построению признаков, валидации и первому baseline?
Какие проблемы возникают при использовании длинного контекста в LLM и какими подходами их адресуют?
Design a semantic search layer for geo/address suggestions where users can type categories like "cafe" and expect restaurants, POIs and relevant addresses across many languages.
How would you build item embeddings from text, images/video and categorical/numerical attributes under real serving constraints?
Which offline and online metrics would you use for a similar-items recommender, and what pitfalls are easy to miss?
A bank asks a suspicious legal entity for PDF statements from other banks. Design how ML can extract compliance value from those statements.
How would you parse readable PDF bank statements from many banks into structured transactions without sending personal data to an external API?
Модель ранжирования готова. Как вывести ее в прод: offline batch или online inference?
Если новой карусели еще не было в продукте, как оценить offline precision или релевантность ее рекомендаций?
После baseline и ranker нужно объяснить production: где считаются кандидаты, где хранятся фичи, как часто пересчитывать рекомендации при изменении корзины?
Нужно построить support bot для fintech-приложения. Какие компоненты нужны и как снизить риск неправильного ответа?
Как бы ты сделал retrieval-augmented generation для короткого factual snippet в поисковой выдаче?
Как построить RAG/search систему, если корпус по масштабу похож на большой веб-поиск?
Как спроектировать ассистента, который отвечает по текущему уроку, но не раскрывает будущие материалы?
Есть последовательность embedding-ов дорожной сцены за временное окно. Нужно находить несколько редких событий интереса. Как сформулировать ML-задачу и baseline?
Как сплитовать A/B для динамической доставки, считать MDE и что проверить до запуска?
В кейсе динамической доставки почему цена или минимальная сумма заказа не должны быть target модели? Что тогда предсказывать?
При обучении MLP или бустинга для корзины какие признаки подавать: user, item, item-to-cart или category features?
Нужно спроектировать продукт: пользователь дает текстовую задачу, система делает презентацию со слайдами, таблицами и картинками. Как построить pipeline?
В LLM-инференсе есть несколько GPU-воркеров. Почему наивная round-robin маршрутизация может быть неэффективной, и как спроектировать адаптивный слой маршрутизации с учетом загрузки GPU, KV cache и длины запроса?
Нужно построить систему, которая извлекает полезные поля из PDF-инвойсов разных поставщиков. Какую архитектуру выбрать?
Чем отличаются FSDP, tensor parallelism и pipeline parallelism при обучении больших моделей?
Sketch the online architecture for query parsing, candidate generation, ranking and blending. How do services communicate and fail safely?
В международном поиске нужно показывать короткое описание объекта в карточке ответа, например для Китая. Как построить ML-систему генерации таких описаний?
Как построить датасет для модели, которая оценивает реакцию пользователя на стоимость доставки или минимальную сумму заказа?
Как спроектировать candidate generation и ranking для подбора поставщиков под закупочную заявку в маркетплейсе корпоративных закупок?
Что делать, если исторически стоимость доставки менялась редко и почти нет вариативности для обучения эластичности?
Архив дорожных сцен состоит из последовательностей кадров. Как из кадров получить вектор сегмента для поиска по тексту?
Исторические данные есть только по поставщикам, которых уже показывали или приглашали. Как понять и уменьшить selection bias, и как обращаться с losing bids?
LLM извлекает признаки из PDF-отчета: например, будущий план производства. Как проверить, что признак основан на документе, а не на внешних знаниях или догадках?
Нужно добавить LLM-агента в существующий продуктовый pipeline. Как спроектировать границы агента, tools, контекст, проверки и мониторинг?
Retriever вернул top-K чанков. Как выбрать финальный контекст для LLM и где нужен reranker?
Для marketplace pricing/recommendation модели нужно построить offline validation. Как выбрать строку датасета, train/test split и метрики, чтобы не получить красивую, но бесполезную оценку?
Модель распознавания аудио-событий должна работать на колонке/камере с CPU и ограничениями по latency, privacy и батарее. Как это спроектировать?
Есть item2vec/DSSM-подобная модель, обученная на сессиях кликов: anchor, positive рядом в сессии и negative. У товара есть текстовый embedding из LLM. Как добавить content-информацию в архитектуру?
После ANN retrieval нужно улучшить качество выдачи и понять, когда система деградирует. Как спроектировать reranker, evaluation и monitoring?
Есть доменный поиск, где generic embeddings плохо работают. Как дообучить encoder и проверить, что retrieval стал лучше?
Есть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?
Юридические документы плохо режутся фиксированным окном. Как построить chunking для legal или enterprise RAG?
Нужно получить хорошие embeddings предложений для retrieval/semantic search. Какие данные и loss использовать?
Для обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?
Есть база объявлений авто и якорное объявление. Нужно находить архивные объявления, где визуально другая машина: другой цвет, салон, колеса, кузов или ракурс. Как поставить задачу и обучить модель?
В отчете сказано: производство вырастет на 20% за год, рост начнется во второй половине года. Модели нужен прогноз по кварталам. Что должна вернуть LLM-фича?
Vision Transformer обычно работает с 2D image patches. Как перенести такой подход на дорожные video segments?
Есть LTV/retention прогноз по когортам. Для старых когорт есть 7/30/180 дней истории, а для новых есть только install или trial. Как строить прогноз уже сегодня?
Помимо ответа на free-text вопрос нужно показывать related articles. Как их формировать: заранее или в зависимости от запроса, и где нужен reranker?
Что такое KV cache, почему его можно переиспользовать при decode и от каких факторов зависит его объем?
Интервьюер спрашивает: как можно держать высокий acceptance ratio при большом числе draft tokens в speculative decoding?
У каждого заказчика свое дерево категорий: названия могут быть нормальными словами, внутренними кодами или разной глубины. Как учитывать такие категории при подборе поставщиков?
В production RAG есть FastAPI, vector DB, ranker service, MLflow, Docker и self-hosted LLM. Как описать путь запроса и зоны ответственности сервисов?
LLM-агент иногда уверенно отвечает неверно. Какие инженерные меры помогут снизить риск hallucinations в production?
Данные casino-продукта лежат в хранилище и приходят через очередь сообщений. Нужно регулярно обновлять признаки и скорить пользователей. Как спроектировать production pipeline?
Есть реальный продуктовый use case: customer support automation. Нужно сравнить два LLM/agent variants и выбрать, какой запускать. Как спроектировать evaluation: данные, offline metrics, human/LLM judging, system metrics и online validation?
Поставщика можно представить через прошлые заявки, профиль и категории. Как построить представление поставщика и какие проблемы есть у averaging request embeddings?
Есть большой архив дорожных сцен автономного автомобиля. По текстовому запросу нужно находить релевантные сегменты, например редкие ситуации с пешеходами или необычным трафиком. Как начать ML System Design?
Есть трансформерная модель рекомендаций по истории пользователя. Как сделать так, чтобы она не ломала online-сервис?
Чем Mixture-of-Experts отличается от dense модели, какие преимущества и недостатки, и как устроен router при inference?
Нужно индексировать не одиночные картинки, а последовательности дорожных кадров. Как сделать retrieval-модель и embedding index для text-to-scene search?
ANN retrieval вернул top-K дорожных сегментов. Какие metadata и model signals стоит добавить в reranker, чтобы лучше упорядочить результаты?
После градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?
После hybrid retrieval можно отдать несколько статей LLM. Когда это оправдано, а когда лучше оставить обычный reranker и список результатов?
Какие лейблы собрать для обучения выбора контрольного вопроса и как бороться с тем, что мы видим ответы только на показанные вопросы?
Запрос вроде "книга" возвращает миллион релевантных товаров. Как не скорить весь миллион тяжелой моделью?
Представьте два видеосервиса с миллиардами роликов: в одном нужно быстро находить safe-фрагменты внутри в основном unsafe-контента, в другом - unsafe-фрагменты внутри в основном safe-контента. Разметки почти нет, ресурсов и времени мало. Как бы вы строили pipeline?
Продакшен-архитектура автоматической записи по звонку
В call center нужно выбрать контрольный вопрос для верификации клиента: достаточно безопасный, но не слишком сложный. Как построить ML-систему ранжирования вопросов?
Интернет-провайдер хочет предупреждать пользователей о phishing-страницах. Как спроектировать ML-систему детекта и показа предупреждения?
Расскажите про современную архитектуру LLM и процесс обучения: какие основные этапы, данные, objective и loss используются?
В e-commerce приложении запускается TikTok-like лента видео на главной. К каждому видео привязаны товары, видео около 1500 и живут 1-2 месяца. Истории по новой поверхности нет. Как спроектировать систему рекомендаций?
Какие есть варианты attention для экономии KV cache, например Multi-Query Attention, Grouped-Query Attention и MLA?
Pipeline для PDF-инвойсов работает, но обработка стала медленной и дорогой. Как искать узкие места и оптимизировать?
До добавления reranker нужно закончить candidate retrieval. Какие решения нужны по embedding index, freshness, фильтрам и quality evaluation?
Что такое speculative decoding для LLM inference, как он ускоряет decode, и что за идея у EAGLE-подобных методов?
Как определить precision и recall для binary classifier и чему они равны для diagnostic test из задачи с rare disease?
ROC-AUC: построение и интерпретация
Расчет годового LTV подписки по retention curve
Если провести 100 независимых тестов на уровне значимости 5%, что означает два p-value ниже 0.05?
Как проводить offline и online эксперименты для рекомендательной модели? Что важно в A/B-тесте: MDE, p-value, выборка, сетевые эффекты и метрики?
Есть disease prevalence 1% и diagnostic test с 5% error rate. Если test result positive, как посчитать вероятность, что человек действительно болен, и где чаще всего ошибаются?
Есть исторические пользователи и посчитанный LTV. Как использовать bootstrap, чтобы оценить разброс LTV и получить нижнюю границу для решения о закупке трафика?
Для чего нужен bootstrap и почему он сам по себе не уменьшает дисперсию эксперимента?
Что проверять, если ranking/model metric неожиданно низкая или модель выглядит overfit/underfit?
В чем разница между FP16 и BF16 и почему BF16 часто устойчивее для обучения?
Как обучать и оценивать модель, если положительный класс редкий?
Модель хорошо работает в среднем, но у части классов низкий F1. Как диагностировать и чинить?
Нужно прогнозировать выручку пользователя за 365 дней по ранним признакам. Почему прямой подход может плохо работать?
Как считать MAP/NDCG для рекомендаций и почему этих метрик недостаточно без бизнес-связки?
Как построить систему, которая по фотографиям объявлений понимает, что в отчете оказалась другая машина, и удаляет ошибочные совпадения?
Как использовать свежие неполные когорты, если R365 для них еще неизвестен?
Чем NDCG отличается от MAP и почему такие метрики сложно напрямую оптимизировать градиентным спуском?
Чем отличаются NDCG/MAP и pairwise losses вроде BPR/WARP?
Какие бывают negative sampling стратегии в metric learning/RecSys и зачем нужны in-batch negatives?
Какими offline-метриками и ручной оценкой проверить качество генерируемых объектных ответов перед A/B тестом?
Как построить offline evaluation framework для новой модели рекомендаций и связать его с online A/B тестом?
Какие метрики смотреть, когда выкатываешь новую рекомендательную или поисковую модель?
Какие online-метрики выбрать для A/B теста карточки с генерируемым описанием и какие guardrails поставить?
Как совместно объяснить p-value, уровень значимости и доверительный интервал?
Как коротко объяснить p-value, где он применяется, и как вывести формулу Байеса через условную вероятность и полную вероятность?
В recommender system где важнее recall, а где precision?
В выборке 95 единиц и 5 нулей. Модель всегда предсказывает единицу. Посчитайте precision, recall и ROC-AUC, а затем объясните, почему такая модель плохая и какие метрики смотреть дополнительно.
Как объяснить Precision/Recall и что проверять, если модель должна обобщаться на новые регионы или географические признаки?
Что такое квантильная регрессия и когда полезно предсказывать не среднее, а, например, 90-й квантиль?
Как объяснить NDCG/recall и какие online guardrails нужны для ranking model?
В dating или matching продукте топ-профили получают львиную долю показов, а остальные растворяются. Как диагностировать и смягчить этот перекос, не убив вовлеченность?
Кандидат рассказывает про RL-проект в drug discovery. Как объяснить постановку: состояние, действие, среда, reward и метрики качества?
Что означает ROC AUC и почему его можно понимать как метрику ранжирования?
В A/B тесте динамической доставки метрики прибыли и маржи могут иметь heavy tails. Когда использовать t-test, bootstrap или z-test?
Как строить top-K похожих item и управлять компромиссом между recall, latency и стоимостью?
Какие методы снижения дисперсии применимы в продуктовых экспериментах и где место CUPED?
Describe how you would train and validate a transformer-style reranking model for marketplace recommendations.
What does the Central Limit Theorem say and why is it important in statistics and A/B testing?
How can you get a sentence embedding from BERT, how do sentence transformers differ, and why is this similar to metric learning for image pairs?
Explain why statistical significance is needed in A/B tests, what a p-value means, and what affects whether an experiment is significant.
A binary image classifier is trained with BCE loss. On validation, accuracy rises but BCE loss also rises. Can this happen and what are plausible causes?
Minimizing squared error corresponds to maximum likelihood under what noise distribution, and why?
In PyTorch DDP training, which common layer can behave badly across processes and how do teams usually handle it?
A new perception detector improves some offline metrics but degrades others. How do you decide whether to ship it to production?
Как собрать датасет для модели, которая отличает один и тот же автомобиль от визуально похожего другого?
Дизайн A/B-теста, размер выборки и p-value
Извлечение полезного контента страницы перед суммаризацией
Команда активно использует AI coding tools. Какие риски нужно контролировать и как встроить это в инженерный процесс?
После первой модели нужно понять, какие признаки оставить и стала ли модель лучше. Какие offline-метрики и проверки использовать?
Как выглядит типичная задача от бизнеса или продукта? Что вы уточняете, если приходит верхнеуровневая идея вроде поднять метрику или автоматизировать решение?
Есть генератор кандидатов и ранкер. Какие offline и online метрики смотреть для каждого этапа?
Модель получила MSE на тестовом периоде. Как понять, хороший это результат или нет?
Интервьюер спрашивает: какие метрики отслеживали и как понимали, что внедренное ML-решение действительно приносит пользу?
Две модели имеют похожие Precision@k и Recall@k, но одна приносит больше денег, потому что рекомендует более дорогие релевантные товары. Как адаптировать offline-метрику?
Есть датасет с N0 отрицательными и N1 положительными примерами. Классификатор всегда выдает одну вероятность p. Какое p минимизирует binary logloss?
Какими offline и product metrics оценивать модель, которая отправляет подозрительные объявления на модерацию?
Какие offline и online метрики считать для recommendation-системы с визуальными и текстовыми признаками?
Метрики качества для восстановления пунктуации и капитализации
Метрики классификации, ties в ROC-AUC и F1
Какие метрики смотреть для рекомендательной системы треков?
Какие метрики использовать для оценки ранжирования в рекомендациях или поиске?
Как понять, что пользователям нравится контент в новостной ленте? Какие данные мониторить и какие смещения могут искажать эти метрики?
Метрики фрод-классификатора при асимметричных ошибках
Обучение со смешанной точностью, FP16/BF16 и память
В A/B-тесте сравниваем conversion rate control и treatment. От каких компонентов зависит минимальный sample size, чтобы обнаружить статистически значимый эффект?
Как построить отчетность вокруг LLM-агента, чтобы понимать качество, пользу, ошибки и стоимость?
Офлайн-оценка дополняющих fashion-рекомендаций
Какими свойствами должны обладать embeddings для поиска, рекомендаций или сопоставления объектов?
Как учитывать сезонность в поиске и как запускать новую модель в online-эксперимент?
Теорема Байеса для болезни 1% и теста 99%
Есть 1000 монет, одна из них с орлом на обеих сторонах, остальные честные. Выбрали монету случайно и получили 10 орлов подряд. Какова вероятность, что выбрана фальшивая монета?
Как связаны центральная предельная теорема, дизайн A/B-теста и MDE?
Как объяснить p-value без ошибки “вероятность, что нулевая гипотеза верна”?
Как проверить, что новая рекомендательная лента работает, и как понять, сколько держать A/B-тест?
Как оценить качество VLM, которая генерирует описание изображения для пользователя или downstream поиска?
В маркетплейсе есть бесплатные и платные объявления. Нужно давать платным больше показов/кликов, но не портить релевантность пользователю. Как решить задачу?
Как обучить embedding-модель, чтобы поиск по фото возвращал не просто визуально похожие картинки, а товарно релевантные результаты?
Metric learning для сравнения двух машин по фото
How would you build positives and negatives for training a similar-items model, and what loss would you use?
Finding one bad counterparty is not enough. How would you compute the share of turnover that went to suspicious counterparties across heterogeneous bank statements?
Design an automatic system that checks whether a human/agent task result is good enough before delivery to a customer. How do you frame the ML problem?
Модель получает temporal embeddings, но один из event heads работает плохо. Как улучшать качество: features, post-processing, labels, hard cases?
How do you design an A/B test, estimate sample size/MDE, and handle cases where treatment and control users are not independent, such as drivers and passengers in a marketplace?
A retail video analytics model should flag suspicious behavior, but humans do not fully agree on what “suspicious” means. How would you define success and evaluate whether the system is doing a good job?
A human reviewer and an automatic checker each output a list of found errors. How do you evaluate the checker?
You have about 10,000 statement pages per night, 100 banks, one CPU server and sensitive data that cannot leave the bank. How do you allocate expensive local LLM usage?
Восстановление пунктуации и капитализации в ASR-тексте
Нужно автоматически отклонять объявления, когда признаки с фото авто противоречат введенным пользователем атрибутам. Фрод редкий, а ложные отклонения бьют по пользователям. Как обучать модель, валидировать качество и выбирать пороги?
В marketplace добавляют новую карусель или тег Deal of the Day с модельным отбором объявлений. В A/B выросла конверсия. Как понять, что сработала именно модель, а не просто новый UI/тег?
Команда говорит, что переходит от single-node векторный поиск к distributed vector retrieval system. Какие вопросы и trade-off стоит обсудить?
Deal of the Day или новая карусель дали uplift. Как проверить, что прирост вызвала модельная релевантность, а не сам UI-тег?
В команде делают LLM/agent feature. Как выбрать метрики качества, если обычная accuracy не показывает бизнес-ценность?
Для редких safety-critical событий false negative дороже false positive. Какие метрики и threshold strategy выбрать?
Моделирование LTV по многим приложениям через эмбеддинги и сегменты
Вы обучаете boosting-ранкер для рекомендаций по кликам и связкам образов. Как собрать датасет, сделать train/validation/test split и не переобучиться на популярные товары и старые показы?
Модель учится на purchase target и поднимает дешевые товары со скидками. Как ранжировать так, чтобы больше зарабатывать?
Спроектируйте поиск недвижимости без явных фильтров: пользователь вводит свободный текст. Как на первом шаге определить метрики, признаки объявлений, query/user context и базовую схему retrieval/ranking?
На тарелке может быть несколько блюд, они перемешиваются и перекрывают друг друга. Почему segmentation или metric learning не решают задачу автоматически?
В супераппе inDrive есть несколько вертикалей: такси, доставка, междугородние поездки, грузовые перевозки и курьеры. Как рекомендовать активному пользователю одной вертикали попробовать другую? Разберите метрики, данные, модель, offline-оценку и A/B-тест.
Таргеты, loss и negative sampling для ранкера социальной ленты
Как обучить эмбеддинги пользователей для matching: какую архитектуру, loss и target выбрать, если пользователям рекомендуются другие пользователи?
OCR API обрабатывает один документ за 2 секунды, на время обработки занимает 1 CPU core и 3.5-4 GB RAM. На сервере 20 cores и 64 GB RAM. Как посчитать safe throughput?
For a FastAPI-backed LLM product, when would you use Postgres, ClickHouse and Redis?
Интервьюер спрашивает, какими Linux-командами пользоваться на сервере для навигации, поиска файлов, логов и диагностики процессов.
На собеседовании спросили: сколько нулей в конце числа 100!, и как это аккуратно посчитать без вычисления самого факториала?
Интервьюер спрашивает про командную работу с Git: что делает merge, что делает rebase и когда какой подход выбирать?
Dashboard должен показывать CTR за минуты, 5 минут и часы. Как спроектировать API и хранение bucket-агрегатов?
На review ты видишь тест, который проверяет только HTTP 200. Что с ним не так и как сделать проверку полезной?
Как решать cold start для нового пользователя в ленте рекомендаций? Когда использовать popularity, user-based, item-based и content-based подходы?
Что важно при запуске CV-модели на edge-устройстве или VR-гарнитуре?
Пользователь загружает фото товара, а система должна найти похожие товары в каталоге. Когда достаточно object detection, а когда нужна segmentation?
Dropout, BatchNorm и fine-tuning на маленьких батчах
В Kafka topic 10 partitions и 100 задач: 90 задач по 90 ms и 10 задач по 1 s. Задачи равномерно лежат по partitions, внутри partition порядок последовательный. Как оценить best/worst completion time для 1, 10 и 20 consumers?
Как LightFM помогает cold start и когда в рекомендациях появляются bandits?
What improvements would you add after the baseline real-estate search works: user context, visual embeddings, VLMs, quality models or richer item representations?
How would you handle new users and new posts in a social-feed recommender with text and image content?
OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?
Команда развивает мультимодальную модель для поиска и продукта вроде нейро-ответов. Какие use cases стоит выбрать и как приоритизировать?
Что значит "репрезентативное фото" для организации в гео-продукте и как выбрать такое фото автоматически?
Что делать, если бизнес-изменение записалось в БД, а событие в Kafka не отправилось?
У товара может быть несколько фотографий: общий вид, детали, разные ракурсы. Как получить устойчивое представление товара для поиска по фото?
Как объяснить bias-variance tradeoff, почему это не только синоним underfitting/overfitting и как интерпретировать high/low bias and variance cases?
In PyTorch, what should Dataset do, what should collate_fn do, how do num_workers affect this, and where should .to(device) usually happen?
Compare REST and gRPC at a high level. Then explain what a database index does and what simple data structures can back an index.
Multiple threads update individual pixels of the same screen. What can go wrong, and how would you design synchronization?
Multiple clients send pixel updates to a central server over the internet. What transport/protocol would you use and what tradeoffs matter?
Как построить сервис, который по текстовому запросу генерирует презентацию и PDF?
Разберите мультимодальный fashion-рекомендер совместимых вещей: генерацию кандидатов, эмбеддинги, разметку образов, hard negatives, reranking и то, что не сработало.
Есть две одинаковые неоднородные веревки. Каждая полностью сгорает за 60 минут, но скорость горения по длине неизвестна. Есть зажигалка. Как отмерить 45 минут?
Пользователь повторно отправил запрос на пополнение баланса. Как сделать endpoint идемпотентным?
Как Redis обрабатывает запросы внутри и за счет чего отдельные команды выглядят атомарными и согласованными для клиента?
Как адаптировать имеющуюся модель под новые задачи? Какие варианты вы бы рассмотрели и от чего зависит выбор?
Агент генерирует презентации/таблицы/документы. Как хранить версии артефактов и поддерживать откат/редактирование?
В датасете есть missing values и шумные признаки. Как системно обработать их до обучения и в production?
Для realtime CTR dashboard нужно описать Kafka/event log. Какая схема события нужна и по какому ключу партиционировать?
Когда накопившийся технический долг оправдывает переписывание сервиса или ML-платформы с нуля, а когда лучше улучшать систему итеративно?
В микросервисной системе сервисы общаются через API и события. Как документировать и проверять контракты, чтобы релизы не ломали consumers?
Fashion item-to-item рекомендации возвращают много почти одинаковых вещей. Как разделить ответственность retrieval, ranking и reranking, чтобы сохранить релевантность и добавить разнообразие?
В time-series табличной задаче кандидат выбирает CatBoost. Как объяснить выбор и какой baseline нужен?
Какие риски возникают при применении RL к trading/market-making задачам?
Представления пользователя и поста для мультимодальной ленты
Разбиение данных и утечки в фрод-модели
Разбор training loop на PyTorch для многоклассовой классификации
Какие базовые семейства алгоритмов есть в рекомендациях и что делать с cold start?
Сжатие моделей и catastrophic forgetting
Пользователь создал презентацию, PDF и таблицу, а потом просит "отсортируй это". Как понять, к чему относится команда?
Как тестировать и выкатывать prompt changes в LLM-продукте?
Что делать, если продукт хочет модель, а данных нет
ASR+LLM бейзлайн для извлечения записи клиента из звонка
Объясните scaled dot-product attention, его сложность, и зачем нужны GQA/MQA и Sliding Window Attention.
Объясните scaled dot-product attention, зачем Transformer нужны positional embeddings, как работает BPE-токенизация и в чем идея LoRA при fine-tuning.
Какие backend-компоненты нужны для LLM-продукта с tools, cache и долгими задачами?
Stream job считает CTR по окнам и падает посередине часа. Как не потерять данные и не задвоить агрегаты?
Есть робот-кассир: пользователь ставит поднос с едой, система делает фото и за пару секунд должна распознать блюда и сформировать чек. Как спроектировать ML-систему?
If the old product used filters rather than free-form text, how would you train a query parser or query encoder before real text-query logs exist?
Design a similar-items recommender for 1M items when the current collaborative model fails on cold-start items and misses semantic similarity.
A video analytics product watches kitchen staff and must check whether people follow location-specific safety protocols. The system needs kitchen rules, time of day and staff context. How would you design the approach?
You have a categorical feature such as port_id. Compare one-hot encoding with historical target aggregates for tree models, and explain the leakage risks.
How would you design an LLM-agent loop that checks a task output using tools such as file reading, web access or document inspection?
Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?
Undo/redo для движка формул как в Excel
How would you handle geography in free-form real-estate queries and keep retrieval fast for millions of listings and high QPS?
A speech product collects user audio. How would you filter and route audio snippets for ASR/TTS training data without poisoning the dataset?
Дизайн сервиса суммаризации URL и текста
Большая нейросетевая RecSys-модель дает хороший offline quality, но ее нужно держать в рантайме. Что оптимизировать?
Проекту нужно повторить плохо документированный legacy-протокол. Как подойти к исследованию и реализации, если часть поведения приходится восстанавливать по трафику и старой системе?
Есть поток биржевых событий: price, exchange timestamp, local timestamp и два канала доставки primary/secondary. Как понять, все ли в порядке с данными?
В ranker нужно добавить новые признаки товара, пользователя и запроса. Что считать offline, а что online?
Как на уровне Kafka/очереди рассуждать про replication, min.insync.replicas, acknowledgements и CAP trade-off, если нужно не терять сообщения при отказах?
Система развернута в двух дата-центрах, целевой SLA выше 99.95. Какие архитектурные решения помогают не уронить весь продукт при отказе одного узла или сервиса?
В части событий secondary feed приходит быстрее primary. Как охарактеризовать эти случаи и найти причину?
Нужно спроектировать рекомендательную систему или ML-платформу с нуля. Как выбирать архитектуру, данные, candidate generation и ranking?
Шумные ASR-аннотации и агрегация расшифровок
Есть 100 собак и 100 кошек. 50 собак и 40 кошек весят больше 5 кг. Пусть B — животное является кошкой, A — животное весит больше 5 кг. Найдите P(A | B).
Честная монета: ровно 6 орлов за 10 бросков
Почему высокая accuracy медицинского теста не означает высокую вероятность болезни после положительного результата?
Зачем используют BatchNorm? Как он работает во время training и чем поведение отличается на inference?
BatchNorm при обучении, инференсе и multi-GPU
Как решать probability-задачу с большим числом независимых одинаковых испытаний?
Как связаны PDF, CDF, fitting распределения и теорема Байеса?
Дана серия бросков монеты с H heads и T tails. Как через maximum likelihood оценить probability of heads p и как проверить, что найден maximum?
MLE для смещенной монеты
Опишите алгоритм reservoir sampling для одного элемента из потока и объясните, почему каждый увиденный элемент выбирается с одинаковой вероятностью.
Как посчитать вероятность хотя бы одного орла в 10 бросках честной монеты?
Векторное пространство, span и базис
What is a probability space? What is a set of measure zero and why can a finite or countable set have probability zero in a continuous distribution?
Объясните закон больших чисел и центральную предельную теорему. Что получится с распределением среднего, если много раз брать подвыборки по 100 наблюдений и считать среднее?
В какой момент применяется temperature при генерации LLM, какая формула scaling и что происходит после softmax?
Как меняется распределение выбранных чисел, если для каждого query выбирать число с максимальным XOR?
Есть монетка с неизвестной вероятностью орла p, 0 < p < 1. Как получить честный случайный бит 0/1, используя броски этой нечестной монетки?
Что такое linear regression, как получить аналитическое OLS-решение, когда оно не существует и при каких assumptions MLE дает тот же оптимум?
Как объяснить роль A/B-теста при проверке изменений в рекомендательной системе?
Как объяснить сложность алгоритма и формальное определение O-большого через константы и размер входа?
Explain what a convolutional neural network is to senior engineers who do not specialize in ML. Keep it accurate but accessible.
Из каких двух основных этапов обычно состоит рекомендательная система? Объясните candidate generation и ranking коротко, но не поверхностно.
Насколько важно дата-сайентисту понимать бизнес-логику того, как пользователи попали в приложение? Достаточно ли просто событий из базы?
OLX хочет единый recommendation API для motors, jobs, real estate и других touchpoints. Как спроектировать интерфейс и ownership?
Как организовать code review в backend-команде, чтобы сохранять качество и одновременно растить знание кодовой базы у команды?
Какие implicit сигналы можно использовать вместо явных оценок, и какие у них риски?
You are given an uncertain research-heavy ML project that eventually must be shipped as a working артефакт. How do you decompose the work and communicate progress?
When would you use a pure collaborative ALS or matrix-factorization baseline for a social feed, and what are its limitations?
Как построить target для реранкера товаров, если есть логи показов, кликов, корзины и покупок?
How would you evaluate and improve a summarization service if user feedback is sparse or unavailable?
What is your view on using modern GenAI or vibe-coding tools for software and ML work, and where do they fail today?
Опиши end-to-end цикл ML-задачи: от идеи и данных до выката модели, приемки результата и мониторинга.
Мы посчитали LTV, например 37.37. Маркетолог спрашивает, насколько этому числу можно доверять, потому что от него зависит покупка трафика. Как ответить?
Есть только история взаимодействий пользователей с треками. Как построить первую рекомендательную систему?
PM приходит с marketplace ML задачей: улучшить цену, рекомендацию или промо-блок объявления. Какие вопросы и метрики нужно обсудить до выбора модели?
Если не смотреть только на продуктовые события внутри приложения, какие сигналы стоит получить у стейкхолдеров, чтобы улучшить прогноз или рекомендационную систему?
Игрок только пришел в casino-продукт. Какие признаки можно собрать в первые дни, чтобы отличить потенциального VIP от обычного игрока?
Откуда брать лейблы для phishing detection и как не попасть в feedback loop после запуска предупреждений?
Можно ли дообучать модель на данных, которые сгенерировала текущая модель доставки? Какие риски?
If you train on feedback from the previous recommender, what biases can appear and how can you reduce them?
Модель редких событий вышла в production. Как построить feedback loop: мониторинг, data drift, retraining и регулярную разметку?
Cross-encoder или learning-to-rank reranker можно обучать не только на ручной разметке. Какие online-сигналы полезны для поиска по статьям?
После запуска новой модели доставки появляются свежие данные. Как понять, можно ли включать их в обучение следующей версии?