Что такое receptive field в CNN? Какой receptive field у одной свертки 5x5 и у двух последовательных 3x3, и где меньше параметров?
Банк вопросов из реальных собеседований
Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.
Все вопросы
673Полный банк вопросов из реальных собеседований.
ML-теория
119Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.
Python
67Устройство языка, структуры данных, тестирование и инженерная база.
SQL
12Запросы, агрегации, оконные функции и объяснение результата.
ML System Design
259Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.
Метрики и A/B
101Качество моделей, продуктовые метрики, эксперименты и валидация.
Продуктовые кейсы
72Как разложить задачу продукта, ограничения, риски и первый бейзлайн.
Математика и статистика
18Вероятность, статистика, оценки, распределения и аккуратные допущения.
Behavioral Interview
25Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.
ML-теория
119 вопросов из реальных интервью
Explain how dropout behaves during training and inference. Why does the implementation need scaling, and what is inverted dropout?
Назовите специфичные для нейросетей способы борьбы с переобучением. Какие способы аугментации данных можно использовать в Computer Vision?
Как бороться с переобучением модели? Чем может быть опасна синтетика и зачем нужен разбиение данных?
Что такое семантическая сегментация? Чем она отличается от instance segmentation? Как работает свертка в CNN?
Что такое токенизация и зачем она нужна в задачах обработки текста? Чем отличаются Bag of Words, TF-IDF и embeddings, например word2vec?
Интервьюер спрашивает: если рассматривать логистическую регрессию, чем она похожа на линейную и чем отличается?
Чем bagging отличается от boosting, где применяются random forest и gradient boosting, и что сказать про склонность к переобучению?
Чем отличаются bagging и gradient boosting? Что будет, если убрать одно дерево из Random Forest и из gradient boosting, и как деревья могут переобучаться на редких категориальных признаках?
Почему Random Forest обычно снижает variance по сравнению с одним деревом и какие trade-offs остаются?
Как CatBoost кодирует категориальные признаки и почему это не дает leakage?
Как работает CLIP-модель и как она обучается? В чем high-level отличие SigLIP-style обучения от классического CLIP?
Есть модель для first-person VR/fisheye, а нужно работать на flat third-person видео. Как переносить качество?
Почему feature importance может обманывать, если признаки сильно коррелируют?
Как использовать графовые модели в рекомендациях? В чем отличие GCN от GraphSAGE и neighbor sampling подходов?
В object detection почему для box regression часто используют IoU-style loss, а не обычный MSE по координатам углов bounding box?
Как сделать рекомендации сочетаемой одежды: embeddings, ограничения по категориям, nearest neighbors и reranker?
Что сказать про линейное программирование, simplex-метод и жадные алгоритмы, если спрашивают на техническом ML-интервью?
Как связаны matrix equation, least squares, gradient descent и L1/L2 regularization?
Как построить logo detection для множества брендов и вариантов логотипов, если ручная bbox-разметка дорогая?
Что такое LoRA? Почему она полезна для fine-tuning больших моделей? Как обычно инициализируют low-rank матрицы, чтобы не исказить базовую модель на старте?
Опиши механизм LoRA. Если LoRA и classic adapters дают одинаковое качество, что выбрать для inference?
Чем LoRA отличается от полного fine-tuning, какие ограничения появляются при multi-GPU обучении LLM и чем RLHF-подход отличается от классического RL?
You can find posts similar to a given post. How do you turn that into user-level candidate generation for a feed?
For a port waiting-time model, what features would you build beyond timestamp features, and how would you detect anomalies or broken tracking data?
What should the output schema of an automatic task checker look like if humans also produce lists of found errors?
Как бороться с переобучением модели? Объясните L1/L2, dropout 0.5 и что происходит с dropout на inference.
Как сделать так, чтобы события одной кампании попадали к нужному worker и корректно агрегировались?
Сравни pointwise, pairwise и listwise подходы для ранжирования видео в рекомендательной ленте.
Команда хочет улучшить качество VLM в продукте. Когда достаточно prompt engineering, когда нужен fine-tuning, а когда лучше улучшать данные?
PyTorch: view против reshape
Что такое regularization, как работает dropout и почему поведение отличается на train и inference?
Как сформулировать RL-задачу для оптимизации молекул и почему direct optimization может быть недостаточной?
Объясните SASRec как последовательную рекомендательную модель, устройство self-attention в Transformer и отличие SASRec от BERT4Rec.
Что такое skip connection и почему residual-связи помогают обучать глубокие сети?
Что такое stride и padding в сверточной сети, и как они влияют на размер feature map?
Что такое systematic exploration в reinforcement learning, зачем оно нужно и почему это проблема?
Объясните основные параметры генерации LLM: temperature, max length, top-k и top-p. Как они влияют на ответы support bot?
Как построить feature matrix на регулярной 100 ms сетке из нерегулярных trades и order book events?
Какие риски возникают при использовании multilingual transformer для китайского/международного поиска и как их диагностировать?
Какие сигналы обычно извлекают из trades и order book при HFT-задаче прогноза цены?
Какие сигналы и loss-функции использовать для обучения recommendation/ranking модели?
Transformer attention, токенизация и cross-attention
Как использовать transformer в рекомендациях и чем это отличается от RNN-подхода?
Слышали ли вы про модели transformers? Чем они отличаются от RNN и почему они популярны в NLP?
Как обучать LSTM на последовательности длиной 100k шагов, если полный backprop слишком дорогой?
Можно ли добавлять теги от VLM/image captioning модели в поиск по фото? Где они помогут, а где навредят?
База Transformer: токены, positional encoding и cross-attention
Коротко объясните, из каких блоков состоит Transformer и какую роль играет attention.
Важность признаков в линейных моделях при мультиколлинеарности
Для задачи матчинга фото еды и категорий что выбрать: CLIP-подход или supervised multilabel classifier?
Когда выбирать линейную модель, а когда tree-based model или boosting?
If a YOLO-style detector was trained at one image resolution, what can happen if you run inference at a different resolution? When is it technically possible?
Which lightweight model would you use to extract fields such as INN, amount, date and payment purpose from noisy statement text, and what should it output?
What are the main generation/inference hyperparameters of an LLM and how do they affect output?
Что такое градиент и почему в глубоких сетях возникает затухающий градиент?
Чем gradient boosting отличается от Random Forest и где в бустинге появляется градиент?
Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?
Есть дискриминативные и генеративные модели. Чем они отличаются с математической точки зрения? Приведите примеры современных генеративных моделей.
Как объединить текстовые и визуальные сигналы в одном retrieval/ranking пространстве?
Почему нельзя просто полностью fine-tune всю LLM? Что выигрывает LoRA и как это влияет на batch size?
В PyTorch inference код часто оборачивают в `torch.no_grad()`. Что это дает и когда это важно?
Почему residual connections помогают обучать глубокие сети?
Интуиция Adam, momentum и RMSProp
Как дерево в gradient boosting выбирает split с учетом loss function?
Как обнаруживать overfitting и чем регуляризовать
Объясните интуицию gradient boosting: что учит каждое следующее дерево и как это связано с loss.
Как работает LoRA fine-tuning
Объясни технически, что делает LoRA при дообучении большой модели и почему это экономит память.
Объясните self-attention и основные блоки трансформера так, чтобы было понятно без формального вывода.
В модели есть категориальные признаки товара и пользователя. Как их кодировать и где возникают риски?
Есть рекомендации похожих или сочетаемых товаров. Какие источники кандидатов и признаки можно использовать?
Модель сегментирует объект в видео, но маска мерцает и ломается при взаимодействии с человеком. Что делать?
Как устроены числа с плавающей точкой? Чем bfloat16 отличается от float16 и почему его используют в нейросетях?
После retrieval есть набор кандидатов. Какие признаки использовать для реранжирования и что можно считать заранее?
Какие события, сущности и масштабы нужно уточнить перед проектированием ads CTR dashboard?
По данным с primary и secondary feed нужно понять, через какой канал события приходят на сервер раньше. Как это посчитать корректно?
Почему transformer может быть полезен для поиска/рекомендаций, и когда он избыточен?
Когда одно дерево решений может обойти Random Forest
Как объяснить линейную регрессию, MSE и почему аналитическое решение через матрицу не всегда удобно?
Какие агрегаты считать по campaign_id и минутному окну, чтобы строить CTR график?
Какие loss, backbone и augmentations уместны для embeddings-модели, сравнивающей изображения объектов?
Для бинарной классификации есть очень много признаков. Какие проблемы это создает, как заметить переобучение и как подбирать гиперпараметры без утечки в тест?
Как детектировать посты, которые не соответствуют выбранному тегу игры: если есть сильная VLM-модель и если ресурсы ограничены?
Если item2vec обучен на последовательностях кликов в сессиях, почему это ближе к collaborative filtering, а не к content-based модели?
Какой смысл имеет time dimension в LSTM input и почему порядок шагов важен?
Почему нулевая инициализация ломает нейросети
Почему современные subword tokenizers вроде BPE/SentencePiece редко используют unknown token, и какие trade-off есть у такого подхода?
Какие особенности и риски есть у item-to-item рекомендаций в fashion каталоге?
GPT генерирует autoregressive, токен за токеном. Сколько forward-pass нужно сделать для одного training batch и почему?
Какая минимальная схема события нужна в Kafka для подсчета CTR кампаний?
Устойчивость градиентов, активации, skip connections и инициализация
Какие признаки подать в модель ранжирования товаров в поиске маркетплейса?
3D-сегментация dental lesions при ограниченной разметке
ASR для low-resource языка, когда Whisper не справляется
Как работает Distributed Data Parallel training и почему overlap gradient all-reduce с backprop помогает ускорить обучение?
Компания генерирует текстовые user profiles из истории пользователя с помощью GPT-like модели. Как использовать такие профили в recommender system?
При обучении на сотнях тысяч токенов обычный/Flash Attention все равно не помещается в GPU. Что раздувает память и какие классы решений есть?
How would you train the ranker for real-estate search, choose negatives, and blend paid monetized listings without destroying relevance?
How would you use векторный поиск, user clustering and domain-specific text/image embeddings to improve a social-feed recommender?
How would you train a two-tower or CLIP-like text-image recommender using user-post interactions?
How would you build and validate a training dataset for extracting transaction fields from many bank-statement formats with limited human labeling?
Какие проблемы есть у in-batch negatives и как обучать embeddings объявлений, если пользовательских действий еще нет?
Каталог содержит много цветов и текстовых описаний, а пользователи ищут по фото. Как извлекать и использовать цветовые атрибуты, если словарь не полностью закрыт?
Что такое self-distillation и зачем модель учить на собственных предсказаниях? Как устроен DINO-style teacher-student подход?
Есть много неразмеченных driving/log sequences и мало labels для редких событий. Какие self-supervised подходы можно использовать до supervised fine-tuning?
Почему UCB может быть плохой идеей при 1000 actions и горизонте 2000 или 20 шагов? Что делать вместо этого?
Большая VLM неплохо распознает блюда, если дать ей фото и меню, но отвечает десятки секунд. Как использовать такую модель в продукте с жестким latency?
Есть много фотографий ресторана и фиксированные категории еды. Как выбрать наиболее подходящее фото для категории в поисковой выдаче?
При autoregressive generation модель генерирует токены по одному. Что такое KV cache и как он ускоряет inference?
На странице конкретного автомобиля все пользователи видят одинаковые item-to-item рекомендации. Как добавить персонализацию, сохранив связь с текущим item и низкую latency?
Есть числовые, категориальные и поведенческие признаки пользователя и товара. Как превратить их во вход трансформера?
Пользователь пишет свободный текстовый запрос по недвижимости, в котором могут быть частые атрибуты и редкие бытовые детали. Как превратить такой query в кандидатов через structured attributes, полнотекстовый поиск и векторный поиск?
На какие сущности уходит GPU memory при обучении LLM, и почему KV cache обычно используют на inference, а не на training?
Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?
Модель на временном ряде показывает хороший offline score, но в реальности не работает. Какие причины проверить первыми?
На ревью notebook для временного ряда нужно найти leakage. Что проверять в feature generation и split?
Токенизация и BERT-style разметка против autoregressive rewriting
Спроектируйте систему, которая ищет в интернете потенциальные нарушения бренда и фильтрует массу нерелевантных результатов для 1000+ клиентов.