Как определить precision и recall для binary classifier и чему они равны для diagnostic test из задачи с rare disease?
Банк вопросов из реальных собеседований
Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.
Все вопросы
673Полный банк вопросов из реальных собеседований.
ML-теория
119Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.
Python
67Устройство языка, структуры данных, тестирование и инженерная база.
SQL
12Запросы, агрегации, оконные функции и объяснение результата.
ML System Design
259Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.
Метрики и A/B
101Качество моделей, продуктовые метрики, эксперименты и валидация.
Продуктовые кейсы
72Как разложить задачу продукта, ограничения, риски и первый бейзлайн.
Математика и статистика
18Вероятность, статистика, оценки, распределения и аккуратные допущения.
Behavioral Interview
25Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.
Метрики и A/B
101 вопрос из реальных интервью
ROC-AUC: построение и интерпретация
Расчет годового LTV подписки по retention curve
Если провести 100 независимых тестов на уровне значимости 5%, что означает два p-value ниже 0.05?
Как проводить offline и online эксперименты для рекомендательной модели? Что важно в A/B-тесте: MDE, p-value, выборка, сетевые эффекты и метрики?
Есть disease prevalence 1% и diagnostic test с 5% error rate. Если test result positive, как посчитать вероятность, что человек действительно болен, и где чаще всего ошибаются?
Есть исторические пользователи и посчитанный LTV. Как использовать bootstrap, чтобы оценить разброс LTV и получить нижнюю границу для решения о закупке трафика?
Для чего нужен bootstrap и почему он сам по себе не уменьшает дисперсию эксперимента?
Что проверять, если ranking/model metric неожиданно низкая или модель выглядит overfit/underfit?
В чем разница между FP16 и BF16 и почему BF16 часто устойчивее для обучения?
Как обучать и оценивать модель, если положительный класс редкий?
Модель хорошо работает в среднем, но у части классов низкий F1. Как диагностировать и чинить?
Нужно прогнозировать выручку пользователя за 365 дней по ранним признакам. Почему прямой подход может плохо работать?
Как считать MAP/NDCG для рекомендаций и почему этих метрик недостаточно без бизнес-связки?
Как построить систему, которая по фотографиям объявлений понимает, что в отчете оказалась другая машина, и удаляет ошибочные совпадения?
Как использовать свежие неполные когорты, если R365 для них еще неизвестен?
Чем NDCG отличается от MAP и почему такие метрики сложно напрямую оптимизировать градиентным спуском?
Чем отличаются NDCG/MAP и pairwise losses вроде BPR/WARP?
Какие бывают negative sampling стратегии в metric learning/RecSys и зачем нужны in-batch negatives?
Какими offline-метриками и ручной оценкой проверить качество генерируемых объектных ответов перед A/B тестом?
Как построить offline evaluation framework для новой модели рекомендаций и связать его с online A/B тестом?
Какие метрики смотреть, когда выкатываешь новую рекомендательную или поисковую модель?
Какие online-метрики выбрать для A/B теста карточки с генерируемым описанием и какие guardrails поставить?
Как совместно объяснить p-value, уровень значимости и доверительный интервал?
Как коротко объяснить p-value, где он применяется, и как вывести формулу Байеса через условную вероятность и полную вероятность?
В recommender system где важнее recall, а где precision?
В выборке 95 единиц и 5 нулей. Модель всегда предсказывает единицу. Посчитайте precision, recall и ROC-AUC, а затем объясните, почему такая модель плохая и какие метрики смотреть дополнительно.
Как объяснить Precision/Recall и что проверять, если модель должна обобщаться на новые регионы или географические признаки?
Что такое квантильная регрессия и когда полезно предсказывать не среднее, а, например, 90-й квантиль?
Как объяснить NDCG/recall и какие online guardrails нужны для ranking model?
В dating или matching продукте топ-профили получают львиную долю показов, а остальные растворяются. Как диагностировать и смягчить этот перекос, не убив вовлеченность?
Кандидат рассказывает про RL-проект в drug discovery. Как объяснить постановку: состояние, действие, среда, reward и метрики качества?
Что означает ROC AUC и почему его можно понимать как метрику ранжирования?
В A/B тесте динамической доставки метрики прибыли и маржи могут иметь heavy tails. Когда использовать t-test, bootstrap или z-test?
Как строить top-K похожих item и управлять компромиссом между recall, latency и стоимостью?
Какие методы снижения дисперсии применимы в продуктовых экспериментах и где место CUPED?
Describe how you would train and validate a transformer-style reranking model for marketplace recommendations.
What does the Central Limit Theorem say and why is it important in statistics and A/B testing?
How can you get a sentence embedding from BERT, how do sentence transformers differ, and why is this similar to metric learning for image pairs?
Explain why statistical significance is needed in A/B tests, what a p-value means, and what affects whether an experiment is significant.
A binary image classifier is trained with BCE loss. On validation, accuracy rises but BCE loss also rises. Can this happen and what are plausible causes?
Minimizing squared error corresponds to maximum likelihood under what noise distribution, and why?
In PyTorch DDP training, which common layer can behave badly across processes and how do teams usually handle it?
A new perception detector improves some offline metrics but degrades others. How do you decide whether to ship it to production?
Как собрать датасет для модели, которая отличает один и тот же автомобиль от визуально похожего другого?
Дизайн A/B-теста, размер выборки и p-value
Извлечение полезного контента страницы перед суммаризацией
Команда активно использует AI coding tools. Какие риски нужно контролировать и как встроить это в инженерный процесс?
После первой модели нужно понять, какие признаки оставить и стала ли модель лучше. Какие offline-метрики и проверки использовать?
Как выглядит типичная задача от бизнеса или продукта? Что вы уточняете, если приходит верхнеуровневая идея вроде поднять метрику или автоматизировать решение?
Есть генератор кандидатов и ранкер. Какие offline и online метрики смотреть для каждого этапа?
Модель получила MSE на тестовом периоде. Как понять, хороший это результат или нет?
Интервьюер спрашивает: какие метрики отслеживали и как понимали, что внедренное ML-решение действительно приносит пользу?
Две модели имеют похожие Precision@k и Recall@k, но одна приносит больше денег, потому что рекомендует более дорогие релевантные товары. Как адаптировать offline-метрику?
Есть датасет с N0 отрицательными и N1 положительными примерами. Классификатор всегда выдает одну вероятность p. Какое p минимизирует binary logloss?
Какими offline и product metrics оценивать модель, которая отправляет подозрительные объявления на модерацию?
Какие offline и online метрики считать для recommendation-системы с визуальными и текстовыми признаками?
Метрики качества для восстановления пунктуации и капитализации
Метрики классификации, ties в ROC-AUC и F1
Какие метрики смотреть для рекомендательной системы треков?
Какие метрики использовать для оценки ранжирования в рекомендациях или поиске?
Как понять, что пользователям нравится контент в новостной ленте? Какие данные мониторить и какие смещения могут искажать эти метрики?
Метрики фрод-классификатора при асимметричных ошибках
Обучение со смешанной точностью, FP16/BF16 и память
В A/B-тесте сравниваем conversion rate control и treatment. От каких компонентов зависит минимальный sample size, чтобы обнаружить статистически значимый эффект?
Как построить отчетность вокруг LLM-агента, чтобы понимать качество, пользу, ошибки и стоимость?
Офлайн-оценка дополняющих fashion-рекомендаций
Какими свойствами должны обладать embeddings для поиска, рекомендаций или сопоставления объектов?
Как учитывать сезонность в поиске и как запускать новую модель в online-эксперимент?
Теорема Байеса для болезни 1% и теста 99%
Есть 1000 монет, одна из них с орлом на обеих сторонах, остальные честные. Выбрали монету случайно и получили 10 орлов подряд. Какова вероятность, что выбрана фальшивая монета?
Как связаны центральная предельная теорема, дизайн A/B-теста и MDE?
Как объяснить p-value без ошибки “вероятность, что нулевая гипотеза верна”?
Как проверить, что новая рекомендательная лента работает, и как понять, сколько держать A/B-тест?
Как оценить качество VLM, которая генерирует описание изображения для пользователя или downstream поиска?
В маркетплейсе есть бесплатные и платные объявления. Нужно давать платным больше показов/кликов, но не портить релевантность пользователю. Как решить задачу?
Как обучить embedding-модель, чтобы поиск по фото возвращал не просто визуально похожие картинки, а товарно релевантные результаты?
Metric learning для сравнения двух машин по фото
How would you build positives and negatives for training a similar-items model, and what loss would you use?
Finding one bad counterparty is not enough. How would you compute the share of turnover that went to suspicious counterparties across heterogeneous bank statements?
Design an automatic system that checks whether a human/agent task result is good enough before delivery to a customer. How do you frame the ML problem?
Модель получает temporal embeddings, но один из event heads работает плохо. Как улучшать качество: features, post-processing, labels, hard cases?
How do you design an A/B test, estimate sample size/MDE, and handle cases where treatment and control users are not independent, such as drivers and passengers in a marketplace?
A retail video analytics model should flag suspicious behavior, but humans do not fully agree on what “suspicious” means. How would you define success and evaluate whether the system is doing a good job?
A human reviewer and an automatic checker each output a list of found errors. How do you evaluate the checker?
You have about 10,000 statement pages per night, 100 banks, one CPU server and sensitive data that cannot leave the bank. How do you allocate expensive local LLM usage?
Восстановление пунктуации и капитализации в ASR-тексте
Нужно автоматически отклонять объявления, когда признаки с фото авто противоречат введенным пользователем атрибутам. Фрод редкий, а ложные отклонения бьют по пользователям. Как обучать модель, валидировать качество и выбирать пороги?
В marketplace добавляют новую карусель или тег Deal of the Day с модельным отбором объявлений. В A/B выросла конверсия. Как понять, что сработала именно модель, а не просто новый UI/тег?
Команда говорит, что переходит от single-node векторный поиск к distributed vector retrieval system. Какие вопросы и trade-off стоит обсудить?
Deal of the Day или новая карусель дали uplift. Как проверить, что прирост вызвала модельная релевантность, а не сам UI-тег?
В команде делают LLM/agent feature. Как выбрать метрики качества, если обычная accuracy не показывает бизнес-ценность?
Для редких safety-critical событий false negative дороже false positive. Какие метрики и threshold strategy выбрать?
Моделирование LTV по многим приложениям через эмбеддинги и сегменты
Вы обучаете boosting-ранкер для рекомендаций по кликам и связкам образов. Как собрать датасет, сделать train/validation/test split и не переобучиться на популярные товары и старые показы?
Модель учится на purchase target и поднимает дешевые товары со скидками. Как ранжировать так, чтобы больше зарабатывать?
Спроектируйте поиск недвижимости без явных фильтров: пользователь вводит свободный текст. Как на первом шаге определить метрики, признаки объявлений, query/user context и базовую схему retrieval/ranking?
На тарелке может быть несколько блюд, они перемешиваются и перекрывают друг друга. Почему segmentation или metric learning не решают задачу автоматически?
В супераппе inDrive есть несколько вертикалей: такси, доставка, междугородние поездки, грузовые перевозки и курьеры. Как рекомендовать активному пользователю одной вертикали попробовать другую? Разберите метрики, данные, модель, offline-оценку и A/B-тест.
Таргеты, loss и negative sampling для ранкера социальной ленты
Как обучить эмбеддинги пользователей для matching: какую архитектуру, loss и target выбрать, если пользователям рекомендуются другие пользователи?