Назад к тренажеру

Банк вопросов из реальных собеседований

Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.

Все вопросы

Полный банк вопросов из реальных собеседований.

ML-теория

Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.

Python

Устройство языка, структуры данных, тестирование и инженерная база.

SQL

Запросы, агрегации, оконные функции и объяснение результата.

ML System Design

Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.

Метрики и A/B

Качество моделей, продуктовые метрики, эксперименты и валидация.

Продуктовые кейсы

Как разложить задачу продукта, ограничения, риски и первый бейзлайн.

Математика и статистика

Вероятность, статистика, оценки, распределения и аккуратные допущения.

Behavioral Interview

Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.

Продуктовые кейсы

72 вопроса из реальных интервью

Открыть в общем банке

Темы

Сложность

Компания

Язык

Поиск

ВопросКомпанияИсточникДействие

Продуктовые кейсыEasy

Throughput OCR-сервиса по CPU и RAM

OCR API обрабатывает один документ за 2 секунды, на время обработки занимает 1 CPU core и 3.5-4 GB RAM. На сервере 20 cores и 64 GB RAM. Как посчитать safe throughput?

capacity-planningperformancebackendthroughput

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыEasy

Вопрос про production ML

For a FastAPI-backed LLM product, when would you use Postgres, ClickHouse and Redis?

FastAPIPostgresClickHouseRedis

LLM-роль в Dubai, компания не подтверждена

Вопрос про production ML на скрининге · LLM-роль в Dubai, компания не подтверждена

Открыть вопрос

Продуктовые кейсыEasy

Какие Linux-команды нужны для диагностики сервера

Интервьюер спрашивает, какими Linux-командами пользоваться на сервере для навигации, поиска файлов, логов и диагностики процессов.

linuxopsdebuggingserver

FlameTree

Вопрос про production ML на техническом собеседовании · FlameTree

Открыть вопрос

Продуктовые кейсыEasy

Нули в конце 100!

На собеседовании спросили: сколько нулей в конце числа 100!, и как это аккуратно посчитать без вычисления самого факториала?

Факториалnumber-theoryМатематикаprime-factorization

Dubai Tech

Техническое собеседование

Открыть вопрос

Продуктовые кейсыEasy

Чем отличается git merge от rebase

Интервьюер спрашивает про командную работу с Git: что делает merge, что делает rebase и когда какой подход выбирать?

gitсценарииversion-controlengineering-hygiene

FlameTree

Вопрос про production ML на техническом собеседовании · FlameTree

Открыть вопрос

Продуктовые кейсыMedium

API и bucket sizes для CTR dashboard

Dashboard должен показывать CTR за минуты, 5 минут и часы. Как спроектировать API и хранение bucket-агрегатов?

apitime-seriesdashboardАгрегация

Ads / Marketplace

Вопрос про production ML на техническом собеседовании

Открыть вопрос

Продуктовые кейсыMedium

Backend-тесты не только на status 200

На review ты видишь тест, который проверяет только HTTP 200. Что с ним не так и как сделать проверку полезной?

testingbackendapitest-design

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыMedium

Cold start в рекомендациях для нового пользователя

Как решать cold start для нового пользователя в ленте рекомендаций? Когда использовать popularity, user-based, item-based и content-based подходы?

cold startuser-based recommendationsitem-based recommendationscontent features

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыMedium

CV-модель на edge-устройстве

Что важно при запуске CV-модели на edge-устройстве или VR-гарнитуре?

Edge-инференсquantizationTensorRTONNX

Infomediji

Вопрос про production ML на техническом собеседовании · Infomediji

Открыть вопрос

Продуктовые кейсыMedium

Detection или segmentation для поиска по фото

Пользователь загружает фото товара, а система должна найти похожие товары в каталоге. Когда достаточно object detection, а когда нужна segmentation?

computer-visionvisual-searchdetectionsegmentation

Wildberries

Техническое собеседование · Wildberries

Открыть вопрос

Продуктовые кейсыMedium

Dropout, BatchNorm и fine-tuning на маленьких батчах

Dropout, BatchNorm и fine-tuning на маленьких батчах

dropoutBatchNormLayerNormfine-tuning

CIAN

Разбор после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыMedium

Kafka partitions и время обработки consumer group

В Kafka topic 10 partitions и 100 задач: 90 задач по 90 ms и 10 задач по 1 s. Задачи равномерно лежат по partitions, внутри partition порядок последовательный. Как оценить best/worst completion time для 1, 10 и 20 consumers?

kafkaparallelismbackendconsumer-groups

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыMedium

LightFM, content signals и bandits

Как LightFM помогает cold start и когда в рекомендациях появляются bandits?

LightFMcold starthybrid recommendationsbandits

ZingBrain / Aviatrix

ML System Design на техническом собеседовании · ZingBrain / Aviatrix

Открыть вопрос

Продуктовые кейсыMedium

ML System Design

What improvements would you add after the baseline real-estate search works: user context, visual embeddings, VLMs, quality models or richer item representations?

content embeddingsuser contextVLMimage quality

CIAN

ML System Design из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыMedium

ML System Design

How would you handle new users and new posts in a social-feed recommender with text and image content?

cold startsocial feedcontent embeddingsexploration

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

Продуктовые кейсыMedium

OCR и geo entity matching

OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?

ocrentity-matchinggeoconfidence-modeling

2GIS

Вопрос про production ML на техническом собеседовании · 2GIS

Открыть вопрос

Продуктовые кейсыMedium

Product use cases для VLM в поисковом продукте

Команда развивает мультимодальную модель для поиска и продукта вроде нейро-ответов. Какие use cases стоит выбрать и как приоритизировать?

vlmproduct-strategyvisual-searchneuro

Яндекс

ML System Design на техническом собеседовании · Яндекс

Открыть вопрос

Продуктовые кейсыMedium

Representative photo для организации

Что значит "репрезентативное фото" для организации в гео-продукте и как выбрать такое фото автоматически?

computer-visionРанжированиеmoderationproduct-thinking

2GIS

ML System Design на техническом собеседовании · 2GIS

Открыть вопрос

Продуктовые кейсыMedium

Transactional outbox для БД и Kafka

Что делать, если бизнес-изменение записалось в БД, а событие в Kafka не отправилось?

transactional outboxKafkadatabaseconsistency

Waibee

Вопрос про production ML на техническом собеседовании · Waibee

Открыть вопрос

Продуктовые кейсыMedium

Агрегация нескольких фото товара

У товара может быть несколько фотографий: общий вид, детали, разные ракурсы. Как получить устойчивое представление товара для поиска по фото?

visual-searchembeddingsАгрегацияcatalog

Wildberries

Вопрос про production ML на техническом собеседовании · Wildberries

Открыть вопрос

Продуктовые кейсыMedium

Как объяснить bias-variance tradeoff, почему это не только синоним underfitting/overfitting и как интерпретировать high/low bias and variance cases?

bias-variancegeneralizationmodel complexityensembles

Revolut

Техническое собеседование · Revolut

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

In PyTorch, what should Dataset do, what should collate_fn do, how do num_workers affect this, and where should .to(device) usually happen?

DatasetDataLoadercollate_fnnum_workers

Diagnocat

Вопрос про production ML на техническом собеседовании · Diagnocat

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

Compare REST and gRPC at a high level. Then explain what a database index does and what simple data structures can back an index.

RESTgRPCHTTPdatabase index

Okko

Вопрос про production ML на техническом собеседовании · Okko

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

Multiple threads update individual pixels of the same screen. What can go wrong, and how would you design synchronization?

concurrencyrace conditionslocksqueues

Strala

Вопрос про production ML из разбора после собеседования · Strala

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

Multiple clients send pixel updates to a central server over the internet. What transport/protocol would you use and what tradeoffs matter?

networkingWebSocketTCPUDP

Strala

Вопрос про production ML из разбора после собеседования · Strala

Открыть вопрос

Продуктовые кейсыMedium

Генерация презентации из текста через структурированный артефакт

Как построить сервис, который по текстовому запросу генерирует презентацию и PDF?

LLM-агентыstructured outputpresentationsАртефакты

Unimatch

ML System Design на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Глубокий разбор мультимодального fashion-рекомендера совместимых вещей

Разберите мультимодальный fashion-рекомендер совместимых вещей: генерацию кандидатов, эмбеддинги, разметку образов, hard negatives, reranking и то, что не сработало.

RecSysFashionCLIPmultimodal embeddingstriplet loss

Fairmarkit

ML System Design на собеседовании · Fairmarkit

Открыть вопрос

Продуктовые кейсыMedium

Две неоднородные веревки и 45 минут

Есть две одинаковые неоднородные веревки. Каждая полностью сгорает за 60 минут, но скорость горения по длине неизвестна. Есть зажигалка. Как отмерить 45 минут?

math-puzzlereasoninginvariantsoral-math

Adapty

Техническое собеседование · Adapty

Открыть вопрос

Продуктовые кейсыMedium

Идемпотентность endpoint-а пополнения баланса

Пользователь повторно отправил запрос на пополнение баланса. Как сделать endpoint идемпотентным?

idempotencypaymentsdatabaseПовторы

Waibee

Вопрос про production ML на техническом собеседовании · Waibee

Открыть вопрос

Продуктовые кейсыMedium

Как Redis обрабатывает команды и сохраняет атомарность

Как Redis обрабатывает запросы внутри и за счет чего отдельные команды выглядят атомарными и согласованными для клиента?

Redisatomicityevent loopsingle-threaded

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыMedium

Как адаптировать имеющуюся модель под новые задачи

Как адаптировать имеющуюся модель под новые задачи? Какие варианты вы бы рассмотрели и от чего зависит выбор?

fine-tuningadapterstransfer learningmodel heads

Wisebits / xHamster

Вопрос про production ML на скрининге · Wisebits / xHamster

Открыть вопрос

Продуктовые кейсыMedium

Как версионировать артефакты LLM-агента

Агент генерирует презентации/таблицы/документы. Как хранить версии артефактов и поддерживать откат/редактирование?

Версионирование артефактовLLM-агентыУправление состояниемsystem-design

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Как работать с пропусками и шумом в данных

В датасете есть missing values и шумные признаки. Как системно обработать их до обучения и в production?

missing-valuesdata-qualityfeature-engineeringtechnical-explanation

PulsePoint

Вопрос про production ML на техническом собеседовании · PulsePoint

Открыть вопрос

Продуктовые кейсыMedium

Какие события класть в Kafka и как партиционировать

Для realtime CTR dashboard нужно описать Kafka/event log. Какая схема события нужна и по какому ключу партиционировать?

kafkaПотоковая обработкаpartitioningads

Компания не указана

Вопрос про production ML на техническом собеседовании

Открыть вопрос

Продуктовые кейсыMedium

Когда переписывать ML/inference платформу из-за техдолга

Когда накопившийся технический долг оправдывает переписывание сервиса или ML-платформы с нуля, а когда лучше улучшать систему итеративно?

technical debtplatform rewriteНадежностьdeveloper velocity

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыMedium

Контракты между сервисами

В микросервисной системе сервисы общаются через API и события. Как документировать и проверять контракты, чтобы релизы не ломали consumers?

microservicesapi-contractseventscontract-testing

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыMedium

Переранжирование и разнообразие в fashion-рекомендациях item-to-item

Fashion item-to-item рекомендации возвращают много почти одинаковых вещей. Как разделить ответственность retrieval, ranking и reranking, чтобы сохранить релевантность и добавить разнообразие?

RecSysrerankingdiversityFashionCLIP

T-Bank

ML System Design из фидбека после собеседования · T-Bank

Открыть вопрос

Продуктовые кейсыMedium

Почему CatBoost, а не линейная модель

В time-series табличной задаче кандидат выбирает CatBoost. Как объяснить выбор и какой baseline нужен?

catboostbaselinemodel-selectiontechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Продуктовые кейсыMedium

Почему RL в трейдинге опасен

Какие риски возникают при применении RL к trading/market-making задачам?

reinforcement-learningtradingsimulationrisk

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Продуктовые кейсыMedium

Представления пользователя и поста для мультимодальной ленты

Представления пользователя и поста для мультимодальной ленты

feed rankinguser featuresitem featuresLightFM

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

Продуктовые кейсыMedium

Разбиение данных и утечки в фрод-модели

Разбиение данных и утечки в фрод-модели

ВалидацияУтечкиtime splitfraud detection

Wheely

Вопрос про production ML из разбора после собеседования · Wheely

Открыть вопрос

Продуктовые кейсыMedium

Разбор training loop на PyTorch для многоклассовой классификации

Разбор training loop на PyTorch для многоклассовой классификации

PyTorchtrain loopcode reviewCrossEntropyLoss

Diagnocat

Вопрос про production ML на техническом собеседовании · Diagnocat

Открыть вопрос

Продуктовые кейсыMedium

Семейства RecSys-алгоритмов и cold start

Какие базовые семейства алгоритмов есть в рекомендациях и что делать с cold start?

collaborative filteringcontent-basedcold starthybrid recsys

HeadHunter

ML System Design на техническом собеседовании · HeadHunter

Открыть вопрос

Продуктовые кейсыMedium

Сжатие моделей и catastrophic forgetting

Сжатие моделей и catastrophic forgetting

quantizationdistillationpruningLoRA

CIAN

Вопрос про production ML из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыMedium

Состояние артефакта и маршрутизация команд пользователя

Пользователь создал презентацию, PDF и таблицу, а потом просит "отсортируй это". Как понять, к чему относится команда?

Артефактыsession stateroutingLLM-агенты

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Тестирование и версионирование prompt-ов

Как тестировать и выкатывать prompt changes в LLM-продукте?

prompt engineeringLLMOpsevaluationversioning

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Что делать, если продукт хочет модель, а данных нет

Что делать, если продукт хочет модель, а данных нет

cold startlabelingpretrained modelsbusiness validation

QIC

ML System Design на техническом собеседовании · QIC

Открыть вопрос

Продуктовые кейсыHard

ASR+LLM бейзлайн для извлечения записи клиента из звонка

ASR+LLM бейзлайн для извлечения записи клиента из звонка

ASRLLMinformation extractionappointment booking

Chinor

ML System Design на техническом собеседовании · Chinor

Открыть вопрос

Продуктовые кейсыHard

Attention complexity, GQA/MQA и Sliding Window Attention

Объясните scaled dot-product attention, его сложность, и зачем нужны GQA/MQA и Sliding Window Attention.

attentiongqamqaswa

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

Продуктовые кейсыHard

Attention, positional embeddings, BPE и LoRA

Объясните scaled dot-product attention, зачем Transformer нужны positional embeddings, как работает BPE-токенизация и в чем идея LoRA при fine-tuning.

Transformerattentionpositional embeddingsBPE

inDrive

Техническое собеседование · inDrive

Открыть вопрос

Продуктовые кейсыHard

Backend-контур для LLM-продукта

Какие backend-компоненты нужны для LLM-продукта с tools, cache и долгими задачами?

LLM backendКешqueuestools

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыHard

Checkpointing, offsets и partial windows

Stream job считает CTR по окнам и падает посередине часа. Как не потерять данные и не задвоить агрегаты?

fault-tolerancecheckpointingkafka-offsetsПотоковая обработка

Ads / Marketplace

Вопрос про production ML на техническом собеседовании

Открыть вопрос

Продуктовые кейсыHard

CV для робота-кассира в столовой

Есть робот-кассир: пользователь ставит поднос с едой, система делает фото и за пару секунд должна распознать блюда и сформировать чек. Как спроектировать ML-систему?

computer-visionobject-detectionfood-recognitionlatency

CV catering

ML System Design на техническом собеседовании · CV catering

Открыть вопрос

Продуктовые кейсыHard

ML System Design

If the old product used filters rather than free-form text, how would you train a query parser or query encoder before real text-query logs exist?

synthetic dataquery parserLLM labelingfilters

CIAN

ML System Design из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыHard

ML System Design

Design a similar-items recommender for 1M items when the current collaborative model fails on cold-start items and misses semantic similarity.

RecSysitem-to-itemcold startcontent embeddings

Okko

ML System Design из фидбека после собеседования · Okko

Открыть вопрос

Продуктовые кейсыHard

ML System Design

A video analytics product watches kitchen staff and must check whether people follow location-specific safety protocols. The system needs kitchen rules, time of day and staff context. How would you design the approach?

video analyticscomputer visionLLMrules engine

Focus / Teramind

ML System Design на скрининге · Focus / Teramind

Открыть вопрос

Продуктовые кейсыHard

ML System Design

You have a categorical feature such as port_id. Compare one-hot encoding with historical target aggregates for tree models, and explain the leakage risks.

categorical encodingfeature leakagetree modelstarget encoding

Quantum One

ML System Design на техническом собеседовании · Quantum One

Открыть вопрос

Продуктовые кейсыHard

ML System Design

How would you design an LLM-agent loop that checks a task output using tools such as file reading, web access or document inspection?

LLM-агентыtool useverificationquality control

Toloka AI

ML System Design из фидбека после собеседования · Toloka AI

Открыть вопрос

Продуктовые кейсыHard

RLHF/DPO для product alignment VLM

Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?

rlhfdpoalignmentvlm

Яндекс

Техническое собеседование · Яндекс

Открыть вопрос

Продуктовые кейсыHard

Undo/redo для движка формул как в Excel

Undo/redo для движка формул как в Excel

undo redoУправление состояниемhistory stackformula engine

Seamflow

Вопрос про production ML из разбора после собеседования · Seamflow

Открыть вопрос

Продуктовые кейсыHard

Вопрос про production ML

How would you handle geography in free-form real-estate queries and keep retrieval fast for millions of listings and high QPS?

geo searchgeohashshardingANN

CIAN

Вопрос про production ML из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыHard

Вопрос про production ML

A speech product collects user audio. How would you filter and route audio snippets for ASR/TTS training data without poisoning the dataset?

ASRTTSdata filteringspeech AI

Palabra.ai

Вопрос про production ML на скрининге · Palabra.ai

Открыть вопрос

Продуктовые кейсыHard

Дизайн сервиса суммаризации URL и текста

Дизайн сервиса суммаризации URL и текста

summarizationLLMroutingchunking

Constructor

ML System Design из фидбека после собеседования · Constructor

Открыть вопрос

Продуктовые кейсыHard

Как оптимизировать инференс RecSys-модели

Большая нейросетевая RecSys-модель дает хороший offline quality, но ее нужно держать в рантайме. Что оптимизировать?

inference optimizationbatchingquantizationcaching

Ozon

Вопрос про production ML на техническом собеседовании · Ozon

Открыть вопрос

Продуктовые кейсыHard

Как повторить плохо описанный протокол

Проекту нужно повторить плохо документированный legacy-протокол. Как подойти к исследованию и реализации, если часть поведения приходится восстанавливать по трафику и старой системе?

protocolsreverse-engineeringbackendresearch-engineering

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

Продуктовые кейсыHard

Как проверять качество биржевых market data

Есть поток биржевых событий: price, exchange timestamp, local timestamp и два канала доставки primary/secondary. Как понять, все ли в порядке с данными?

hftmarket-datadata-qualitytimestamps

Wunderfund

Вопрос про production ML на техническом собеседовании · Wunderfund

Открыть вопрос

Продуктовые кейсыHard

Как считать online-фичи для поискового ранжирования

В ranker нужно добавить новые признаки товара, пользователя и запроса. Что считать offline, а что online?

online featuresfeature storefreshnessРанжирование

Uzum

Вопрос про production ML на техническом собеседовании · Uzum

Открыть вопрос

Продуктовые кейсыHard

Отказоустойчивая Kafka-очередь

Как на уровне Kafka/очереди рассуждать про replication, min.insync.replicas, acknowledgements и CAP trade-off, если нужно не терять сообщения при отказах?

kafkafault-tolerancedistributed-systemsreplication

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

Продуктовые кейсыHard

Отказоустойчивость в двух дата-центрах

Система развернута в двух дата-центрах, целевой SLA выше 99.95. Какие архитектурные решения помогают не уронить весь продукт при отказе одного узла или сервиса?

fault-tolerancedistributed-systemsslaresilience-patterns

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

Продуктовые кейсыHard

Почему secondary иногда быстрее primary

В части событий secondary feed приходит быстрее primary. Как охарактеризовать эти случаи и найти причину?

hftlatencyanomaly-detectionmarket-data

Wunderfund

Вопрос про production ML на техническом собеседовании · Wunderfund

Открыть вопрос

Продуктовые кейсыHard

Рекомендательная система с нуля

Нужно спроектировать рекомендательную систему или ML-платформу с нуля. Как выбирать архитектуру, данные, candidate generation и ranking?

RecSyscandidate generationrerankingdata mining

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыHard

Шумные ASR-аннотации и агрегация расшифровок

Шумные ASR-аннотации и агрегация расшифровок

ASRlabel noiseannotationАгрегация

Chinor

Вопрос про production ML на техническом собеседовании · Chinor

Открыть вопрос

Банк вопросов из реальных собеседований — ML Mentor