Назад к тренажеру

Банк вопросов из реальных собеседований

Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.

Все вопросы

Полный банк вопросов из реальных собеседований.

ML-теория

Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.

Python

Устройство языка, структуры данных, тестирование и инженерная база.

SQL

Запросы, агрегации, оконные функции и объяснение результата.

ML System Design

Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.

Метрики и A/B

Качество моделей, продуктовые метрики, эксперименты и валидация.

Продуктовые кейсы

Как разложить задачу продукта, ограничения, риски и первый бейзлайн.

Математика и статистика

Вероятность, статистика, оценки, распределения и аккуратные допущения.

Behavioral Interview

Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.

Все вопросы

673 вопроса из реальных интервью

Открыть в общем банке

Темы

Сложность

Компания

Язык

Поиск

ВопросКомпанияИсточникДействие

ML-теорияEasy

Receptive field: одна 5x5 свертка или две 3x3

Что такое receptive field в CNN? Какой receptive field у одной свертки 5x5 и у двух последовательных 3x3, и где меньше параметров?

CNNreceptive fieldconvolutionparameters

GamerAM

Техническое собеседование · GamerAM

Открыть вопрос

ML-теорияEasy

Explain how dropout behaves during training and inference. Why does the implementation need scaling, and what is inverted dropout?

dropoutregularizationPyTorchinference

Navio

Техническое собеседование · Navio

Открыть вопрос

ML-теорияEasy

Переобучение нейросети и аугментации в CV

Назовите специфичные для нейросетей способы борьбы с переобучением. Какие способы аугментации данных можно использовать в Computer Vision?

overfittingregularizationdropoutBatchNorm

Wisebits / xHamster

Скрининг · Wisebits / xHamster

Открыть вопрос

ML-теорияEasy

Переобучение, синтетика и разбиение данных

Как бороться с переобучением модели? Чем может быть опасна синтетика и зачем нужен разбиение данных?

overfittingregularizationsynthetic dataВалидация

GamerAM

Техническое собеседование · GamerAM

Открыть вопрос

ML-теорияEasy

Семантическая сегментация и свертка

Что такое семантическая сегментация? Чем она отличается от instance segmentation? Как работает свертка в CNN?

semantic segmentationinstance segmentationconvolutionCNN

Wisebits / xHamster

Скрининг · Wisebits / xHamster

Открыть вопрос

ML-теорияEasy

Токенизация, Bag of Words, TF-IDF и embeddings

Что такое токенизация и зачем она нужна в задачах обработки текста? Чем отличаются Bag of Words, TF-IDF и embeddings, например word2vec?

tokenizationBag of WordsTF-IDFword2vec

Wisebits / xHamster

Скрининг · Wisebits / xHamster

Открыть вопрос

ML-теорияEasy

Чем логистическая регрессия похожа на линейную

Интервьюер спрашивает: если рассматривать логистическую регрессию, чем она похожа на линейную и чем отличается?

logistic-regressionlinear-modelsclassificationml-basics

Raiffeisen Bank

Техническое собеседование · Raiffeisen Bank

Открыть вопрос

ML-теорияMedium

Bagging vs boosting и переобучение

Чем bagging отличается от boosting, где применяются random forest и gradient boosting, и что сказать про склонность к переобучению?

ensemblesbaggingboostingbias-variance

Dubai Tech

Техническое собеседование

Открыть вопрос

ML-теорияMedium

Bagging, boosting и регуляризация деревьев

Чем отличаются bagging и gradient boosting? Что будет, если убрать одно дерево из Random Forest и из gradient boosting, и как деревья могут переобучаться на редких категориальных признаках?

baggingrandom forestgradient boostingdecision trees

inDrive

Техническое собеседование · inDrive

Открыть вопрос

ML-теорияMedium

Bias-variance trade-off у Random Forest

Почему Random Forest обычно снижает variance по сравнению с одним деревом и какие trade-offs остаются?

random-forestbias-varianceensemblestechnical-explanation

PulsePoint

Техническое собеседование · PulsePoint

Открыть вопрос

ML-теорияMedium

CatBoost: target encoding без leakage

Как CatBoost кодирует категориальные признаки и почему это не дает leakage?

CatBoosttarget encodingУтечкиgradient boosting

ZingBrain / Aviatrix

Техническое собеседование · ZingBrain / Aviatrix

Открыть вопрос

ML-теорияMedium

CLIP и SigLIP-style обучение image-text моделей

Как работает CLIP-модель и как она обучается? В чем high-level отличие SigLIP-style обучения от классического CLIP?

CLIPSigLIPcontrastive learningmultimodal embeddings

Wisebits / xHamster

Техническое собеседование · Wisebits / xHamster

Открыть вопрос

ML-теорияMedium

Domain adaptation с VR/fisheye на обычное видео

Есть модель для first-person VR/fisheye, а нужно работать на flat third-person видео. Как переносить качество?

domain adaptationfisheyesegmentationpseudo-labeling

Infomediji

ML System Design на техническом собеседовании · Infomediji

Открыть вопрос

ML-теорияMedium

Feature importance и коррелированные признаки

Почему feature importance может обманывать, если признаки сильно коррелируют?

feature importancemulticollinearitypermutation importanceSHAP

ZingBrain / Aviatrix

Техническое собеседование · ZingBrain / Aviatrix

Открыть вопрос

ML-теорияMedium

GraphSAGE, GCN и графовые рекомендации

Как использовать графовые модели в рекомендациях? В чем отличие GCN от GraphSAGE и neighbor sampling подходов?

GCNGraphSAGEgraph recommendersuser-item graph

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

ML-теорияMedium

IoU вместо MSE для bounding boxes

В object detection почему для box regression часто используют IoU-style loss, а не обычный MSE по координатам углов bounding box?

Детекция объектовIoUbounding boxesloss functions

Wisebits / xHamster

Техническое собеседование · Wisebits / xHamster

Открыть вопрос

ML-теорияMedium

Item-to-item recommender для сочетаемой одежды

Как сделать рекомендации сочетаемой одежды: embeddings, ограничения по категориям, nearest neighbors и reranker?

item-to-itemvector-searchmultimodal-recsysretrieval

Dubai Tech

ML System Design на техническом собеседовании

Открыть вопрос

ML-теорияMedium

Linear programming, simplex и greedy

Что сказать про линейное программирование, simplex-метод и жадные алгоритмы, если спрашивают на техническом ML-интервью?

linear-programmingsimplexЖадный алгоритмОптимизация

Dubai Tech

Техническое собеседование

Открыть вопрос

ML-теорияMedium

Linear regression, normal equation и regularization

Как связаны matrix equation, least squares, gradient descent и L1/L2 regularization?

linear-regressionleast-squaresregularizationgradient-descent

AgeCode

Техническое собеседование · AgeCode

Открыть вопрос

ML-теорияMedium

Logo detection при ограниченной разметке

Как построить logo detection для множества брендов и вариантов логотипов, если ручная bbox-разметка дорогая?

cvlogo-detectionannotationobject-detection

Corsearch / Navi

ML System Design на техническом собеседовании · Corsearch / Navi

Открыть вопрос

ML-теорияMedium

LoRA и нулевая начальная добавка

Что такое LoRA? Почему она полезна для fine-tuning больших моделей? Как обычно инициализируют low-rank матрицы, чтобы не исказить базовую модель на старте?

LoRAfine-tuninglow-rank adaptationLLM

Wisebits / xHamster

Техническое собеседование · Wisebits / xHamster

Открыть вопрос

ML-теорияMedium

LoRA против классических адаптеров

Опиши механизм LoRA. Если LoRA и classic adapters дают одинаковое качество, что выбрать для inference?

loraadaptersfine-tuninginference

Sber

Техническое собеседование · Sber

Открыть вопрос

ML-теорияMedium

LoRA, multi-GPU обучение и RLHF: что важно объяснить

Чем LoRA отличается от полного fine-tuning, какие ограничения появляются при multi-GPU обучении LLM и чем RLHF-подход отличается от классического RL?

LLMLoRAmulti-GPUreinforcement learning

Insilico Medicine

Скрининг · Insilico Medicine

Открыть вопрос

ML-теорияMedium

ML System Design

You can find posts similar to a given post. How do you turn that into user-level candidate generation for a feed?

candidate generationitem-to-itemANNfeed ranking

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

ML-теорияMedium

ML System Design

For a port waiting-time model, what features would you build beyond timestamp features, and how would you detect anomalies or broken tracking data?

Подготовка признаковanomaly detectiondata qualityforecasting

Quantum One

ML System Design на техническом собеседовании · Quantum One

Открыть вопрос

ML-теорияMedium

ML System Design

What should the output schema of an automatic task checker look like if humans also produce lists of found errors?

error taxonomystructured outputevaluationLLM

Toloka AI

ML System Design из фидбека после собеседования · Toloka AI

Открыть вопрос

ML-теорияMedium

Overfitting, regularization и dropout

Как бороться с переобучением модели? Объясните L1/L2, dropout 0.5 и что происходит с dropout на inference.

regularizationdropoutoverfittingdeep-learning

Sber

Техническое собеседование · Sber

Открыть вопрос

ML-теорияMedium

Partitioning по campaign_id и hot-key риски

Как сделать так, чтобы события одной кампании попадали к нужному worker и корректно агрегировались?

kafkapartitioninghot-keystechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

ML-теорияMedium

Pointwise, pairwise и listwise ранжирование

Сравни pointwise, pairwise и listwise подходы для ранжирования видео в рекомендательной ленте.

Ранжированиеlearning-to-rankpairwiselistwise

Самокат

Техническое собеседование · Самокат

Открыть вопрос

ML-теорияMedium

Prompting, fine-tuning или data-centric improvement

Команда хочет улучшить качество VLM в продукте. Когда достаточно prompt engineering, когда нужен fine-tuning, а когда лучше улучшать данные?

vlmfine-tuningpromptingdata-centric-ml

Яндекс

Техническое собеседование · Яндекс

Открыть вопрос

ML-теорияMedium

PyTorch: view против reshape

PyTorch: view против reshape

PyTorchtensor memoryviewreshape

Автотехника

Скрининг · Автотехника

Открыть вопрос

ML-теорияMedium

Regularization и dropout: train vs inference

Что такое regularization, как работает dropout и почему поведение отличается на train и inference?

regularizationdropoutoverfittingtechnical-explanation

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

ML-теорияMedium

RL для моделирования молекул

Как сформулировать RL-задачу для оптимизации молекул и почему direct optimization может быть недостаточной?

reinforcement-learningdrug-discoveryОптимизацияtechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

ML-теорияMedium

SASRec и база Transformer для рекомендательных систем

Объясните SASRec как последовательную рекомендательную модель, устройство self-attention в Transformer и отличие SASRec от BERT4Rec.

SASRecTransformerSelf-attentionBERT4Rec

T-Bank

Фидбек после собеседования · T-Bank

Открыть вопрос

ML-теорияMedium

Skip connection и зачем он нужен

Что такое skip connection и почему residual-связи помогают обучать глубокие сети?

resnetskip-connectionsresidual-connectionstechnical-explanation

Sber

Техническое собеседование · Sber

Открыть вопрос

ML-теорияMedium

Stride и padding в CNN

Что такое stride и padding в сверточной сети, и как они влияют на размер feature map?

cnnconvolutionstridepadding

Sber

Техническое собеседование · Sber

Открыть вопрос

ML-теорияMedium

Systematic exploration в RL

Что такое systematic exploration в reinforcement learning, зачем оно нужно и почему это проблема?

reinforcement-learningexplorationbanditsml-theory

Mirai

Техническое собеседование · Mirai

Открыть вопрос

ML-теорияMedium

Temperature, top-k, top-p и max length в LLM generation

Объясните основные параметры генерации LLM: temperature, max length, top-k и top-p. Как они влияют на ответы support bot?

LLM generationtemperaturesamplingllm-theory

Solmate / TAVAX

Техническое собеседование · Solmate / TAVAX

Открыть вопрос

ML-теорияMedium

Time grid и признаки из нерегулярных HFT событий

Как построить feature matrix на регулярной 100 ms сетке из нерегулярных trades и order book events?

hfttime-gridfeature-engineeringtechnical-explanation

BHFT

ML System Design на техническом собеседовании · BHFT

Открыть вопрос

ML-теорияMedium

Tokenization и multilingual transformer для поиска

Какие риски возникают при использовании multilingual transformer для китайского/международного поиска и как их диагностировать?

transformerstokenizationmultilingualsearch

Яндекс

Техническое собеседование · Яндекс

Открыть вопрос

ML-теорияMedium

Trades и order book как источники признаков

Какие сигналы обычно извлекают из trades и order book при HFT-задаче прогноза цены?

hftorder-bookfeaturestechnical-explanation

BHFT

ML System Design на техническом собеседовании · BHFT

Открыть вопрос

ML-теорияMedium

Training signals и objectives для RecSys

Какие сигналы и loss-функции использовать для обучения recommendation/ranking модели?

loss-functionstraining-dataРанжированиеrecsys

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML-теорияMedium

Transformer attention, токенизация и cross-attention

Transformer attention, токенизация и cross-attention

TransformerattentiontokenizationRoPE

Tochka

Техническое собеседование · Tochka

Открыть вопрос

ML-теорияMedium

Transformer в sequential RecSys

Как использовать transformer в рекомендациях и чем это отличается от RNN-подхода?

TransformerSASRecBERT4RecRNN

HeadHunter

Техническое собеседование · HeadHunter

Открыть вопрос

ML-теорияMedium

Transformers против RNN в NLP

Слышали ли вы про модели transformers? Чем они отличаются от RNN и почему они популярны в NLP?

transformersRNNSelf-attentionsequence modeling

Wisebits / xHamster

Скрининг · Wisebits / xHamster

Открыть вопрос

ML-теорияMedium

Truncated BPTT для длинных последовательностей

Как обучать LSTM на последовательности длиной 100k шагов, если полный backprop слишком дорогой?

lstmbptttraininglong-sequences

BHFT

Техническое собеседование · BHFT

Открыть вопрос

ML-теорияMedium

VLM-теги как признаки для визуального поиска

Можно ли добавлять теги от VLM/image captioning модели в поиск по фото? Где они помогут, а где навредят?

vlmcaptioningvisual-searchfeatures

Wildberries

ML System Design на техническом собеседовании · Wildberries

Открыть вопрос

ML-теорияMedium

База Transformer: токены, positional encoding и cross-attention

База Transformer: токены, positional encoding и cross-attention

Transformerattentiontokenizationpositional encoding

CIAN

Разбор после собеседования · CIAN

Открыть вопрос

ML-теорияMedium

Базовая архитектура Transformer

Коротко объясните, из каких блоков состоит Transformer и какую роль играет attention.

TransformerattentionNLPdl-theory

T1 / PrideInBrains

Техническое собеседование · T1 / PrideInBrains

Открыть вопрос

ML-теорияMedium

Важность признаков в линейных моделях при мультиколлинеарности

Важность признаков в линейных моделях при мультиколлинеарности

linear modelsfeature importancestandardizationmulticollinearity

Tochka

Техническое собеседование · Tochka

Открыть вопрос

ML-теорияMedium

Для задачи матчинга фото еды и категорий что выбрать: CLIP-подход или supervised multilabel classifier?

clipclassificationcontrastive-learningmodel-selection

2GIS

Техническое собеседование · 2GIS

Открыть вопрос

ML-теорияMedium

Когда выбирать линейную модель, а когда tree-based model или boosting?

linear-modelstree-modelsrandom-forestgradient-boosting

AgeCode

Техническое собеседование · AgeCode

Открыть вопрос

ML-теорияMedium

If a YOLO-style detector was trained at one image resolution, what can happen if you run inference at a different resolution? When is it technically possible?

YOLOДетекция объектовfully convolutional networksresolution

Navio

Техническое собеседование · Navio

Открыть вопрос

ML-теорияMedium

Which lightweight model would you use to extract fields such as INN, amount, date and payment purpose from noisy statement text, and what should it output?

NERtoken classificationBERTdocument AI

Tochka

Техническое собеседование · Tochka

Открыть вопрос

ML-теорияMedium

What are the main generation/inference hyperparameters of an LLM and how do they affect output?

LLMtemperaturetop-ptop-k

AgentPlace

Скрининг · AgentPlace

Открыть вопрос

ML-теорияMedium

Градиент и vanishing gradient

Что такое градиент и почему в глубоких сетях возникает затухающий градиент?

backpropagationgradientsvanishing-gradienttechnical-explanation

Sber

Техническое собеседование · Sber

Открыть вопрос

ML-теорияMedium

Градиентный бустинг против Random Forest

Чем gradient boosting отличается от Random Forest и где в бустинге появляется градиент?

gradient-boostingrandom-forestml-theorytechnical-explanation

Raiffeisen Bank

Техническое собеседование · Raiffeisen Bank

Открыть вопрос

ML-теорияMedium

Датасет и разметка food categories

Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?

labelingdatasetcomputer-visiondata-quality

2GIS

ML System Design на техническом собеседовании · 2GIS

Открыть вопрос

ML-теорияMedium

Дискриминативные и генеративные модели

Есть дискриминативные и генеративные модели. Чем они отличаются с математической точки зрения? Приведите примеры современных генеративных моделей.

generative modelsdiscriminative modelsdiffusionGAN

Wisebits / xHamster

Техническое собеседование · Wisebits / xHamster

Открыть вопрос

ML-теорияMedium

Единое embedding space для текста и изображений

Как объединить текстовые и визуальные сигналы в одном retrieval/ranking пространстве?

multimodalembeddingsretrievalrecsys

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML-теорияMedium

Зачем LoRA вместо полного fine-tuning

Почему нельзя просто полностью fine-tune всю LLM? Что выигрывает LoRA и как это влияет на batch size?

lorafine-tuningПамятьllm-training

Mirai

Техническое собеседование · Mirai

Открыть вопрос

ML-теорияMedium

Зачем нужен `torch.no_grad()` на inference

В PyTorch inference код часто оборачивают в `torch.no_grad()`. Что это дает и когда это важно?

PyTorchinferenceno_gradml-engineering

Solmate / TAVAX

Техническое собеседование · Solmate / TAVAX

Открыть вопрос

ML-теорияMedium

Зачем нужны residual connections

Почему residual connections помогают обучать глубокие сети?

residual-connectionsresnetgradientstechnical-explanation

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

ML-теорияMedium

Интуиция Adam, momentum и RMSProp

Интуиция Adam, momentum и RMSProp

ОптимизацияSGDmomentumRMSProp

Tochka

Техническое собеседование · Tochka

Открыть вопрос

ML-теорияMedium

Как loss учитывается при выборе split в бустинге

Как дерево в gradient boosting выбирает split с учетом loss function?

gradient boostingTaylor approximationsplit gainCatBoost

ZingBrain / Aviatrix

Техническое собеседование · ZingBrain / Aviatrix

Открыть вопрос

ML-теорияMedium

Как обнаруживать overfitting и чем регуляризовать

Как обнаруживать overfitting и чем регуляризовать

overfittingregularizationdropoutВалидация

QIC

Техническое собеседование · QIC

Открыть вопрос

ML-теорияMedium

Как обучается градиентный бустинг

Объясните интуицию gradient boosting: что учит каждое следующее дерево и как это связано с loss.

gradient-boostingdecision-treesloss-functionstechnical-explanation

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

ML-теорияMedium

Как работает LoRA fine-tuning

Как работает LoRA fine-tuning

LoRAfine-tuningTransformerlow-rank adaptation

Apriori

Материалы интервью · Apriori

Открыть вопрос

ML-теорияMedium

Как работает LoRA и зачем нужны low-rank adapters

Объясни технически, что делает LoRA при дообучении большой модели и почему это экономит память.

llmlorapeftfine-tuning

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

ML-теорияMedium

Как работает self-attention в трансформере

Объясните self-attention и основные блоки трансформера так, чтобы было понятно без формального вывода.

Self-attentiontransformersQKVmulti-head attention

Ozon

Техническое собеседование · Ozon

Открыть вопрос

ML-теорияMedium

Как работать с категориальными признаками в ранжировании

В модели есть категориальные признаки товара и пользователя. Как их кодировать и где возникают риски?

categorical featurestarget encodingembeddingsРанжирование

Uzum

Техническое собеседование · Uzum

Открыть вопрос

ML-теорияMedium

Как строить генерацию кандидатов для товарных рекомендаций

Есть рекомендации похожих или сочетаемых товаров. Какие источники кандидатов и признаки можно использовать?

candidate generationitem-to-itemcollaborative filteringВекторный поиск

Uzum

ML System Design на техническом собеседовании · Uzum

Открыть вопрос

ML-теорияMedium

Как уменьшить мерцание маски в видео/VR

Модель сегментирует объект в видео, но маска мерцает и ломается при взаимодействии с человеком. Что делать?

video segmentationmattingtemporal smoothingdepth map

Infomediji

ML System Design на техническом собеседовании · Infomediji

Открыть вопрос

ML-теорияMedium

Как устроены float и зачем нужен bfloat16

Как устроены числа с плавающей точкой? Чем bfloat16 отличается от float16 и почему его используют в нейросетях?

floatfp32fp16bfloat16

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML-теорияMedium

Какие признаки дать поисковому реранкеру

После retrieval есть набор кандидатов. Какие признаки использовать для реранжирования и что можно считать заранее?

rerankingfeaturescross featuressearch quality

LifePay

ML System Design на техническом собеседовании · LifePay

Открыть вопрос

ML-теорияMedium

Какие события и масштабы уточнять для CTR

Какие события, сущности и масштабы нужно уточнить перед проектированием ads CTR dashboard?

impressionsclickscapacity-planningtechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

ML-теорияMedium

Какой market-data feed приходит раньше

По данным с primary и secondary feed нужно понять, через какой канал события приходят на сервер раньше. Как это посчитать корректно?

hftlatencymarket-datafeeds

Wunderfund

Техническое собеседование · Wunderfund

Открыть вопрос

ML-теорияMedium

Когда transformer уместен в поиске и рекомендациях

Почему transformer может быть полезен для поиска/рекомендаций, и когда он избыточен?

transformersrecsysРанжированиеsequence-modeling

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML-теорияMedium

Когда одно дерево решений может обойти Random Forest

Когда одно дерево решений может обойти Random Forest

decision treesRandom Forestbias-variancefeature subsampling

CIAN

Разбор после собеседования · CIAN

Открыть вопрос

ML-теорияMedium

Линейная регрессия и проблемы аналитического решения

Как объяснить линейную регрессию, MSE и почему аналитическое решение через матрицу не всегда удобно?

linear-regressionОптимизацияml-theorytechnical-explanation

Raiffeisen Bank

Техническое собеседование · Raiffeisen Bank

Открыть вопрос

ML-теорияMedium

Минутные счетчики для CTR

Какие агрегаты считать по campaign_id и минутному окну, чтобы строить CTR график?

ctrАгрегацияtime-bucketstechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

ML-теорияMedium

Обучение visual embeddings для сравнения объектов

Какие loss, backbone и augmentations уместны для embeddings-модели, сравнивающей изображения объектов?

cvembeddingstriplet-lossloss-functions

Corsearch / Navi

Техническое собеседование · Corsearch / Navi

Открыть вопрос

ML-теорияMedium

Переобучение, регуляризация и подбор гиперпараметров

Для бинарной классификации есть очень много признаков. Какие проблемы это создает, как заметить переобучение и как подбирать гиперпараметры без утечки в тест?

overfittingregularizationcross-validationhyperparameters

inDrive

Техническое собеседование · inDrive

Открыть вопрос

ML-теорияMedium

Пост не соответствует выбранному game tag

Как детектировать посты, которые не соответствуют выбранному тегу игры: если есть сильная VLM-модель и если ресурсы ограничены?

content moderationVLMCLIPTF-IDF

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

ML-теорияMedium

Почему item2vec по сессиям является collaborative сигналом

Если item2vec обучен на последовательностях кликов в сессиях, почему это ближе к collaborative filtering, а не к content-based модели?

item2veccollaborative-filteringsession-embeddingstechnical-explanation

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

ML-теорияMedium

Почему в LSTM явно выделяют time dimension

Какой смысл имеет time dimension в LSTM input и почему порядок шагов важен?

lstmsequence-modelingdeep-learningtechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

ML-теорияMedium

Почему нулевая инициализация ломает нейросети

Почему нулевая инициализация ломает нейросети

neural networksinitializationsymmetry breakingXavier initialization

Wheely

Разбор после собеседования · Wheely

Открыть вопрос

ML-теорияMedium

Почему у BPE-токенизатора почти нет unknown tokens

Почему современные subword tokenizers вроде BPE/SentencePiece редко используют unknown token, и какие trade-off есть у такого подхода?

tokenizationBPELLMnlp-theory

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML-теорияMedium

Проблемы item-to-item рекомендаций одежды

Какие особенности и риски есть у item-to-item рекомендаций в fashion каталоге?

fashionitem-to-itemrecommendationstechnical-explanation

BHFT

ML System Design на техническом собеседовании · BHFT

Открыть вопрос

ML-теорияMedium

Сколько forward-pass нужно GPT на train batch

GPT генерирует autoregressive, токен за токеном. Сколько forward-pass нужно сделать для одного training batch и почему?

gptcausal-masktrainingtransformers

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML-теорияMedium

Схема события в Kafka для ads CTR

Какая минимальная схема события нужна в Kafka для подсчета CTR кампаний?

kafkaschemaadstechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

ML-теорияMedium

Устойчивость градиентов, активации, skip connections и инициализация

Устойчивость градиентов, активации, skip connections и инициализация

gradient stabilityReLULeaky ReLUskip connections

Tochka

Техническое собеседование · Tochka

Открыть вопрос

ML-теорияMedium

Фичи для marketplace search ranker

Какие признаки подать в модель ранжирования товаров в поиске маркетплейса?

featuresmarketplacesearchfeature-design

Constructor

ML System Design на техническом собеседовании · Constructor

Открыть вопрос

ML-теорияHard

3D-сегментация dental lesions при ограниченной разметке

3D-сегментация dental lesions при ограниченной разметке

3D medical imagingsegmentationinstance segmentationweak labels

Diagnocat

ML System Design на техническом собеседовании · Diagnocat

Открыть вопрос

ML-теорияHard

ASR для low-resource языка, когда Whisper не справляется

ASR для low-resource языка, когда Whisper не справляется

ASRlow-resource languageslabelingfine-tuning

Chinor

ML System Design на техническом собеседовании · Chinor

Открыть вопрос

ML-теорияHard

DDP и all-reduce overlap при distributed training

Как работает Distributed Data Parallel training и почему overlap gradient all-reduce с backprop помогает ускорить обучение?

DDPall-reducedistributed trainingsystems-ml

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML-теорияHard

GenAI-профили пользователей для рекомендаций

Компания генерирует текстовые user profiles из истории пользователя с помощью GPT-like модели. Как использовать такие профили в recommender system?

genaiuser-profilespersonalizationembeddings

OLX

ML System Design на собеседовании · OLX

Открыть вопрос

ML-теорияHard

Long-context training: почему не помещается attention

При обучении на сотнях тысяч токенов обычный/Flash Attention все равно не помещается в GPU. Что раздувает память и какие классы решений есть?

long-contextattention-memorysequence-parallelismtraining

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML-теорияHard

ML System Design

How would you train the ranker for real-estate search, choose negatives, and blend paid monetized listings without destroying relevance?

rankernegative samplingpairwise learningmonetization

CIAN

ML System Design из разбора после собеседования · CIAN

Открыть вопрос

ML-теорияHard

ML System Design

How would you use векторный поиск, user clustering and domain-specific text/image embeddings to improve a social-feed recommender?

ANNВекторный поискuser clusteringembeddings

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

ML-теорияHard

ML System Design

How would you train a two-tower or CLIP-like text-image recommender using user-post interactions?

two-towerCLIPtriplet lossnegative sampling

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

ML-теорияHard

ML System Design

How would you build and validate a training dataset for extracting transaction fields from many bank-statement formats with limited human labeling?

dataset constructionsynthetic datasamplingВалидация

Tochka

ML System Design на техническом собеседовании · Tochka

Открыть вопрос

ML-теорияHard

Negative sampling и embeddings без таргета

Какие проблемы есть у in-batch negatives и как обучать embeddings объявлений, если пользовательских действий еще нет?

negative samplingin-batch negativesself-supervised learningembeddings

HeadHunter

ML System Design на техническом собеседовании · HeadHunter

Открыть вопрос

ML-теорияHard

Open vocabulary цвета и атрибутов

Каталог содержит много цветов и текстовых описаний, а пользователи ищут по фото. Как извлекать и использовать цветовые атрибуты, если словарь не полностью закрыт?

attributescoloropen-vocabularymultimodal

Wildberries

ML System Design на техническом собеседовании · Wildberries

Открыть вопрос

ML-теорияHard

Self-distillation и DINO

Что такое self-distillation и зачем модель учить на собственных предсказаниях? Как устроен DINO-style teacher-student подход?

self-distillationDINOteacher-studentEMA

Wisebits / xHamster

Техническое собеседование · Wisebits / xHamster

Открыть вопрос

ML-теорияHard

Self-supervised pretraining на unlabeled sequences

Есть много неразмеченных driving/log sequences и мало labels для редких событий. Какие self-supervised подходы можно использовать до supervised fine-tuning?

self-supervised-learningsequence-modelingrepresentation-learningpretraining-objectives

Waymo

ML System Design из фидбека после собеседования · Waymo

Открыть вопрос

ML-теорияHard

UCB при большом action space

Почему UCB может быть плохой идеей при 1000 actions и горизонте 2000 или 20 шагов? Что делать вместо этого?

banditsucbexplorationml-theory

Mirai

Техническое собеседование · Mirai

Открыть вопрос

ML-теорияHard

VLM для распознавания еды: точность vs latency

Большая VLM неплохо распознает блюда, если дать ей фото и меню, но отвечает десятки секунд. Как использовать такую модель в продукте с жестким latency?

computer-visionvlmdistillationlatency

CV catering

ML System Design на техническом собеседовании · CV catering

Открыть вопрос

ML-теорияHard

Выбор фото блюда для категории

Есть много фотографий ресторана и фиксированные категории еды. Как выбрать наиболее подходящее фото для категории в поисковой выдаче?

computer-visionclipretrievalРанжирование

2GIS

ML System Design на техническом собеседовании · 2GIS

Открыть вопрос

ML-теорияHard

Зачем нужен KV cache при inference LLM

При autoregressive generation модель генерирует токены по одному. Что такое KV cache и как он ускоряет inference?

KV cacheattentionLLM inferencellm-internals

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML-теорияHard

Как персонализировать item-page карусель автомобилей

На странице конкретного автомобиля все пользователи видят одинаковые item-to-item рекомендации. Как добавить персонализацию, сохранив связь с текущим item и низкую latency?

motorsitem-to-itemuser-to-itempersonalization

OLX

ML System Design на собеседовании · OLX

Открыть вопрос

ML-теорияHard

Как подавать разнотипные признаки в трансформер для RecSys

Есть числовые, категориальные и поведенческие признаки пользователя и товара. Как превратить их во вход трансформера?

feature encodingtransformerscategorical featuresuser embeddings

Ozon

ML System Design на техническом собеседовании · Ozon

Открыть вопрос

ML-теорияHard

Как превратить текстовый запрос в кандидатов для поиска недвижимости

Пользователь пишет свободный текстовый запрос по недвижимости, в котором могут быть частые атрибуты и редкие бытовые детали. Как превратить такой query в кандидатов через structured attributes, полнотекстовый поиск и векторный поиск?

semantic searchattribute extractionВекторный поискBM25

CIAN

ML System Design из разбора после собеседования · CIAN

Открыть вопрос

ML-теорияHard

На что уходит GPU memory при training LLM

На какие сущности уходит GPU memory при обучении LLM, и почему KV cache обычно используют на inference, а не на training?

llm-traininggpu-memorykv-cacheoptimizer-state

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML-теорияHard

Переписывание мультимодального запроса

Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?

vlmquery-rewritingsearchmultimodal

Яндекс

ML System Design на техническом собеседовании · Яндекс

Открыть вопрос

ML-теорияHard

Почему time-series модель может развалиться после хорошего offline

Модель на временном ряде показывает хороший offline score, но в реальности не работает. Какие причины проверить первыми?

time-seriesВалидацияdata-leakagetechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

ML-теорияHard

Ревью notebook: leakage и gap между train/test

На ревью notebook для временного ряда нужно найти leakage. Что проверять в feature generation и split?

notebook-reviewdata-leakageВалидацияtechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

ML-теорияHard

Токенизация и BERT-style разметка против autoregressive rewriting

Токенизация и BERT-style разметка против autoregressive rewriting

BERTautoregressive modelstokenizationsequence labeling

Constructor

Техническое собеседование · Constructor

Открыть вопрос

ML-теорияHard

Фильтрация web search результатов для brand protection

Спроектируйте систему, которая ищет в интернете потенциальные нарушения бренда и фильтрует массу нерелевантных результатов для 1000+ клиентов.

searchmoderationbrand-protectionretrieval

Corsearch / Navi

ML System Design на техническом собеседовании · Corsearch / Navi

Открыть вопрос

PythonEasy

Private attributes и name mangling в Python

Что означают `_attr` и `__attr` в Python class, и чем convention отличается от name mangling?

ООПname manglingpython-basics

Solmate / TAVAX

Техническое собеседование · Solmate / TAVAX

Открыть вопрос

PythonEasy

Python dict lookup, декораторы и генераторы

Python dict lookup, декораторы и генераторы

hash tableДекораторыgeneratorsiterators

CIAN

Разбор после собеседования · CIAN

Открыть вопрос

PythonEasy

Базовые проверки аномалий в sales DataFrame

Базовые проверки аномалий в sales DataFrame

Pandasdata qualityanomaly detectionEDA

QIC

Вопрос про production ML на техническом собеседовании · QIC

Открыть вопрос

PythonEasy

В каком порядке применяются и вызываются Python decorators

Если у функции несколько decorators, в каком порядке они применяются при объявлении и в каком порядке выполняются при вызове?

Декораторыfunctionspython-basicsruntime

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

PythonEasy

In Python, what actually makes a tuple: parentheses or comma? Give examples.

tuplesyntaxlanguage-semantics

WinStar

Скрининг · WinStar

Открыть вопрос

PythonEasy

Вопрос про production ML

What is a Python context manager, what do __enter__ and __exit__ do, and why not just wait for garbage collection?

with statementcontext managerresource cleanupfiles

Navio

Вопрос про production ML на собеседовании · Navio

Открыть вопрос

PythonEasy

Для чего нужны pytest fixtures и какие бывают scopes

Интервьюер спрашивает про pytest fixtures: зачем они нужны и какие scopes у них бывают?

pytesttestingfixturesbackend-basics

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

PythonEasy

Изменяемые объекты и копирование списков в Python

Что произойдет, если присвоить один список другой переменной и изменить его? Чем отличаются shallow copy и deep copy?

mutabilitycopydeepcopy

Звук

Техническое собеседование · Звук

Открыть вопрос

PythonEasy

Как объяснить SOLID на backend-собеседовании

Интервьюер просит рассказать SOLID: какие есть принципы и зачем они нужны в поддерживаемом коде.

backendsolidarchitectureООП

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

PythonMedium

async, threading и multiprocessing в Python

Когда использовать async, threading и multiprocessing в Python, и как GIL влияет на этот выбор?

asynciothreadingmultiprocessingruntime

T1 / PrideInBrains

Техническое собеседование · T1 / PrideInBrains

Открыть вопрос

PythonMedium

Cleanup и fallback при ошибке

Как не заблокировать систему, если fallback или cleanup тоже может упасть?

fallbackcleanupresiliencetechnical-explanation

HeadHunter

Вопрос про production ML на техническом собеседовании · HeadHunter

Открыть вопрос

PythonMedium

In-memory движок векторного поиска: что важно в реализации

Нужно устно спроектировать простой in-memory векторный поиск: add, search top-K, cosine similarity, stats. На что обратить внимание?

Векторный поискcosine similaritytop-Kdata structures

Waibee

Вопрос про production ML на техническом собеседовании · Waibee

Открыть вопрос

PythonMedium

LRU cache как generic container: edge cases

Какие edge cases появляются, если LRU cache должен хранить любые пользовательские значения?

lru-cacheapi-designedge-casestechnical-explanation

BHFT

Вопрос про production ML на техническом собеседовании · BHFT

Открыть вопрос

PythonMedium

LTV-метрики, когда бизнесу нужна консервативная оценка

LTV-метрики, когда бизнесу нужна консервативная оценка

LTVuncertaintyquantile regressioncalibration

Adapty

Вопрос по метрикам из разбора после собеседования · Adapty

Открыть вопрос

PythonMedium

ML System Design

You need to forecast how long a ship will wait at a port. How would you define the ML target, time granularity and prediction horizon so the result is useful for operations?

forecastingtarget definitionВременные рядыoperations

Quantum One

ML System Design на техническом собеседовании · Quantum One

Открыть вопрос

PythonMedium

Python GIL, multiprocessing и garbage collection

Что такое GIL в CPython, когда использовать multiprocessing вместо multithreading и как работает garbage collection?

GILmultiprocessingmultithreadinggarbage collection

GamerAM

Техническое собеседование · GamerAM

Открыть вопрос

PythonMedium

Python highload: CPU и memory troubleshooting

Python-сервис под нагрузкой потребляет много CPU или памяти. Как диагностировать и что можно делать, если проблема действительно в Python-коде?

performanceПамятьprofilingobservability

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

PythonMedium

Python runtime: mutability, hashability, GIL и GC

Какие базовые runtime-вопросы по Python часто идут после алгоритмической задачи?

mutabilityhashabilitygilgarbage-collection

Teza

Техническое собеседование · Teza

Открыть вопрос

PythonMedium

Randomized backoff и jitter

Какой backoff выбрать для retry и зачем добавлять jitter?

backoffjitterrate-limitingНадежность

HeadHunter

Вопрос про production ML на техническом собеседовании · HeadHunter

Открыть вопрос

PythonMedium

ROC-AUC, ранжирующая интерпретация и бинаризованные предсказания

ROC-AUC, ранжирующая интерпретация и бинаризованные предсказания

ROC-AUCPR-AUCclass imbalanceРанжирование

Diagnocat

Вопрос по метрикам на техническом собеседовании · Diagnocat

Открыть вопрос

PythonMedium

Spark: RDD, DataFrame, Dataset и оптимизация job

Чем отличаются RDD, DataFrame и Dataset в Spark? Почему DataFrame обычно быстрее, и как использовать repartition, coalesce, cache и persist?

SparkRDDDataFrameDataset

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

PythonMedium

Spark/Flink job для оконной CTR агрегации

Как должен выглядеть stream job, который считает CTR по campaign_id и временным окнам?

sparkflinkwindowstechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

PythonMedium

Why does a custom nn.Module need super().__init__()? Separately, why is tags=[] as a default argument in Python dangerous?

nn.Modulesuperparameter registrationmutable defaults

Diagnocat

Техническое собеседование · Diagnocat

Открыть вопрос

PythonMedium

Does Python int overflow? How can you roughly estimate how much memory n! needs without computing the factorial?

Python intbig integersStirling formulabit length

Navio

Собеседование · Navio

Открыть вопрос

PythonMedium

What happens under the hood in a Python for-loop? How do iterators and generators differ, and what is StopIteration?

iteratorsgeneratorsStopIterationyield

Navio

Собеседование · Navio

Открыть вопрос

PythonMedium

How does @dataclass reduce boilerplate, what does frozen=True do, and how do descriptors or properties relate to attribute access?

dataclassfrozendescriptorproperty

Navio

Собеседование · Navio

Открыть вопрос

PythonMedium

Explain what the GIL is, why CPython has it, and what happens at a high level when you run a Python file.

GILbytecodeCPythonthreads

Okko

Техническое собеседование · Okko

Открыть вопрос

PythonMedium

How are arguments passed to functions in Python? What happens if a function mutates a list argument versus reassigning an immutable value?

mutabilityreferencesfunction argumentspython-runtime

Okko

Техническое собеседование · Okko

Открыть вопрос

PythonMedium

Вопрос про production ML

Write and explain a function decorator that logs calls. What does functools.wraps preserve? How would a decorator with arguments lazily import modules only when the function is called?

Декораторыfunctools.wrapslazy importclosures

Navio

Вопрос про production ML на собеседовании · Navio

Открыть вопрос

PythonMedium

Вопрос про production ML

You review code that loops over texts, calls an embedding model one by one and appends outputs to a NumPy array. What would you improve?

NumPybatchingembeddingsinference

Okko

Вопрос про production ML на техническом собеседовании · Okko

Открыть вопрос

PythonMedium

Вопрос про production ML

You can run four Python applications as systemd services on one VM or as four containers. What practical guarantees do containers add?

containerssystemdresource isolationdeployment

Palabra.ai

Вопрос про production ML на техническом собеседовании · Palabra.ai

Открыть вопрос

PythonMedium

Генераторы кандидатов и ALS для implicit-feedback рекомендаций

Какие генераторы кандидатов можно использовать в рекомендательной системе? Где в этом стеке находится ALS по implicit feedback, в чем его сильные стороны и ограничения?

candidate generationALSimplicit feedbackcollaborative filtering

T-Bank

ML System Design из фидбека после собеседования · T-Bank

Открыть вопрос

PythonMedium

Градиентный бустинг, остатки и диапазон предсказаний

Градиентный бустинг, остатки и диапазон предсказаний

gradient boostingdecision treesresidualsMSE

Tochka

Техническое собеседование · Tochka

Открыть вопрос

PythonMedium

Декораторы и генераторы в Python

Что такое декоратор, зачем он нужен, и почему код внутри генератора выполняется не при создании, а при итерации?

Декораторыgeneratorsyield

Звук

Техническое собеседование · Звук

Открыть вопрос

PythonMedium

Для чего нужны asyncio Lock, Event и Semaphore

Объясни разницу между async Lock, Event и Semaphore и где они нужны в backend-коде.

asynciosynchronizationsemaphorepython-runtime

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

PythonMedium

Зачем нужен asyncio event loop в Python

Как работает async/await в Python и чем concurrency через event loop отличается от parallel execution?

asyncioevent-loopconcurrencypython-runtime

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

PythonMedium

Зачем нужны MLflow, пайплайны, PySpark и Feature Store в production ML

Зачем нужны MLflow, пайплайны, PySpark и Feature Store в production ML?

mlopsfeature-storemlflowpipelines

Dodo

Вопрос про production ML на скрининге · Dodo

Открыть вопрос

PythonMedium

Имена, ссылки, циклические ссылки и mutable defaults в Python

В Python есть код со списками, ссылками на объекты, циклическими ссылками и mutable default arguments. Как пройтись по нему и объяснить, что останется в памяти и почему?

garbage-collectionreferencesmutable-defaultspython-internals

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

PythonMedium

Как задать LTV-таргет и первый когортный бейзлайн

Как задать LTV-таргет и первый когортный бейзлайн

LTVcohortstarget definitionУтечки

Adapty

Вопрос по метрикам из разбора после собеседования · Adapty

Открыть вопрос

PythonMedium

Как получить уверенность модели в предсказании

Модель дает prediction для trading/time-series задачи. Как оценить confidence и использовать его в решении?

calibrationconfidencemodel-evaluationtechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

PythonMedium

Как поставить задачу предсказания возврата пользователя

Бизнес хочет понимать, вернется ли пользователь и стоит ли давать ему скидку. Как сформулировать ML-задачу, таргет и признаки?

churn predictiontarget definitionПодготовка признаковtime split

Mayflower

ML System Design на техническом собеседовании · Mayflower

Открыть вопрос

PythonMedium

Как ревьюить класс для чтения и обработки данных

На собеседовании показывают класс, который читает файл, хранит DataFrame и делает обработку. Какие проблемы искать в таком коде?

code reviewdata pipelineУправление состояниемpandas

Звук

Вопрос про production ML на техническом собеседовании · Звук

Открыть вопрос

PythonMedium

Как устроены dict, list и NumPy array в Python

Объясни, как работает Python dict и чем обычный list отличается от NumPy array.

dictnumpydata-structurespython-internals

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

PythonMedium

Какие нейросетевые архитектуры используют в рекомендациях

Какие нейросетевые подходы можно использовать в RecSys и где они стоят в пайплайне?

two-towerSASRecnext item predictionreranking

Ozon

ML System Design на техническом собеседовании · Ozon

Открыть вопрос

PythonMedium

Когда пробовать бустинг для прогноза LTV

Когда пробовать бустинг для прогноза LTV

gradient boostinglinear regressioncategorical featuresnonlinearity

Adapty

Разбор после собеседования · Adapty

Открыть вопрос

PythonMedium

Метрики времени и значений ошибки

Что именно считать в метриках: timestamps, длительность операции или сами значения ошибки?

МетрикиobservabilitydebuggingНадежность

HeadHunter

Вопрос про production ML на техническом собеседовании · HeadHunter

Открыть вопрос

PythonMedium

На какой день VIP-прогноз становится достаточно надежным

Для нового игрока нужно понять, когда уже можно доверять прогнозу VIP-статуса. Как оценить, на каком дне жизни клиента модель дает достаточно полезный сигнал?

calibrationprediction-horizonconfidencecasino

MrBit

Вопрос по метрикам на техническом собеседовании · MrBit

Открыть вопрос

PythonMedium

Оптимизация медленного Python-сервиса

Backend-сервис на Python стал медленным под нагрузкой. Как бы ты локализовал bottleneck и понял, что именно оптимизировать?

backendobservabilityperformanceprofiling

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

PythonMedium

Пайплайн обучения и деплоя LTV-модели

Как перевести исследовательский ноутбук с LTV-моделью в воспроизводимое обучение, хранение версий, деплой и инференс/API предсказаний?

MLOpsmodel registryfeature pipelineserving

Adapty

Вопрос про production ML из разбора после собеседования · Adapty

Открыть вопрос

PythonMedium

Потоки, процессы, GIL и обмен данными

Чем отличаются потоки и процессы? Что такое GIL в CPython, когда нужны синхронизация и IPC?

threadsprocessesgilipc

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

PythonMedium

Почему dict в Python обычно работает за O(1)

Объясните, как устроен hash table в Python dict и почему операции lookup/insert обычно O(1), но иногда деградируют.

dicthash tabledata-structuresruntime

T1 / PrideInBrains

Техническое собеседование · T1 / PrideInBrains

Открыть вопрос

PythonMedium

Признаки из истории подписок для частично наблюдаемых пользователей

Признаки из истории подписок для частично наблюдаемых пользователей

LTVПодготовка признаковsubscriptionsrecency

Adapty

Вопрос про production ML из разбора после собеседования · Adapty

Открыть вопрос

PythonMedium

Проверка Python-задачи студента и подсказки

Как проверять код студента и давать подсказку, не раскрывая готовое решение?

sandboxunit testscode evaluationLLM hints

TripleTen

Вопрос про production ML на техническом собеседовании · TripleTen

Открыть вопрос

PythonMedium

Сложности операций в односвязном списке, list, dict и строках Python

Сравните сложности добавления и доступа для односвязного списка, Python list, Python dict и конкатенации строк. Где нужен amortized O(1), а где важен worst-case?

data structuresPython listdicthash table

inDrive

Техническое собеседование · inDrive

Открыть вопрос

PythonMedium

Сложность вставки строк в set и плохой hash

За сколько вставить n различных строк длины k в Python set? Что изменится, если hash для всех объектов возвращает одно и то же значение?

sethash-tableСтрокиcollisions

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

PythonMedium

Сложность добавления в начало и конец Python list

За сколько работает добавление элемента в начало и в конец Python list? Почему append в конец обычно O(1), но не всегда строго O(1)?

listdynamic-arraycomplexitytechnical-explanation

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

PythonMedium

Счетчик попыток в retry-loop

Как считать attempts в retry-декораторе так, чтобы логи и метрики не искажали реальное число вызовов?

Повторыloggingobservabilitytechnical-explanation

HeadHunter

Вопрос про production ML на техническом собеседовании · HeadHunter

Открыть вопрос

PythonMedium

Чем отличаются threading и multiprocessing в Python

Когда выбирать потоки, когда процессы, и как GIL влияет на CPU-bound и IO-bound задачи?

threadingmultiprocessinggilpython-runtime

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

PythonMedium

Что значит await в асинхронном Python

Объясните, что делает await в asyncio и почему он важен для неблокирующего сервиса.

asyncioconcurrencytechnical-explanationПодготовка к собеседованию

PulsePoint

Техническое собеседование · PulsePoint

Открыть вопрос

PythonHard

ML System Design

How can a forecasting system support multiple prediction horizons, and what does it mean that SHAP is model-agnostic?

forecasting horizonmulti-task learningSHAPinterpretability

Quantum One

ML System Design на техническом собеседовании · Quantum One

Открыть вопрос

PythonHard

Python-обертка или полный rewrite legacy C

Есть legacy C-компонент и желание дать пользователям удобный Python/API слой. Как рассуждать: делать обертку вокруг C или полностью переписывать реализацию на Python?

legacyarchitecturetechnical-tradeoffsapi-design

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

PythonHard

Архитектура hybrid retrieval и reranker для статей

После BM25 baseline нужно усилить поиск по статьям. Как спроектировать candidate generator, hybrid retrieval и reranker?

hybrid-retrievalbm25rerankerrag

AgeCode

RAG-вопрос на техническом собеседовании · AgeCode

Открыть вопрос

PythonHard

Как агрегировать CTR по минутам и где хранить результат

Как должен выглядеть stream job для CTR dashboard: что он читает, что считает и куда пишет результат для графика рекламодателя?

Потоковая обработкаsparkclickhousectr

Компания не указана

Вопрос про production ML на техническом собеседовании

Открыть вопрос

PythonHard

Как выбрать target для HFT mid-price prediction

Даны trades и order book. Как сформулировать target для предсказания будущего движения mid-price?

hfttarget-designtime-seriestechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

PythonHard

Как использовать текущую AV-систему в scene retrieval

В Waymo уже есть perception, prediction и map stack. Как использовать этот контекст при проектировании поиска дорожных сцен по тексту?

autonomous-drivingretrievalmetadatarequirements

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

PythonHard

Какие target и метрики выбрать для ранжирования поставщиков

В истории заявок можно использовать winner label, bid/no-bid, ручное удаление поставщика и другие события. Какие labels и метрики выбрать для candidate generator и ranker?

Метрикиlabelslearning-to-rankrecsys

Fairmarkit

Вопрос по метрикам на техническом собеседовании · Fairmarkit

Открыть вопрос

PythonHard

Сколько Kafka/Spark workers нужно для millions events/sec

Если поток CTR dashboard - миллионы событий в секунду, как оценить число partitions/workers и где искать bottleneck?

kafkasparkscalabilitycapacity-planning

Ads / Marketplace

Вопрос про production ML на техническом собеседовании

Открыть вопрос

SQLEasy

Precision и recall для спам-классификатора

Precision и recall для спам-классификатора

precisionrecallconfusion matrixМетрики

Wheely

Вопрос по метрикам на техническом собеседовании · Wheely

Открыть вопрос

SQLMedium

IoU-метрики детекции и one-to-one matching

IoU-метрики детекции и one-to-one matching

Детекция объектовIoUAverage Precisionmatching

Diagnocat

Вопрос по метрикам на техническом собеседовании · Diagnocat

Открыть вопрос

SQLMedium

ML System Design

You collected months of human-reviewer decisions for task outputs. How could you use this data to improve the automatic checker?

fine-tuningtraining datareviewer labelsLLM

Toloka AI

ML System Design из фидбека после собеседования · Toloka AI

Открыть вопрос

SQLMedium

Spark Broadcast Join и производительность Python UDF

Spark Broadcast Join и производительность Python UDF

Sparkbroadcast joinshufflePython UDF

CIAN

Вопрос про production ML из разбора после собеседования · CIAN

Открыть вопрос

SQLMedium

Вопрос про production ML

When are SQL window functions useful, how are they different from GROUP BY, and what ClickHouse MergeTree details matter when writing analytical queries?

Оконные функцииClickHouseMergeTreeanalytics

Adapty

Вопрос про production ML из разбора после собеседования · Adapty

Открыть вопрос

SQLMedium

Вопрос про production ML

How would you choose between SQL and NoSQL storage, and what would you add so the data is not lost?

NoSQLbackupreplicationobject storage

Palabra.ai

Вопрос про production ML на техническом собеседовании · Palabra.ai

Открыть вопрос

SQLMedium

Долгий SQL-запрос в Postgres

В Postgres медленно работает сложный запрос с join-ами и фильтрами. Как расследовать проблему и какие варианты исправления рассмотреть?

postgresperformanceexplain-analyzeindexing

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

SQLHard

Agent critic для Text2SQL

Text2SQL copilot возвращает SQL для закрытой продовой базы. Как спроектировать agent critic, который валидирует запрос до запуска?

text2sqlllm-agentssql-validationsafety

Sber

RAG-вопрос на техническом собеседовании · Sber

Открыть вопрос

SQLHard

Cold start и плавный LTV-переход для нового приложения

Cold start и плавный LTV-переход для нового приложения

cold startLTVBayesian shrinkageblending

Adapty

Вопрос про production ML из разбора после собеседования · Adapty

Открыть вопрос

SQLHard

Semantic validation SQL vs NL-запрос

Как проверить, что сгенерированный SQL возвращает именно то, что пользователь попросил на человеческом языке?

text2sqlsemantic-parsingsql-aststructured-reasoning

Sber

RAG-вопрос на техническом собеседовании · Sber

Открыть вопрос

SQLHard

Вопрос по метрикам

Two players repeatedly toss a fair coin. One waits for HH, the other waits for HT. Who finishes faster on average and how would you reason about it?

ВероятностьMarkov chainsМатожиданиеPenney game

HFT-роль, компания не подтверждена

Вопрос по метрикам из фидбека после собеседования · HFT-роль, компания не подтверждена

Открыть вопрос

SQLHard

Вопрос про production ML

You have a large blacklist of bad INNs and noisy PDF text where digits can be glued together. How would you find likely blacklist hits efficiently and accurately?

INNblacklistХешированиеstring matching

Tochka

Вопрос про production ML на техническом собеседовании · Tochka

Открыть вопрос

ML System DesignEasy

Production-readiness ML-системы

Как проверить, что ML-система готова к production: какие контракты, rollout, мониторинг, rollback и quality gates нужны перед запуском?

production MLrolloutmonitoringrollback

Satel Generation

Вопрос про production ML на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignEasy

RAG простыми словами

Как объяснить RAG простыми словами: retrieval, augmentation и generation, и почему это похоже на двухстадийные рекомендации?

ragretrievalllmsimple-explanation

Dubai Tech

RAG-вопрос на техническом собеседовании

Открыть вопрос

ML System DesignEasy

Быстрый baseline ранжирования лучше random

Есть релевантные кандидаты поиска, но финальный порядок случайный. Какое простое решение можно запустить быстро?

search-rankingbaselinemarketplacescope-reduction

Constructor

ML System Design на техническом собеседовании · Constructor

Открыть вопрос

ML System DesignEasy

Для чего нужен Docker multistage build

Интервьюер спрашивает: зачем в Dockerfile нужен multistage build и что он дает в production?

dockerdeploymentbackendmlops

FlameTree

Вопрос про production ML на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignEasy

Что такое cold start для пользователя и item

Как объяснить cold start в RecSys и какие практичные решения предложить для нового пользователя и нового item?

recsyscold-startfallbacksfundamentals

Dodo

ML System Design на скрининге · Dodo

Открыть вопрос

ML System DesignMedium

A/B metrics и guardrails для доставки

Какие offline, online и guardrail-метрики выбрать для A/B-теста динамической стоимости доставки?

ab-testingМетрикиguardrailsexperiment-design

Dodo

Вопрос по метрикам на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

Airflow-пайплайн для обучения и inference

Как устроить Airflow-пайплайн для регулярного переобучения и offline inference модели? Какие компоненты, артефакты и оптимизации нужны?

AirflowDAGoffline inferenceGPU utilization

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

ML System DesignMedium

ALS и матричная модель для cart recommendations

Как использовать уже существующую матричную модель или ALS в задаче рекомендаций к текущей корзине, не потеряв постановку item-to-cart?

matrix-factorizationalscart-recommendationspersonalization

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Baseline для рекомендаций в корзине через item-item co-occurrence

Нужно сделать рекомендации товаров в блоке корзины: 10 млн пользователей и 100 тыс. товаров. Как построить простой baseline через совместные покупки?

recsyscartitem-itembaseline

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

BERT vs GPT: в чем архитектурная разница

Объясните разницу между BERT-like encoder моделями и GPT-like decoder моделями, и почему они подходят для разных задач.

BERTGPTTransformersllm-theory

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML System DesignMedium

BERT: encoder, pretraining и attention

Что такое BERT, чем encoder отличается от decoder и какие pretraining-механизмы у BERT?

berttransformerattentionnlp

Sber

Техническое собеседование · Sber

Открыть вопрос

ML System DesignMedium

Cache и latency в рекомендательной системе

Как проектировать caching и latency budget для recommendation API?

cachinglatencyservingrecsys

DROM

Вопрос про production ML на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

Classified marketplace vs ecommerce для ML

Чем classified marketplace отличается от ecommerce для pricing, ranking и recommendation моделей?

classifiedsmarketplaceecommerceРанжирование

OLX

ML System Design на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Continuous batching в LLM inference

Что такое continuous batching и зачем он нужен в inference больших языковых моделей?

llm-servingcontinuous-batchinginferencesystems

Mirai

Вопрос про production ML на техническом собеседовании · Mirai

Открыть вопрос

ML System DesignMedium

Data drift и мониторинг production-модели

Что такое data drift, как его выявлять в данных и какие сигналы мониторить у ML-модели в production?

data driftmodel monitoringPSIKolmogorov-Smirnov

inDrive

Вопрос про production ML на техническом собеседовании · inDrive

Открыть вопрос

ML System DesignMedium

Deterministic orchestration вместо свободного агента

Когда в LLM-ассистенте лучше deterministic routing, а не свободный agent/tool calling?

LLM-агентыroutingtool callingguardrails

TripleTen

RAG-вопрос на техническом собеседовании · TripleTen

Открыть вопрос

ML System DesignMedium

Endpoint с watchdog и устойчивым поведением

Как спроектировать endpoint, который вызывает нестабильный downstream или долгий pipeline и должен корректно переживать сбои?

Надежностьwatchdogapitimeouts

PulsePoint

Вопрос про production ML на техническом собеседовании · PulsePoint

Открыть вопрос

ML System DesignMedium

Event stream вместо одного summary из LLM

Как превратить документы в признаки для прогноза: один summary, JSON-state или ленту событий?

llm-extractionevent-streamstructured-outputforecasting

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Function calling и structured output в LLM-приложении

Как работает function calling и как добиться корректного structured output?

function callingstructured outputconstrained decodingLLM-агенты

Waibee

RAG-вопрос на техническом собеседовании · Waibee

Открыть вопрос

ML System DesignMedium

Hidden student profile и prompt injection

Как использовать скрытый профиль студента и не дать пользователю вытащить его через prompt injection?

prompt injectionprivacyhidden contextguardrails

TripleTen

RAG-вопрос на техническом собеседовании · TripleTen

Открыть вопрос

ML System DesignMedium

High-level pipeline для CTR dashboard

Как разложить realtime CTR dashboard на ingestion, stream aggregation, storage и API?

Потоковая обработкаolapdashboardtechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Kafka, S3 и ClickHouse: роли компонентов

В realtime CTR dashboard есть поток impression/click events. Как разделить роли Kafka, S3 и ClickHouse?

kafkaclickhousestorageПотоковая обработка

Ads / Marketplace

Вопрос про production ML на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Leakage из pretraining LLM на историческом backtest

Почему исторический backtest LLM-фичей может быть нечестным, даже если документы подаются с правильными датами?

llmdata-leakagebacktestingforecasting

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

LLM JSON extraction, контекст филиала и оценка качества

LLM JSON extraction, контекст филиала и оценка качества

LLMJSON extractionRAGevaluation

Chinor

RAG-вопрос на техническом собеседовании · Chinor

Открыть вопрос

ML System DesignMedium

Location и image quality признаки объявления

Как использовать локацию и качество изображений в pricing/recommendation модели объявления, не смешивая качество товара с качеством фото?

locationimage-qualityfeature-engineeringmarketplace

OLX

ML System Design на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Long tail и novelty у item-item baseline

Какие слабые места появляются у item-item co-occurrence baseline для корзины: long tail, новые товары, популярность и novelty?

item-itemlong-tailnoveltycold-start

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Monitoring и audit для рекомендаций

Какие логи, метрики и алерты нужны после запуска рекомендательной модели?

monitoringobservabilityalertsrecsys

DROM

Вопрос про production ML на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

Multi-head attention как PyTorch-модуль

Multi-head attention как PyTorch-модуль

multi-head attentionPyTorchtensor shapesTransformer

Diagnocat

Техническое собеседование · Diagnocat

Открыть вопрос

ML System DesignMedium

Multimodal признаки в RecSys pipeline

Как добавить текстовые и визуальные признаки в рекомендательную систему без поломки serving pipeline?

multimodalfeature-storeembeddingsrecsys

DROM

ML System Design на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

MVP без истории взаимодействий

Какой baseline запустить для новой видео-ленты, если по ней еще нет кликов и покупок?

baselinecold-startexplorationproduct-thinking

Самокат

ML System Design на техническом собеседовании · Самокат

Открыть вопрос

ML System DesignMedium

Native PDF или OCR: как выбрать путь обработки

В invoice parsing часть документов native PDF, часть сканы. Как определить, какой путь обработки использовать и какие ошибки ждать?

OCRPDF parsinglayoutdata-quality

Vertex / BP

Техническое собеседование · Vertex / BP

Открыть вопрос

ML System DesignMedium

Online inference и latency budget в RecSys

Как организовать online inference, если модель рекомендаций тяжелая и должна отвечать в latency budget?

servinglatencyinferencerecsys

GRII RED

Вопрос про production ML на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Online serving архитектура реранкера

Как встроить ML-реранкер в существующий поиск, если candidate generation уже возвращает itemIds?

servingfeature-storelatencyml-architecture

Constructor

Вопрос про production ML на техническом собеседовании · Constructor

Открыть вопрос

ML System DesignMedium

Online и offline рекомендации под latency constraints

Какие подходы к рекомендациям можно использовать и как выбирать между offline precompute и online inference, если важны latency, RPS и качество?

online servingoffline inferencelatencyfeature freshness

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

ML System DesignMedium

Online-метрики: нашел ли пользователь ответ в статьях

Поиск по статьям можно оценивать offline, но продукту важно, помог ли он пользователю. Какие online-сигналы это показывают?

searchonline-metricsevaluationux

AgeCode

Вопрос по метрикам на техническом собеседовании · AgeCode

Открыть вопрос

ML System DesignMedium

Online-фичи кухни и доставки для pricing

Какие свежие операционные признаки кухни и курьеров доступны для модели стоимости доставки, и как отделить их от стабильных user/unit features?

online-featureskitchen-loadcourier-statusfeature-store

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

Output record для CTR time series

Какую строку должен писать stream job в хранилище агрегатов для dashboard?

clickhousetime-seriesschematechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Production-loop для CV модели после rollout

После запуска CV модели на реальных точках появляются ошибки, новые блюда и новые условия съемки. Как построить поддержку и дообучение?

computer-visionmlopsactive-learningmonitoring

CV catering

Вопрос про production ML на техническом собеседовании · CV catering

Открыть вопрос

ML System DesignMedium

RAG-вопрос

Explain how LLM tool/function calling works end to end: tool schema in the prompt, model output, real tool execution and final user response.

LLM-агентыtool callingfunction callingstructured output

Apriori

RAG-вопрос из материалов интервью · Apriori

Открыть вопрос

ML System DesignMedium

RAG-вопрос

Design the end-to-end сценарий for a RAG system: data preparation, vector index ingestion and serving-time retrieval.

RAGchunkingembeddingsHNSW

Apriori

RAG-вопрос из материалов интервью · Apriori

Открыть вопрос

ML System DesignMedium

RAG-вопрос

A video-analytics platform wants an assistant that answers support requests using documentation and prior tickets. How would you design the RAG system?

RAGsupport automationretrievalevaluation

3DEYE

RAG-вопрос на скрининге · 3DEYE

Открыть вопрос

ML System DesignMedium

RAG-вопрос

A векторный поиск returns top-k nearest items, but all results are too similar to each other. How can you keep relevance while increasing diversity?

Векторный поискdiversityMMRreranking

Fashion AI startup, не подтверждено

RAG-вопрос на техническом собеседовании · Fashion AI startup, не подтверждено

Открыть вопрос

ML System DesignMedium

Retraining и обновление векторного индекса

Каталог и фотографии постоянно меняются. Как организовать переобучение модели и обновление ANN-индекса для visual search?

ann-indexretrainingcatalogmlops

Wildberries

Вопрос про production ML на техническом собеседовании · Wildberries

Открыть вопрос

ML System DesignMedium

RoPE и positional embeddings в GPT

Какие бывают positional embeddings в Transformer и как работает RoPE?

ropepositional-embeddingslong-contexttransformers

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

ML System DesignMedium

Schema linking и NER в доменной базе

Пользователь пишет естественный запрос к большой корпоративной базе. Как матчить сущности, аббревиатуры, таблицы и колонки?

text2sqlschema-linkingnermetadata

Sber

RAG-вопрос на техническом собеседовании · Sber

Открыть вопрос

ML System DesignMedium

Seller features в модели цены объявления

Почему признаки продавца могут помогать pricing или ranking модели в classified marketplace, и какие риски нужно контролировать?

seller-featurespricingmarketplacefairness

OLX

ML System Design на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Serving VLM: latency, cost и fallback

Как выкатывать тяжелую VLM в продукт, где есть ограничения по latency и стоимости?

vlmservinglatencycost

Яндекс

Вопрос про production ML на техническом собеседовании · Яндекс

Открыть вопрос

ML System DesignMedium

Serving с учетом текущего состояния корзины

Корзина меняется в текущей сессии. Как online serving должен учитывать add/remove item, cache invalidation и fallback?

online-servingsession-featuresКешcart-state

GRII RED

Вопрос про production ML на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

State для планового производства

Как хранить извлеченный из документов план производства, чтобы новые отчеты корректно обновляли forecast features?

feature-storestatellm-extractionforecasting

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Structural break в прогнозе добычи

Почему модель на исторической добыче может резко ошибиться, если компания инвестирует в новый способ добычи или расширение рудника?

forecastingstructural-breakinvestmentstime-series

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Substitutes vs complements в корзине

Почему рекомендация похожего кольца к уже добавленному кольцу может быть хуже, чем рекомендация комплементарной категории?

complementssubstitutescategory-constraintscart

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Tabular baseline для прогноза добычи

Нужно прогнозировать поквартальную добычу по рудникам. Какие признаки и baseline-модель стоит построить до LLM-слоя?

forecastingtabular-mlfeature-engineeringbaseline

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Translation baseline против native generation

Для международного поиска можно перевести уже существующее описание или генерировать новое на целевом языке. Как сравнить подходы?

translationlocalizationgenerationbaseline

Яндекс

ML System Design на техническом собеседовании · Яндекс

Открыть вопрос

ML System DesignMedium

VAD и разделение спикеров в пайплайнах обработки звонков

VAD и разделение спикеров в пайплайнах обработки звонков

VADdiarizationASRsegmentation

Chinor

Техническое собеседование · Chinor

Открыть вопрос

ML System DesignMedium

VLM и чат-ассистент поверх поиска недвижимости

Как встроить VLM, поиск по картинкам и чат-ассистента в продукт поиска недвижимости так, чтобы они дополняли основной retrieval/ranking, а не заменяли его?

VLMRAGassistantreal-estate search

CIAN

RAG-вопрос из разбора после собеседования · CIAN

Открыть вопрос

ML System DesignMedium

W8A8, W4A16 и схемы quantization

Чем отличаются схемы quantization для LLM inference и какие trade-off нужно назвать?

quantizationllm-servinginferenceПамять

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignMedium

Адаптация LLM к медицинской терминологии

Адаптация LLM к медицинской терминологии

medical LLMRAGSFTLoRA

Diagnocat

RAG-вопрос из фидбека после собеседования · Diagnocat

Открыть вопрос

ML System DesignMedium

Архитектура RAG/поисковой системы для документов

Нужно построить систему, которая ищет по внутренним документам и помогает отвечать на вопросы. Какой пайплайн спроектировать?

RAGdocument searchchunkingembeddings

LifePay

RAG-вопрос на техническом собеседовании · LifePay

Открыть вопрос

ML System DesignMedium

Безопасный rollout ONNX-модели в production

Как безопасно выкатить новую версию ONNX-модели в production: какие проверки сделать до релиза, как включать трафик, что мониторить и как быстро откатиться?

production incidentONNXrollbackdatabase publish

CIAN

Вопрос про production ML из разбора после собеседования · CIAN

Открыть вопрос

ML System DesignMedium

Бизнес-метрики и model metrics

Как связать бизнес-метрики продукта с offline-метриками рекомендательной модели?

Метрикиab-testingrecsysmodel-evaluation

DROM

Вопрос по метрикам на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

Варианты speculative decoding

Какие варианты speculative decoding встречаются в LLM serving и чем они отличаются на уровне реализации?

llm-servingspeculative-decodinginference-optimizationtechnical-explanation

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignMedium

Векторный и полнотекстовый поиск

Чем векторный поиск отличается от полнотекстовый поиск и почему часто нужен hybrid?

Векторный поискПолнотекстовый поискГибридный поискembeddings

Unimatch

RAG-вопрос на техническом собеседовании · Unimatch

Открыть вопрос

ML System DesignMedium

What main architecture families are used for generative models, and where are they commonly applied?

generative modelsautoregressive modelsdiffusionGAN

AgentPlace

Скрининг · AgentPlace

Открыть вопрос

ML System DesignMedium

Explain the difference between BERT and GPT in terms of Transformer architecture and training objective.

BERTGPTTransformerMLM

Fashion AI startup, не подтверждено

Техническое собеседование · Fashion AI startup, не подтверждено

Открыть вопрос

ML System DesignMedium

Вопрос по метрикам

How would you evaluate the full search pipeline and its individual components offline and online?

search evaluationoffline metricsA/B testingslices

CIAN

Вопрос по метрикам из разбора после собеседования · CIAN

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

A 72B-parameter LLM is served on an A100 80GB. Estimate whether FP16 fits and explain what quantization changes.

LLM servingGPU memoryFP16INT4

Apriori

Вопрос про production ML из материалов интервью · Apriori

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

A production service already has data, but you need to change the database schema. Describe a safe миграцию.

database migrationsschema evolutionbackfillrollback

Apriori

Вопрос про production ML из материалов интервью · Apriori

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

Explain the difference between a Kubernetes pod, service, deployment and node.

Kubernetespodservicedeployment

Apriori

Вопрос про production ML из материалов интервью · Apriori

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

A deployed ML service has 300 ms latency, but the product now needs 30 ms. What do you investigate and what optimizations can you try?

ML servinglatencyONNXTensorRT

inDrive

Вопрос про production ML на техническом собеседовании · inDrive

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

Explain at a high level how TensorRT or similar inference optimizers speed up neural networks, and why INT8 quantization usually needs calibration.

TensorRTONNXquantizationcalibration

Navio

Вопрос про production ML на техническом собеседовании · Navio

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

After launching a feed recommender, how do you decide when and how to retrain the models?

MLOpsretrainingdata driftmonitoring

T-Bank

Вопрос про production ML на техническом собеседовании · T-Bank

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

When would you choose a columnar database over Redis, MongoDB or a row-oriented relational database for ML/data pipelines?

columnar storageClickHouseRedisMongoDB

Palabra.ai

Вопрос про production ML на скрининге · Palabra.ai

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

What mechanisms would you add so important ML datasets do not disappear because of human error or operational mistakes?

backupsdata safetyversioningaccess control

Palabra.ai

Вопрос про production ML на скрининге · Palabra.ai

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

A speech-AI pipeline needs fast analytical queries over training-data processing events. What requirements would you give DevOps before asking for ClickHouse?

ClickHousespeech AIanalyticscapacity planning

Palabra.ai

Вопрос про production ML на техническом собеседовании · Palabra.ai

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

A neural network inference pipeline is too slow. What optimizations would you consider before changing the model architecture?

inference optimizationONNXTensorRTbatching

Palabra.ai

Вопрос про production ML на техническом собеседовании · Palabra.ai

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

How can you increase LLM serving throughput or batch size on the same GPU without buying a larger GPU?

LLM servingbatchingquantizationKV cache

Fashion AI startup, не подтверждено

Вопрос про production ML на техническом собеседовании · Fashion AI startup, не подтверждено

Открыть вопрос

ML System DesignMedium

Вопрос про production ML

You have a multi-GPU server and want to host one or more open-source LLMs. What software stack and design choices would you use?

LLM servingvLLMGPU memoryquantization

LLM-роль в Dubai, компания не подтверждена

Вопрос про production ML на скрининге · LLM-роль в Dubai, компания не подтверждена

Открыть вопрос

ML System DesignMedium

Выбор архитектуры RecSys под команду и бюджет

Как сравнивать архитектурные варианты recommender-системы и выбрать устойчивый вариант?

architecturetradeoffsrecsysproduction

DROM

Вопрос про production ML на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

Выбор и настройка векторный поиск для рекомендаций

Как выбрать FAISS, HNSW-based CPU индекс, Redis, Qdrant или Elasticsearch для поиска ближайших embedding? Какие параметры и метрики смотреть?

ANNHNSWFAISSRedis

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

ML System DesignMedium

Выбор модели для production в marketplace

Как выбирать production-модель для marketplace pricing/recommendation задачи, если offline score у сложной модели выше?

model-selectionproductionlatencyinterpretability

OLX

Вопрос про production ML на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Где bottleneck при генерации simulation data

Для редких дорожных сценариев можно генерировать synthetic/simulation data. Где главный bottleneck и как использовать такие данные в retrieval-системе?

simulationsynthetic-dataautonomous-drivingВалидация

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignMedium

Где в Transformer применяется Mixture of Experts

В MoE LLM где обычно находится Mixture of Experts: в каком слое Transformer и зачем это делают?

Mixture of ExpertsTransformerfeed-forward networkrouting

Toloka AI

Техническое собеседование · Toloka AI

Открыть вопрос

ML System DesignMedium

Где искать latency, quality и cost деградацию LLM-сервиса

LLM-сервис стал медленнее, хуже или дороже. Какие проверки делать?

LLM servingobservabilitylatencycost

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

ML System DesignMedium

Генерация кандидатов и реранжирование в поиске маркетплейса

Как построить архитектуру поиска: от первичных кандидатов до финального ранжирования?

candidate generationBM25Векторный поискreranking

Uzum

ML System Design на техническом собеседовании · Uzum

Открыть вопрос

ML System DesignMedium

Граница backend и ML-сервиса рекомендаций

Где провести границу между продуктовым backend, ML-сервисом, feature store и business rules?

backendml-servingapi-designrecsys

DROM

Вопрос про production ML на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

Граница item-to-item и персонализации

Как объяснить, где заканчивается item-to-item рекомендация к корзине и начинается персонализированный user recommender?

item-to-itempersonalizationРанжированиеcart

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Границы pricing-системы при закрепленных курьерах

Курьеры закреплены за юнитом и зоной, а pricing-система не управляет расписанием. Как это ограничение должно повлиять на дизайн ML решения?

domain-constraintsdeliverydecision-policylogistics

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

Группы признаков для recommender

Какие группы признаков стоит назвать в RecSys ML System Design: user, item, context и инженерные фичи?

feature-engineeringrecsysfeature-storetechnical-explanation

DROM

ML System Design на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

Датасет и labels для RecSys ML System Design

Где брать positive/negative examples для рекомендательной системы и что считать ground truth?

recsysdatasetlabelsoffline-validation

DROM

ML System Design на техническом собеседовании · DROM

Открыть вопрос

ML System DesignMedium

Зачем нужны positional embeddings в Transformer

Для чего нужны positional embeddings и какие виды positional embeddings используются в LLM?

transformerpositional-embeddingsropeattention

Huawei

Техническое собеседование · Huawei

Открыть вопрос

ML System DesignMedium

Зачем рекомендательная система, если заказчик может вручную менять поставщиков

Заказчик может удалить предложенных поставщиков и добавить своих. Как объяснить ценность рекомендательной системы в таком продукте и какие метрики из этого следуют?

product-valueb2b-marketplacerecsysМетрики

Fairmarkit

ML System Design на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignMedium

Из каких компонентов состоит LLM-агент

Нужно объяснить архитектуру LLM-агента: какие основные блоки нужны, где хранится контекст и как агент вызывает инструменты.

LLM-агентыtoolscontextRAG

Flametree

RAG-вопрос на техническом собеседовании · Flametree

Открыть вопрос

ML System DesignMedium

Инференс-пайплайн и cold start в подборе поставщиков

Как обработать новый закупочный запрос и что делать с новыми закупщиками, новыми поставщиками и редкими категориями?

inferencecold-startservingfallbacks

Fairmarkit

Вопрос про production ML на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignMedium

Как LLM работает на инференсе

Интервьюер просит объяснить базовый inference loop LLM: что подается на вход, что модель возвращает и как получается следующий токен.

llminferencegenerationlogits

FlameTree

RAG-вопрос на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignMedium

Как offline-предсказания попадают в production

Если embeddings, scores или recommendation lists считаются offline и лежат в S3/DWH, как безопасно передать эти результаты backend/serving-слою?

offline inferencemodel registryS3Redis

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

ML System DesignMedium

Как VLM обрабатывает изображение вместе с текстом

Как visual language model принимает картинку на вход: что делает vision encoder, как появляются visual tokens и как они совмещаются с текстом?

vlmvision-transformervisual-tokensmultimodal

Huawei

Техническое собеседование · Huawei

Открыть вопрос

ML System DesignMedium

Как встроить модель возврата в продукт

Модель уже умеет предсказывать вероятность возврата. Как ее применить в продукте и где хранить признаки?

model servingfeature storebatch inferencepush notifications

Mayflower

Вопрос про production ML на техническом собеседовании · Mayflower

Открыть вопрос

ML System DesignMedium

Как выбрать text encoder для запросов к дорожным сценам

Пользователь пишет запросы вроде "pedestrian crossing at night". Как выбрать и адаптировать text encoder для поиска дорожных сцен?

text-encoderembeddingsdomain-adaptationretrieval

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignMedium

Как выкатывать новые признаки и модели в сервис ранжирования

Команда хочет добавить новые признаки или модель в ранжирующий сервис. Как сделать это безопасно?

ranking servicefeature rolloutA/B testingmonitoring

Uzum

Вопрос про production ML на техническом собеседовании · Uzum

Открыть вопрос

ML System DesignMedium

Как генерировать suggest-вопросы из статей

Для статьи нужно показать короткие suggest-вопросы или подсказки. Как получить их из текста статьи и не ухудшить качество поиска?

suggestsummarizationsearchcontent-quality

AgeCode

RAG-вопрос на техническом собеседовании · AgeCode

Открыть вопрос

ML System DesignMedium

Как заранее понять пользу audio-event фичи

Есть новая возможность: по аудио понять событие вокруг пользователя, например лай собаки, открытие двери или разбитое стекло. Как до обучения модели понять, есть ли продуктовая польза?

product-mlaudio-classificationassistantuser-value

Sber / GigaChat

ML System Design на техническом собеседовании · Sber / GigaChat

Открыть вопрос

ML System DesignMedium

Как зафиксировать задачу CTR dashboard

С чего начать system design для realtime dashboard CTR рекламных кампаний?

adsctrrequirementstechnical-explanation

Ads / Marketplace

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Как интерпретировать backtest при возможном leakage

Как сравнивать модели прогноза, если LLM-extractor может знать будущие факты из pretraining?

backtestingУтечкиmodel-comparisonforecasting

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Как оптимизировать LLM inference pipeline

Как оптимизировать LLM inference pipeline: routing, batching, serving, latency и стоимость? Какие рычаги ускорения и удешевления стоит назвать?

llminferenceservingbatching

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignMedium

Как оценивать качество RAG-системы

Как оценивали качество: насколько хорошо получается вести диалог, отвечать на вопрос или искать нужные документы?

ragevaluationМетрикиretrieval

Satel Generation

Вопрос по метрикам на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignMedium

Как оценивать поиск/RAG по статьям offline и online

Как понять, что система поиска по статьям или RAG работает хорошо? Какие offline и online метрики использовать?

searchragevaluationМетрики

AgeCode

Вопрос по метрикам на техническом собеседовании · AgeCode

Открыть вопрос

ML System DesignMedium

Как поставить задачу раннего VIP-прогноза

В casino-продукте sales-команде нужно как можно раньше понять, станет ли новый игрок VIP по депозитам и обороту. Как сформулировать ML-задачу, target, горизонт прогноза и бизнес-действие?

classic-mlcasinotarget-definitionbusiness-objective

MrBit

ML System Design на техническом собеседовании · MrBit

Открыть вопрос

ML System DesignMedium

Как построить модель распознавания аудио-событий

Как технически построить модель, которая по аудио определяет событие: лай собаки, звук двери, разбитое стекло и похожие классы?

audio-classificationspectrogrammodelingedge-ml

Sber / GigaChat

ML System Design на техническом собеседовании · Sber / GigaChat

Открыть вопрос

ML System DesignMedium

Как посчитать поток событий для CTR dashboard

Нужно построить систему, где рекламодатель смотрит CTR кампаний. Дано 200 млрд показов в день и CTR около 1%. Как начать system design с чисел?

system-designadsctrcapacity-planning

Компания не указана

Вопрос про production ML на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Как проверить, стоит ли менять LLM на новую open-source модель

Вышла новая open-source LLM. Как проверить, станет ли она лучше текущей модели в продукте и стоит ли ее внедрять?

llmevaluationmodel-selectionproduction

FlameTree

Вопрос про production ML на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignMedium

Как работает токенизатор и зачем его обучать

Интервьюер просит рассказать про токенизатор: какие бывают алгоритмы, как он работает и нужно ли его обучать под домен или язык?

llmtokenizationbpesentencepiece

FlameTree

RAG-вопрос на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignMedium

Как разделить suggest и свободный поиск по статьям

В продукте есть база статей. Пользователь может видеть подсказки или задавать свободный вопрос. Как разделить эти два режима в дизайне поиска?

searchsuggestragproduct-requirements

AgeCode

RAG-вопрос на техническом собеседовании · AgeCode

Открыть вопрос

ML System DesignMedium

Как собрать данные и классы для модели модерации

Для moderation-модели нужны классы и данные. Как собрать labels, обработать дисбаланс и не смешать разные политики в один шумный датасет?

moderationtraining-datalabelingclass-imbalance

Satel Generation

ML System Design на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignMedium

Как сформулировать ML System Design-задачу подбора поставщиков

Fairmarkit -- маркетплейс для корпоративных закупок: заказчик создает заявку, а система предлагает подходящих поставщиков. Как сформулировать ML-задачу подбора поставщиков перед выбором модели?

подбор поставщиковb2brecsysproblem-framing

Fairmarkit

ML System Design на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignMedium

Как считать online-фичу нагрузки курьеров

В delivery pricing модели нужна фича нагрузки курьеров. Из каких событий и состояний ее считать, чтобы она была пригодна для online decisioning?

online-featurescourier-loadfeature-engineeringdelivery

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

Как устроена autoregressive generation и зачем KV cache

Как LLM генерирует ответ токен за токеном и какую роль в этом играет KV cache?

llmautoregressive-generationkv-cachedecoding

FlameTree

RAG-вопрос на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignMedium

Как устроена архитектура Transformer

Расскажи базовую архитектуру Transformer: encoder/decoder, self-attention, Q/K/V, positional encoding и отличия GPT/BERT.

transformerSelf-attentionpositional-encodingnlp

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

ML System DesignMedium

Как устроить BERT-based moderation inference service

Нужно развернуть сервис модерации текста на BERT/DistilBERT. Как спроектировать input/output, policy layer, thresholds и routing actions?

moderationbertinference-servicepolicy-layer

Satel Generation

Вопрос про production ML на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignMedium

Как учитывать категории и комплементарность в корзине

Если пользователь добавил кольцо, стоит ли рекомендовать еще кольца? Как сформулировать цель и ограничения для рекомендаций в корзине?

recsysdiversitycomplementsbusiness-rules

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Как учитывать сезонность в рекомендациях и прогнозах

Ты упомянул сезонность. Как с ней работать в фичах для рекомендационных систем, прогнозов или продуктовой аналитики?

recsysseasonalityfeaturestime-series

Almus

ML System Design на собеседовании · Almus

Открыть вопрос

ML System DesignMedium

Как часто пересчитывать стоимость доставки в корзине

Клиент видит стоимость доставки или порог бесплатной доставки в корзине. Каталог и корзина меняются, а на чек-ауте нельзя показать другую цену и вызвать негатив. Как спроектировать пересчет и где провести границу между точностью, latency и стоимостью?

recsyspricingdeliverymonetization

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

Какая архитектура эмбеддингов была в RAG

Какую архитектуру эмбеддингов вы построили для RAG: обычный retrieval pipeline или что-то сложнее?

ragembeddingsretrievalvector-search

Satel Generation

RAG-вопрос на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignMedium

Какие offline и online метрики у moderation-модели

Модель модерации работает в production. Какие метрики смотреть offline, online и после запуска, чтобы контролировать качество и нагрузку на ручную проверку?

moderationМетрикиmanual-reviewmonitoring

Satel Generation

Вопрос по метрикам на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignMedium

Какие аномалии искать в биржевом датасете

После базовых latency-вопросов интервьюер спрашивает: какие еще аномалии можно заметить в market-data файле?

hftdata-qualityanomaly-detectiontime-series

Wunderfund

Вопрос про production ML на техническом собеседовании · Wunderfund

Открыть вопрос

ML System DesignMedium

Какие данные нужны для подбора поставщиков и что меняет масштаб

Есть исторические сделки, логи платформы, больше миллиона поставщиков и около 100 компаний-заказчиков. Какие данные использовать и как масштаб влияет на архитектуру?

datascaleevent-logscandidate-generation

Fairmarkit

ML System Design на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignMedium

Какие признаки использовать для модели цены объявления

Нужно построить модель для оценки или подсказки цены second-hand объявления в marketplace. Какие признаки и baseline стоит предложить?

pricingfeature-engineeringmarketplacetabular-ml

OLX

ML System Design на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Какие сигналы извлекать из PDF-отчетов

Какие факты из PDF-отчетов компаний полезны для прогноза добычи, и как отличать их от шумного текста?

llm-extractionpdffeature-engineeringforecasting

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Какие события логировать для обучения ranker

После запуска MVP какие события и признаки нужно собирать, чтобы обучить модель ранжирования user-video?

logginglabelsfeature-engineeringattribution

Самокат

ML System Design на техническом собеседовании · Самокат

Открыть вопрос

ML System DesignMedium

Какие стандартные проблемы есть в RecSys

Какие типовые проблемы рекомендательных систем ты бы назвал и как их можно измерять или снижать?

recsysdiversitynoveltypopularity-bias

Wildberries

ML System Design из материалов интервью · Wildberries

Открыть вопрос

ML System DesignMedium

Какие техники prompt engineering использовать в production

Какие практические техники prompt engineering помогают получать стабильный и проверяемый ответ от LLM?

llmprompt-engineeringstructured-outputguardrails

FlameTree

RAG-вопрос на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignMedium

Категории и признаки каталога для cart RecSys

Какие catalog features нужны для рекомендаций в корзине и какие проблемы бывают с категориями товаров?

catalog-featuresitem-featuresdata-qualitycategories

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Когда нужен batch ETL, а когда streaming

Когда стоит использовать классический batch ETL, а когда streaming для рекомендаций, аналитики или ML-фичей?

ETLПотоковая обработкаKafkalatency

GamerAM

Вопрос про production ML на скрининге · GamerAM

Открыть вопрос

ML System DesignMedium

Когда нужен fine-tuning, а когда хватает prompt engineering

Как решить, дообучать LLM или ограничиться prompt engineering/RAG, и что меняется при LoRA adapters?

llmfine-tuninglorarag

FlameTree

Вопрос про production ML на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignMedium

Когда нужен hybrid retrieval

В поиске есть embeddings и полнотекстовый индекс. Когда использовать оба подхода и как их объединять?

Гибридный поискBM25ANNВекторный поиск

LifePay

RAG-вопрос на техническом собеседовании · LifePay

Открыть вопрос

ML System DesignMedium

Когда нужен векторный поиск, а когда full-text

В продукте есть поиск по документам/артефактам. Когда использовать full-text, когда векторный поиск, и зачем может понадобиться hybrid retrieval?

Векторный поискBM25Гибридный поискretrieval

Unimatch

RAG-вопрос на техническом собеседовании · Unimatch

Открыть вопрос

ML System DesignMedium

Метрики recommender в marketplace

Какие метрики использовать для recommender в marketplace, где клики, контакты, сделки и seller exposure имеют разные цели?

recsysmarketplace-metricsprecision-at-kseller-exposure

OLX

Вопрос по метрикам на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Метрики для рекомендаций в корзине

Какие offline, online и guardrail-метрики подходят для блока рекомендаций в корзине, если клики не равны покупке?

recsys-metricscartgmvguardrails

GRII RED

Вопрос по метрикам на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Метрики и A/B для поиска/RAG

Как оценивать качество поиска или RAG-системы offline и online?

NDCGRecall@KA/B testingfaithfulness

LifePay

Вопрос по метрикам на техническом собеседовании · LifePay

Открыть вопрос

ML System DesignMedium

Метрики и thresholds для phishing warnings

Как выбрать thresholds для предупреждения о phishing и какие метрики мониторить в production?

phishingthresholdsprecision-recallmonitoring

T-Bank

Вопрос по метрикам на техническом собеседовании · T-Bank

Открыть вопрос

ML System DesignMedium

Метрики маркетплейс-поиска

Проектируем ML для поиска на маркетплейсе. Какие бизнес, online и offline метрики выбрать?

marketplace searchNDCGconversionGMV

Uzum

ML System Design на техническом собеседовании · Uzum

Открыть вопрос

ML System DesignMedium

Мониторинг drift данных и реакция с переобучением

Мониторинг drift данных и реакция с переобучением

data driftmonitoringretrainingproduction ML

QIC

Вопрос про production ML на техническом собеседовании · QIC

Открыть вопрос

ML System DesignMedium

На какие классы делятся модели рекомендаций

Расскажи, какие классы моделей есть в рекомендательных системах и где они обычно применяются.

recsyscollaborative-filteringtwo-towerРанжирование

Wildberries

ML System Design из материалов интервью · Wildberries

Открыть вопрос

ML System DesignMedium

Оптимизация стоимости ASR и LLM-инференса для звонков

Оптимизация стоимости ASR и LLM-инференса для звонков

inference optimizationquantizationbatchingprofiling

Chinor

Вопрос про production ML на техническом собеседовании · Chinor

Открыть вопрос

ML System DesignMedium

Оптимизация цены по grid

Есть response-модель для разных вариантов доставки. Как выбрать итоговую цену или минимальную сумму заказа?

Оптимизацияpricingguardrailsdecision-policy

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

От модели до ML-микросервиса

Что должен сделать ML-инженер, чтобы довести модель до production-сервиса: интерфейс, артефакт, Docker, мониторинг и обновления?

model-servingmlopsmicroservicedeployment

Dubai Tech

Вопрос про production ML на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Ответственность за полный цикл деплоя модели

Ответственность за полный цикл деплоя модели

deploymentONNXmicroservicemonitoring

QIC

Вопрос про production ML на техническом собеседовании · QIC

Открыть вопрос

ML System DesignMedium

Отладка разрыва между офлайн-оценкой и качеством в продукте

Отладка разрыва между офлайн-оценкой и качеством в продукте

NLPdomain shiftonline qualitymonitoring

Constructor

Вопрос про production ML на техническом собеседовании · Constructor

Открыть вопрос

ML System DesignMedium

Офлайн-метрики рекомендаций: recall@K, precision@K, coverage и NDCG

Сравните recall@K, precision@K, coverage и NDCG для candidate generation и ранжирования. Как эти метрики ведут себя при изменении K?

RecSys metricsrecall@Kprecision@Kcoverage

T-Bank

Вопрос по метрикам из фидбека после собеседования · T-Bank

Открыть вопрос

ML System DesignMedium

Пайплайн OCR для вывесок

На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?

ocrcomputer-visionentity-matchingpipeline-design

2GIS

Вопрос про production ML на техническом собеседовании · 2GIS

Открыть вопрос

ML System DesignMedium

Поиск срезов, где LTV-модель ошибается

Поиск срезов, где LTV-модель ошибается

error analysisslicingLTVresiduals

Adapty

Вопрос про production ML из разбора после собеседования · Adapty

Открыть вопрос

ML System DesignMedium

Постановка cart recommendations при масштабе каталога

Нужно сделать блок рекомендаций в корзине для 10 млн пользователей и 100 тыс. товаров. Как сформулировать цель, ограничения и MVP?

cart-recommendationsscalebaselinerecsys

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Постановка задачи динамической стоимости доставки

В ML System Design кейсе про доставку нужно спроектировать персонализацию минимальной суммы заказа или платной доставки ниже порога. Как задать цель, границы и базовый план системы?

pricingdeliveryml-system-designproblem-framing

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

Построение и обновление HNSW/Qdrant пайплайна векторного поиска

Построение и обновление HNSW/Qdrant пайплайна векторного поиска

HNSWQdrantANNAirflow

Constructor

Вопрос про production ML из фидбека после собеседования · Constructor

Открыть вопрос

ML System DesignMedium

Почему acceptance ratio может быть высоким

За счет чего speculative decoding сохраняет высокий acceptance ratio при нескольких draft tokens?

llm-servingspeculative-decodingacceptance-ratetechnical-explanation

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignMedium

Почему годовой guidance нельзя наивно усреднять

Компания дала годовой guidance роста добычи. Почему опасно равномерно размазать его по кварталам?

forecastingtemporal-featuresguidanceУтечки

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Почему начинать поиск по статьям с BM25 baseline

Нужно сделать поиск/подсказки по базе статей или банковских ответов. Почему разумно начать с BM25/TF-IDF, а не сразу с embeddings/RAG?

searchragbm25baseline

AgeCode

RAG-вопрос на техническом собеседовании · AgeCode

Открыть вопрос

ML System DesignMedium

Прогнозирование временных рядов: постановка, baseline и валидация

Нужно прогнозировать retention, revenue или LTV во времени. Как поставить задачу, выбрать горизонт и гранулярность, построить baseline и провести корректную временную валидацию?

time-seriesforecastingltvbaseline

Almus

ML System Design на техническом собеседовании · Almus

Открыть вопрос

ML System DesignMedium

Разбор пользовательского и операционного сценарий до модели

Почему в кейсе доставки стоит сначала разложить путь пользователя и операционный процесс заказа, а уже потом выбирать модель?

Продуктовый сценарийoperationsdeliveryfeature-discovery

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignMedium

Роутинг звонков, отсеивание отказов и метрики

Роутинг звонков, отсеивание отказов и метрики

routingbinary classificationМетрикиLLM cost

Chinor

Вопрос про production ML на техническом собеседовании · Chinor

Открыть вопрос

ML System DesignMedium

Связывание событий из нескольких документов

Один факт о руднике встречается в годовом отчете, презентации и call transcript. Как объединить эти источники в один forecasting state?

multi-documententity-resolutionllm-extractionforecasting

Mining / Commodities

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignMedium

Связь business metrics и offline metrics модели

Как перейти от revenue, seller success и buyer value в marketplace к offline-метрикам pricing/recommendation модели?

business-metricsoffline-evaluationmarketplaceproxy-metrics

OLX

Вопрос по метрикам на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Сколько draft tokens брать в speculative decoding

Как выбирать число draft tokens в speculative decoding и почему больше не всегда лучше?

llm-servingspeculative-decodinglatencytechnical-explanation

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignMedium

Сколько данных нужно и когда включать high-resolution режим

Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?

data-collectionthresholdsedge-mlactive-learning

Sber / GigaChat

ML System Design на техническом собеседовании · Sber / GigaChat

Открыть вопрос

ML System DesignMedium

Следующий шаг после feature selection

После набора признаков для marketplace pricing/recommendation модели что делать дальше: target, split, baseline, модель и критерий запуска?

modeling-pipelineВалидацияbaselinefeature-selection

OLX

ML System Design на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Файлы ML-модели, упаковка сервиса и безопасный rollout

Вы обучили и провалидировали ML-модель. Какие файлы и метаданные нужно версионировать, как упаковать сервис и как безопасно выкатить новую версию?

ML deploymentMLflowDockerFastAPI

Apriori

Вопрос про production ML из материалов интервью · Apriori

Открыть вопрос

ML System DesignMedium

Фильтры и business rules для cart recommendations

Какие товары нельзя показывать в рекомендациях корзины и где применять эти ограничения в candidate generation/reranking?

business-rulesfiltersavailabilitycart

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Формулировка модельного действия в marketplace

В marketplace кейсе модель может score-ить цену, скидку, карусель или промо-тег. Как четко сформулировать output модели и downstream action?

model-framingpricingdecision-policymarketplace

OLX

ML System Design на техническом собеседовании · OLX

Открыть вопрос

ML System DesignMedium

Цели и метрики рекомендательной ленты в банковском приложении

Цели и метрики рекомендательной ленты в банковском приложении

ML System Designfeed rankingproduct metricsengagement

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

ML System DesignMedium

Что делать, если Airflow DAG тормозит или зависает

Что вы делаете, когда Airflow DAG-и тормозят, зависают или не укладываются в scheduled window?

AirflowDAGpipeline debuggingdata engineering

GamerAM

Вопрос про production ML на скрининге · GamerAM

Открыть вопрос

ML System DesignMedium

Что делать, если модель и данные не помещаются на одну GPU

Какие подходы есть для обучения большой нейросети на нескольких GPU и чем они отличаются?

distributed trainingDDPmodel parallelismpipeline parallelism

Ozon

Вопрос про production ML на техническом собеседовании · Ozon

Открыть вопрос

ML System DesignMedium

Что делать, если рекомендации в корзине не нашлись

В item-item рекомендациях для корзины может не быть соседей: новый товар, редкий товар, новый пользователь или корзина из многих товаров. Какие fallback предусмотреть?

recsyscold-startfallbackscart

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignMedium

Что знать про FlashAttention на LLM-интервью

На LLM serving собеседовании спрашивают: знаешь ли ты что-то про FlashAttention? Как объяснить идею без ухода в низкоуровневые детали?

llm-servingflashattentionattentiongpu-optimization

Huawei

Техническое собеседование · Huawei

Открыть вопрос

ML System DesignMedium

Что значит надежный ML/data pipeline

Что для вас надежный pipeline и как проверить, что он действительно надежен?

MLOpsdata qualitymonitoringalerting

GamerAM

Вопрос про production ML на скрининге · GamerAM

Открыть вопрос

ML System DesignMedium

Что такое KV cache в LLM inference

На собеседовании спрашивают про KV cache в LLM inference. Что это такое, зачем он нужен и какие trade-off появляются в production?

llm-servingkv-cacheinferencelatency

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignMedium

Что такое LLM agent и из каких компонентов он состоит

Интервьюер спрашивает, как устроен LLM agent: какие компоненты нужны и чем agent отличается от обычного вызова модели.

llmagentstoolsПамять

FlameTree

RAG-вопрос на техническом собеседовании · FlameTree

Открыть вопрос

ML System DesignMedium

Что такое prefill и decode стадии в LLM inference

Что такое prefill и decode стадии при генерации LLM и почему их важно различать при оптимизации inference?

llmprefilldecodeinference

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignMedium

Что такое quantization LLM и какие trade-off она дает

Интервьюер спрашивает про quantization: зачем она нужна, какие бывают варианты и чем можно заплатить за ускорение.

llmquantizationint8int4

FlameTree

Техническое собеседование · FlameTree

Открыть вопрос

ML System DesignHard

A/B тест безопасной верификации

Как онлайн проверять новую модель выбора контрольных вопросов, если ошибка может пропустить мошенника или заблокировать клиента?

ab-testingfraudguardrailsbanking

T-Bank

Вопрос по метрикам на техническом собеседовании · T-Bank

Открыть вопрос

ML System DesignHard

Agentic architecture для motion-design AI product

Нужно спроектировать AI-native продукт, который по запросу пользователя генерирует качественные motion graphics. Как выбрать между pipeline и fully agentic архитектурой, как встроить human-in-the-loop evaluation и как управлять trade-off между quality, consistency и latency?

LLM-агентыAI productevaluationhuman-in-the-loop

Hera

ML System Design из разбора после собеседования · Hera

Открыть вопрос

ML System DesignHard

Batch retrieval и realtime reranking в рекомендательной платформе

Спроектируйте платформу, где retrieval в основном считается batch, а realtime слой меняет порядок рекомендаций по свежим user interactions.

batch-retrievalrealtime-rerankingrecommendations-platformarchitecture

OLX

ML System Design на собеседовании · OLX

Открыть вопрос

ML System DesignHard

Category constraints поверх ANN retrieval

Как наложить ограничения по категориям и комплементарности, если candidates достаются через ANN по embeddings?

anncategory-constraintsretrievalreranking

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignHard

Closed-loop evaluation для LLM agents

У LLM-agent продукта уже есть offline benchmark: для каждого изменения видно, стала ли метрика лучше или хуже. Как превратить результаты evaluation в цикл улучшения системы, не скатываясь в слепую автоматическую оптимизацию под шумный benchmark?

LLM evaluationagentsRAGLLM-as-judge

Hera

RAG-вопрос из разбора после собеседования · Hera

Открыть вопрос

ML System DesignHard

CV-пайплайн для поиска разных авто в одном объявлении

Спроектируйте систему, которая по фото и метаданным объявления определяет, что в карточке или истории автомобиля появились разные машины.

cvmoderationmarketplacepipeline-design

Corsearch / Navi

ML System Design на техническом собеседовании · Corsearch / Navi

Открыть вопрос

ML System DesignHard

Deployment, артефакты and format-drift monitoring for document ML

Deployment, артефакты and format-drift monitoring for document ML

MLOpsmonitoringformat driftAirflow

Tochka

Вопрос про production ML на техническом собеседовании · Tochka

Открыть вопрос

ML System DesignHard

Distillation и quantization для большого temporal model

Большая temporal model хорошо ловит события, но слишком дорогая по latency и compute. Как сжать ее для production?

model-compressiondistillationquantizationlatency-optimization

Waymo

Вопрос про production ML из фидбека после собеседования · Waymo

Открыть вопрос

ML System DesignHard

Gold set и CI/CD для AI invoice extraction

Команда меняет prompts/models/rules для invoice parsing. Как не сломать качество при каждом изменении?

evaluationCI/CDDocument AItesting

Vertex / BP

Вопрос про production ML на техническом собеседовании · Vertex / BP

Открыть вопрос

ML System DesignHard

HFT/time-series задача: постановка и признаки

Даны временные рыночные данные для HFT-задачи. Как подойти к постановке target, построению признаков, валидации и первому baseline?

hfttime-seriesfeature-engineeringВалидация

BHFT

ML System Design на техническом собеседовании · BHFT

Открыть вопрос

ML System DesignHard

Long context в LLM: проблемы и способы решения

Какие проблемы возникают при использовании длинного контекста в LLM и какими подходами их адресуют?

long contextattentionKV cacheRAG

Toloka AI

RAG-вопрос на техническом собеседовании · Toloka AI

Открыть вопрос

ML System DesignHard

ML System Design

Design a semantic search layer for geo/address suggestions where users can type categories like "cafe" and expect restaurants, POIs and relevant addresses across many languages.

geo searchsemantic searchPOIOpenSearch

inDrive

ML System Design на собеседовании · inDrive

Открыть вопрос

ML System DesignHard

ML System Design

How would you build item embeddings from text, images/video and categorical/numerical attributes under real serving constraints?

multimodal embeddingsCLIPBERTvideo

Okko

ML System Design из фидбека после собеседования · Okko

Открыть вопрос

ML System DesignHard

ML System Design

Which offline and online metrics would you use for a similar-items recommender, and what pitfalls are easy to miss?

Recall@KNDCGcoverageA/B testing

Okko

ML System Design из фидбека после собеседования · Okko

Открыть вопрос

ML System DesignHard

ML System Design

A bank asks a suspicious legal entity for PDF statements from other banks. Design how ML can extract compliance value from those statements.

ML System DesigncompliancePDF parsingrisk scoring

Tochka

ML System Design на техническом собеседовании · Tochka

Открыть вопрос

ML System DesignHard

ML System Design

How would you parse readable PDF bank statements from many banks into structured transactions without sending personal data to an external API?

PDF parsinghybrid systemsLLMrules

Tochka

ML System Design на техническом собеседовании · Tochka

Открыть вопрос

ML System DesignHard

Offline batch vs online inference в RecSys

Модель ранжирования готова. Как вывести ее в прод: offline batch или online inference?

servingoffline-batchonline-inferenceapi

Самокат

Вопрос про production ML на техническом собеседовании · Самокат

Открыть вопрос

ML System DesignHard

Offline precision для новой карусели

Если новой карусели еще не было в продукте, как оценить offline precision или релевантность ее рекомендаций?

offline-evaluationprecisionnew-surfacecounterfactual

OLX

Вопрос по метрикам на техническом собеседовании · OLX

Открыть вопрос

ML System DesignHard

Production-архитектура рекомендаций в корзине

После baseline и ranker нужно объяснить production: где считаются кандидаты, где хранятся фичи, как часто пересчитывать рекомендации при изменении корзины?

recsysproductionfeature-storeonline-inference

GRII RED

Вопрос про production ML на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignHard

RAG support bot для fintech-продукта

Нужно построить support bot для fintech-приложения. Какие компоненты нужны и как снизить риск неправильного ответа?

RAGsupport botfintechguardrails

Solmate / TAVAX

RAG-вопрос на техническом собеседовании · Solmate / TAVAX

Открыть вопрос

ML System DesignHard

RAG для factual search snippets

Как бы ты сделал retrieval-augmented generation для короткого factual snippet в поисковой выдаче?

ragsearchfactualitysnippets

Яндекс

RAG-вопрос на техническом собеседовании · Яндекс

Открыть вопрос

ML System DesignHard

RAG по большому корпусу документов

Как построить RAG/search систему, если корпус по масштабу похож на большой веб-поиск?

RAGretrievalреранкингBM25

Waibee

RAG-вопрос на техническом собеседовании · Waibee

Открыть вопрос

ML System DesignHard

RAG-ассистент по урокам без спойлеров

Как спроектировать ассистента, который отвечает по текущему уроку, но не раскрывает будущие материалы?

RAGeducationchunkingaccess control

TripleTen

RAG-вопрос на техническом собеседовании · TripleTen

Открыть вопрос

ML System DesignHard

Rare event classification по temporal embeddings

Есть последовательность embedding-ов дорожной сцены за временное окно. Нужно находить несколько редких событий интереса. Как сформулировать ML-задачу и baseline?

temporal-modelingmulti-label-classificationautonomous-drivingproblem-framing

Waymo

ML System Design из фидбека после собеседования · Waymo

Открыть вопрос

ML System DesignHard

Split, MDE и prelaunch checks

Как сплитовать A/B для динамической доставки, считать MDE и что проверить до запуска?

experiment-designmdeaa-teststatistics

Dodo

Вопрос по метрикам на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignHard

Target vs action в pricing модели

В кейсе динамической доставки почему цена или минимальная сумма заказа не должны быть target модели? Что тогда предсказывать?

pricingupliftconversionproblem-framing

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignHard

User-фичи, item-фичи и cart-level scoring

При обучении MLP или бустинга для корзины какие признаки подавать: user, item, item-to-cart или category features?

feature-engineeringРанжированиеpersonalizationcart

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

ML System DesignHard

Агент, который делает презентацию из текста

Нужно спроектировать продукт: пользователь дает текстовую задачу, система делает презентацию со слайдами, таблицами и картинками. Как построить pipeline?

LLM-агентыpresentation generationstructured outputsystem-design

Unimatch

ML System Design на техническом собеседовании · Unimatch

Открыть вопрос

ML System DesignHard

Адаптивная маршрутизация LLM-запросов по GPU

В LLM-инференсе есть несколько GPU-воркеров. Почему наивная round-robin маршрутизация может быть неэффективной, и как спроектировать адаптивный слой маршрутизации с учетом загрузки GPU, KV cache и длины запроса?

LLM servingGPU routingKV cacheinference optimization

Samsung

Вопрос про production ML на техническом собеседовании · Samsung

Открыть вопрос

ML System DesignHard

Архитектура invoice parsing из PDF

Нужно построить систему, которая извлекает полезные поля из PDF-инвойсов разных поставщиков. Какую архитектуру выбрать?

Document AIOCRLLMinvoice parsing

Vertex / BP

ML System Design на техническом собеседовании · Vertex / BP

Открыть вопрос

ML System DesignHard

Вопрос про production ML

Чем отличаются FSDP, tensor parallelism и pipeline parallelism при обучении больших моделей?

distributed-trainingfsdptensor-parallelismsystems

Mirai

Вопрос про production ML на техническом собеседовании · Mirai

Открыть вопрос

ML System DesignHard

Вопрос про production ML

Sketch the online architecture for query parsing, candidate generation, ranking and blending. How do services communicate and fail safely?

microservicesranking servicefallbacksКеш

CIAN

Вопрос про production ML из разбора после собеседования · CIAN

Открыть вопрос

ML System DesignHard

Генерация описаний для объектных ответов в поиске

В международном поиске нужно показывать короткое описание объекта в карточке ответа, например для Китая. Как построить ML-систему генерации таких описаний?

searchobject-answergenerationinternational

Яндекс

ML System Design на техническом собеседовании · Яндекс

Открыть вопрос

ML System DesignHard

Датасет для response-модели доставки

Как построить датасет для модели, которая оценивает реакцию пользователя на стоимость доставки или минимальную сумму заказа?

dataset-designpricingconversionlabeling

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignHard

Двухэтапный retrieval/ranking для подбора поставщиков

Как спроектировать candidate generation и ranking для подбора поставщиков под закупочную заявку в маркетплейсе корпоративных закупок?

retrievalРанжированиеvector-searchrecsys

Fairmarkit

ML System Design на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignHard

Историческая цена почти не менялась

Что делать, если исторически стоимость доставки менялась редко и почти нет вариативности для обучения эластичности?

explorationpricingcausal-inferenceexperimentation

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

ML System DesignHard

Как агрегировать frame embeddings в segment vector

Архив дорожных сцен состоит из последовательностей кадров. Как из кадров получить вектор сегмента для поиска по тексту?

computer-visiontemporal-poolingembeddingsvideo

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Как бороться с selection bias и неоднозначными negatives

Исторические данные есть только по поставщикам, которых уже показывали или приглашали. Как понять и уменьшить selection bias, и как обращаться с losing bids?

selection-biasexplorationnegative-samplinglabels

Fairmarkit

Вопрос по метрикам на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignHard

Как валидировать LLM-фичи и не дать модели додумывать

LLM извлекает признаки из PDF-отчета: например, будущий план производства. Как проверить, что признак основан на документе, а не на внешних знаниях или догадках?

llmgroundingevaluationfeature-extraction

Компания не указана

RAG-вопрос на техническом собеседовании

Открыть вопрос

ML System DesignHard

Как встроить LLM-агента в продуктовый pipeline

Нужно добавить LLM-агента в существующий продуктовый pipeline. Как спроектировать границы агента, tools, контекст, проверки и мониторинг?

llm-agentsorchestrationtoolsguardrails

PulsePoint

RAG-вопрос на техническом собеседовании · PulsePoint

Открыть вопрос

ML System DesignHard

Как выбрать чанки для контекста после retrieval

Retriever вернул top-K чанков. Как выбрать финальный контекст для LLM и где нужен reranker?

ragrerankercontext-assemblyndcg

Satel Generation

RAG-вопрос на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignHard

Как делать train/test split и offline validation для marketplace модели

Для marketplace pricing/recommendation модели нужно построить offline validation. Как выбрать строку датасета, train/test split и метрики, чтобы не получить красивую, но бесполезную оценку?

offline-evaluationВалидацияmarketplacepricing

OLX

Вопрос по метрикам на техническом собеседовании · OLX

Открыть вопрос

ML System DesignHard

Как деплоить audio-event модель на устройство

Модель распознавания аудио-событий должна работать на колонке/камере с CPU и ограничениями по latency, privacy и батарее. Как это спроектировать?

edge-mlaudio-classificationlatencyprivacy

Sber / GigaChat

Вопрос про production ML на техническом собеседовании · Sber / GigaChat

Открыть вопрос

ML System DesignHard

Как добавить content embeddings в DSSM/two-tower модель

Есть item2vec/DSSM-подобная модель, обученная на сессиях кликов: anchor, positive рядом в сессии и negative. У товара есть текстовый embedding из LLM. Как добавить content-информацию в архитектуру?

recsysdssmtwo-towercontent-embeddings

Wildberries

ML System Design из материалов интервью · Wildberries

Открыть вопрос

ML System DesignHard

Как добавить reranker и мониторить деградацию retrieval

После ANN retrieval нужно улучшить качество выдачи и понять, когда система деградирует. Как спроектировать reranker, evaluation и monitoring?

rerankingmonitoringdriftretrieval

Waymo

Вопрос про production ML на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Как дообучать encoder под доменный retrieval

Есть доменный поиск, где generic embeddings плохо работают. Как дообучить encoder и проверить, что retrieval стал лучше?

embeddingsretrievalfinetuningmetric-learning

T1 / PrideInBrains

RAG-вопрос на техническом собеседовании · T1 / PrideInBrains

Открыть вопрос

ML System DesignHard

Как использовать LLM для фичей в прогнозе производства

Есть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?

ML System Designllmfeature-extractionforecasting

Компания не указана

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignHard

Как нарезать юридические документы на чанки

Юридические документы плохо режутся фиксированным окном. Как построить chunking для legal или enterprise RAG?

ragchunkinglegal-documentsdocument-structure

Satel Generation

RAG-вопрос на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignHard

Как обучать sentence embeddings

Нужно получить хорошие embeddings предложений для retrieval/semantic search. Какие данные и loss использовать?

SBERTembeddingscontrastive learningretrieval

Sber / GigaChat

RAG-вопрос на техническом собеседовании · Sber / GigaChat

Открыть вопрос

ML System DesignHard

Как получить пары текстовый запрос — дорожный сегмент

Для обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?

labelingcontrastive-learningcomputer-visiondata-strategy

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Как построить модель визуального сравнения объявлений авто

Есть база объявлений авто и якорное объявление. Нужно находить архивные объявления, где визуально другая машина: другой цвет, салон, колеса, кузов или ракурс. Как поставить задачу и обучить модель?

computer-visionmetric-learningretrievalhard-negatives

Wildberries

ML System Design из материалов интервью · Wildberries

Открыть вопрос

ML System DesignHard

Как превратить годовой guidance в квартальные фичи

В отчете сказано: производство вырастет на 20% за год, рост начнется во второй половине года. Модели нужен прогноз по кварталам. Что должна вернуть LLM-фича?

forecastingllmfeature-engineeringuncertainty

Компания не указана

ML System Design на техническом собеседовании

Открыть вопрос

ML System DesignHard

Как применять Vision Transformer к последовательности изображений

Vision Transformer обычно работает с 2D image patches. Как перенести такой подход на дорожные video segments?

vision-transformervideotemporal-modelingcomputer-vision

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Как прогнозировать LTV для новых когорт без истории

Есть LTV/retention прогноз по когортам. Для старых когорт есть 7/30/180 дней истории, а для новых есть только install или trial. Как строить прогноз уже сегодня?

ltvtime-seriescohortscold-start

Almus

ML System Design на техническом собеседовании · Almus

Открыть вопрос

ML System DesignHard

Как проектировать related articles и reranker

Помимо ответа на free-text вопрос нужно показывать related articles. Как их формировать: заранее или в зависимости от запроса, и где нужен reranker?

searchragrerankerrelated-articles

AgeCode

RAG-вопрос на техническом собеседовании · AgeCode

Открыть вопрос

ML System DesignHard

Как работает KV cache и от чего зависит его память

Что такое KV cache, почему его можно переиспользовать при decode и от каких факторов зависит его объем?

llmkv-cacheattentionПамять

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignHard

Как работает speculative decoding и acceptance ratio

Интервьюер спрашивает: как можно держать высокий acceptance ratio при большом числе draft tokens в speculative decoding?

llm-servingspeculative-decodinglatencydraft-model

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignHard

Как работать с деревьями категорий заказчиков

У каждого заказчика свое дерево категорий: названия могут быть нормальными словами, внутренними кодами или разной глубины. Как учитывать такие категории при подборе поставщиков?

taxonomyembeddingscategorical-featuresb2b

Fairmarkit

ML System Design на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignHard

Как развернуть RAG: FastAPI, Qdrant, ranker и vLLM

В production RAG есть FastAPI, vector DB, ranker service, MLflow, Docker и self-hosted LLM. Как описать путь запроса и зоны ответственности сервисов?

ragservingqdrantvllm

Satel Generation

Вопрос про production ML на техническом собеседовании · Satel Generation

Открыть вопрос

ML System DesignHard

Как снижать hallucinations в production LLM-системе

LLM-агент иногда уверенно отвечает неверно. Какие инженерные меры помогут снизить риск hallucinations в production?

HallucinationsRAGguardrailsproduction

Flametree

Вопрос про production ML на техническом собеседовании · Flametree

Открыть вопрос

ML System DesignHard

Как собрать feature pipeline, batch scoring и мониторинг

Данные casino-продукта лежат в хранилище и приходят через очередь сообщений. Нужно регулярно обновлять признаки и скорить пользователей. Как спроектировать production pipeline?

feature-storebatch-inferencemonitoringmlops

MrBit

Вопрос про production ML на техническом собеседовании · MrBit

Открыть вопрос

ML System DesignHard

Как сравнить два LLM для customer support automation

Есть реальный продуктовый use case: customer support automation. Нужно сравнить два LLM/agent variants и выбрать, какой запускать. Как спроектировать evaluation: данные, offline metrics, human/LLM judging, system metrics и online validation?

LLM evaluationcustomer supportRAGA/B testing

Parloa

RAG-вопрос на техническом собеседовании · Parloa

Открыть вопрос

ML System DesignHard

Как строить эмбеддинги поставщиков и чем опасна многошаговая агрегация

Поставщика можно представить через прошлые заявки, профиль и категории. Как построить представление поставщика и какие проблемы есть у averaging request embeddings?

эмбеддинги поставщиковrepresentation-learningfeature-aggregationfeature-engineering

Fairmarkit

ML System Design на техническом собеседовании · Fairmarkit

Открыть вопрос

ML System DesignHard

Как сформулировать text-to-scene retrieval задачу

Есть большой архив дорожных сцен автономного автомобиля. По текстовому запросу нужно находить релевантные сегменты, например редкие ситуации с пешеходами или необычным трафиком. Как начать ML System Design?

computer-visionretrievalautonomous-drivingmultimodal

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Как ускорять тяжелую модель рекомендаций в рантайме

Есть трансформерная модель рекомендаций по истории пользователя. Как сделать так, чтобы она не ломала online-сервис?

transformer recsyscachingbatchingANN

Mayflower

ML System Design на техническом собеседовании · Mayflower

Открыть вопрос

ML System DesignHard

Как устроены MoE-модели и их inference

Чем Mixture-of-Experts отличается от dense модели, какие преимущества и недостатки, и как устроен router при inference?

moerouterllminference

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

ML System DesignHard

Как устроить dual encoder retrieval для последовательностей изображений

Нужно индексировать не одиночные картинки, а последовательности дорожных кадров. Как сделать retrieval-модель и embedding index для text-to-scene search?

dual-encoderanntemporal-modelingcomputer-vision

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Какие metadata-признаки добавить в reranker дорожных сцен

ANN retrieval вернул top-K дорожных сегментов. Какие metadata и model signals стоит добавить в reranker, чтобы лучше упорядочить результаты?

rerankingmetadataperceptionranking-features

Waymo

Вопрос про production ML на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Какую deep learning архитектуру выбрать для временного ряда

После градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?

ML System Designtime-seriesdeep-learningsequence-models

BHFT

ML System Design на техническом собеседовании · BHFT

Открыть вопрос

ML System DesignHard

Когда нужен LLM поверх поиска по статьям

После hybrid retrieval можно отдать несколько статей LLM. Когда это оправдано, а когда лучше оставить обычный reranker и список результатов?

llm-rerankerragprivacylatency

AgeCode

RAG-вопрос на техническом собеседовании · AgeCode

Открыть вопрос

ML System DesignHard

Лейблы для контрольных вопросов

Какие лейблы собрать для обучения выбора контрольного вопроса и как бороться с тем, что мы видим ответы только на показанные вопросы?

labelscounterfactualssecurityРанжирование

T-Bank

Вопрос по метрикам на техническом собеседовании · T-Bank

Открыть вопрос

ML System DesignHard

Миллион кандидатов перед реранкером

Запрос вроде "книга" возвращает миллион релевантных товаров. Как не скорить весь миллион тяжелой моделью?

pre-rankinglatencycandidate-selectionsystems-thinking

Constructor

ML System Design на техническом собеседовании · Constructor

Открыть вопрос

ML System DesignHard

Поиск safe/unsafe видеофрагментов на большом масштабе

Представьте два видеосервиса с миллиардами роликов: в одном нужно быстро находить safe-фрагменты внутри в основном unsafe-контента, в другом - unsafe-фрагменты внутри в основном safe-контента. Разметки почти нет, ресурсов и времени мало. Как бы вы строили pipeline?

video moderationclass imbalancedata miningweak supervision

Wisebits / xHamster

ML System Design на техническом собеседовании · Wisebits / xHamster

Открыть вопрос

ML System DesignHard

Продакшен-архитектура автоматической записи по звонку

Продакшен-архитектура автоматической записи по звонку

architecturequeuesbookingidempotency

Chinor

Вопрос про production ML на техническом собеседовании · Chinor

Открыть вопрос

ML System DesignHard

Ранжирование контрольных вопросов в call center

В call center нужно выбрать контрольный вопрос для верификации клиента: достаточно безопасный, но не слишком сложный. Как построить ML-систему ранжирования вопросов?

bankingРанжированиеverificationcall-center

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

ML System DesignHard

Система предупреждений о phishing для ISP

Интернет-провайдер хочет предупреждать пользователей о phishing-страницах. Как спроектировать ML-систему детекта и показа предупреждения?

phishingsecurityclassificationisp

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

ML System DesignHard

Современный training pipeline LLM: pretrain, SFT, alignment

Расскажите про современную архитектуру LLM и процесс обучения: какие основные этапы, данные, objective и loss используются?

LLMTransformer decoderpretrainingSFT

Toloka AI

Техническое собеседование · Toloka AI

Открыть вопрос

ML System DesignHard

Спроектировать рекомендательную ленту видео с товарами

В e-commerce приложении запускается TikTok-like лента видео на главной. К каждому видео привязаны товары, видео около 1500 и живут 1-2 месяца. Истории по новой поверхности нет. Как спроектировать систему рекомендаций?

recsysvideo-feedecommercecold-start

Самокат

ML System Design на техническом собеседовании · Самокат

Открыть вопрос

ML System DesignHard

Чем MQA, GQA и MLA отличаются от обычного Multi-Head Attention

Какие есть варианты attention для экономии KV cache, например Multi-Query Attention, Grouped-Query Attention и MLA?

attentionmqagqamla

Huawei

Техническое собеседование · Huawei

Открыть вопрос

ML System DesignHard

Что делать, если invoice parsing слишком дорогой и медленный

Pipeline для PDF-инвойсов работает, но обработка стала медленной и дорогой. Как искать узкие места и оптимизировать?

cost optimizationlatencyDocument AIproduction-debugging

Vertex / BP

Вопрос про production ML на техническом собеседовании · Vertex / BP

Открыть вопрос

ML System DesignHard

Что договорить в retrieval до reranker

До добавления reranker нужно закончить candidate retrieval. Какие решения нужны по embedding index, freshness, фильтрам и quality evaluation?

retrievalannindexingevaluation

Waymo

ML System Design на техническом собеседовании · Waymo

Открыть вопрос

ML System DesignHard

Что такое speculative decoding и EAGLE

Что такое speculative decoding для LLM inference, как он ускоряет decode, и что за идея у EAGLE-подобных методов?

speculative-decodingeaglellminference

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

Метрики и A/BEasy

Precision и recall на примере diagnostic test

Как определить precision и recall для binary classifier и чему они равны для diagnostic test из задачи с rare disease?

precisionrecallbinary classificationconfusion matrix

Revolut

Вопрос по метрикам на техническом собеседовании · Revolut

Открыть вопрос

Метрики и A/BEasy

ROC-AUC: построение и интерпретация

ROC-AUC: построение и интерпретация

ROC-AUCclassification metricsTPRFPR

CIAN

Вопрос по метрикам из разбора после собеседования · CIAN

Открыть вопрос

Метрики и A/BEasy

Расчет годового LTV подписки по retention curve

Расчет годового LTV подписки по retention curve

LTVsubscriptionsretention curvegeometric series

Adapty

Вопрос по метрикам на скрининге · Adapty

Открыть вопрос

Метрики и A/BMedium

100 экспериментов и ложные открытия

Если провести 100 независимых тестов на уровне значимости 5%, что означает два p-value ниже 0.05?

multiple-testingp-valuefalse-positive-ratetechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Метрики и A/BMedium

A/B-тесты рекомендательной модели

Как проводить offline и online эксперименты для рекомендательной модели? Что важно в A/B-тесте: MDE, p-value, выборка, сетевые эффекты и метрики?

A/B testingMDEp-valuenetwork effects

GamerAM

Вопрос по метрикам на техническом собеседовании · GamerAM

Открыть вопрос

Метрики и A/BMedium

Bayes theorem для diagnostic test с base rate

Есть disease prevalence 1% и diagnostic test с 5% error rate. Если test result positive, как посчитать вероятность, что человек действительно болен, и где чаще всего ошибаются?

Bayes theorembase ratediagnostic testclassification metrics

Revolut

Вопрос по метрикам на техническом собеседовании · Revolut

Открыть вопрос

Метрики и A/BMedium

Bootstrap для оценки неопределенности LTV

Есть исторические пользователи и посчитанный LTV. Как использовать bootstrap, чтобы оценить разброс LTV и получить нижнюю границу для решения о закупке трафика?

bootstrapltvuncertaintyquantiles

Adapty

Вопрос по метрикам на техническом собеседовании · Adapty

Открыть вопрос

Метрики и A/BMedium

Bootstrap: что он делает

Для чего нужен bootstrap и почему он сам по себе не уменьшает дисперсию эксперимента?

bootstrapconfidence-intervalvariancestatistics

MrBit

Вопрос по метрикам на техническом собеседовании · MrBit

Открыть вопрос

Метрики и A/BMedium

Debugging плохой метрики модели

Что проверять, если ranking/model metric неожиданно низкая или модель выглядит overfit/underfit?

model-debuggingoverfittingunderfittingdata-quality

AgeCode

Вопрос про production ML на техническом собеседовании · AgeCode

Открыть вопрос

Метрики и A/BMedium

В чем разница между FP16 и BF16 и почему BF16 часто устойчивее для обучения?

fp16bf16numericstraining

Mirai

Техническое собеседование · Mirai

Открыть вопрос

Метрики и A/BMedium

Imbalanced classification: метрики, loss и leakage

Как обучать и оценивать модель, если положительный класс редкий?

imbalanced classificationPR-AUCfocal lossУтечки

Waibee

Вопрос по метрикам на техническом собеседовании · Waibee

Открыть вопрос

Метрики и A/BMedium

Low-F1 классы в CV taxonomy

Модель хорошо работает в среднем, но у части классов низкий F1. Как диагностировать и чинить?

computer-visionМетрикиf1error-analysis

2GIS

Вопрос по метрикам на техническом собеседовании · 2GIS

Открыть вопрос

Метрики и A/BMedium

LTV/R365 и годовой data drift

Нужно прогнозировать выручку пользователя за 365 дней по ранним признакам. Почему прямой подход может плохо работать?

LTVR365data driftcohorts

EasyBrain

ML System Design на техническом собеседовании · EasyBrain

Открыть вопрос

Метрики и A/BMedium

MAP/NDCG и связь с бизнес-эффектом

Как считать MAP/NDCG для рекомендаций и почему этих метрик недостаточно без бизнес-связки?

NDCGMAPranking-metricsbusiness-metrics

GRII RED

Вопрос по метрикам на техническом собеседовании · GRII RED

Открыть вопрос

Метрики и A/BMedium

Metric learning для сопоставления авто по фото

Как построить систему, которая по фотографиям объявлений понимает, что в отчете оказалась другая машина, и удаляет ошибочные совпадения?

metric-learningcomputer-visionimage-matchingembedding-models

Dubai Tech

ML System Design на техническом собеседовании

Открыть вопрос

Метрики и A/BMedium

Multi-output прогноз LTV-кривой

Как использовать свежие неполные когорты, если R365 для них еще неизвестен?

LTV curvemulti-output regressioncohortspartial labels

EasyBrain

ML System Design на техническом собеседовании · EasyBrain

Открыть вопрос

Метрики и A/BMedium

NDCG, MAP и почему ranking-метрики не оптимизируют напрямую

Чем NDCG отличается от MAP и почему такие метрики сложно напрямую оптимизировать градиентным спуском?

NDCGMAPLambdaRankranking loss

HeadHunter

Вопрос по метрикам на техническом собеседовании · HeadHunter

Открыть вопрос

Метрики и A/BMedium

NDCG, MAP, BPR и WARP в рекомендациях

Чем отличаются NDCG/MAP и pairwise losses вроде BPR/WARP?

NDCGMAPBPRWARP

ZingBrain / Aviatrix

Вопрос по метрикам на техническом собеседовании · ZingBrain / Aviatrix

Открыть вопрос

Метрики и A/BMedium

Negative sampling и in-batch negatives

Какие бывают negative sampling стратегии в metric learning/RecSys и зачем нужны in-batch negatives?

negative-samplingmetric-learningin-batch-negativestechnical-explanation

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

Метрики и A/BMedium

Offline evaluation объектных ответов

Какими offline-метриками и ручной оценкой проверить качество генерируемых объектных ответов перед A/B тестом?

offline-evaluationsearch-qualityllm-judgeМетрики

Яндекс

Вопрос по метрикам на техническом собеседовании · Яндекс

Открыть вопрос

Метрики и A/BMedium

Offline evaluation перед A/B тестом рекомендателя

Как построить offline evaluation framework для новой модели рекомендаций и связать его с online A/B тестом?

offline-evaluationab-testingМетрикиrecommendations

OLX

Вопрос по метрикам на собеседовании · OLX

Открыть вопрос

Метрики и A/BMedium

Offline и online-метрики для рекомендаций и поиска

Какие метрики смотреть, когда выкатываешь новую рекомендательную или поисковую модель?

ROC AUCF1PrecisionRecall

Uzum

Вопрос по метрикам на техническом собеседовании · Uzum

Открыть вопрос

Метрики и A/BMedium

Online metrics для генерируемых карточек в поиске

Какие online-метрики выбрать для A/B теста карточки с генерируемым описанием и какие guardrails поставить?

ab-testingsearchonline-metricsguardrails

Яндекс

Вопрос по метрикам на техническом собеседовании · Яндекс

Открыть вопрос

Метрики и A/BMedium

P-value и confidence interval

Как совместно объяснить p-value, уровень значимости и доверительный интервал?

p-valueconfidence-intervalhypothesis-testingtechnical-explanation

MrBit

Вопрос по метрикам на техническом собеседовании · MrBit

Открыть вопрос

Метрики и A/BMedium

P-value и формула Байеса

Как коротко объяснить p-value, где он применяется, и как вывести формулу Байеса через условную вероятность и полную вероятность?

p-valuebayesab-testingВероятность

Dubai Tech

Вопрос по метрикам на техническом собеседовании

Открыть вопрос

Метрики и A/BMedium

Precision или Recall на разных этапах рекомендаций

В recommender system где важнее recall, а где precision?

recsysprecisionrecallРанжирование

Raiffeisen Bank

Техническое собеседование · Raiffeisen Bank

Открыть вопрос

Метрики и A/BMedium

Precision, recall и ROC-AUC при сильном дисбалансе классов

В выборке 95 единиц и 5 нулей. Модель всегда предсказывает единицу. Посчитайте precision, recall и ROC-AUC, а затем объясните, почему такая модель плохая и какие метрики смотреть дополнительно.

precisionrecallROC-AUCclass imbalance

inDrive

Вопрос по метрикам на техническом собеседовании · inDrive

Открыть вопрос

Метрики и A/BMedium

Precision/Recall и обобщение по географическим признакам

Как объяснить Precision/Recall и что проверять, если модель должна обобщаться на новые регионы или географические признаки?

precisionrecallgeneralizationgeo-features

Wildberries

Материалы интервью · Wildberries

Открыть вопрос

Метрики и A/BMedium

Quantile regression и asymmetric loss

Что такое квантильная регрессия и когда полезно предсказывать не среднее, а, например, 90-й квантиль?

quantile-regressionloss-functionsriskobjective-design

Dubai Tech

Вопрос по метрикам на техническом собеседовании

Открыть вопрос

Метрики и A/BMedium

Ranking metrics и online guardrails

Как объяснить NDCG/recall и какие online guardrails нужны для ranking model?

РанжированиеNDCGrecallonline-metrics

AgeCode

Вопрос по метрикам на техническом собеседовании · AgeCode

Открыть вопрос

Метрики и A/BMedium

Rich-get-richer bias в matching-рекомендациях

В dating или matching продукте топ-профили получают львиную долю показов, а остальные растворяются. Как диагностировать и смягчить этот перекос, не убив вовлеченность?

RecSyspopularity biasfairnessexploration

GamerAM

ML System Design на скрининге · GamerAM

Открыть вопрос

Метрики и A/BMedium

RL-агент для оптимизации молекул

Кандидат рассказывает про RL-проект в drug discovery. Как объяснить постановку: состояние, действие, среда, reward и метрики качества?

reinforcement-learninggnndrug-discoveryproblem-framing

Dubai Tech

Техническое собеседование

Открыть вопрос

Метрики и A/BMedium

ROC AUC как качество ранжирования

Что означает ROC AUC и почему его можно понимать как метрику ранжирования?

roc-aucРанжированиеclassification-metricstechnical-explanation

Raiffeisen Bank

Техническое собеседование · Raiffeisen Bank

Открыть вопрос

Метрики и A/BMedium

t-test, bootstrap и z-test для delivery pricing A/B

В A/B тесте динамической доставки метрики прибыли и маржи могут иметь heavy tails. Когда использовать t-test, bootstrap или z-test?

ab-testingbootstrapz-testheavy-tails

Dodo

Вопрос по метрикам на техническом собеседовании · Dodo

Открыть вопрос

Метрики и A/BMedium

Top-K near neighbors и recall/latency trade-off

Как строить top-K похожих item и управлять компромиссом между recall, latency и стоимостью?

ANNtop-kretrievallatency

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

Метрики и A/BMedium

Variance reduction в A/B testing

Какие методы снижения дисперсии применимы в продуктовых экспериментах и где место CUPED?

variance-reductioncupedab-testingstratification

MrBit

Вопрос по метрикам на техническом собеседовании · MrBit

Открыть вопрос

Метрики и A/BMedium

Describe how you would train and validate a transformer-style reranking model for marketplace recommendations.

RecSysrerankingnegative samplingNDCG

Apriori

Материалы интервью · Apriori

Открыть вопрос

Метрики и A/BMedium

What does the Central Limit Theorem say and why is it important in statistics and A/B testing?

Central Limit Theoremsampling distributionA/B testingstatistics

Okko

Техническое собеседование · Okko

Открыть вопрос

Метрики и A/BMedium

How can you get a sentence embedding from BERT, how do sentence transformers differ, and why is this similar to metric learning for image pairs?

BERTsentence transformerspoolingmetric learning

X5

Техническое собеседование · X5

Открыть вопрос

Метрики и A/BMedium

Вопрос по метрикам

Explain why statistical significance is needed in A/B tests, what a p-value means, and what affects whether an experiment is significant.

A/B testingp-valuestatistical significancesample size

Fairmarkit

Вопрос по метрикам на собеседовании · Fairmarkit

Открыть вопрос

Метрики и A/BMedium

Вопрос по метрикам

A binary image classifier is trained with BCE loss. On validation, accuracy rises but BCE loss also rises. Can this happen and what are plausible causes?

binary cross entropyaccuracycalibrationlabel noise

Navio

Вопрос по метрикам на техническом собеседовании · Navio

Открыть вопрос

Метрики и A/BMedium

Вопрос по метрикам

Minimizing squared error corresponds to maximum likelihood under what noise distribution, and why?

least squaresmaximum likelihoodGaussian noiseregression

HFT-роль, компания не подтверждена

Вопрос по метрикам из фидбека после собеседования · HFT-роль, компания не подтверждена

Открыть вопрос

Метрики и A/BMedium

Вопрос про production ML

In PyTorch DDP training, which common layer can behave badly across processes and how do teams usually handle it?

DDPBatchNormSyncBatchNormdistributed training

Navio

Вопрос про production ML на техническом собеседовании · Navio

Открыть вопрос

Метрики и A/BMedium

Вопрос про production ML

A new perception detector improves some offline metrics but degrades others. How do you decide whether to ship it to production?

Детекция объектовmetric tradeoffsafetyoffline evaluation

Navio

Вопрос про production ML на собеседовании · Navio

Открыть вопрос

Метрики и A/BMedium

Датасет и hard negatives для visual difference

Как собрать датасет для модели, которая отличает один и тот же автомобиль от визуально похожего другого?

cvlabelingmetric-learningdataset-design

Corsearch / Navi

ML System Design на техническом собеседовании · Corsearch / Navi

Открыть вопрос

Метрики и A/BMedium

Дизайн A/B-теста, размер выборки и p-value

Дизайн A/B-теста, размер выборки и p-value

A/B testingsample sizepowerp-value

Wheely

Вопрос по метрикам на техническом собеседовании · Wheely

Открыть вопрос

Метрики и A/BMedium

Извлечение полезного контента страницы перед суммаризацией

Извлечение полезного контента страницы перед суммаризацией

web extractionHTMLboilerplate removalclassification

Constructor

ML System Design из фидбека после собеседования · Constructor

Открыть вопрос

Метрики и A/BMedium

Как безопасно использовать AI coding tools в команде

Команда активно использует AI coding tools. Какие риски нужно контролировать и как встроить это в инженерный процесс?

AI codingcode reviewИнженерные практикиengineering-quality

Flametree

Вопрос про production ML на техническом собеседовании · Flametree

Открыть вопрос

Метрики и A/BMedium

Как выбрать признаки и метрики для модели возврата

После первой модели нужно понять, какие признаки оставить и стала ли модель лучше. Какие offline-метрики и проверки использовать?

feature importanceSHAPprecisionrecall

Mayflower

Вопрос по метрикам на техническом собеседовании · Mayflower

Открыть вопрос

Метрики и A/BMedium

Как из продуктовой идеи получить ML-задачу

Как выглядит типичная задача от бизнеса или продукта? Что вы уточняете, если приходит верхнеуровневая идея вроде поднять метрику или автоматизировать решение?

Продуктовые кейсыrequirementsbusiness metricsexperimentation

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

Метрики и A/BMedium

Как оценивать двухстадийную рекомендательную систему

Есть генератор кандидатов и ранкер. Какие offline и online метрики смотреть для каждого этапа?

RecSyscandidate generationranking metricsNDCG

HeadHunter

Вопрос по метрикам на техническом собеседовании · HeadHunter

Открыть вопрос

Метрики и A/BMedium

Как понять, хороший ли MSE на тесте

Модель получила MSE на тестовом периоде. Как понять, хороший это результат или нет?

Метрикиmsebaselinetechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Метрики и A/BMedium

Как понять, что ML-фича принесла пользу

Интервьюер спрашивает: какие метрики отслеживали и как понимали, что внедренное ML-решение действительно приносит пользу?

Метрикиab-testingrecsysbusiness-impact

Raiffeisen Bank

Вопрос по метрикам на техническом собеседовании · Raiffeisen Bank

Открыть вопрос

Метрики и A/BMedium

Как посчитать money recall для рекомендаций

Две модели имеют похожие Precision@k и Recall@k, но одна приносит больше денег, потому что рекомендует более дорогие релевантные товары. Как адаптировать offline-метрику?

recsysМетрикиmoney-recallmarketplace

Wildberries

Вопрос по метрикам из материалов интервью · Wildberries

Открыть вопрос

Метрики и A/BMedium

Какой constant classifier минимизирует binary logloss

Есть датасет с N0 отрицательными и N1 положительными примерами. Классификатор всегда выдает одну вероятность p. Какое p минимизирует binary logloss?

Loglossbinary-classificationОптимизацияМетрики

Huawei

Вопрос по метрикам на техническом собеседовании · Huawei

Открыть вопрос

Метрики и A/BMedium

Метрики для ML-модерации и anti-фрод

Какими offline и product metrics оценивать модель, которая отправляет подозрительные объявления на модерацию?

moderationМетрикиfraudoffline-metrics

Corsearch / Navi

Вопрос по метрикам на техническом собеседовании · Corsearch / Navi

Открыть вопрос

Метрики и A/BMedium

Метрики для recommendation-системы

Какие offline и online метрики считать для recommendation-системы с визуальными и текстовыми признаками?

МетрикиrecsysРанжированиеbusiness-metrics

GRII RED

Вопрос по метрикам на техническом собеседовании · GRII RED

Открыть вопрос

Метрики и A/BMedium

Метрики качества для восстановления пунктуации и капитализации

Метрики качества для восстановления пунктуации и капитализации

NLP metricssequence labelingprecisionrecall

Constructor

Вопрос по метрикам на техническом собеседовании · Constructor

Открыть вопрос

Метрики и A/BMedium

Метрики классификации, ties в ROC-AUC и F1

Метрики классификации, ties в ROC-AUC и F1

ROC-AUCprecisionrecallF1

Tochka

Вопрос по метрикам на техническом собеседовании · Tochka

Открыть вопрос

Метрики и A/BMedium

Метрики музыкальных рекомендаций

Какие метрики смотреть для рекомендательной системы треков?

Recall@KNDCGskip ratelistening time

Звук

Вопрос по метрикам на техническом собеседовании · Звук

Открыть вопрос

Метрики и A/BMedium

Метрики ранжирования: NDCG, MRR, Precision@K и online-метрики

Какие метрики использовать для оценки ранжирования в рекомендациях или поиске?

NDCGMRRPrecision@KRecall@K

Ozon

Вопрос по метрикам на техническом собеседовании · Ozon

Открыть вопрос

Метрики и A/BMedium

Метрики удовлетворенности контентом в ленте

Как понять, что пользователям нравится контент в новостной ленте? Какие данные мониторить и какие смещения могут искажать эти метрики?

feed rankingengagement metricsbiassatisfaction

GamerAM

Вопрос по метрикам на скрининге · GamerAM

Открыть вопрос

Метрики и A/BMedium

Метрики фрод-классификатора при асимметричных ошибках

Метрики фрод-классификатора при асимметричных ошибках

fraud detectionprecisionrecallPR-AUC

Wheely

Вопрос по метрикам из разбора после собеседования · Wheely

Открыть вопрос

Метрики и A/BMedium

Обучение со смешанной точностью, FP16/BF16 и память

Обучение со смешанной точностью, FP16/BF16 и память

mixed precisionFP16BF16GradScaler

Diagnocat

Вопрос про production ML на техническом собеседовании · Diagnocat

Открыть вопрос

Метрики и A/BMedium

От чего зависит sample size в A/B-тесте конверсии

В A/B-тесте сравниваем conversion rate control и treatment. От каких компонентов зависит минимальный sample size, чтобы обнаружить статистически значимый эффект?

A/B testingsample sizeconversion ratepower

Revolut

Вопрос по метрикам на техническом собеседовании · Revolut

Открыть вопрос

Метрики и A/BMedium

Отчетность и метрики для LLM-агента

Как построить отчетность вокруг LLM-агента, чтобы понимать качество, пользу, ошибки и стоимость?

llm-evaluationobservabilityreportingtechnical-explanation

PulsePoint

Вопрос по метрикам на техническом собеседовании · PulsePoint

Открыть вопрос

Метрики и A/BMedium

Офлайн-оценка дополняющих fashion-рекомендаций

Офлайн-оценка дополняющих fashion-рекомендаций

RecSysfashionoffline evaluationcandidate generation

Constructor

ML System Design на техническом собеседовании · Constructor

Открыть вопрос

Метрики и A/BMedium

Свойства хорошего embedding space

Какими свойствами должны обладать embeddings для поиска, рекомендаций или сопоставления объектов?

embeddingsmetric-learningretrievalsimilarity-search

Dubai Tech

Техническое собеседование

Открыть вопрос

Метрики и A/BMedium

Сезонность, переобучение и A/B тест поискового ranker

Как учитывать сезонность в поиске и как запускать новую модель в online-эксперимент?

seasonalityretrainingA/B testingMDE

Uzum

Вопрос по метрикам на техническом собеседовании · Uzum

Открыть вопрос

Метрики и A/BMedium

Теорема Байеса для болезни 1% и теста 99%

Теорема Байеса для болезни 1% и теста 99%

Bayes theorembase ratediagnostic testВероятность

Wheely

Техническое собеседование · Wheely

Открыть вопрос

Метрики и A/BMedium

Фальшивая монета после серии орлов

Есть 1000 монет, одна из них с орлом на обеих сторонах, остальные честные. Выбрали монету случайно и получили 10 орлов подряд. Какова вероятность, что выбрана фальшивая монета?

bayesВероятностьposteriorbayesian-update

Dubai Tech

Вопрос по метрикам на техническом собеседовании

Открыть вопрос

Метрики и A/BMedium

ЦПТ, A/B test и MDE

Как связаны центральная предельная теорема, дизайн A/B-теста и MDE?

cltab-testingmdestatistics

MrBit

Вопрос по метрикам на техническом собеседовании · MrBit

Открыть вопрос

Метрики и A/BMedium

Что такое p-value

Как объяснить p-value без ошибки “вероятность, что нулевая гипотеза верна”?

p-valuehypothesis-testingstatisticstechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Метрики и A/BHard

A/B-тест и бизнес-метрики видео-ленты

Как проверить, что новая рекомендательная лента работает, и как понять, сколько держать A/B-тест?

ab-testinggmvconversionwatchtime

Самокат

Вопрос по метрикам на техническом собеседовании · Самокат

Открыть вопрос

Метрики и A/BHard

Evaluation для описаний изображений

Как оценить качество VLM, которая генерирует описание изображения для пользователя или downstream поиска?

vlmcaptioningevaluationfactuality

Яндекс

Вопрос по метрикам на техническом собеседовании · Яндекс

Открыть вопрос

Метрики и A/BHard

Fairness для платных объявлений в marketplace recommendations

В маркетплейсе есть бесплатные и платные объявления. Нужно давать платным больше показов/кликов, но не портить релевантность пользователю. Как решить задачу?

paid-adsfairnessmarketplacemonetization

OLX

ML System Design на собеседовании · OLX

Открыть вопрос

Метрики и A/BHard

Metric learning для похожих товаров

Как обучить embedding-модель, чтобы поиск по фото возвращал не просто визуально похожие картинки, а товарно релевантные результаты?

metric-learningembeddingsretrievalecommerce

Wildberries

ML System Design на техническом собеседовании · Wildberries

Открыть вопрос

Метрики и A/BHard

Metric learning для сравнения двух машин по фото

Metric learning для сравнения двух машин по фото

metric learningComputer Visionhard negativestriplet loss

Tochka

Техническое собеседование · Tochka

Открыть вопрос

Метрики и A/BHard

ML System Design

How would you build positives and negatives for training a similar-items model, and what loss would you use?

contrastive learningtriplet losshard negativeslabeling

Okko

ML System Design из фидбека после собеседования · Okko

Открыть вопрос

Метрики и A/BHard

ML System Design

Finding one bad counterparty is not enough. How would you compute the share of turnover that went to suspicious counterparties across heterogeneous bank statements?

transaction parsingamount extractionturnoverrisk aggregation

Tochka

ML System Design на техническом собеседовании · Tochka

Открыть вопрос

Метрики и A/BHard

ML System Design

Design an automatic system that checks whether a human/agent task result is good enough before delivery to a customer. How do you frame the ML problem?

quality controlLLM-агентыhuman dataproblem framing

Toloka AI

ML System Design из фидбека после собеседования · Toloka AI

Открыть вопрос

Метрики и A/BHard

Temporal embeddings и hard-case mining

Модель получает temporal embeddings, но один из event heads работает плохо. Как улучшать качество: features, post-processing, labels, hard cases?

temporal-modelinghard-negative-miningerror-analysisfeature-engineering

Waymo

ML System Design из фидбека после собеседования · Waymo

Открыть вопрос

Метрики и A/BHard

Вопрос по метрикам

How do you design an A/B test, estimate sample size/MDE, and handle cases where treatment and control users are not independent, such as drivers and passengers in a marketplace?

A/B testingMDEnetwork effectsmarketplace

inDrive

Вопрос по метрикам на техническом собеседовании · inDrive

Открыть вопрос

Метрики и A/BHard

Вопрос по метрикам

A retail video analytics model should flag suspicious behavior, but humans do not fully agree on what “suspicious” means. How would you define success and evaluate whether the system is doing a good job?

evaluationambiguous labelshuman agreementvideo analytics

Focus / Teramind

Вопрос по метрикам на скрининге · Focus / Teramind

Открыть вопрос

Метрики и A/BHard

Вопрос по метрикам

A human reviewer and an automatic checker each output a list of found errors. How do you evaluate the checker?

evaluationset matchingprecisionrecall

Toloka AI

Вопрос по метрикам из фидбека после собеседования · Toloka AI

Открыть вопрос

Метрики и A/BHard

Вопрос про production ML

You have about 10,000 statement pages per night, 100 banks, one CPU server and sensitive data that cannot leave the bank. How do you allocate expensive local LLM usage?

scalabilityprivacylocal LLMrouting

Tochka

Вопрос про production ML на техническом собеседовании · Tochka

Открыть вопрос

Метрики и A/BHard

Восстановление пунктуации и капитализации в ASR-тексте

Восстановление пунктуации и капитализации в ASR-тексте

NLPASR post-processingpunctuation restorationcapitalization

Constructor

ML System Design на техническом собеседовании · Constructor

Открыть вопрос

Метрики и A/BHard

Высокоточная модерация фото авто при редком фроде

Нужно автоматически отклонять объявления, когда признаки с фото авто противоречат введенным пользователем атрибутам. Фрод редкий, а ложные отклонения бьют по пользователям. Как обучать модель, валидировать качество и выбирать пороги?

Computer Visionmoderationrare positivesthresholds

Tochka

Вопрос про production ML на техническом собеседовании · Tochka

Открыть вопрос

Метрики и A/BHard

Как A/B-тестировать новую карусель или тег Deal of the Day

В marketplace добавляют новую карусель или тег Deal of the Day с модельным отбором объявлений. В A/B выросла конверсия. Как понять, что сработала именно модель, а не просто новый UI/тег?

ab-testingmarketplaceconfoundingrecsys

OLX

Вопрос по метрикам на техническом собеседовании · OLX

Открыть вопрос

Метрики и A/BHard

Как думать про distributed векторный поиск

Команда говорит, что переходит от single-node векторный поиск к distributed vector retrieval system. Какие вопросы и trade-off стоит обсудить?

vector-searchanndistributed-systemsrecsys

Huawei

Вопрос про production ML на техническом собеседовании · Huawei

Открыть вопрос

Метрики и A/BHard

Как отделить эффект модели от эффекта тега

Deal of the Day или новая карусель дали uplift. Как проверить, что прирост вызвала модельная релевантность, а не сам UI-тег?

ab-testingconfoundingui-effectmarketplace

OLX

Вопрос по метрикам на техническом собеседовании · OLX

Открыть вопрос

Метрики и A/BHard

Как оценивать LLM-фичу бизнес-метриками

В команде делают LLM/agent feature. Как выбрать метрики качества, если обычная accuracy не показывает бизнес-ценность?

LLM evaluationbusiness metricsagentsМетрики

Flametree

Вопрос по метрикам на техническом собеседовании · Flametree

Открыть вопрос

Метрики и A/BHard

Метрики для safety-critical rare events

Для редких safety-critical событий false negative дороже false positive. Какие метрики и threshold strategy выбрать?

Метрикиrare-eventssafetythreshold-selection

Waymo

Вопрос по метрикам из фидбека после собеседования · Waymo

Открыть вопрос

Метрики и A/BHard

Моделирование LTV по многим приложениям через эмбеддинги и сегменты

Моделирование LTV по многим приложениям через эмбеддинги и сегменты

LTVmulti-tenant MLembeddingssegmentation

Adapty

Вопрос про production ML из разбора после собеседования · Adapty

Открыть вопрос

Метрики и A/BHard

Обучение pointwise-ранкера без утечек и перекоса в популярные товары

Вы обучаете boosting-ранкер для рекомендаций по кликам и связкам образов. Как собрать датасет, сделать train/validation/test split и не переобучиться на популярные товары и старые показы?

РанжированиеboostingВалидацияtime split

T-Bank

ML System Design из фидбека после собеседования · T-Bank

Открыть вопрос

Метрики и A/BHard

Оптимизировать прибыль, а не только покупки

Модель учится на purchase target и поднимает дешевые товары со скидками. Как ранжировать так, чтобы больше зарабатывать?

marginobjective-designВыручкаbusiness-alignment

Constructor

Вопрос по метрикам на техническом собеседовании · Constructor

Открыть вопрос

Метрики и A/BHard

Поиск недвижимости по текстовому запросу: метрики и признаки

Спроектируйте поиск недвижимости без явных фильтров: пользователь вводит свободный текст. Как на первом шаге определить метрики, признаки объявлений, query/user context и базовую схему retrieval/ranking?

real-estate searchМетрикиitem featuresmarketplace

CIAN

ML System Design из разбора после собеседования · CIAN

Открыть вопрос

Метрики и A/BHard

Почему еду на подносе сложно распознавать

На тарелке может быть несколько блюд, они перемешиваются и перекрывают друг друга. Почему segmentation или metric learning не решают задачу автоматически?

computer-visionsegmentationmetric-learningfood-recognition

CV catering

ML System Design на техническом собеседовании · CV catering

Открыть вопрос

Метрики и A/BHard

Рекомендации между вертикалями в супераппе

В супераппе inDrive есть несколько вертикалей: такси, доставка, междугородние поездки, грузовые перевозки и курьеры. Как рекомендовать активному пользователю одной вертикали попробовать другую? Разберите метрики, данные, модель, offline-оценку и A/B-тест.

superappRecSyscross-sellmarketplace

inDrive

ML System Design на техническом собеседовании · inDrive

Открыть вопрос

Метрики и A/BHard

Таргеты, loss и negative sampling для ранкера социальной ленты

Таргеты, loss и negative sampling для ранкера социальной ленты

feed rankingtargetsloss functionsnegative sampling

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

Метрики и A/BHard

Эмбеддинги пользователей для matching-рекомендаций

Как обучить эмбеддинги пользователей для matching: какую архитектуру, loss и target выбрать, если пользователям рекомендуются другие пользователи?

matchingembeddingssiamese networkcontrastive loss

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыEasy

Throughput OCR-сервиса по CPU и RAM

OCR API обрабатывает один документ за 2 секунды, на время обработки занимает 1 CPU core и 3.5-4 GB RAM. На сервере 20 cores и 64 GB RAM. Как посчитать safe throughput?

capacity-planningperformancebackendthroughput

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыEasy

Вопрос про production ML

For a FastAPI-backed LLM product, when would you use Postgres, ClickHouse and Redis?

FastAPIPostgresClickHouseRedis

LLM-роль в Dubai, компания не подтверждена

Вопрос про production ML на скрининге · LLM-роль в Dubai, компания не подтверждена

Открыть вопрос

Продуктовые кейсыEasy

Какие Linux-команды нужны для диагностики сервера

Интервьюер спрашивает, какими Linux-командами пользоваться на сервере для навигации, поиска файлов, логов и диагностики процессов.

linuxopsdebuggingserver

FlameTree

Вопрос про production ML на техническом собеседовании · FlameTree

Открыть вопрос

Продуктовые кейсыEasy

Нули в конце 100!

На собеседовании спросили: сколько нулей в конце числа 100!, и как это аккуратно посчитать без вычисления самого факториала?

Факториалnumber-theoryМатематикаprime-factorization

Dubai Tech

Техническое собеседование

Открыть вопрос

Продуктовые кейсыEasy

Чем отличается git merge от rebase

Интервьюер спрашивает про командную работу с Git: что делает merge, что делает rebase и когда какой подход выбирать?

gitсценарииversion-controlengineering-hygiene

FlameTree

Вопрос про production ML на техническом собеседовании · FlameTree

Открыть вопрос

Продуктовые кейсыMedium

API и bucket sizes для CTR dashboard

Dashboard должен показывать CTR за минуты, 5 минут и часы. Как спроектировать API и хранение bucket-агрегатов?

apitime-seriesdashboardАгрегация

Ads / Marketplace

Вопрос про production ML на техническом собеседовании

Открыть вопрос

Продуктовые кейсыMedium

Backend-тесты не только на status 200

На review ты видишь тест, который проверяет только HTTP 200. Что с ним не так и как сделать проверку полезной?

testingbackendapitest-design

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыMedium

Cold start в рекомендациях для нового пользователя

Как решать cold start для нового пользователя в ленте рекомендаций? Когда использовать popularity, user-based, item-based и content-based подходы?

cold startuser-based recommendationsitem-based recommendationscontent features

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыMedium

CV-модель на edge-устройстве

Что важно при запуске CV-модели на edge-устройстве или VR-гарнитуре?

Edge-инференсquantizationTensorRTONNX

Infomediji

Вопрос про production ML на техническом собеседовании · Infomediji

Открыть вопрос

Продуктовые кейсыMedium

Detection или segmentation для поиска по фото

Пользователь загружает фото товара, а система должна найти похожие товары в каталоге. Когда достаточно object detection, а когда нужна segmentation?

computer-visionvisual-searchdetectionsegmentation

Wildberries

Техническое собеседование · Wildberries

Открыть вопрос

Продуктовые кейсыMedium

Dropout, BatchNorm и fine-tuning на маленьких батчах

Dropout, BatchNorm и fine-tuning на маленьких батчах

dropoutBatchNormLayerNormfine-tuning

CIAN

Разбор после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыMedium

Kafka partitions и время обработки consumer group

В Kafka topic 10 partitions и 100 задач: 90 задач по 90 ms и 10 задач по 1 s. Задачи равномерно лежат по partitions, внутри partition порядок последовательный. Как оценить best/worst completion time для 1, 10 и 20 consumers?

kafkaparallelismbackendconsumer-groups

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыMedium

LightFM, content signals и bandits

Как LightFM помогает cold start и когда в рекомендациях появляются bandits?

LightFMcold starthybrid recommendationsbandits

ZingBrain / Aviatrix

ML System Design на техническом собеседовании · ZingBrain / Aviatrix

Открыть вопрос

Продуктовые кейсыMedium

ML System Design

What improvements would you add after the baseline real-estate search works: user context, visual embeddings, VLMs, quality models or richer item representations?

content embeddingsuser contextVLMimage quality

CIAN

ML System Design из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыMedium

ML System Design

How would you handle new users and new posts in a social-feed recommender with text and image content?

cold startsocial feedcontent embeddingsexploration

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

Продуктовые кейсыMedium

OCR и geo entity matching

OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?

ocrentity-matchinggeoconfidence-modeling

2GIS

Вопрос про production ML на техническом собеседовании · 2GIS

Открыть вопрос

Продуктовые кейсыMedium

Product use cases для VLM в поисковом продукте

Команда развивает мультимодальную модель для поиска и продукта вроде нейро-ответов. Какие use cases стоит выбрать и как приоритизировать?

vlmproduct-strategyvisual-searchneuro

Яндекс

ML System Design на техническом собеседовании · Яндекс

Открыть вопрос

Продуктовые кейсыMedium

Representative photo для организации

Что значит "репрезентативное фото" для организации в гео-продукте и как выбрать такое фото автоматически?

computer-visionРанжированиеmoderationproduct-thinking

2GIS

ML System Design на техническом собеседовании · 2GIS

Открыть вопрос

Продуктовые кейсыMedium

Transactional outbox для БД и Kafka

Что делать, если бизнес-изменение записалось в БД, а событие в Kafka не отправилось?

transactional outboxKafkadatabaseconsistency

Waibee

Вопрос про production ML на техническом собеседовании · Waibee

Открыть вопрос

Продуктовые кейсыMedium

Агрегация нескольких фото товара

У товара может быть несколько фотографий: общий вид, детали, разные ракурсы. Как получить устойчивое представление товара для поиска по фото?

visual-searchembeddingsАгрегацияcatalog

Wildberries

Вопрос про production ML на техническом собеседовании · Wildberries

Открыть вопрос

Продуктовые кейсыMedium

Как объяснить bias-variance tradeoff, почему это не только синоним underfitting/overfitting и как интерпретировать high/low bias and variance cases?

bias-variancegeneralizationmodel complexityensembles

Revolut

Техническое собеседование · Revolut

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

In PyTorch, what should Dataset do, what should collate_fn do, how do num_workers affect this, and where should .to(device) usually happen?

DatasetDataLoadercollate_fnnum_workers

Diagnocat

Вопрос про production ML на техническом собеседовании · Diagnocat

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

Compare REST and gRPC at a high level. Then explain what a database index does and what simple data structures can back an index.

RESTgRPCHTTPdatabase index

Okko

Вопрос про production ML на техническом собеседовании · Okko

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

Multiple threads update individual pixels of the same screen. What can go wrong, and how would you design synchronization?

concurrencyrace conditionslocksqueues

Strala

Вопрос про production ML из разбора после собеседования · Strala

Открыть вопрос

Продуктовые кейсыMedium

Вопрос про production ML

Multiple clients send pixel updates to a central server over the internet. What transport/protocol would you use and what tradeoffs matter?

networkingWebSocketTCPUDP

Strala

Вопрос про production ML из разбора после собеседования · Strala

Открыть вопрос

Продуктовые кейсыMedium

Генерация презентации из текста через структурированный артефакт

Как построить сервис, который по текстовому запросу генерирует презентацию и PDF?

LLM-агентыstructured outputpresentationsАртефакты

Unimatch

ML System Design на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Глубокий разбор мультимодального fashion-рекомендера совместимых вещей

Разберите мультимодальный fashion-рекомендер совместимых вещей: генерацию кандидатов, эмбеддинги, разметку образов, hard negatives, reranking и то, что не сработало.

RecSysFashionCLIPmultimodal embeddingstriplet loss

Fairmarkit

ML System Design на собеседовании · Fairmarkit

Открыть вопрос

Продуктовые кейсыMedium

Две неоднородные веревки и 45 минут

Есть две одинаковые неоднородные веревки. Каждая полностью сгорает за 60 минут, но скорость горения по длине неизвестна. Есть зажигалка. Как отмерить 45 минут?

math-puzzlereasoninginvariantsoral-math

Adapty

Техническое собеседование · Adapty

Открыть вопрос

Продуктовые кейсыMedium

Идемпотентность endpoint-а пополнения баланса

Пользователь повторно отправил запрос на пополнение баланса. Как сделать endpoint идемпотентным?

idempotencypaymentsdatabaseПовторы

Waibee

Вопрос про production ML на техническом собеседовании · Waibee

Открыть вопрос

Продуктовые кейсыMedium

Как Redis обрабатывает команды и сохраняет атомарность

Как Redis обрабатывает запросы внутри и за счет чего отдельные команды выглядят атомарными и согласованными для клиента?

Redisatomicityevent loopsingle-threaded

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыMedium

Как адаптировать имеющуюся модель под новые задачи

Как адаптировать имеющуюся модель под новые задачи? Какие варианты вы бы рассмотрели и от чего зависит выбор?

fine-tuningadapterstransfer learningmodel heads

Wisebits / xHamster

Вопрос про production ML на скрининге · Wisebits / xHamster

Открыть вопрос

Продуктовые кейсыMedium

Как версионировать артефакты LLM-агента

Агент генерирует презентации/таблицы/документы. Как хранить версии артефактов и поддерживать откат/редактирование?

Версионирование артефактовLLM-агентыУправление состояниемsystem-design

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Как работать с пропусками и шумом в данных

В датасете есть missing values и шумные признаки. Как системно обработать их до обучения и в production?

missing-valuesdata-qualityfeature-engineeringtechnical-explanation

PulsePoint

Вопрос про production ML на техническом собеседовании · PulsePoint

Открыть вопрос

Продуктовые кейсыMedium

Какие события класть в Kafka и как партиционировать

Для realtime CTR dashboard нужно описать Kafka/event log. Какая схема события нужна и по какому ключу партиционировать?

kafkaПотоковая обработкаpartitioningads

Компания не указана

Вопрос про production ML на техническом собеседовании

Открыть вопрос

Продуктовые кейсыMedium

Когда переписывать ML/inference платформу из-за техдолга

Когда накопившийся технический долг оправдывает переписывание сервиса или ML-платформы с нуля, а когда лучше улучшать систему итеративно?

technical debtplatform rewriteНадежностьdeveloper velocity

GamerAM

Вопрос про production ML на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыMedium

Контракты между сервисами

В микросервисной системе сервисы общаются через API и события. Как документировать и проверять контракты, чтобы релизы не ломали consumers?

microservicesapi-contractseventscontract-testing

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Продуктовые кейсыMedium

Переранжирование и разнообразие в fashion-рекомендациях item-to-item

Fashion item-to-item рекомендации возвращают много почти одинаковых вещей. Как разделить ответственность retrieval, ranking и reranking, чтобы сохранить релевантность и добавить разнообразие?

RecSysrerankingdiversityFashionCLIP

T-Bank

ML System Design из фидбека после собеседования · T-Bank

Открыть вопрос

Продуктовые кейсыMedium

Почему CatBoost, а не линейная модель

В time-series табличной задаче кандидат выбирает CatBoost. Как объяснить выбор и какой baseline нужен?

catboostbaselinemodel-selectiontechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Продуктовые кейсыMedium

Почему RL в трейдинге опасен

Какие риски возникают при применении RL к trading/market-making задачам?

reinforcement-learningtradingsimulationrisk

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Продуктовые кейсыMedium

Представления пользователя и поста для мультимодальной ленты

Представления пользователя и поста для мультимодальной ленты

feed rankinguser featuresitem featuresLightFM

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

Продуктовые кейсыMedium

Разбиение данных и утечки в фрод-модели

Разбиение данных и утечки в фрод-модели

ВалидацияУтечкиtime splitfraud detection

Wheely

Вопрос про production ML из разбора после собеседования · Wheely

Открыть вопрос

Продуктовые кейсыMedium

Разбор training loop на PyTorch для многоклассовой классификации

Разбор training loop на PyTorch для многоклассовой классификации

PyTorchtrain loopcode reviewCrossEntropyLoss

Diagnocat

Вопрос про production ML на техническом собеседовании · Diagnocat

Открыть вопрос

Продуктовые кейсыMedium

Семейства RecSys-алгоритмов и cold start

Какие базовые семейства алгоритмов есть в рекомендациях и что делать с cold start?

collaborative filteringcontent-basedcold starthybrid recsys

HeadHunter

ML System Design на техническом собеседовании · HeadHunter

Открыть вопрос

Продуктовые кейсыMedium

Сжатие моделей и catastrophic forgetting

Сжатие моделей и catastrophic forgetting

quantizationdistillationpruningLoRA

CIAN

Вопрос про production ML из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыMedium

Состояние артефакта и маршрутизация команд пользователя

Пользователь создал презентацию, PDF и таблицу, а потом просит "отсортируй это". Как понять, к чему относится команда?

Артефактыsession stateroutingLLM-агенты

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Тестирование и версионирование prompt-ов

Как тестировать и выкатывать prompt changes в LLM-продукте?

prompt engineeringLLMOpsevaluationversioning

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыMedium

Что делать, если продукт хочет модель, а данных нет

Что делать, если продукт хочет модель, а данных нет

cold startlabelingpretrained modelsbusiness validation

QIC

ML System Design на техническом собеседовании · QIC

Открыть вопрос

Продуктовые кейсыHard

ASR+LLM бейзлайн для извлечения записи клиента из звонка

ASR+LLM бейзлайн для извлечения записи клиента из звонка

ASRLLMinformation extractionappointment booking

Chinor

ML System Design на техническом собеседовании · Chinor

Открыть вопрос

Продуктовые кейсыHard

Attention complexity, GQA/MQA и Sliding Window Attention

Объясните scaled dot-product attention, его сложность, и зачем нужны GQA/MQA и Sliding Window Attention.

attentiongqamqaswa

Sber / GigaChat

Техническое собеседование · Sber / GigaChat

Открыть вопрос

Продуктовые кейсыHard

Attention, positional embeddings, BPE и LoRA

Объясните scaled dot-product attention, зачем Transformer нужны positional embeddings, как работает BPE-токенизация и в чем идея LoRA при fine-tuning.

Transformerattentionpositional embeddingsBPE

inDrive

Техническое собеседование · inDrive

Открыть вопрос

Продуктовые кейсыHard

Backend-контур для LLM-продукта

Какие backend-компоненты нужны для LLM-продукта с tools, cache и долгими задачами?

LLM backendКешqueuestools

Unimatch

Вопрос про production ML на техническом собеседовании · Unimatch

Открыть вопрос

Продуктовые кейсыHard

Checkpointing, offsets и partial windows

Stream job считает CTR по окнам и падает посередине часа. Как не потерять данные и не задвоить агрегаты?

fault-tolerancecheckpointingkafka-offsetsПотоковая обработка

Ads / Marketplace

Вопрос про production ML на техническом собеседовании

Открыть вопрос

Продуктовые кейсыHard

CV для робота-кассира в столовой

Есть робот-кассир: пользователь ставит поднос с едой, система делает фото и за пару секунд должна распознать блюда и сформировать чек. Как спроектировать ML-систему?

computer-visionobject-detectionfood-recognitionlatency

CV catering

ML System Design на техническом собеседовании · CV catering

Открыть вопрос

Продуктовые кейсыHard

ML System Design

If the old product used filters rather than free-form text, how would you train a query parser or query encoder before real text-query logs exist?

synthetic dataquery parserLLM labelingfilters

CIAN

ML System Design из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыHard

ML System Design

Design a similar-items recommender for 1M items when the current collaborative model fails on cold-start items and misses semantic similarity.

RecSysitem-to-itemcold startcontent embeddings

Okko

ML System Design из фидбека после собеседования · Okko

Открыть вопрос

Продуктовые кейсыHard

ML System Design

A video analytics product watches kitchen staff and must check whether people follow location-specific safety protocols. The system needs kitchen rules, time of day and staff context. How would you design the approach?

video analyticscomputer visionLLMrules engine

Focus / Teramind

ML System Design на скрининге · Focus / Teramind

Открыть вопрос

Продуктовые кейсыHard

ML System Design

You have a categorical feature such as port_id. Compare one-hot encoding with historical target aggregates for tree models, and explain the leakage risks.

categorical encodingfeature leakagetree modelstarget encoding

Quantum One

ML System Design на техническом собеседовании · Quantum One

Открыть вопрос

Продуктовые кейсыHard

ML System Design

How would you design an LLM-agent loop that checks a task output using tools such as file reading, web access or document inspection?

LLM-агентыtool useverificationquality control

Toloka AI

ML System Design из фидбека после собеседования · Toloka AI

Открыть вопрос

Продуктовые кейсыHard

RLHF/DPO для product alignment VLM

Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?

rlhfdpoalignmentvlm

Яндекс

Техническое собеседование · Яндекс

Открыть вопрос

Продуктовые кейсыHard

Undo/redo для движка формул как в Excel

Undo/redo для движка формул как в Excel

undo redoУправление состояниемhistory stackformula engine

Seamflow

Вопрос про production ML из разбора после собеседования · Seamflow

Открыть вопрос

Продуктовые кейсыHard

Вопрос про production ML

How would you handle geography in free-form real-estate queries and keep retrieval fast for millions of listings and high QPS?

geo searchgeohashshardingANN

CIAN

Вопрос про production ML из разбора после собеседования · CIAN

Открыть вопрос

Продуктовые кейсыHard

Вопрос про production ML

A speech product collects user audio. How would you filter and route audio snippets for ASR/TTS training data without poisoning the dataset?

ASRTTSdata filteringspeech AI

Palabra.ai

Вопрос про production ML на скрининге · Palabra.ai

Открыть вопрос

Продуктовые кейсыHard

Дизайн сервиса суммаризации URL и текста

Дизайн сервиса суммаризации URL и текста

summarizationLLMroutingchunking

Constructor

ML System Design из фидбека после собеседования · Constructor

Открыть вопрос

Продуктовые кейсыHard

Как оптимизировать инференс RecSys-модели

Большая нейросетевая RecSys-модель дает хороший offline quality, но ее нужно держать в рантайме. Что оптимизировать?

inference optimizationbatchingquantizationcaching

Ozon

Вопрос про production ML на техническом собеседовании · Ozon

Открыть вопрос

Продуктовые кейсыHard

Как повторить плохо описанный протокол

Проекту нужно повторить плохо документированный legacy-протокол. Как подойти к исследованию и реализации, если часть поведения приходится восстанавливать по трафику и старой системе?

protocolsreverse-engineeringbackendresearch-engineering

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

Продуктовые кейсыHard

Как проверять качество биржевых market data

Есть поток биржевых событий: price, exchange timestamp, local timestamp и два канала доставки primary/secondary. Как понять, все ли в порядке с данными?

hftmarket-datadata-qualitytimestamps

Wunderfund

Вопрос про production ML на техническом собеседовании · Wunderfund

Открыть вопрос

Продуктовые кейсыHard

Как считать online-фичи для поискового ранжирования

В ranker нужно добавить новые признаки товара, пользователя и запроса. Что считать offline, а что online?

online featuresfeature storefreshnessРанжирование

Uzum

Вопрос про production ML на техническом собеседовании · Uzum

Открыть вопрос

Продуктовые кейсыHard

Отказоустойчивая Kafka-очередь

Как на уровне Kafka/очереди рассуждать про replication, min.insync.replicas, acknowledgements и CAP trade-off, если нужно не терять сообщения при отказах?

kafkafault-tolerancedistributed-systemsreplication

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

Продуктовые кейсыHard

Отказоустойчивость в двух дата-центрах

Система развернута в двух дата-центрах, целевой SLA выше 99.95. Какие архитектурные решения помогают не уронить весь продукт при отказе одного узла или сервиса?

fault-tolerancedistributed-systemsslaresilience-patterns

Мультифактор

Вопрос про production ML из фидбека после собеседования · Мультифактор

Открыть вопрос

Продуктовые кейсыHard

Почему secondary иногда быстрее primary

В части событий secondary feed приходит быстрее primary. Как охарактеризовать эти случаи и найти причину?

hftlatencyanomaly-detectionmarket-data

Wunderfund

Вопрос про production ML на техническом собеседовании · Wunderfund

Открыть вопрос

Продуктовые кейсыHard

Рекомендательная система с нуля

Нужно спроектировать рекомендательную систему или ML-платформу с нуля. Как выбирать архитектуру, данные, candidate generation и ranking?

RecSyscandidate generationrerankingdata mining

GamerAM

ML System Design на техническом собеседовании · GamerAM

Открыть вопрос

Продуктовые кейсыHard

Шумные ASR-аннотации и агрегация расшифровок

Шумные ASR-аннотации и агрегация расшифровок

ASRlabel noiseannotationАгрегация

Chinor

Вопрос про production ML на техническом собеседовании · Chinor

Открыть вопрос

Математика и статистикаEasy

Условная вероятность: кошки тяжелее 5 кг

Есть 100 собак и 100 кошек. 50 собак и 40 кошек весят больше 5 кг. Пусть B — животное является кошкой, A — животное весит больше 5 кг. Найдите P(A | B).

conditional probabilityBayes basicsВероятностьМатематика

inDrive

Техническое собеседование · inDrive

Открыть вопрос

Математика и статистикаEasy

Честная монета: ровно 6 орлов за 10 бросков

Честная монета: ровно 6 орлов за 10 бросков

binomial distributioncombinatoricscoin tossesВероятность

Wheely

Техническое собеседование · Wheely

Открыть вопрос

Математика и статистикаMedium

Base rate и положительный тест

Почему высокая accuracy медицинского теста не означает высокую вероятность болезни после положительного результата?

bayesbase-rateВероятностьtechnical-explanation

BHFT

Техническое собеседование · BHFT

Открыть вопрос

Математика и статистикаMedium

BatchNorm на обучении и инференсе

Зачем используют BatchNorm? Как он работает во время training и чем поведение отличается на inference?

BatchNormnormalizationrunning statisticsinference

Wisebits / xHamster

Техническое собеседование · Wisebits / xHamster

Открыть вопрос

Математика и статистикаMedium

BatchNorm при обучении, инференсе и multi-GPU

BatchNorm при обучении, инференсе и multi-GPU

BatchNormSyncBatchNormmulti-GPUvariance

Diagnocat

Техническое собеседование · Diagnocat

Открыть вопрос

Математика и статистикаMedium

Binomial и normal approximation

Как решать probability-задачу с большим числом независимых одинаковых испытаний?

Вероятностьbinomialnormal-approximationclt

AgeCode

Техническое собеседование · AgeCode

Открыть вопрос

Математика и статистикаMedium

CDF/PDF, fitting distributions и Bayes

Как связаны PDF, CDF, fitting распределения и теорема Байеса?

cdfpdfmlebayes

MrBit

Техническое собеседование · MrBit

Открыть вопрос

Математика и статистикаMedium

Maximum likelihood для biased coin

Дана серия бросков монеты с H heads и T tails. Как через maximum likelihood оценить probability of heads p и как проверить, что найден maximum?

maximum likelihoodBernoullilog-likelihoodОптимизация

Revolut

Техническое собеседование · Revolut

Открыть вопрос

Математика и статистикаMedium

MLE для смещенной монеты

MLE для смещенной монеты

MLEBernoullilog-likelihoodstatistics

Wheely

Техническое собеседование · Wheely

Открыть вопрос

Математика и статистикаMedium

Reservoir sampling: один равномерный элемент из потока

Опишите алгоритм reservoir sampling для одного элемента из потока и объясните, почему каждый увиденный элемент выбирается с одинаковой вероятностью.

reservoir samplingПотоковая обработкаrandomized algorithmsproof by induction

Navio

Собеседование · Navio

Открыть вопрос

Математика и статистикаMedium

Биномиальное распределение и complement event

Как посчитать вероятность хотя бы одного орла в 10 бросках честной монеты?

binomial-distributionВероятностьcoin-flipstechnical-explanation

MrBit

Техническое собеседование · MrBit

Открыть вопрос

Математика и статистикаMedium

Векторное пространство, span и базис

Векторное пространство, span и базис

linear algebravector spacebasisspan

Okko

Техническое собеседование · Okko

Открыть вопрос

Математика и статистикаMedium

What is a probability space? What is a set of measure zero and why can a finite or countable set have probability zero in a continuous distribution?

probability spacesigma algebrameasure zeroВероятность

Okko

Техническое собеседование · Okko

Открыть вопрос

Математика и статистикаMedium

Закон больших чисел, ЦПТ и распределение выборочного среднего

Объясните закон больших чисел и центральную предельную теорему. Что получится с распределением среднего, если много раз брать подвыборки по 100 наблюдений и считать среднее?

law of large numberscentral limit theoremsample meannormal approximation

inDrive

Техническое собеседование · inDrive

Открыть вопрос

Математика и статистикаMedium

Как работает temperature при генерации текста

В какой момент применяется temperature при генерации LLM, какая формула scaling и что происходит после softmax?

llmtemperaturesamplingsoftmax

Huawei

Техническое собеседование · Huawei

Открыть вопрос

Математика и статистикаMedium

Распределение выбранных чисел после max XOR

Как меняется распределение выбранных чисел, если для каждого query выбирать число с максимальным XOR?

xorbit-operationsdistributionБор

Teza

Техническое собеседование · Teza

Открыть вопрос

Математика и статистикаMedium

Честная монетка из нечестной

Есть монетка с неизвестной вероятностью орла p, 0 < p < 1. Как получить честный случайный бит 0/1, используя броски этой нечестной монетки?

ВероятностьСлучайностьvon-neumann-extractorСимметрия

Dubai Tech

Техническое собеседование

Открыть вопрос

Математика и статистикаHard

OLS, MLE и assumptions linear regression

Что такое linear regression, как получить аналитическое OLS-решение, когда оно не существует и при каких assumptions MLE дает тот же оптимум?

linear regressionOLSMLEGauss-Markov assumptions

Revolut

Техническое собеседование · Revolut

Открыть вопрос

Behavioral InterviewEasy

A/B-тесты в рекомендательных системах

Как объяснить роль A/B-теста при проверке изменений в рекомендательной системе?

ab-testingrecsysМетрикиexperiment-design

Dodo

Вопрос по метрикам на скрининге · Dodo

Открыть вопрос

Behavioral InterviewEasy

Big-O и формальное верхнее ограничение

Как объяснить сложность алгоритма и формальное определение O-большого через константы и размер входа?

complexitybig-oasymptotic-analysisformal-definition

Dubai Tech

Техническое собеседование

Открыть вопрос

Behavioral InterviewEasy

Explain what a convolutional neural network is to senior engineers who do not specialize in ML. Keep it accurate but accessible.

CNNComputer Visionconvolutionlocality

Fairmarkit

Собеседование · Fairmarkit

Открыть вопрос

Behavioral InterviewEasy

Из каких этапов состоит современная рекомендательная система

Из каких двух основных этапов обычно состоит рекомендательная система? Объясните candidate generation и ranking коротко, но не поверхностно.

recsyscandidate-generationРанжированиеfundamentals

Dodo

ML System Design на скрининге · Dodo

Открыть вопрос

Behavioral InterviewEasy

Нужно ли DS понимать бизнес-логику продукта

Насколько важно дата-сайентисту понимать бизнес-логику того, как пользователи попали в приложение? Достаточно ли просто событий из базы?

business-contextfeaturesproduct-analyticsdata-quality

Almus

Вопрос про production ML на собеседовании · Almus

Открыть вопрос

Behavioral InterviewMedium

API и границы ответственности горизонтальной recsys-платформы

OLX хочет единый recommendation API для motors, jobs, real estate и других touchpoints. Как спроектировать интерфейс и ownership?

recommendations-platformmarketplacemulti-tenant-platformapi-design

OLX

Вопрос про production ML на собеседовании · OLX

Открыть вопрос

Behavioral InterviewMedium

Code review как ownership и onboarding

Как организовать code review в backend-команде, чтобы сохранять качество и одновременно растить знание кодовой базы у команды?

code-reviewКомандные процессыbackendownership

Tevian

Вопрос про production ML при обсуждении оффера · Tevian

Открыть вопрос

Behavioral InterviewMedium

Implicit feedback для мультимодального RecSys

Какие implicit сигналы можно использовать вместо явных оценок, и какие у них риски?

implicit-feedbackrecsystraining-databias

GRII RED

ML System Design на техническом собеседовании · GRII RED

Открыть вопрос

Behavioral InterviewMedium

ML System Design

You are given an uncertain research-heavy ML project that eventually must be shipped as a working артефакт. How do you decompose the work and communicate progress?

research planningbaselinemilestonesАртефакты

Navio

ML System Design на собеседовании · Navio

Открыть вопрос

Behavioral InterviewMedium

ML System Design

When would you use a pure collaborative ALS or matrix-factorization baseline for a social feed, and what are its limitations?

ALSmatrix factorizationimplicit feedbackcold start

T-Bank

ML System Design на техническом собеседовании · T-Bank

Открыть вопрос

Behavioral InterviewMedium

Target для learning-to-rank из implicit feedback

Как построить target для реранкера товаров, если есть логи показов, кликов, корзины и покупок?

learning-to-rankimplicit-feedbacklabelstarget-design

Constructor

ML System Design на техническом собеседовании · Constructor

Открыть вопрос

Behavioral InterviewMedium

Вопрос по метрикам

How would you evaluate and improve a summarization service if user feedback is sparse or unavailable?

summarization evaluationROUGELLM-as-judgehuman evaluation

Constructor

Вопрос по метрикам из фидбека после собеседования · Constructor

Открыть вопрос

Behavioral InterviewMedium

Вопрос про production ML

What is your view on using modern GenAI or vibe-coding tools for software and ML work, and where do they fail today?

GenAIvibe codingLLM toolsdeveloper productivity

Fairmarkit

Вопрос про production ML на собеседовании · Fairmarkit

Открыть вопрос

Behavioral InterviewMedium

Как довести ML-задачу до production

Опиши end-to-end цикл ML-задачи: от идеи и данных до выката модели, приемки результата и мониторинга.

mlopsproductionmodel-servingdeployment

Wildberries

Вопрос про production ML из материалов интервью · Wildberries

Открыть вопрос

Behavioral InterviewMedium

Как объяснить точность LTV для маркетинга

Мы посчитали LTV, например 37.37. Маркетолог спрашивает, насколько этому числу можно доверять, потому что от него зависит покупка трафика. Как ответить?

ltvuncertaintyconfidence-intervalmarketing

Adapty

Вопрос по метрикам на техническом собеседовании · Adapty

Открыть вопрос

Behavioral InterviewMedium

Как построить рекомендации треков по истории прослушиваний

Есть только история взаимодействий пользователей с треками. Как построить первую рекомендательную систему?

collaborative filteringmusic recsysimplicit feedbackcold start

Звук

ML System Design на техническом собеседовании · Звук

Открыть вопрос

Behavioral InterviewMedium

Какие бизнес-метрики обсуждать со стейкхолдером marketplace ML задачи

PM приходит с marketplace ML задачей: улучшить цену, рекомендацию или промо-блок объявления. Какие вопросы и метрики нужно обсудить до выбора модели?

marketplacebusiness-metricsstakeholdersrecsys

OLX

Вопрос по метрикам на техническом собеседовании · OLX

Открыть вопрос

Behavioral InterviewMedium

Какие внешние сигналы брать для более качественного прогноза

Если не смотреть только на продуктовые события внутри приложения, какие сигналы стоит получить у стейкхолдеров, чтобы улучшить прогноз или рекомендационную систему?

recsysfeaturesstakeholdersmarketing

Almus

ML System Design на собеседовании · Almus

Открыть вопрос

Behavioral InterviewMedium

Какие ранние признаки отличают потенциального VIP

Игрок только пришел в casino-продукт. Какие признаки можно собрать в первые дни, чтобы отличить потенциального VIP от обычного игрока?

feature-engineeringcasinobehavioral-signalsclassic-ml

MrBit

ML System Design на техническом собеседовании · MrBit

Открыть вопрос

Behavioral InterviewMedium

Лейблы и feedback loop в phishing detection

Откуда брать лейблы для phishing detection и как не попасть в feedback loop после запуска предупреждений?

phishinglabelsfeedback-loopsecurity

T-Bank

Вопрос по метрикам на техническом собеседовании · T-Bank

Открыть вопрос

Behavioral InterviewHard

Feedback loop от текущей pricing policy

Можно ли дообучать модель на данных, которые сгенерировала текущая модель доставки? Какие риски?

feedback-looppolicy-biastraining-databias-diagnostics

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

Behavioral InterviewHard

ML System Design

If you train on feedback from the previous recommender, what biases can appear and how can you reduce them?

feedback biasposition biaspopularity biasexploration

Okko

ML System Design из фидбека после собеседования · Okko

Открыть вопрос

Behavioral InterviewHard

Production loop: monitoring, retraining и active learning

Модель редких событий вышла в production. Как построить feedback loop: мониторинг, data drift, retraining и регулярную разметку?

monitoringactive-learningretrainingproduction-ml

Waymo

Вопрос про production ML из фидбека после собеседования · Waymo

Открыть вопрос

Behavioral InterviewHard

Какие online-сигналы использовать для обучения reranker

Cross-encoder или learning-to-rank reranker можно обучать не только на ручной разметке. Какие online-сигналы полезны для поиска по статьям?

rerankercross-encoderimplicit-feedbacksearch

AgeCode

RAG-вопрос на техническом собеседовании · AgeCode

Открыть вопрос

Behavioral InterviewHard

Проверка данных от новой pricing policy

После запуска новой модели доставки появляются свежие данные. Как понять, можно ли включать их в обучение следующей версии?

off-policy-datadata-qualitydistribution-shiftfeedback-loop

Dodo

ML System Design на техническом собеседовании · Dodo

Открыть вопрос

Банк вопросов из реальных собеседований — ML Mentor