Назад к подготовке

ВопросСредняяmlsd-generalML System Design на техническом собеседовании · Sber / GigaChat

Сколько данных нужно и когда включать high-resolution режим

Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Данных нужно достаточно по каждому классу, устройству и шумовому контексту; high-resolution включаем по calibrated confidence, expected value события и бюджету latency/энергии.

Полный разбор

На вопрос "сколько данных" нельзя честно ответить одним числом. Нужна оценка по классам событий, редкости, разнообразию устройств, помещений, микрофонов, шумов и языков/регионов. Для старта можно собрать пилотный датасет, обучить baseline и построить learning curve: качество от размера данных. Для редких событий важны synthetic/augmented data, public datasets, targeted collection, active learning и hard negative mining. Но production threshold все равно надо подбирать на реальных данных. Переключение на high-resolution режим - это decisioning задача. У модели есть score/confidence, цена пропуска события и цена ложного срабатывания, плюс стоимость CPU/батареи/трафика. Можно включать дорогой режим только при score выше порога, при повторном подтверждении на нескольких окнах или для high-value классов.

Теория

В ML system design часто важнее не абсолютный размер датасета, а план получения coverage и калибровка decision threshold.

Типичные ошибки

Назвать произвольное число примеров без классов и контекстов.
Не учитывать hard negatives.
Не связать high-resolution trigger с ценой ошибки и ресурсами.

Как отвечать на собеседовании

Ответь через learning curve и coverage.
Для high-resolution говори про confidence threshold и expected value.