К тренажеру
ВопросMediummlsd-generalРеальный собес

Сколько данных нужно и когда включать high-resolution режим

Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?

Короткий ответ

Данных нужно достаточно по каждому классу, устройству и шумовому контексту; high-resolution включаем по calibrated confidence, expected value события и бюджету latency/энергии.

Полный разбор

На вопрос "сколько данных" нельзя честно ответить одним числом. Нужна оценка по классам событий, редкости, разнообразию устройств, помещений, микрофонов, шумов и языков/регионов. Для старта можно собрать пилотный датасет, обучить baseline и построить learning curve: качество от размера данных.

Для редких событий важны synthetic/augmented data, public datasets, targeted collection, active learning и hard negative mining. Но production threshold все равно надо подбирать на реальных данных.

Переключение на high-resolution режим - это decisioning задача. У модели есть score/confidence, цена пропуска события и цена ложного срабатывания, плюс стоимость CPU/батареи/трафика. Можно включать дорогой режим только при score выше порога, при повторном подтверждении на нескольких окнах или для high-value классов.

Теория

В ML system design часто важнее не абсолютный размер датасета, а план получения coverage и калибровка decision threshold.

Типичные ошибки

  • Назвать произвольное число примеров без классов и контекстов.
  • Не учитывать hard negatives.
  • Не связать high-resolution trigger с ценой ошибки и ресурсами.

Как отвечать на собеседовании

  • Ответь через learning curve и coverage.
  • Для high-resolution говори про confidence threshold и expected value.