Сколько данных нужно и когда включать high-resolution режим
Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?
Короткий ответ
Данных нужно достаточно по каждому классу, устройству и шумовому контексту; high-resolution включаем по calibrated confidence, expected value события и бюджету latency/энергии.
Полный разбор
На вопрос "сколько данных" нельзя честно ответить одним числом. Нужна оценка по классам событий, редкости, разнообразию устройств, помещений, микрофонов, шумов и языков/регионов. Для старта можно собрать пилотный датасет, обучить baseline и построить learning curve: качество от размера данных.
Для редких событий важны synthetic/augmented data, public datasets, targeted collection, active learning и hard negative mining. Но production threshold все равно надо подбирать на реальных данных.
Переключение на high-resolution режим - это decisioning задача. У модели есть score/confidence, цена пропуска события и цена ложного срабатывания, плюс стоимость CPU/батареи/трафика. Можно включать дорогой режим только при score выше порога, при повторном подтверждении на нескольких окнах или для high-value классов.
Теория
В ML system design часто важнее не абсолютный размер датасета, а план получения coverage и калибровка decision threshold.
Типичные ошибки
- Назвать произвольное число примеров без классов и контекстов.
- Не учитывать hard negatives.
- Не связать high-resolution trigger с ценой ошибки и ресурсами.
Как отвечать на собеседовании
- Ответь через learning curve и coverage.
- Для high-resolution говори про confidence threshold и expected value.