ВопросMediumhft-data-engineeringМой собес
Какие аномалии искать в биржевом датасете
После базовых latency-вопросов интервьюер спрашивает: какие еще аномалии можно заметить в market-data файле?
Короткий ответ
Ищем дыры во времени, нулевые цены, дубликаты, out-of-order events, отрицательную latency, нестыковки между feeds и резкие скачки частоты событий.
Полный разбор
Хороший список аномалий для market data:
- пропуски во времени: минуты или секунды без событий, хотя рынок активен;
- price = 0, отрицательные цены или невозможные скачки;
- дубликаты одного события;
- exchange timestamp идет назад или события приходят out of order;
- local timestamp раньше exchange timestamp;
- primary и secondary расходятся по price для одного события;
- один feed систематически теряет события;
- latency резко меняется в конкретных окнах.
Важно не просто перечислить, а сказать, как искать: график event count per minute, histogram latency by feed, paired feed diff, min/max price by window, duplicate key counts и отдельный отчет по anomalies.
Теория
В HFT/data infra интервью такие задачи проверяют не знание одной библиотеки, а привычку быстро превращать сырой файл в набор проверяемых гипотез.
Типичные ошибки
- Ограничиться NaN/null checks.
- Не учитывать временную природу данных.
- Не разделять аномалии значений и аномалии доставки.
Как отвечать на собеседовании
- Дай чеклист и сразу назови агрегаты/графики.
- Не забывай про zero price и gaps in time.