К тренажеру
ВопросMediumhft-data-engineeringМой собес

Какие аномалии искать в биржевом датасете

После базовых latency-вопросов интервьюер спрашивает: какие еще аномалии можно заметить в market-data файле?

Короткий ответ

Ищем дыры во времени, нулевые цены, дубликаты, out-of-order events, отрицательную latency, нестыковки между feeds и резкие скачки частоты событий.

Полный разбор

Хороший список аномалий для market data:

  • пропуски во времени: минуты или секунды без событий, хотя рынок активен;
  • price = 0, отрицательные цены или невозможные скачки;
  • дубликаты одного события;
  • exchange timestamp идет назад или события приходят out of order;
  • local timestamp раньше exchange timestamp;
  • primary и secondary расходятся по price для одного события;
  • один feed систематически теряет события;
  • latency резко меняется в конкретных окнах.

Важно не просто перечислить, а сказать, как искать: график event count per minute, histogram latency by feed, paired feed diff, min/max price by window, duplicate key counts и отдельный отчет по anomalies.

Теория

В HFT/data infra интервью такие задачи проверяют не знание одной библиотеки, а привычку быстро превращать сырой файл в набор проверяемых гипотез.

Типичные ошибки

  • Ограничиться NaN/null checks.
  • Не учитывать временную природу данных.
  • Не разделять аномалии значений и аномалии доставки.

Как отвечать на собеседовании

  • Дай чеклист и сразу назови агрегаты/графики.
  • Не забывай про zero price и gaps in time.