Метрики времени и значений ошибки

Что именно считать в метриках: timestamps, длительность операции или сами значения ошибки?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Timestamps нужны для корреляции событий, duration - для latency/SLO, error labels - для группировки причин. Эти сигналы нельзя смешивать в одну метрику.

Полный разбор

В observability разные поля отвечают на разные вопросы. Timestamp показывает, когда произошло событие и как оно коррелирует с deploy, нагрузкой или внешним incident. Duration измеряет latency операции и проверяет SLO. Error type/status/reason помогают группировать причины отказов. Практичный набор: histogram latency, counter ошибок по типу, retry attempts, timeout count, success/failure outcome и trace id. Значение exception не всегда безопасно превращать в label: high cardinality ломает метрики, поэтому подробности часто уходят в logs/traces.