Метрики времени и значений ошибки
Что именно считать в метриках: timestamps, длительность операции или сами значения ошибки?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Timestamps нужны для корреляции событий, duration - для latency/SLO, error labels - для группировки причин. Эти сигналы нельзя смешивать в одну метрику.
Полный разбор
В observability разные поля отвечают на разные вопросы. Timestamp показывает, когда произошло событие и как оно коррелирует с deploy, нагрузкой или внешним incident. Duration измеряет latency операции и проверяет SLO. Error type/status/reason помогают группировать причины отказов.
Практичный набор: histogram latency, counter ошибок по типу, retry attempts, timeout count, success/failure outcome и trace id. Значение exception не всегда безопасно превращать в label: high cardinality ломает метрики, поэтому подробности часто уходят в logs/traces.