Почему в LSTM явно выделяют time dimension
Какой смысл имеет time dimension в LSTM input и почему порядок шагов важен?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
LSTM обрабатывает последовательность по шагам времени, переносит hidden/cell state и поэтому различает порядок событий. Batch и feature dimensions имеют другой смысл.
Полный разбор
Для LSTM вход обычно имеет axes batch, time и features. На каждом time step модель получает вектор признаков и обновляет hidden state и cell state. Эти состояния переносят информацию из прошлых шагов, поэтому перестановка времени меняет вычисление.
Разные фреймворки могут ожидать batch-first или time-first формат, но семантика остается той же: time axis задает порядок recurrence. Если перепутать time и feature dimensions, модель будет учить неверную структуру зависимости.