Linear regression, normal equation и regularization

Как связаны matrix equation, least squares, gradient descent и L1/L2 regularization?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Least squares минимизирует ||Xw-y||^2. Closed form использует normal equation, но на практике часто нужны regularization, SVD/PCA или iterative optimization.

Полный разбор

Линейная регрессия в matrix form решает задачу минимизации squared error. Если X full rank, closed-form решение можно записать через normal equation. Но обращение матрицы может быть нестабильным или дорогим, особенно при collinearity и большом числе признаков. Ridge добавляет L2 penalty и стабилизирует решение, Lasso добавляет L1 и может занулять признаки, Elastic Net комбинирует оба эффекта. Gradient descent/SGD полезны на больших данных, а SVD/PCA помогают диагностировать rank deficiency и redundant features.