Lasso Regression (L1 Regularization) khác gì Ridge Regression (L2 Regularization)?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: lasso vs ridge, regularization l1 l2, hồi quy tuyến tính, overfitting, elastic net

Mở đầu

Khi học đến Regularization trong các bài toán hồi quy, nhiều bạn thường gặp một câu hỏi quen thuộc: “Tại sao lại có L1 và L2? Hai cái này khác gì nhau? Và khi nào nên dùng Lasso, khi nào nên dùng Ridge?” Thắc mắc này rất phổ biến vì Regularization nằm ở giao điểm giữa toán tuyến tính, optimization và ML cơ bản — những mảnh ghép xuất hiện nhiều trong Module 4 (Machine Learning), Module 5 (optimization, losses) và kiến thức nền tảng ở Module 1–2 của chương trình AIO.

Regularization nhằm giải quyết vấn đề gì?

Trước khi so sánh, cần hiểu mục đích chung của regularization: Giảm overfitting
Làm mô hình ổn định hơn
Giữ trọng số “vừa phải” để tránh mô hình học nhiễu

Cả Lasso và Ridge đều thêm một thành phần phạt (penalty) vào hàm mất mát của Linear Regression. Nhưng hai kỹ thuật này xử lý trọng số khác nhau.

Điểm khác nhau cốt lõi giữa Lasso (L1) và Ridge (L2)

Hình thức phạt

Lasso (L1): phạt theo tổng giá trị tuyệt đối của trọng số
Ridge (L2): phạt theo tổng bình phương của trọng số
Điều này tạo ra hành vi rất khác nhau trong quá trình tối ưu.

Lasso có khả năng “loại bỏ đặc trưng”, còn Ridge thì không

Đây là sự khác biệt quan trọng nhất: Lasso (L1) có xu hướng đẩy nhiều trọng số về đúng 0.
→ Mô hình giữ lại các đặc trưng quan trọng và loại bỏ đặc trưng không hữu ích.
→ Tạo ra mô hình thưa (sparse model).

Ridge (L2) thu nhỏ trọng số nhưng không đưa chúng về 0.
→ Mọi đặc trưng đều được giữ lại.
→ Phù hợp khi bạn tin rằng tất cả feature đều đóng góp một phần.

Trong ngôn ngữ Data Analysis (Module 3), Lasso giống như bước chọn đặc trưng tự động.

Lasso phù hợp với dữ liệu có nhiều đặc trưng dư thừa

Lasso hiệu quả trong các trường hợp:

  • Tập dữ liệu có nhiều feature hơn mẫu
  • Có nhiều cột nhiễu, không liên quan
  • Bạn muốn mô hình đơn giản để dễ giải thích

Ngược lại, Ridge thích hợp khi:

  • Feature có quan hệ tuyến tính cao (multicollinearity)
  • Bạn muốn mô hình ổn định mà không loại bỏ biến nào
  • Dữ liệu “mượt” và không quá lo về sparse features

Đường đi tối ưu hóa khác nhau

L1 tạo ra những “điểm gấp khúc” tại 0 → optimizer dễ rơi vào nghiệm đúng 0.
L2 tạo hình cầu đối xứng → optimizer thu nhỏ trọng số nhưng không ép chúng về 0.
Các kiến thức này liên hệ trực tiếp đến optimization, gradient descent và loss landscape trong Module 5 – Pre-Deep Learning.

Ảnh hưởng đến mô hình cuối cùng

Tiêu chíLasso (L1)Ridge (L2)
Loại bỏ đặc trưngKhông
Tính ổn định khi feature tương quan caoThấp hơnCao hơn
Mô hình thu đượcThưa (sparse)Đầy đủ (dense)
Dễ giải thíchDễ hơnKhó hơn
Hiệu quả với dữ liệu lớn, nhiều cộtRất tốtỔn nếu đặc trưng không dư thừa

Ví dụ thực tế

Giả sử bạn dự đoán giá nhà với 200 đặc trưng thu thập từ nhiều nguồn. Nhưng trong đó có nhiều đặc trưng:

  • trùng ý nghĩa
  • ít liên quan
  • tạo nhiễu

Lasso sẽ tự động loại bỏ những đặc trưng không quan trọng.

Ngược lại, nếu bạn có bộ dữ liệu khoa học với các đặc trưng đều được đo có chủ đích, không dư thừa, và có thể tương quan mạnh với nhau: Ridge giúp mô hình ổn định và tránh việc trọng số bị phóng đại khi các feature tương quan.

Góc nhìn khi làm dự án ML

Trong thực tế:

  • Nếu bạn muốn Feature Selection tự nhiên → dùng Lasso.
  • Nếu dữ liệu nhiều tương quan → Ridge xử lý tốt hơn.
  • Nếu không chắc chọn cái nào → Elastic Net (kết hợp L1 và L2) thường là lựa chọn cân bằng.

Regularization là kỹ thuật nền tảng, xuất hiện xuyên suốt trong ML (Module 4), Pre-Deep Learning (Module 5) và các mô hình Deep Learning sau này (Module 7 – Regularization trong DL).

Lời khuyên cho người bắt đầu

Bạn có thể thử:

  • Chạy Linear Regression không regularization
  • Chạy Ridge
  • Chạy Lasso
  • Quan sát độ lớn các trọng số và số lượng trọng số bị đưa về 0

Những thử nghiệm nhỏ như vậy giúp bạn hiểu rõ hành vi của từng loại regularization.

Tài nguyên học AI: