Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: lasso vs ridge, regularization l1 l2, hồi quy tuyến tính, overfitting, elastic net
Khi học đến Regularization trong các bài toán hồi quy, nhiều bạn thường gặp một câu hỏi quen thuộc: “Tại sao lại có L1 và L2? Hai cái này khác gì nhau? Và khi nào nên dùng Lasso, khi nào nên dùng Ridge?” Thắc mắc này rất phổ biến vì Regularization nằm ở giao điểm giữa toán tuyến tính, optimization và ML cơ bản — những mảnh ghép xuất hiện nhiều trong Module 4 (Machine Learning), Module 5 (optimization, losses) và kiến thức nền tảng ở Module 1–2 của chương trình AIO.
Trước khi so sánh, cần hiểu mục đích chung của regularization:
Giảm overfitting
Làm mô hình ổn định hơn
Giữ trọng số “vừa phải” để tránh mô hình học nhiễu
Cả Lasso và Ridge đều thêm một thành phần phạt (penalty) vào hàm mất mát của Linear Regression. Nhưng hai kỹ thuật này xử lý trọng số khác nhau.
Lasso (L1): phạt theo tổng giá trị tuyệt đối của trọng số
Ridge (L2): phạt theo tổng bình phương của trọng số
Điều này tạo ra hành vi rất khác nhau trong quá trình tối ưu.
Đây là sự khác biệt quan trọng nhất:
Lasso (L1) có xu hướng đẩy nhiều trọng số về đúng 0.
→ Mô hình giữ lại các đặc trưng quan trọng và loại bỏ đặc trưng không hữu ích.
→ Tạo ra mô hình thưa (sparse model).
Ridge (L2) thu nhỏ trọng số nhưng không đưa chúng về 0.
→ Mọi đặc trưng đều được giữ lại.
→ Phù hợp khi bạn tin rằng tất cả feature đều đóng góp một phần.
Trong ngôn ngữ Data Analysis (Module 3), Lasso giống như bước chọn đặc trưng tự động.
Lasso hiệu quả trong các trường hợp:
Ngược lại, Ridge thích hợp khi:
L1 tạo ra những “điểm gấp khúc” tại 0 → optimizer dễ rơi vào nghiệm đúng 0.
L2 tạo hình cầu đối xứng → optimizer thu nhỏ trọng số nhưng không ép chúng về 0.
Các kiến thức này liên hệ trực tiếp đến optimization, gradient descent và loss landscape trong Module 5 – Pre-Deep Learning.
| Tiêu chí | Lasso (L1) | Ridge (L2) |
|---|---|---|
| Loại bỏ đặc trưng | Có | Không |
| Tính ổn định khi feature tương quan cao | Thấp hơn | Cao hơn |
| Mô hình thu được | Thưa (sparse) | Đầy đủ (dense) |
| Dễ giải thích | Dễ hơn | Khó hơn |
| Hiệu quả với dữ liệu lớn, nhiều cột | Rất tốt | Ổn nếu đặc trưng không dư thừa |
Giả sử bạn dự đoán giá nhà với 200 đặc trưng thu thập từ nhiều nguồn. Nhưng trong đó có nhiều đặc trưng:
Lasso sẽ tự động loại bỏ những đặc trưng không quan trọng.
Ngược lại, nếu bạn có bộ dữ liệu khoa học với các đặc trưng đều được đo có chủ đích, không dư thừa, và có thể tương quan mạnh với nhau: Ridge giúp mô hình ổn định và tránh việc trọng số bị phóng đại khi các feature tương quan.
Trong thực tế:
Regularization là kỹ thuật nền tảng, xuất hiện xuyên suốt trong ML (Module 4), Pre-Deep Learning (Module 5) và các mô hình Deep Learning sau này (Module 7 – Regularization trong DL).
Bạn có thể thử:
Những thử nghiệm nhỏ như vậy giúp bạn hiểu rõ hành vi của từng loại regularization.