Lasso Regression (L1 Regularization) khác gì Ridge Regression (L2 Regularization)?

Mở đầu

Khi học đến Regularization trong các bài toán hồi quy, nhiều bạn thường gặp một câu hỏi quen thuộc:
“Tại sao lại có L1 và L2? Hai cái này khác gì nhau? Và khi nào nên dùng Lasso, khi nào nên dùng Ridge?”

Thắc mắc này rất phổ biến vì Regularization nằm ở giao điểm giữa toán tuyến tính, optimization và ML cơ bản — những mảnh ghép xuất hiện nhiều trong Module 4 (Machine Learning), Module 5 (optimization, losses) và kiến thức nền tảng ở Module 1–2 của chương trình AIO.

Regularization nhằm giải quyết vấn đề gì?

Mục tiêu chung của regularization:

Giảm overfitting
Làm mô hình ổn định hơn
Giữ trọng số vừa phải để tránh mô hình học nhiễu

Cả Lasso và Ridge đều thêm một thành phần phạt (penalty) vào hàm mất mát của Linear Regression.
Nhưng hai kỹ thuật này xử lý trọng số theo cách hoàn toàn khác nhau.

Điểm khác nhau cốt lõi giữa Lasso (L1) và Ridge (L2)

Hình thức phạt

Lasso (L1): phạt theo tổng giá trị tuyệt đối của trọng số
Ridge (L2): phạt theo tổng bình phương của trọng số

Hai dạng phạt này tạo ra hình dạng loss landscape khác nhau → dẫn tới hành vi tối ưu hóa khác nhau.

Lasso có khả năng loại bỏ đặc trưng, còn Ridge thì không

Đây là sự khác biệt quan trọng nhất:

Lasso (L1) có xu hướng đẩy nhiều trọng số về đúng 0
→ mô hình tự động loại bỏ các đặc trưng không quan trọng
→ tạo ra mô hình thưa (sparse)
Ridge (L2) thu nhỏ trọng số nhưng không bao giờ đưa chúng về 0
→ giữ lại toàn bộ đặc trưng
→ phù hợp khi bạn tin rằng mọi feature đều có đóng góp

Trong ngôn ngữ ETL & phân tích dữ liệu (Module 3), Lasso giống như bước Feature Selection tự nhiên.

Lasso phù hợp với dữ liệu có nhiều đặc trưng dư thừa

Lasso hiệu quả khi:

Số lượng feature rất lớn
Nhiều cột nhiễu hoặc cột trùng ý nghĩa
Cần mô hình nhỏ, dễ giải thích

Ridge phù hợp khi:

Dữ liệu có multicollinearity (các feature tương quan mạnh)
Muốn mô hình ổn định và không loại bỏ biến quan trọng
Các feature đều có lý do tồn tại

Đường đi tối ưu khác nhau

L1 tạo ra vertex tại 0 → optimizer dễ rơi đúng vào nghiệm 0
L2 tạo ra không gian đối xứng dạng cầu → thu nhỏ trọng số nhưng không triệt tiêu chúng

Những khái niệm này liên quan trực tiếp đến tối ưu hóa trong Module 5.

Ảnh hưởng đến mô hình cuối cùng

Tiêu chí	Lasso (L1)	Ridge (L2)
Loại bỏ đặc trưng	Có	Không
Ổn định khi feature tương quan cao	Thấp hơn	Cao
Mô hình thu được	Thưa (sparse)	Đầy đủ (dense)
Khả năng giải thích	Cao	Trung bình
Hiệu quả với dữ liệu nhiều cột dư	Rất tốt	Tốt nếu không dư thừa

Ví dụ thực tế

Khi dữ liệu nhiều nhiễu (high-dimensional)

Bạn dự đoán giá nhà với 200 feature lấy từ nhiều nguồn → nhiều feature dư thừa.

Lasso sẽ tự động loại bỏ các feature không quan trọng
Mô hình gọn hơn và tránh overfitting

Khi dữ liệu có multicollinearity (feature tương quan)

Ví dụ dữ liệu khoa học hoặc sensor:

Các feature đo lường liên quan đến nhau
Ridge giúp trọng số ổn định, tránh “bùng nổ trọng số” khi feature tương quan quá mạnh

Góc nhìn khi làm dự án ML

Khi làm thực tế:

Cần Feature Selection tự nhiên → chọn Lasso
Dữ liệu có tương quan mạnh → chọn Ridge
Không chắc chọn gì → Elastic Net (kết hợp L1 và L2) là lựa chọn cân bằng

Regularization là nền tảng để hiểu cách mô hình ML (Module 4) và DL (Module 7) chống overfitting.

Lời khuyên cho người mới bắt đầu

Bạn có thể thử:

Chạy Linear Regression không regularization
Chạy Ridge
Chạy Lasso
So sánh số lượng trọng số bị đưa về 0, độ lớn trọng số và độ chính xác

Những thử nghiệm nhỏ này giúp bạn hiểu rõ bản chất của regularization tốt hơn mọi công thức.

Hỏi đáp nhanh

Q: Lasso có luôn tốt hơn vì chọn được đặc trưng không?
A: Không. Nếu feature tương quan mạnh, Lasso có thể chọn “ngẫu nhiên một trong số chúng”, khiến mô hình kém ổn định.

Q: Ridge có loại bỏ nhiễu được không?
A: Ridge giảm độ lớn trọng số, nhưng không đưa chúng về 0 → không loại bỏ nhiễu hoàn toàn.

Q: Elastic Net là gì?
A: Là sự kết hợp giữa L1 và L2, tận dụng ưu điểm của cả hai.

Q: Khi feature nhiều hơn mẫu (p >> n), nên dùng gì?
A: Lasso thường hiệu quả hơn Ridge.

Q: Regularization có làm mô hình yếu đi không?
A: Với dữ liệu thật, regularization giúp mô hình mạnh hơn nhờ giảm overfitting.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.