Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Softmax Regression, Logistic Regression, phân loại đa lớp, sigmoid, softmax, machine learning
Khi mới tiếp xúc với Machine Learning (đặc biệt trong giai đoạn học Classification – Module 4 của AIO), đa số bạn thấy hai cái tên này khá giống nhau. Cả hai đều dùng hàm sigmoid/softmax, đều dự đoán xác suất, và đều giải bài toán phân loại.
Điều làm nhiều người bối rối là:
softmaxMultinomial Logistic RegressionKết quả là người mới khó phân biệt rõ ràng.
Bản chất hai mô hình giống nhau về tinh thần, nhưng khác nhau ở mục tiêu phân loại.
Logistic Regression chỉ giải quyết các bài toán 2 lớp:
Nó dùng hàm sigmoid để “nén” đầu ra về khoảng 0–1, chính là xác suất mẫu thuộc lớp 1.
Điểm quan trọng:
Sigmoid chỉ có hai lựa chọn → Logistic Regression không giải quyết được bài toán nhiều lớp.Softmax Regression (hay Multinomial Logistic Regression) mở rộng Logistic Regression sang bài toán k lớp, ví dụ:
Thay vì sigmoid, mô hình dùng hàm softmax để tạo phân phối xác suất trên K lớp.
Softmax đảm bảo:
Softmax Regression chính là dạng tổng quát hóa của Logistic Regression.
| Nội dung | Logistic Regression | Softmax Regression |
|---|---|---|
| Loại bài toán | Nhị phân | Đa lớp |
| Hàm kích hoạt | Sigmoid | Softmax |
| Đầu ra | 1 xác suất | K xác suất (tổng = 1) |
| Số tham số | ít hơn | nhiều hơn |
| Tên khác | Binary Logistic | Multinomial Logistic |
Về cơ chế tối ưu, cả hai đều dùng các kỹ thuật trong nhóm “Optimization & Losses” (Module 5 của AIO), nhưng khác nhau ở cách tính loss (
binary cross-entropymulticlass cross-entropyBạn dùng Softmax Regression khi bài toán có 3 lớp trở lên.
Một số ví dụ:
Softmax phù hợp nhất khi:
✔ Các lớp độc quyền (mutually exclusive)
Một mẫu chỉ thuộc đúng một lớp.
✔ Bạn cần mô hình tuyến tính, dễ hiểu
Softmax dễ diễn giải hơn mô hình sâu.
✔ Bạn muốn baseline nhanh
Softmax là baseline mạnh trước khi thử mô hình phức tạp như CNN hay Transformer.
✦ Khi một mẫu có thể thuộc nhiều lớp cùng lúc
→ Đây là multi-label classification → không dùng softmax, dùng sigmoid.
✦ Khi dữ liệu phức tạp, phi tuyến mạnh
→ Các mô hình sâu (Module 7 – Deep Learning, Module 9–10 – Vision/NLP) thường tốt hơn.
✦ Khi số lớp quá lớn
→ Softmax có thể nặng, cần kỹ thuật tối ưu đặc biệt (sampled softmax).
Giả sử bạn muốn phân loại bình luận phim thành 3 loại:
Logistic Regression không xử lý được, vì nó chỉ trả về 1 xác suất.
Softmax Regression sẽ trả về:
Tổng = 1, và mô hình chọn “tích cực”.
Trong pipeline phân loại:
Softmax Regression thường được dùng trong giai đoạn nghiên cứu, kiểm thử nhanh, hoặc khi muốn mô hình dễ giải thích — nền tảng quan trọng trong XAI (Explainability), nằm trong chuỗi học thuật từ module 4→5→7 của AIO.
Nếu bạn đang bắt đầu:
binarymulticlass cross-entropyNhững thử nghiệm nhỏ này giúp bạn hiểu rõ bản chất hơn là chỉ đọc lý thuyết.