Softmax Regression khác gì Logistic Regression? Khi nào nên dùng Softmax?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: Softmax Regression, Logistic Regression, phân loại đa lớp, sigmoid, softmax, machine learning

Vì sao nhiều bạn dễ nhầm giữa Logistic và Softmax Regression?

Khi mới tiếp xúc với Machine Learning (đặc biệt trong giai đoạn học Classification – Module 4 của AIO), đa số bạn thấy hai cái tên này khá giống nhau. Cả hai đều dùng hàm sigmoid/softmax, đều dự đoán xác suất, và đều giải bài toán phân loại.

Điều làm nhiều người bối rối là:

  • Logistic Regression đôi khi được gọi là softmax trong tài liệu cổ
  • Softmax Regression còn được gọi là Multinomial Logistic Regression
  • Một số thư viện ML dùng tên khác nhau cho cùng một khái niệm

Kết quả là người mới khó phân biệt rõ ràng.

Bản chất hai mô hình giống nhau về tinh thần, nhưng khác nhau ở mục tiêu phân loại.

Logistic Regression là gì?

Mô hình phân loại nhị phân

Logistic Regression chỉ giải quyết bài toán 2 lớp:

  • Positive / Negative
  • Spam / Not spam
  • Có bệnh / Không bệnh

Mô hình dùng hàm sigmoid để đưa đầu ra về khoảng 0–1.

Nếu xác suất > 0.5 → lớp 1
Nếu ≤ 0.5 → lớp 0

Điều quan trọng:

Sigmoid chỉ xử lý được hai lựa chọn → Logistic Regression không giải quyết bài toán đa lớp.

Softmax Regression là gì?

Mô hình phân loại đa lớp

Softmax Regression (hay Multinomial Logistic Regression) mở rộng Logistic Regression sang bài toán nhiều lớp, ví dụ:

  • Phân loại ảnh 10 lớp (MNIST)
  • Phân loại cảm xúc 3 lớp
  • Phân loại chủ đề văn bản

Hàm softmax tạo phân phối xác suất trên K lớp:

  • Mọi xác suất dương
  • Tổng = 1
  • Chọn lớp xác suất cao nhất

Softmax Regression chính là tổng quát hóa của Logistic Regression.

Khác nhau ở đâu?

Nội dungLogistic RegressionSoftmax Regression
Loại bài toánNhị phânĐa lớp
Hàm kích hoạtSigmoidSoftmax
Đầu ra1 xác suấtK xác suất
Tổng xác suấtKhông cố địnhLuôn bằng 1
Tên khácBinary LogisticMultinomial Logistic

Cả hai đều tối ưu bằng các kỹ thuật thuộc nhóm Optimization & Losses (Module 5 của AIO), nhưng loss khác nhau:

  • Logistic: binary cross-entropy
  • Softmax: multiclass cross-entropy

Khi nào nên dùng Softmax?

Dùng Softmax khi bài toán có từ 3 lớp trở lên.

  • Phân loại cảm xúc 3 lớp
  • Phân loại chủ đề email
  • Phân loại ảnh nhiều lớp
  • Phân loại tin tức

Softmax phù hợp khi:

  • Các lớp độc quyền (1 mẫu chỉ thuộc 1 lớp)
  • Cần baseline nhanh, dễ giải thích
  • Không cần mô hình phi tuyến quá mạnh

Khi nào không nên dùng Softmax?

  • Khi một mẫu có thể thuộc nhiều lớp cùng lúc → multi-label → dùng sigmoid
  • Khi dữ liệu phức tạp → các mô hình sâu hoạt động tốt hơn
  • Khi số lớp quá lớn → softmax tốn chi phí tính toán

Ví dụ dễ hiểu

Phân loại bình luận phim thành 3 loại:

  • Tích cực
  • Tiêu cực
  • Trung tính

Logistic Regression không xử lý được → chỉ trả về 1 xác suất.

Softmax Regression trả về:

  • Tích cực: 0.72
  • Trung tính: 0.10
  • Tiêu cực: 0.18

Tổng = 1 → chọn tích cực.

Góc nhìn dự án AI/ML

Trong pipeline classification:

  • Logistic → baseline cho nhị phân
  • Softmax → baseline cho đa lớp
  • Deep learning → khi cần độ chính xác cao hơn

Softmax Regression thường dùng trong giai đoạn thử nghiệm, mô hình dễ hiểu, phù hợp XAI.

Gợi ý học thuật cho người mới

Bạn có thể thử:

  • Chạy Logistic và Softmax trên cùng dataset
  • Quan sát đầu ra softmax để hiểu phân phối xác suất
  • Thử thay loss để thấy sự khác biệt

Những thử nghiệm nhỏ giúp hình thành trực giác tốt hơn.

Hỏi đáp nhanh

Q: Logistic Regression có dùng được cho bài toán 3 lớp không?
A: Không. Logistic chỉ xử lý nhị phân. Đa lớp cần Softmax Regression.

Q: Softmax Regression có phải là Logistic Regression mở rộng không?
A: Đúng. Softmax chính là Multinomial Logistic Regression.

Q: Khi nào cần sigmoid, khi nào cần softmax?
A: Sigmoid cho nhị phân, softmax cho nhiều lớp độc quyền.

Q: Với multi-label classification dùng gì?
A: Sigmoid cho từng lớp riêng, không dùng softmax.

Q: Hai mô hình có cùng loss không?
A: Không. Logistic dùng binary cross-entropy, Softmax dùng multiclass cross-entropy.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Quan trọng nhất là học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ liên tục.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật. Quan trọng là hợp cách truyền đạt. Admin không dám nói “xịn”, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?

Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.

Tài nguyên học AI: