Softmax Regression khác gì Logistic Regression? Khi nào nên dùng Softmax?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: Softmax Regression, Logistic Regression, phân loại đa lớp, sigmoid, softmax, machine learning

Vì sao nhiều bạn dễ nhầm giữa Logistic và Softmax Regression?

Khi mới tiếp xúc với Machine Learning (đặc biệt trong giai đoạn học Classification – Module 4 của AIO), đa số bạn thấy hai cái tên này khá giống nhau. Cả hai đều dùng hàm sigmoid/softmax, đều dự đoán xác suất, và đều giải bài toán phân loại.

Điều làm nhiều người bối rối là:

  • Logistic Regression đôi khi được gọi là
    softmax
    trong tài liệu cổ
  • Softmax Regression còn được gọi là
    Multinomial Logistic Regression
  • Một số thư viện ML dùng tên khác nhau cho cùng một khái niệm

Kết quả là người mới khó phân biệt rõ ràng.

Bản chất hai mô hình giống nhau về tinh thần, nhưng khác nhau ở mục tiêu phân loại.

Logistic Regression là gì?

Mô hình phân loại nhị phân

Logistic Regression chỉ giải quyết các bài toán 2 lớp:

  • positive / negative
  • spam / not spam
  • có bệnh / không bệnh

Nó dùng hàm sigmoid để “nén” đầu ra về khoảng 0–1, chính là xác suất mẫu thuộc lớp 1.

  • Nếu xác suất > 0.5 → dự đoán lớp 1.
  • Nếu ≤ 0.5 → dự đoán lớp 0.

Điểm quan trọng:

Sigmoid chỉ có hai lựa chọn → Logistic Regression không giải quyết được bài toán nhiều lớp.

Softmax Regression là gì?

Mô hình phân loại đa lớp

Softmax Regression (hay Multinomial Logistic Regression) mở rộng Logistic Regression sang bài toán k lớp, ví dụ:

  • phân loại ảnh 10 lớp (MNIST)
  • phân loại cảm xúc 3 lớp (positive/neutral/negative)
  • phân loại chủ đề văn bản 5 lớp

Thay vì sigmoid, mô hình dùng hàm softmax để tạo phân phối xác suất trên K lớp.

Softmax đảm bảo:

  • mọi xác suất đều dương
  • tổng các xác suất = 1
  • mô hình chọn lớp có xác suất cao nhất

Softmax Regression chính là dạng tổng quát hóa của Logistic Regression.

Khác nhau ở đâu?

Nội dungLogistic RegressionSoftmax Regression
Loại bài toánNhị phânĐa lớp
Hàm kích hoạtSigmoidSoftmax
Đầu ra1 xác suấtK xác suất (tổng = 1)
Số tham sốít hơnnhiều hơn
Tên khácBinary LogisticMultinomial Logistic

Về cơ chế tối ưu, cả hai đều dùng các kỹ thuật trong nhóm “Optimization & Losses” (Module 5 của AIO), nhưng khác nhau ở cách tính loss (

binary cross-entropy
vs
multiclass cross-entropy
).

Khi nào nên dùng Softmax?

Bạn dùng Softmax Regression khi bài toán có 3 lớp trở lên.

Một số ví dụ:

  • Phân loại sentiment 3 lớp (positive / neutral / negative)
  • Phân loại ảnh nhiều loại đồ vật
  • Phân loại chủ đề email
  • Phân loại văn bản tin tức thành nhiều thể loại

Softmax phù hợp nhất khi:

  • ✔ Các lớp độc quyền (mutually exclusive)
    Một mẫu chỉ thuộc đúng một lớp.

  • ✔ Bạn cần mô hình tuyến tính, dễ hiểu
    Softmax dễ diễn giải hơn mô hình sâu.

  • ✔ Bạn muốn baseline nhanh
    Softmax là baseline mạnh trước khi thử mô hình phức tạp như CNN hay Transformer.

Khi nào không nên dùng Softmax?

  • ✦ Khi một mẫu có thể thuộc nhiều lớp cùng lúc
    → Đây là multi-label classification → không dùng softmax, dùng sigmoid.

  • ✦ Khi dữ liệu phức tạp, phi tuyến mạnh
    → Các mô hình sâu (Module 7 – Deep Learning, Module 9–10 – Vision/NLP) thường tốt hơn.

  • ✦ Khi số lớp quá lớn
    → Softmax có thể nặng, cần kỹ thuật tối ưu đặc biệt (sampled softmax).

Ví dụ dễ hiểu

Giả sử bạn muốn phân loại bình luận phim thành 3 loại:

  • tích cực
  • tiêu cực
  • trung tính

Logistic Regression không xử lý được, vì nó chỉ trả về 1 xác suất.

Softmax Regression sẽ trả về:

  • tích cực : 0.72
  • trung tính : 0.10
  • tiêu cực : 0.18

Tổng = 1, và mô hình chọn “tích cực”.

Góc nhìn dự án AI/ML

Trong pipeline phân loại:

  • Logistic Regression → baseline cho nhị phân
  • Softmax Regression → baseline cho đa lớp
  • Mô hình sâu → khi cần độ chính xác cao hơn

Softmax Regression thường được dùng trong giai đoạn nghiên cứu, kiểm thử nhanh, hoặc khi muốn mô hình dễ giải thích — nền tảng quan trọng trong XAI (Explainability), nằm trong chuỗi học thuật từ module 4→5→7 của AIO.

Gợi ý học thuật chung cho người mới

Nếu bạn đang bắt đầu:

  • Bạn có thể thử xây dựng cả Logistic và Softmax Regression trên dataset nhỏ để cảm nhận sự khác biệt.
  • Bạn có thể quan sát đầu ra của softmax để hiểu cách mô hình phân phối xác suất.
  • Bạn có thể so sánh loss (
    binary
    vs
    multiclass cross-entropy
    ) để thấy vai trò của mỗi loại.

Những thử nghiệm nhỏ này giúp bạn hiểu rõ bản chất hơn là chỉ đọc lý thuyết.

Tài nguyên học AI: