Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Temperature Softmax, τ, điều chỉnh phân phối xác suất, NLP, LLMs, text generation, knowledge distillation
Trong nhiều bài toán từ Machine Learning đến Deep Learning, đặc biệt ở NLP và LLMs, bạn sẽ gặp một biến quen thuộc trong công thức Softmax: Temperature (τ).
Và rất nhiều bạn thường đặt câu hỏi:
“Temperature dùng để làm gì? Tại sao tăng giảm τ lại làm mô hình thay đổi hành vi dự đoán?”
Đây là thắc mắc rất phổ biến, nhất là khi bạn bắt đầu bước vào cơ chế của mô hình sinh dữ liệu, phân phối xác suất, hoặc các kỹ thuật như knowledge distillation.
Softmax chuẩn biến các giá trị đầu ra (logits) thành một phân phối xác suất.
Khi thêm Temperature (τ), công thức trở thành dạng mở rộng giúp điều chỉnh độ sắc nét hoặc mức ngẫu nhiên của phân phối.
Ý tưởng chính:
Temperature hoạt động như một chiếc “núm xoay” điều khiển mức quyết liệt của Softmax.
Bạn có thể hình dung:
Trong các mô hình sinh văn bản thuộc NLP (Module 10) hoặc LLMs (Module 12):
Đây là lý do Temperature thường xuất hiện trong API của mô hình ngôn ngữ.
Trong distillation — kỹ thuật được sử dụng nhiều ở GenAI/LLMs:
Điều này liên quan mật thiết đến kiến thức optimization & loss functions (Module 5).
Trong mạng deep learning (Module 7), đôi khi các lớp có giá trị logits chênh lệch quá mạnh dẫn đến Softmax quá cực đoan.
Điều chỉnh τ giúp phân phối hợp lý hơn, tránh hiện tượng áp đảo từ một lớp duy nhất.
Cùng một bộ logits:
Giống việc nhìn núi:
Temperature chạm vào nhiều mảng trong chuỗi học thuật:
Nhờ nắm Temperature, bạn sẽ hiểu rõ hơn cách mô hình sinh văn bản, cách sampling hoạt động, và vì sao thay đổi một tham số có thể làm mô hình trở nên "nghiêm túc" hoặc "sáng tạo" hơn.
Dù classification thường để τ = 1, nhưng việc hiểu τ giúp debug tốt hơn khi logits quá chênh.
Giảm sai số huấn luyện bằng cách "làm mềm" phân phối teacher.
Nếu bạn muốn hiểu sâu Temperature:
Những trải nghiệm này rất hữu ích để bạn kết nối giữa toán nền, Deep Learning và NLP/LLMs.