Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: gradient descent, cập nhật trọng số, tối ưu hóa, machine learning, learning rate
Khi mới tiếp cận Machine Learning hoặc bước vào những bài toán tối ưu hoá, một câu hỏi quen thuộc thường xuất hiện:
“Gradient Descent thực chất làm gì để cập nhật trọng số?”
Tại sao chỉ với một quy tắc đơn giản, mô hình lại có thể “học” và giảm được sai số?
Đây là một trong những nền tảng quan trọng của ML và DL (xuất hiện trong nhóm kiến thức Pre-Deep Learning – Optimization), nhưng bản chất lại rất dễ hiểu nếu diễn giải đúng góc.
Về cốt lõi:
Bạn có thể hình dung gradient như “chiều tăng dốc nhất” của loss.
Và GD làm điều ngược lại: đi xuống dốc.
Tiếp cận theo trực quan:
Vì vậy GD sẽ cập nhật trọng số theo dạng:
trọng số mới = trọng số hiện tại – tốc độ học × độ dốc (gradient)Giả sử bạn đang tối ưu một mô hình dự đoán điểm số.
Loss đang là 10, và gradient tính được cho trọng số w là +3.
Điều này có nghĩa:
Nếu tốc độ học = 0.1:
w_new = w_old – 0.1 × 3Trọng số mới bé hơn trọng số cũ → giúp loss giảm.
Lặp đi lặp lại theo cơ chế này, mô hình dần tìm được các trọng số cho sai số nhỏ nhất.
Khi triển khai Gradient Descent trong dự án thật:
Hiểu cơ chế cập nhật trọng số giúp việc debug, điều chỉnh hyperparameters hoặc xây mô hình mạnh hơn trở nên tự nhiên.
Gradient Descent có mặt xuyên suốt nhiều phần:
Đây là trọng tâm giúp hiểu cách mọi mô hình “học”.
Bạn có thể thử lấy một hàm đơn giản (ví dụ hình dạng parabol) và mô phỏng quá trình “đi xuống dốc” để trực quan cơ chế GD.
Nên thử thay đổi learning rate để thấy sự khác biệt.
Việc thử nghiệm các biến thể như SGD, Momentum hoặc Adam cũng giúp hiểu sâu hơn về tối ưu hoá.