Gradient Descent (GD) cơ bản hoạt động theo cơ chế nào để cập nhật trọng số?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: gradient descent, cập nhật trọng số, tối ưu hóa, machine learning, learning rate

Gradient Descent làm gì?

Khi mới tiếp cận Machine Learning hoặc bước vào những bài toán tối ưu hoá, một câu hỏi quen thuộc thường xuất hiện:
“Gradient Descent thực chất làm gì để cập nhật trọng số?”
Tại sao chỉ với một quy tắc đơn giản, mô hình lại có thể “học” và giảm được sai số?

Đây là một trong những nền tảng quan trọng của ML và DL (xuất hiện trong nhóm kiến thức Pre-Deep Learning – Optimization), nhưng bản chất lại rất dễ hiểu nếu diễn giải đúng góc.

Về cốt lõi:

  • Gradient Descent liên tục điều chỉnh trọng số theo hướng làm giảm hàm mất mát (loss).
  • Nghĩa là: mô hình sẽ di chuyển trọng số theo hướng ngược lại của gradient.

Bạn có thể hình dung gradient như “chiều tăng dốc nhất” của loss.
Và GD làm điều ngược lại: đi xuống dốc.

Cơ chế cập nhật trọng số (giải thích theo ý nghĩa)

Tiếp cận theo trực quan:

  • Mỗi trọng số trong mô hình ảnh hưởng đến mức sai số.
  • Ta cần “biết” nếu thay đổi trọng số một chút, sai số sẽ tăng hay giảm.
  • Gradient cho ta thông tin này.

Vì vậy GD sẽ cập nhật trọng số theo dạng:

trọng số mới = trọng số hiện tại – tốc độ học × độ dốc (gradient)

Ý nghĩa của từng thành phần

  • Gradient: cho biết “đi hướng nào thì loss tăng”.
  • Dấu trừ: để đi ngược lại, tức đi về phía giảm loss.
  • Tốc độ học (learning rate): bước đi nhỏ hay vừa phải.
    Nếu bước quá lớn có thể vượt khỏi vùng tối ưu, còn quá nhỏ thì học rất chậm.

Minh họa bằng ví dụ đơn giản

Giả sử bạn đang tối ưu một mô hình dự đoán điểm số.
Loss đang là 10, và gradient tính được cho trọng số w là +3.

Điều này có nghĩa:

  • Nếu tăng w thêm chút → loss sẽ tăng (vì gradient dương)
  • Vậy cập nhật chuẩn là giảm w

Nếu tốc độ học = 0.1:

w_new = w_old – 0.1 × 3

Trọng số mới bé hơn trọng số cũ → giúp loss giảm.

Lặp đi lặp lại theo cơ chế này, mô hình dần tìm được các trọng số cho sai số nhỏ nhất.

Góc nhìn khi làm dự án AI/ML

Khi triển khai Gradient Descent trong dự án thật:

  • Dữ liệu không chuẩn hóa có thể làm gradient dao động mạnh → học khó
    (liên quan đến xử lý dữ liệu – Module 3).
  • Learning rate phù hợp ảnh hưởng trực tiếp tốc độ hội tụ.
  • Batch size (với SGD, Mini-batch GD) là yếu tố quan trọng khi làm việc với dữ liệu lớn.
  • GD là nền tảng của nhiều mô hình sâu (MLP, CNN, Transformer – thuộc Module 7–10).

Hiểu cơ chế cập nhật trọng số giúp việc debug, điều chỉnh hyperparameters hoặc xây mô hình mạnh hơn trở nên tự nhiên.

Liên hệ nhẹ với kiến thức nền

Gradient Descent có mặt xuyên suốt nhiều phần:

  • Toán – Giải tích & Đại số tuyến tính (Module 1–2): đạo hàm, gradient.
  • Optimization trong Pre-Deep Learning (Module 5): GD, SGD, Momentum…
  • Deep Learning (Module 7–8): lan truyền ngược, cập nhật trọng số.
  • CV/NLP (Module 9–10): tối ưu mô hình lớn, embedding, learning rate warmup.

Đây là trọng tâm giúp hiểu cách mọi mô hình “học”.

Lời khuyên cho người mới bắt đầu

Bạn có thể thử lấy một hàm đơn giản (ví dụ hình dạng parabol) và mô phỏng quá trình “đi xuống dốc” để trực quan cơ chế GD.

Nên thử thay đổi learning rate để thấy sự khác biệt.

Việc thử nghiệm các biến thể như SGD, Momentum hoặc Adam cũng giúp hiểu sâu hơn về tối ưu hoá.

Tài nguyên học AI: