Gradient Descent (GD) cơ bản hoạt động theo cơ chế nào để cập nhật trọng số?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: gradient descent, cập nhật trọng số, tối ưu hóa, machine learning, learning rate

Gradient Descent làm gì?

Khi mới tiếp cận Machine Learning hoặc bước vào các bài toán tối ưu, nhiều bạn thường tự hỏi:
“Gradient Descent thực chất làm gì để cập nhật trọng số?”
Tại sao chỉ với một quy tắc đơn giản, mô hình lại có thể “học” và giảm được sai số?

Gradient Descent (GD) là thuật toán giúp mô hình di chuyển trọng số theo hướng làm giảm hàm mất mát (loss).
Gradient chỉ hướng tăng nhanh nhất của loss → GD đi ngược lại để giảm loss.

Công thức cập nhật trọng số (chuẩn)

GD cập nhật trọng số theo công thức:

wnew=woldηL(w)w_{\text{new}} = w_{\text{old}} - \eta \cdot \nabla L(w)

Trong đó:

  • ww: trọng số
  • η\eta: learning rate (tốc độ học)
  • L(w)\nabla L(w): gradient của hàm mất mát theo trọng số

Ý nghĩa:

  • Gradient cho biết hướng làm tăng loss
  • Dấu trừ giúp ta đi theo hướng giảm loss
  • Learning rate điều chỉnh độ lớn của bước đi

Giải thích trực quan

Hãy tưởng tượng loss giống như một quả đồi.
Gradient chỉ hướng đi lên → GD đi xuống theo hướng ngược lại.

Nếu gradient của ww bằng +3+3, điều đó có nghĩa:

  • Tăng ww → loss tăng
  • Vì vậy GD sẽ giảm ww

Nếu η=0.1\eta = 0.1:

wnew=wold0.1×3w_{\text{new}} = w_{\text{old}} - 0.1 \times 3

Lặp lại liên tục → trọng số dịch dần về mức tối ưu, loss giảm.

Góc nhìn khi làm dự án AI/ML

Gradient Descent bị ảnh hưởng bởi:

  • Dữ liệu không chuẩn hoá → gradient dao động mạnh
  • Learning rate quá lớn → mô hình văng khỏi cực tiểu
  • Learning rate quá nhỏ → học cực chậm
  • Batch size (với SGD/mini-batch) → ảnh hưởng tốc độ và độ nhiễu của gradient

GD là nền tảng của mọi kiến trúc ML/DL: từ Linear Regression → Neural Networks → Transformer.

Liên hệ kiến thức nền

Gradient Descent xuất hiện ở nhiều module:

  • Module 1–2: đạo hàm, gradient
  • Module 5: Optimization (GD, SGD, Momentum, Adam…)
  • Module 7–8: lan truyền ngược trong Deep Learning
  • Module 9–10: tối ưu mô hình lớn trong NLP/CV

GD chính là cơ chế “học” phổ biến nhất trong AI hiện đại.

Lời khuyên cho người mới

Bạn nên thử:

  • Mô phỏng GD trên một hàm parabol để thấy đường đi xuống dốc
  • Thay đổi learning rate để thấy hội tụ khác nhau
  • Thử GD, SGD, Momentum, Adam để hiểu sự khác biệt

Hỏi đáp nhanh về Gradient Descent

Q: Vì sao công thức có dấu trừ?
A: Gradient chỉ hướng tăng loss; ta muốn giảm loss nên phải đi ngược lại.

Q: Learning rate quyết định điều gì?
A: Bước nhảy của GD — nhỏ quá học chậm, lớn quá dễ “nổ”.

Q: GD có luôn tìm được nghiệm tối ưu toàn cục không?
A: Chỉ đảm bảo với hàm lồi. Deep Learning là phi lồi nên chỉ đạt nghiệm tốt, không chắc tối ưu toàn cục.

Q: Vì sao phải chuẩn hóa dữ liệu?
A: Để gradient ổn định, tránh dao động mạnh, giúp mô hình nhanh hội tụ.


FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.


Tài nguyên học AI