Gradient Descent (GD) cơ bản hoạt động theo cơ chế nào để cập nhật trọng số?

Gradient Descent làm gì?

Khi mới tiếp cận Machine Learning hoặc bước vào các bài toán tối ưu, nhiều bạn thường tự hỏi:
“Gradient Descent thực chất làm gì để cập nhật trọng số?”
Tại sao chỉ với một quy tắc đơn giản, mô hình lại có thể “học” và giảm được sai số?

Gradient Descent (GD) là thuật toán giúp mô hình di chuyển trọng số theo hướng làm giảm hàm mất mát (loss).
Gradient chỉ hướng tăng nhanh nhất của loss → GD đi ngược lại để giảm loss.

Công thức cập nhật trọng số (chuẩn)

GD cập nhật trọng số theo công thức:

$w_{\text{new}} = w_{\text{old}} - \eta \cdot \nabla L(w)$

Trong đó:

$w$ : trọng số
$\eta$ : learning rate (tốc độ học)
$\nabla L(w)$ : gradient của hàm mất mát theo trọng số

Ý nghĩa:

Gradient cho biết hướng làm tăng loss
Dấu trừ giúp ta đi theo hướng giảm loss
Learning rate điều chỉnh độ lớn của bước đi

Giải thích trực quan

Hãy tưởng tượng loss giống như một quả đồi.
Gradient chỉ hướng đi lên → GD đi xuống theo hướng ngược lại.

Nếu gradient của $w$ bằng $+3$ , điều đó có nghĩa:

Tăng $w$ → loss tăng
Vì vậy GD sẽ giảm $w$

Nếu $\eta = 0.1$ :

$w_{\text{new}} = w_{\text{old}} - 0.1 \times 3$

Lặp lại liên tục → trọng số dịch dần về mức tối ưu, loss giảm.

Góc nhìn khi làm dự án AI/ML

Gradient Descent bị ảnh hưởng bởi:

Dữ liệu không chuẩn hoá → gradient dao động mạnh
Learning rate quá lớn → mô hình văng khỏi cực tiểu
Learning rate quá nhỏ → học cực chậm
Batch size (với SGD/mini-batch) → ảnh hưởng tốc độ và độ nhiễu của gradient

GD là nền tảng của mọi kiến trúc ML/DL: từ Linear Regression → Neural Networks → Transformer.

Liên hệ kiến thức nền

Gradient Descent xuất hiện ở nhiều module:

Module 1–2: đạo hàm, gradient
Module 5: Optimization (GD, SGD, Momentum, Adam…)
Module 7–8: lan truyền ngược trong Deep Learning
Module 9–10: tối ưu mô hình lớn trong NLP/CV

GD chính là cơ chế “học” phổ biến nhất trong AI hiện đại.

Lời khuyên cho người mới

Bạn nên thử:

Mô phỏng GD trên một hàm parabol để thấy đường đi xuống dốc
Thay đổi learning rate để thấy hội tụ khác nhau
Thử GD, SGD, Momentum, Adam để hiểu sự khác biệt

Hỏi đáp nhanh về Gradient Descent

Q: Vì sao công thức có dấu trừ?
A: Gradient chỉ hướng tăng loss; ta muốn giảm loss nên phải đi ngược lại.

Q: Learning rate quyết định điều gì?
A: Bước nhảy của GD — nhỏ quá học chậm, lớn quá dễ “nổ”.

Q: GD có luôn tìm được nghiệm tối ưu toàn cục không?
A: Chỉ đảm bảo với hàm lồi. Deep Learning là phi lồi nên chỉ đạt nghiệm tốt, không chắc tối ưu toàn cục.

Q: Vì sao phải chuẩn hóa dữ liệu?
A: Để gradient ổn định, tránh dao động mạnh, giúp mô hình nhanh hội tụ.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.