Vision Transformer (ViT) khác gì ResNet/VGG?

Mở đầu

Khi bắt đầu với Computer Vision, nhiều người thường gặp câu hỏi: “Tại sao cùng là mô hình xử lý ảnh mà Vision Transformer lại khác ResNet hay VGG?” Đây là điểm gây nhầm lẫn phổ biến, nhất là khi chuyển từ kiến trúc CNN truyền thống sang các mô hình dựa trên Transformer. Bài viết dưới đây đi từ cách CNN nhìn ảnh, đến cách ViT xử lý ảnh thành các “patch embedding”, rồi so sánh hai hướng tiếp cận theo góc nhìn kỹ thuật lẫn kinh nghiệm triển khai dự án.

ViT khác ResNet/VGG ở đâu? 📌

Cách xử lý ảnh

ResNet/VGG

Dùng các lớp tích chập (convolution) để học đặc trưng cục bộ.
Ảnh được quét qua kernel, từng vùng nhỏ được trích đặc trưng theo không gian.
Mô hình học dần từ đặc trưng đơn giản (edge, màu) đến đặc trưng phức tạp.

ViT

Không dùng convolution.
Chia ảnh thành nhiều “patch” nhỏ có kích thước bằng nhau.
Chuyển mỗi patch thành một vector (embedding).
Dãy embedding được đưa vào Transformer — nơi cơ chế tự chú ý giúp mô hình học mối quan hệ giữa các patch, không phụ thuộc vị trí cố định.

Triết lý học đặc trưng

CNN (ResNet/VGG)

Học đặc trưng theo từng tầng, mang tính cục bộ.
Tính chất translation invariance mạnh, phù hợp các tác vụ cần nhận diện vật thể từ đặc trưng hình học.

ViT

Học mối quan hệ toàn cục ngay từ đầu thông qua self-attention.
Không ưu tiên đặc trưng cục bộ như CNN, mà tập trung vào các kết nối giữa các vùng ảnh cách xa nhau.

Yêu cầu dữ liệu

CNN có thể hoạt động tốt với lượng dữ liệu vừa phải.
ViT thường cần dữ liệu lớn để phát huy ưu thế self-attention, do không có inductive bias mạnh như CNN.

Khả năng mở rộng mô hình

ViT dễ mở rộng theo chiều sâu/rộng vì Transformer ổn định với việc tăng tham số.
CNN có giới hạn về độ sâu, cần các kỹ thuật như skip connection (ResNet) để tránh gradient biến mất.

Ví dụ thực tế

Một hệ thống phân loại ảnh sản phẩm:

Dùng ResNet/VGG: mô hình sẽ dựa vào các cạnh, họa tiết, texture để phân loại.
Dùng ViT: mô hình nắm bắt cấu trúc tổng thể và mối quan hệ giữa các vùng ảnh, ví dụ: vị trí logo so với hình dạng sản phẩm. Trong các bài toán mà mối quan hệ toàn ảnh quan trọng (ví dụ nhiều vật thể hoặc background phức tạp), ViT đôi khi thể hiện tốt hơn.

Góc nhìn khi triển khai dự án AI

Khi chọn giữa ViT và ResNet/VGG, nhóm thường cân nhắc:

Dữ liệu: Nhiều dữ liệu → ViT phát huy tốt; dữ liệu hạn chế → CNN ổn định hơn.
Tài nguyên tính toán: ViT thường tiêu tốn GPU hơn.
Mục tiêu sản phẩm: Nếu cần mô hình nhẹ để deploy edge-device, các phiên bản CNN nhỏ thường phù hợp hơn.
Khả năng diễn giải: Attention map của ViT có thể hỗ trợ phân tích điểm mô hình tập trung.

Liên hệ kiến thức nền tảng

Khái niệm về convolution, kernel, embedding, attention thường xuất hiện xuyên suốt trong nhóm kiến thức:

Module 7–9: Kiến trúc mạng sâu, ứng dụng DL trong ảnh.
Module 10–11: Khi học về tokenization và embedding trong NLP, cơ chế của ViT trở nên quen thuộc.
Module MLOps: hữu ích khi triển khai pipeline cho các mô hình lớn như ViT. Những nhóm kiến thức này thường là nền tảng khi người học đi từ ML cơ bản đến Computer Vision.

Lời khuyên cho người mới bắt đầu

Có thể bắt đầu với các mô hình CNN cơ bản để nắm khái niệm convolution và đặc trưng cục bộ.
Sau đó thử nghiệm với ViT trên cùng một bộ dữ liệu để quan sát sự khác biệt trong khả năng học đặc trưng.
Bạn có thể thử thêm vài mô hình nhỏ để hiểu rõ hơn cách self-attention xử lý ảnh.

Hỏi đáp nhanh về Vision Transformer

1. ViT có thay thế hoàn toàn CNN không?

Không, mỗi kiến trúc phù hợp một loại dữ liệu và mục tiêu khác nhau.

2. ViT có cần nhiều dữ liệu hơn CNN không?

Có, do ViT ít inductive bias hơn.

3. ViT có dùng convolution không?

Không, ViT xử lý ảnh thông qua patch embedding và self-attention.

4. ViT có dùng được trong ứng dụng thời gian thực không?

Có, nhưng cần phiên bản tối ưu hoặc giảm kích thước mô hình.

FAQ về AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.