Kiến trúc Wafer-Scale so với GPU: Bộ tăng tốc AI Cerebras WSE-3, NVIDIA và AMD
Kiến trúc Wafer-Scale so với GPU: Phân tích So sánh Bộ tăng tốc AI Cerebras WSE-3, NVIDIA và AMD
Ngày: 06/05/2026 | Trọng tâm: So sánh kiến trúc chip dành cho huấn luyện và suy luận AI
Tổng quan
Thị trường bộ tăng tốc AI hiện chịu sự chi phối của kiến trúc GPU do NVIDIA phát triển. Tuy nhiên, Cerebras đề xuất một lối tiếp cận mang tính nền tảng khác biệt: sử dụng toàn bộ wafer silicon 300mm làm một bộ xử lý duy nhất. Thiết kế này triệt tiêu hoàn toàn nút thắt truyền thông liên GPU — hạn chế trọng yếu trong huấn luyện phân tán. Cạnh tranh theo trục giá thành và dung lượng bộ nhớ, AMD triển khai kiến trúc chiplet MI300X như một phương án thay thế hiệu quả về chi phí.
Kết luận chính:
- Cerebras WSE-3 — 900.000 nhân xử lý, 44 GB SRAM nội vi, băng thông 21 PB/giây. Phù hợp nhất cho: suy luận mô hình đơn lẻ ở thông lượng cực cao, mô phỏng động lực học phân tử, điện toán khoa học. Loại bỏ hoàn toàn độ phức tạp của huấn luyện phân tán.
- NVIDIA H100/B200 — Hệ sinh thái dẫn đầu toàn diện, nền tảng CUDA trưởng thành. Phù hợp nhất cho: khối lượng công việc AI tổng quát, huấn luyện mô hình quy mô lớn trên cụm phân tán, pipeline học máy trong môi trường sản xuất.
- AMD MI300X — 192 GB HBM3, chi phí thấp nhất tính theo mỗi GB bộ nhớ. Phù hợp nhất cho: suy luận chịu ràng buộc bộ nhớ, cụm huấn luyện với ngân sách hạn chế.
Nguyên lý Kiến trúc: Ba Triết lý Thiết kế Khác biệt
Cerebras: Wafer-Scale Engine (WSE-3)
WSE-3 không phải bộ xử lý đồ họa (GPU). Đây là toàn bộ wafer 300mm (21,5 cm × 21,5 cm) hoạt động như một vi mạch xử lý duy nhất.
| Thông số | WSE-3 |
|---|---|
| Diện tích die | 46.225 mm² (toàn bộ wafer 300mm) |
| Số transistor | 4 nghìn tỷ |
| Số nhân | 900.000 nhân tối ưu AI |
| SRAM nội vi | 44 GB |
| Băng thông bộ nhớ | 21 PB/giây (petabyte/giây) |
| Quy trình chế tạo | TSMC 5nm |
| Hiệu năng FP16 tối đa | 125 PetaFLOPs |
| Băng thông liên kết nội wafer | 214 Pb/s (tổng hợp) |
| Công suất hệ thống | ~23 kW (tủ rack 15U) |
Đổi mới cốt lõi: Toàn bộ thành phần — tính toán, bộ nhớ và liên kết nội bộ — được tích hợp trên cùng một wafer silicon. Kiến trúc này triệt tiêu độ trễ truy xuất bộ nhớ ngoài chip, đồng thời loại bỏ hoàn toàn overhead truyền thông GPU-to-GPU. Trọng số mô hình được truyền trực tiếp từ hệ thống MemoryX bên ngoài (dung lượng lên đến 1,2 PB) vào SRAM nội vi trên wafer.
Khả năng chịu lỗi: Mỗi nhân xử lý có diện tích rất nhỏ (0,05 mm²). Khi một nhân gặp lỗi, hệ thống tự động định tuyến bỏ qua, đạt khả năng chịu lỗi cao gấp 100 lần so với die truyền thống có diện tích tương đương.
Quá trình tiến hóa:
| Thế hệ | Quy trình | Transistor | Số nhân | SRAM | Băng thông | FP16 |
|---|---|---|---|---|---|---|
| WSE-1 (2019) | 16nm | 1,2T | 400K | 18 GB | 9 PB/s | 47 PF |
| WSE-2 (2021) | 7nm | 2,6T | 850K | 40 GB | 20 PB/s | 75 PF |
| WSE-3 (2024) | 5nm | 4T | 900K | 44 GB | 21 PB/s | 125 PF |
NVIDIA: Thế hệ GPU Kế tiếp (Hopper → Blackwell)
NVIDIA duy trì vị thế dẫn đầu thông qua hệ sinh thái phần mềm CUDA và chu kỳ phát triển phần cứng liên tục.
| Thông số | H100 (Hopper) | H200 (Hopper+) | B200 (Blackwell) |
|---|---|---|---|
| Diện tích die | 814 mm² | 814 mm² | ~1.600 mm² (dual-chiplet) |
| Số transistor | 80B | 80B | 208B |
| Tensor cores | 528 (thế hệ 4) | 528 (thế hệ 4) | Thế hệ 5 |
| Bộ nhớ | 80 GB HBM3 | 141 GB HBM3e | 192 GB HBM3e |
| Băng thông bộ nhớ | 3,35 TB/s | 4,8 TB/s | 8,0 TB/s |
| NVLink | 900 GB/s | 900 GB/s | 1,8 TB/s |
| FP8 (thưa) | 3.958 TFLOPS | 3.958 TFLOPS | 9.000 TFLOPS |
| FP6 (thưa) | — | — | 17.475 TFLOPS |
| Công suất | 700W | 700W | 1.000W |
| Quy trình | TSMC 4N | TSMC 4N | TSMC 4NP |
| Giá tham khảo | $25.000–30.000 | $30.000–38.000 | $30.000–40.000+ |
Kiến trúc: GPU truyền thống kết hợp các ngăn xếp HBM thông qua bus rộng. Hệ thống mở rộng theo chiều ngang qua NVLink (nội node) và InfiniBand (liên node). Huấn luyện phân tán đòi hỏi mô hình phân mảnh (model parallelism), phân tách tensor (tensor parallelism) và phân đoạn pipeline — một quá trình điều phối phần mềm có độ phức tạp cao.
AMD: Thách thức viên Chiplet (CDNA 3)
AMD triển khai phương pháp chiplet — tích hợp nhiều die tính toán trên cùng một package, tương tự chiến lược đã áp dụng thành công trên dòng CPU EPYC.
| Thông số | MI300X (CDNA 3) | MI400 (CDNA 4, dự kiến) |
|---|---|---|
| Diện tích die | ~1.014 mm² (8 XCD + 4 IOD) | Chưa công bố |
| Số transistor | 153B (tổng hợp) | Chưa công bố |
| Đơn vị tính toán | 304 CU (19.456 SPs) | ~400+ CU (dự kiến) |
| Bộ nhớ | 192 GB HBM3 | 256–288 GB HBM3e (dự kiến) |
| Băng thông bộ nhớ | 5,3 TB/s | 6–8 TB/s (dự kiến) |
| Công suất | 750W | 800–1.000W (dự kiến) |
| Quy trình | 5nm XCD + 6nm IOD | 3nm hoặc 4nm (dự kiến) |
| Giá tham khảo | $15.000–20.000 | Chưa công bố |
| Tình trạng | Đang giao hàng | Dự kiến 2026–2027 |
Kiến trúc: 8 die tính toán XCD + 4 die I/O + 8 ngăn xếp HBM3 tích hợp trong một package duy nhất. Tận dụng kinh nghiệm chiplet từ dòng EPYC. Chi phí mỗi GB bộ nhớ thấp hơn đáng kể so với NVIDIA. Nền tảng phần mềm ROCm đang cải thiện nhưng vẫn còn khoảng cách so với CUDA.
So sánh Trực tiếp
Kiến trúc Bộ nhớ
| Cerebras WSE-3 | NVIDIA B200 | AMD MI300X | |
|---|---|---|---|
| Loại bộ nhớ | SRAM nội vi | HBM3e | HBM3 |
| Dung lượng | 44 GB (trên chip) | 192 GB | 192 GB |
| Băng thông | 21 PB/s | 8,0 TB/s | 5,3 TB/s |
| Độ trễ | Xác định (nội vi) | Biến thiên (ngoài chip) | Biến thiên (ngoài chip) |
| Bộ nhớ ngoài | MemoryX (lên đến 1,2 PB) | RAM máy chủ / NVMe | RAM máy chủ / NVMe |
Ưu thế của Cerebras: Băng thông 21 PB/s tương đương lợi thế 2.625 lần so với 8 TB/s của B200. SRAM nội vi đảm bảo thời gian truy xuất xác định — không có chu kỳ refresh DRAM, không có tranh chấp bus. Đây chính là nền tảng kiến trúc giúp Cerebras vượt trội trong các khối lượng công việc chịu ràng buộc bộ nhớ.
Ưu thế của NVIDIA/AMD: HBM cung cấp dung lượng bộ nhớ tổng thể lớn hơn đáng kể (192 GB so với 44 GB). Các mô hình vừa vặn trong HBM không cần cơ chế truyền trọng số liên tục.
Hiệu năng Tính toán
| Cerebras WSE-3 | NVIDIA B200 | NVIDIA H100 | AMD MI300X | |
|---|---|---|---|---|
| FP16 tối đa | 125 PF | ~9 PF (dense) | ~4 PF (dense) | ~5,2 PF |
| FP8 (thưa) | — | 9.000 TF | 3.958 TF | ~5,2 PF FP16 |
| FP6 (thưa) | — | 17.475 TF | — | — |
Lưu ý: Con số 125 PF của Cerebras bao gồm toàn bộ 900.000 nhân. Việc so sánh trực tiếp gặp khó khăn do Cerebras áp dụng mô hình tính toán khác biệt (song song tinh việt mức độ lớn so với warp thô của GPU).
Khả năng Mở rộng: Wafer Đơn so với Cụm GPU
| Cerebras CS-3 | NVIDIA DGX B200 | Cụm AMD MI300X | |
|---|---|---|---|
| Đơn node | 1 wafer = 125 PF | 8 GPU = 72 PF | 8 GPU = ~42 PF |
| Mở rộng | SwarmX: 2.048 CS-3 → 256 EF | InfiniBand: hàng nghìn node | Infinity Fabric + Ethernet |
| Băng thông liên kết | 214 Pb/s (nội wafer) | NVLink: 1,8 TB/s mỗi GPU | Infinity Fabric: thay đổi |
| Huấn luyện phân tán | Không cần thiết cho hầu hết mô hình | Phức tạp: model/tensor/pipeline parallelism | Tương tự NVIDIA |
| Độ phức tạp phần mềm | Song song dữ liệu thuần túy | Cần chuyên gia tinh chỉnh cụm | Chuyên gia + ROCm chưa trưởng thành |
Đây là tính năng mang tính quyết định của Cerebras: Các mô hình quy mô lên đến 24 nghìn tỷ tham số có thể huấn luyện trên một hệ thống CS-3 duy nhất mà không cần bất kỳ hình thức huấn luyện phân tán nào. Không cần phân mảnh mô hình, không cần đồng bộ gradient, không có độ trễ pipeline.
Hiệu suất Năng lượng
| Hệ thống CS-3 | DGX B200 (8×B200) | Node MI300X (8×) | |
|---|---|---|---|
| Công suất hệ thống | ~23 kW | ~12–15 kW | ~8–10 kW |
| Hiệu suất/watt | Thấp hơn tuyệt đối, nhưng cao hơn trên mỗi tác vụ suy luận | Tốt cho khối lượng công việc tổng quát | Cạnh tranh trên suy luận |
| Tản nhiệt | Làm mát bằng nước (bắt buộc) | Tùy chọn gió hoặc lỏng | Tùy chọn gió hoặc lỏng |
Hệ sinh thái Phần mềm
| Cerebras | NVIDIA | AMD | |
|---|---|---|---|
| Framework | CSL + PyTorch 2.0 | CUDA + toàn bộ hệ sinh thái | ROCm + PyTorch |
| Mức độ trưởng thành | Hỗ trợ mô hình còn hạn chế | Tiêu chuẩn ngành | Đang cải thiện, vẫn còn khoảng trống |
| Cộng đồng | Nhỏ, chuyên biệt | Quy mô lớn | Đang phát triển |
| Hỗ trợ LLM | LLaMA, GPT, MoE, ViT | Tất cả mô hình chính | Hầu hết mô hình |
| Số dòng lệnh | GPT-3 chỉ cần 565 dòng | GPT-3: hàng nghìn dòng | Tương tự NVIDIA |
| Ưu thế chính | Giảm 97% mã nguồn cho LLM | Mọi thứ đều hoạt động | Giá/thiệu năng |
Hiệu năng Thực tế
Suy luận LLM (Số liệu từ Cerebras)
| Mô hình | Cerebras CS-3 | So với NVIDIA DGX B200 |
|---|---|---|
| LLaMA 4 Maverick 400B | 2.500+ token/giây/người dùng | Nhanh hơn >2,5 lần |
| LLaMA 3.1 8B | $0,10/triệu token | — |
| LLaMA 3.1 70B | $0,60/triệu token | — |
Cerebras công bố tốc độ suy luận nhanh hơn 21 lần với chi phí chỉ bằng 1/3 so với DGX B200 cho các mô hình quy mô lớn. Cần lưu ý rằng đây là số liệu do nhà cung cấp công bố — cần được kiểm chứng độc lập.
Điện toán Khoa học
- Động lực học phân tử: Nhanh hơn 179 lần so với siêu máy tính Frontier
- Dự đoán thuốc điều trị ung thư (Mayo Clinic): "Nhanh hơn hàng trăm lần"
- Mô hình hóa thời tiết: Cải thiện đáng kể trong mô phỏng động lực học chất lưu
Huấn luyện
- LLaMA 70B có thể huấn luyện từ đầu trong 1 ngày trên cụm CS-3
- Không có overhead huấn luyện phân tán ≈ khả năng mở rộng gần tuyến tính trên các node CS-3
Tiêu chí Lựa chọn theo Trường hợp Ứng dụng
| Trường hợp | Lựa chọn Tối ưu | Cơ sở |
|---|---|---|
| Huấn luyện mô hình tiên tiến (>1T tham số) | Cụm NVIDIA B200 | Hệ sinh thái trưởng thành, đã chứng minh khả năng mở rộng |
| Suy luận ở thông lượng cực cao | Cerebras CS-3 | Băng thông bộ nhớ gấp 7.000 lần, không cần phân tán |
| Cụm huấn luyện ngân sách hạn chế | AMD MI300X | Chi phí thấp nhất mỗi GB bộ nhớ, hiệu năng adequat |
| Tinh chỉnh / LoRA | NVIDIA H100 | Hệ sinh thái CUDA, công cụ đa dạng nhất |
| Điện toán khoa học / Mô phỏng | Cerebras CS-3 | Bộ nhớ xác định, song song quy mô lớn |
| Nền tảng học máy sản xuất | NVIDIA (bất kỳ) | Phần mềm trưởng thành, giảm thời gian engineering |
| Suy luận mô hình lớn đơn lẻ | Cerebras CS-3 | Không cần phân mảnh mô hình |
| Phục vụ đa mô hình | NVIDIA B200 | Khả năng tận dụng GPU multi-tenant tốt hơn |
| AI biên / nhúng | Không thuộc phạm vi (sử dụng chip biên chuyên dụng) | — |
Phân tích Đánh đổi Kiến trúc
Cơ sở của Cerebras: Truyền thông là nút thắt chính, không phải tính toán. Bằng cách tích hợp mọi thứ trên một wafer, kiến trúc này triệt tiêu chi phí chiếm tỷ trọng lớn nhất trong huấn luyện AI phân tán: thời gian chờ truyền dữ liệu giữa các chip.
Cơ sở của NVIDIA: Hệ sinh thái phần mềm và khả năng tính toán đa năng của GPU sẽ giành chiến thắng. Các nhà phát triển sẽ không chuyển đổi kiến trúc chỉ vì cải thiện hiệu năng biên. Rào cản CUDA là có thật và bền vững.
Cơ sở của AMD: Thiết kế chiplet kết hợp cạnh tranh về giá. Tính toán GPU đang dần trở thành hàng hóa — cạnh tranh dựa trên dung lượng bộ nhớ và chi phí.
Đánh giá: Đối với các khối lượng công việc tập trung vào suy luận và điện toán khoa học, Cerebras nắm giữ lợi thế kiến trúc thực sự. Trong khi đó, đối với hệ sinh thái AI rộng lớn hơn (huấn luyện, tinh chỉnh, học máy sản xuất), rào cản phần mềm của NVIDIA gần như không thể vượt qua trong ngắn hạn. AMD cạnh tranh về giá nhưng vẫn gặp thách thức về độ trưởng thành của phần mềm.
Định hướng Phát triển Thị trường
- Cerebras nộp hồ sơ IPO năm 2024. Giá trị định giá phụ thuộc vào khả năng chứng minh tính kinh tế trong suy luận so với cụm GPU. Kiến trúc wafer-scale có lợi thế rõ ràng cho các khối lượng công việc cụ thể, nhưng sức hấp dẫn đa dụng còn hạn chế.
- NVIDIA chiếm hơn 80% thị phần bộ tăng tốc AI. Blackwell (B200) mở rộng dẫn đầu về tính toán mật độ. GB200 NVL (tủ rack 36 GPU) hướng tới sự đơn giản hóa hệ thống đơn lẻ mà Cerebras tiên phong.
- AMD đang gia tăng vị thế với MI300X tại các nhà cung cấp dịch vụ đám mây (Azure, Oracle). MI400 (CDNA 4, dự kiến 2026–2027) là thế hệ mang tính quyết định — cần thu hẹp khoảng cách phần mềm.
Báo cáo được biên soạn bởi Bobbie Intelligence. Nguồn dữ liệu: Cerebras.ai, thông số kỹ thuật NVIDIA, trang sản phẩm AMD, IEEE Spectrum, phân tích từ Chips and Cheese. Các số liệu benchmark do nhà cung cấp công bố mang tính chất tự báo cáo và cần được kiểm chứng độc lập. Nội dung báo cáo không cấu thành lời khuyên đầu tư.