🔊

Kiến trúc Wafer-Scale so với GPU: Bộ tăng tốc AI Cerebras WSE-3, NVIDIA và AMD

📁 💰 Concept Monetizer📅 2026-05-06👤 Bobbie Intelligence
Nội dung Báo cáo

Kiến trúc Wafer-Scale so với GPU: Phân tích So sánh Bộ tăng tốc AI Cerebras WSE-3, NVIDIA và AMD

Ngày: 06/05/2026 | Trọng tâm: So sánh kiến trúc chip dành cho huấn luyện và suy luận AI


Tổng quan

Thị trường bộ tăng tốc AI hiện chịu sự chi phối của kiến trúc GPU do NVIDIA phát triển. Tuy nhiên, Cerebras đề xuất một lối tiếp cận mang tính nền tảng khác biệt: sử dụng toàn bộ wafer silicon 300mm làm một bộ xử lý duy nhất. Thiết kế này triệt tiêu hoàn toàn nút thắt truyền thông liên GPU — hạn chế trọng yếu trong huấn luyện phân tán. Cạnh tranh theo trục giá thành và dung lượng bộ nhớ, AMD triển khai kiến trúc chiplet MI300X như một phương án thay thế hiệu quả về chi phí.

Kết luận chính:

  • Cerebras WSE-3 — 900.000 nhân xử lý, 44 GB SRAM nội vi, băng thông 21 PB/giây. Phù hợp nhất cho: suy luận mô hình đơn lẻ ở thông lượng cực cao, mô phỏng động lực học phân tử, điện toán khoa học. Loại bỏ hoàn toàn độ phức tạp của huấn luyện phân tán.
  • NVIDIA H100/B200 — Hệ sinh thái dẫn đầu toàn diện, nền tảng CUDA trưởng thành. Phù hợp nhất cho: khối lượng công việc AI tổng quát, huấn luyện mô hình quy mô lớn trên cụm phân tán, pipeline học máy trong môi trường sản xuất.
  • AMD MI300X — 192 GB HBM3, chi phí thấp nhất tính theo mỗi GB bộ nhớ. Phù hợp nhất cho: suy luận chịu ràng buộc bộ nhớ, cụm huấn luyện với ngân sách hạn chế.

Nguyên lý Kiến trúc: Ba Triết lý Thiết kế Khác biệt

Cerebras: Wafer-Scale Engine (WSE-3)

WSE-3 không phải bộ xử lý đồ họa (GPU). Đây là toàn bộ wafer 300mm (21,5 cm × 21,5 cm) hoạt động như một vi mạch xử lý duy nhất.

Thông số WSE-3
Diện tích die 46.225 mm² (toàn bộ wafer 300mm)
Số transistor 4 nghìn tỷ
Số nhân 900.000 nhân tối ưu AI
SRAM nội vi 44 GB
Băng thông bộ nhớ 21 PB/giây (petabyte/giây)
Quy trình chế tạo TSMC 5nm
Hiệu năng FP16 tối đa 125 PetaFLOPs
Băng thông liên kết nội wafer 214 Pb/s (tổng hợp)
Công suất hệ thống ~23 kW (tủ rack 15U)

Đổi mới cốt lõi: Toàn bộ thành phần — tính toán, bộ nhớ và liên kết nội bộ — được tích hợp trên cùng một wafer silicon. Kiến trúc này triệt tiêu độ trễ truy xuất bộ nhớ ngoài chip, đồng thời loại bỏ hoàn toàn overhead truyền thông GPU-to-GPU. Trọng số mô hình được truyền trực tiếp từ hệ thống MemoryX bên ngoài (dung lượng lên đến 1,2 PB) vào SRAM nội vi trên wafer.

Khả năng chịu lỗi: Mỗi nhân xử lý có diện tích rất nhỏ (0,05 mm²). Khi một nhân gặp lỗi, hệ thống tự động định tuyến bỏ qua, đạt khả năng chịu lỗi cao gấp 100 lần so với die truyền thống có diện tích tương đương.

Quá trình tiến hóa:

Thế hệ Quy trình Transistor Số nhân SRAM Băng thông FP16
WSE-1 (2019) 16nm 1,2T 400K 18 GB 9 PB/s 47 PF
WSE-2 (2021) 7nm 2,6T 850K 40 GB 20 PB/s 75 PF
WSE-3 (2024) 5nm 4T 900K 44 GB 21 PB/s 125 PF

NVIDIA: Thế hệ GPU Kế tiếp (Hopper → Blackwell)

NVIDIA duy trì vị thế dẫn đầu thông qua hệ sinh thái phần mềm CUDA và chu kỳ phát triển phần cứng liên tục.

Thông số H100 (Hopper) H200 (Hopper+) B200 (Blackwell)
Diện tích die 814 mm² 814 mm² ~1.600 mm² (dual-chiplet)
Số transistor 80B 80B 208B
Tensor cores 528 (thế hệ 4) 528 (thế hệ 4) Thế hệ 5
Bộ nhớ 80 GB HBM3 141 GB HBM3e 192 GB HBM3e
Băng thông bộ nhớ 3,35 TB/s 4,8 TB/s 8,0 TB/s
NVLink 900 GB/s 900 GB/s 1,8 TB/s
FP8 (thưa) 3.958 TFLOPS 3.958 TFLOPS 9.000 TFLOPS
FP6 (thưa) 17.475 TFLOPS
Công suất 700W 700W 1.000W
Quy trình TSMC 4N TSMC 4N TSMC 4NP
Giá tham khảo $25.000–30.000 $30.000–38.000 $30.000–40.000+

Kiến trúc: GPU truyền thống kết hợp các ngăn xếp HBM thông qua bus rộng. Hệ thống mở rộng theo chiều ngang qua NVLink (nội node) và InfiniBand (liên node). Huấn luyện phân tán đòi hỏi mô hình phân mảnh (model parallelism), phân tách tensor (tensor parallelism) và phân đoạn pipeline — một quá trình điều phối phần mềm có độ phức tạp cao.

AMD: Thách thức viên Chiplet (CDNA 3)

AMD triển khai phương pháp chiplet — tích hợp nhiều die tính toán trên cùng một package, tương tự chiến lược đã áp dụng thành công trên dòng CPU EPYC.

Thông số MI300X (CDNA 3) MI400 (CDNA 4, dự kiến)
Diện tích die ~1.014 mm² (8 XCD + 4 IOD) Chưa công bố
Số transistor 153B (tổng hợp) Chưa công bố
Đơn vị tính toán 304 CU (19.456 SPs) ~400+ CU (dự kiến)
Bộ nhớ 192 GB HBM3 256–288 GB HBM3e (dự kiến)
Băng thông bộ nhớ 5,3 TB/s 6–8 TB/s (dự kiến)
Công suất 750W 800–1.000W (dự kiến)
Quy trình 5nm XCD + 6nm IOD 3nm hoặc 4nm (dự kiến)
Giá tham khảo $15.000–20.000 Chưa công bố
Tình trạng Đang giao hàng Dự kiến 2026–2027

Kiến trúc: 8 die tính toán XCD + 4 die I/O + 8 ngăn xếp HBM3 tích hợp trong một package duy nhất. Tận dụng kinh nghiệm chiplet từ dòng EPYC. Chi phí mỗi GB bộ nhớ thấp hơn đáng kể so với NVIDIA. Nền tảng phần mềm ROCm đang cải thiện nhưng vẫn còn khoảng cách so với CUDA.


So sánh Trực tiếp

Kiến trúc Bộ nhớ

Cerebras WSE-3 NVIDIA B200 AMD MI300X
Loại bộ nhớ SRAM nội vi HBM3e HBM3
Dung lượng 44 GB (trên chip) 192 GB 192 GB
Băng thông 21 PB/s 8,0 TB/s 5,3 TB/s
Độ trễ Xác định (nội vi) Biến thiên (ngoài chip) Biến thiên (ngoài chip)
Bộ nhớ ngoài MemoryX (lên đến 1,2 PB) RAM máy chủ / NVMe RAM máy chủ / NVMe

Ưu thế của Cerebras: Băng thông 21 PB/s tương đương lợi thế 2.625 lần so với 8 TB/s của B200. SRAM nội vi đảm bảo thời gian truy xuất xác định — không có chu kỳ refresh DRAM, không có tranh chấp bus. Đây chính là nền tảng kiến trúc giúp Cerebras vượt trội trong các khối lượng công việc chịu ràng buộc bộ nhớ.

Ưu thế của NVIDIA/AMD: HBM cung cấp dung lượng bộ nhớ tổng thể lớn hơn đáng kể (192 GB so với 44 GB). Các mô hình vừa vặn trong HBM không cần cơ chế truyền trọng số liên tục.

Hiệu năng Tính toán

Cerebras WSE-3 NVIDIA B200 NVIDIA H100 AMD MI300X
FP16 tối đa 125 PF ~9 PF (dense) ~4 PF (dense) ~5,2 PF
FP8 (thưa) 9.000 TF 3.958 TF ~5,2 PF FP16
FP6 (thưa) 17.475 TF

Lưu ý: Con số 125 PF của Cerebras bao gồm toàn bộ 900.000 nhân. Việc so sánh trực tiếp gặp khó khăn do Cerebras áp dụng mô hình tính toán khác biệt (song song tinh việt mức độ lớn so với warp thô của GPU).

Khả năng Mở rộng: Wafer Đơn so với Cụm GPU

Cerebras CS-3 NVIDIA DGX B200 Cụm AMD MI300X
Đơn node 1 wafer = 125 PF 8 GPU = 72 PF 8 GPU = ~42 PF
Mở rộng SwarmX: 2.048 CS-3 → 256 EF InfiniBand: hàng nghìn node Infinity Fabric + Ethernet
Băng thông liên kết 214 Pb/s (nội wafer) NVLink: 1,8 TB/s mỗi GPU Infinity Fabric: thay đổi
Huấn luyện phân tán Không cần thiết cho hầu hết mô hình Phức tạp: model/tensor/pipeline parallelism Tương tự NVIDIA
Độ phức tạp phần mềm Song song dữ liệu thuần túy Cần chuyên gia tinh chỉnh cụm Chuyên gia + ROCm chưa trưởng thành

Đây là tính năng mang tính quyết định của Cerebras: Các mô hình quy mô lên đến 24 nghìn tỷ tham số có thể huấn luyện trên một hệ thống CS-3 duy nhất mà không cần bất kỳ hình thức huấn luyện phân tán nào. Không cần phân mảnh mô hình, không cần đồng bộ gradient, không có độ trễ pipeline.

Hiệu suất Năng lượng

Hệ thống CS-3 DGX B200 (8×B200) Node MI300X (8×)
Công suất hệ thống ~23 kW ~12–15 kW ~8–10 kW
Hiệu suất/watt Thấp hơn tuyệt đối, nhưng cao hơn trên mỗi tác vụ suy luận Tốt cho khối lượng công việc tổng quát Cạnh tranh trên suy luận
Tản nhiệt Làm mát bằng nước (bắt buộc) Tùy chọn gió hoặc lỏng Tùy chọn gió hoặc lỏng

Hệ sinh thái Phần mềm

Cerebras NVIDIA AMD
Framework CSL + PyTorch 2.0 CUDA + toàn bộ hệ sinh thái ROCm + PyTorch
Mức độ trưởng thành Hỗ trợ mô hình còn hạn chế Tiêu chuẩn ngành Đang cải thiện, vẫn còn khoảng trống
Cộng đồng Nhỏ, chuyên biệt Quy mô lớn Đang phát triển
Hỗ trợ LLM LLaMA, GPT, MoE, ViT Tất cả mô hình chính Hầu hết mô hình
Số dòng lệnh GPT-3 chỉ cần 565 dòng GPT-3: hàng nghìn dòng Tương tự NVIDIA
Ưu thế chính Giảm 97% mã nguồn cho LLM Mọi thứ đều hoạt động Giá/thiệu năng

Hiệu năng Thực tế

Suy luận LLM (Số liệu từ Cerebras)

Mô hình Cerebras CS-3 So với NVIDIA DGX B200
LLaMA 4 Maverick 400B 2.500+ token/giây/người dùng Nhanh hơn >2,5 lần
LLaMA 3.1 8B $0,10/triệu token
LLaMA 3.1 70B $0,60/triệu token

Cerebras công bố tốc độ suy luận nhanh hơn 21 lần với chi phí chỉ bằng 1/3 so với DGX B200 cho các mô hình quy mô lớn. Cần lưu ý rằng đây là số liệu do nhà cung cấp công bố — cần được kiểm chứng độc lập.

Điện toán Khoa học

  • Động lực học phân tử: Nhanh hơn 179 lần so với siêu máy tính Frontier
  • Dự đoán thuốc điều trị ung thư (Mayo Clinic): "Nhanh hơn hàng trăm lần"
  • Mô hình hóa thời tiết: Cải thiện đáng kể trong mô phỏng động lực học chất lưu

Huấn luyện

  • LLaMA 70B có thể huấn luyện từ đầu trong 1 ngày trên cụm CS-3
  • Không có overhead huấn luyện phân tán ≈ khả năng mở rộng gần tuyến tính trên các node CS-3

Tiêu chí Lựa chọn theo Trường hợp Ứng dụng

Trường hợp Lựa chọn Tối ưu Cơ sở
Huấn luyện mô hình tiên tiến (>1T tham số) Cụm NVIDIA B200 Hệ sinh thái trưởng thành, đã chứng minh khả năng mở rộng
Suy luận ở thông lượng cực cao Cerebras CS-3 Băng thông bộ nhớ gấp 7.000 lần, không cần phân tán
Cụm huấn luyện ngân sách hạn chế AMD MI300X Chi phí thấp nhất mỗi GB bộ nhớ, hiệu năng adequat
Tinh chỉnh / LoRA NVIDIA H100 Hệ sinh thái CUDA, công cụ đa dạng nhất
Điện toán khoa học / Mô phỏng Cerebras CS-3 Bộ nhớ xác định, song song quy mô lớn
Nền tảng học máy sản xuất NVIDIA (bất kỳ) Phần mềm trưởng thành, giảm thời gian engineering
Suy luận mô hình lớn đơn lẻ Cerebras CS-3 Không cần phân mảnh mô hình
Phục vụ đa mô hình NVIDIA B200 Khả năng tận dụng GPU multi-tenant tốt hơn
AI biên / nhúng Không thuộc phạm vi (sử dụng chip biên chuyên dụng)

Phân tích Đánh đổi Kiến trúc

Cơ sở của Cerebras: Truyền thông là nút thắt chính, không phải tính toán. Bằng cách tích hợp mọi thứ trên một wafer, kiến trúc này triệt tiêu chi phí chiếm tỷ trọng lớn nhất trong huấn luyện AI phân tán: thời gian chờ truyền dữ liệu giữa các chip.

Cơ sở của NVIDIA: Hệ sinh thái phần mềm và khả năng tính toán đa năng của GPU sẽ giành chiến thắng. Các nhà phát triển sẽ không chuyển đổi kiến trúc chỉ vì cải thiện hiệu năng biên. Rào cản CUDA là có thật và bền vững.

Cơ sở của AMD: Thiết kế chiplet kết hợp cạnh tranh về giá. Tính toán GPU đang dần trở thành hàng hóa — cạnh tranh dựa trên dung lượng bộ nhớ và chi phí.

Đánh giá: Đối với các khối lượng công việc tập trung vào suy luận và điện toán khoa học, Cerebras nắm giữ lợi thế kiến trúc thực sự. Trong khi đó, đối với hệ sinh thái AI rộng lớn hơn (huấn luyện, tinh chỉnh, học máy sản xuất), rào cản phần mềm của NVIDIA gần như không thể vượt qua trong ngắn hạn. AMD cạnh tranh về giá nhưng vẫn gặp thách thức về độ trưởng thành của phần mềm.


Định hướng Phát triển Thị trường

  • Cerebras nộp hồ sơ IPO năm 2024. Giá trị định giá phụ thuộc vào khả năng chứng minh tính kinh tế trong suy luận so với cụm GPU. Kiến trúc wafer-scale có lợi thế rõ ràng cho các khối lượng công việc cụ thể, nhưng sức hấp dẫn đa dụng còn hạn chế.
  • NVIDIA chiếm hơn 80% thị phần bộ tăng tốc AI. Blackwell (B200) mở rộng dẫn đầu về tính toán mật độ. GB200 NVL (tủ rack 36 GPU) hướng tới sự đơn giản hóa hệ thống đơn lẻ mà Cerebras tiên phong.
  • AMD đang gia tăng vị thế với MI300X tại các nhà cung cấp dịch vụ đám mây (Azure, Oracle). MI400 (CDNA 4, dự kiến 2026–2027) là thế hệ mang tính quyết định — cần thu hẹp khoảng cách phần mềm.

Báo cáo được biên soạn bởi Bobbie Intelligence. Nguồn dữ liệu: Cerebras.ai, thông số kỹ thuật NVIDIA, trang sản phẩm AMD, IEEE Spectrum, phân tích từ Chips and Cheese. Các số liệu benchmark do nhà cung cấp công bố mang tính chất tự báo cáo và cần được kiểm chứng độc lập. Nội dung báo cáo không cấu thành lời khuyên đầu tư.

© 2026 Bobbie IntelligenceXây dựng bằng ⚡ bởi AI tự động