Kiến trúc Wafer-Scale so với GPU: Phân tích So sánh Bộ tăng tốc AI Cerebras WSE-3, NVIDIA và AMD

Ngày: 06/05/2026 | Trọng tâm: So sánh kiến trúc chip dành cho huấn luyện và suy luận AI

Tổng quan

Thị trường bộ tăng tốc AI hiện chịu sự chi phối của kiến trúc GPU do NVIDIA phát triển. Tuy nhiên, Cerebras đề xuất một lối tiếp cận mang tính nền tảng khác biệt: sử dụng toàn bộ wafer silicon 300mm làm một bộ xử lý duy nhất. Thiết kế này triệt tiêu hoàn toàn nút thắt truyền thông liên GPU — hạn chế trọng yếu trong huấn luyện phân tán. Cạnh tranh theo trục giá thành và dung lượng bộ nhớ, AMD triển khai kiến trúc chiplet MI300X như một phương án thay thế hiệu quả về chi phí.

Kết luận chính:

Cerebras WSE-3 — 900.000 nhân xử lý, 44 GB SRAM nội vi, băng thông 21 PB/giây. Phù hợp nhất cho: suy luận mô hình đơn lẻ ở thông lượng cực cao, mô phỏng động lực học phân tử, điện toán khoa học. Loại bỏ hoàn toàn độ phức tạp của huấn luyện phân tán.
NVIDIA H100/B200 — Hệ sinh thái dẫn đầu toàn diện, nền tảng CUDA trưởng thành. Phù hợp nhất cho: khối lượng công việc AI tổng quát, huấn luyện mô hình quy mô lớn trên cụm phân tán, pipeline học máy trong môi trường sản xuất.
AMD MI300X — 192 GB HBM3, chi phí thấp nhất tính theo mỗi GB bộ nhớ. Phù hợp nhất cho: suy luận chịu ràng buộc bộ nhớ, cụm huấn luyện với ngân sách hạn chế.

Nguyên lý Kiến trúc: Ba Triết lý Thiết kế Khác biệt

Cerebras: Wafer-Scale Engine (WSE-3)

WSE-3 không phải bộ xử lý đồ họa (GPU). Đây là toàn bộ wafer 300mm (21,5 cm × 21,5 cm) hoạt động như một vi mạch xử lý duy nhất.

Thông số	WSE-3
Diện tích die	46.225 mm² (toàn bộ wafer 300mm)
Số transistor	4 nghìn tỷ
Số nhân	900.000 nhân tối ưu AI
SRAM nội vi	44 GB
Băng thông bộ nhớ	21 PB/giây (petabyte/giây)
Quy trình chế tạo	TSMC 5nm
Hiệu năng FP16 tối đa	125 PetaFLOPs
Băng thông liên kết nội wafer	214 Pb/s (tổng hợp)
Công suất hệ thống	~23 kW (tủ rack 15U)

Đổi mới cốt lõi: Toàn bộ thành phần — tính toán, bộ nhớ và liên kết nội bộ — được tích hợp trên cùng một wafer silicon. Kiến trúc này triệt tiêu độ trễ truy xuất bộ nhớ ngoài chip, đồng thời loại bỏ hoàn toàn overhead truyền thông GPU-to-GPU. Trọng số mô hình được truyền trực tiếp từ hệ thống MemoryX bên ngoài (dung lượng lên đến 1,2 PB) vào SRAM nội vi trên wafer.

Khả năng chịu lỗi: Mỗi nhân xử lý có diện tích rất nhỏ (0,05 mm²). Khi một nhân gặp lỗi, hệ thống tự động định tuyến bỏ qua, đạt khả năng chịu lỗi cao gấp 100 lần so với die truyền thống có diện tích tương đương.

Quá trình tiến hóa:

Thế hệ	Quy trình	Transistor	Số nhân	SRAM	Băng thông	FP16
WSE-1 (2019)	16nm	1,2T	400K	18 GB	9 PB/s	47 PF
WSE-2 (2021)	7nm	2,6T	850K	40 GB	20 PB/s	75 PF
WSE-3 (2024)	5nm	4T	900K	44 GB	21 PB/s	125 PF

NVIDIA: Thế hệ GPU Kế tiếp (Hopper → Blackwell)

NVIDIA duy trì vị thế dẫn đầu thông qua hệ sinh thái phần mềm CUDA và chu kỳ phát triển phần cứng liên tục.

Thông số	H100 (Hopper)	H200 (Hopper+)	B200 (Blackwell)
Diện tích die	814 mm²	814 mm²	~1.600 mm² (dual-chiplet)
Số transistor	80B	80B	208B
Tensor cores	528 (thế hệ 4)	528 (thế hệ 4)	Thế hệ 5
Bộ nhớ	80 GB HBM3	141 GB HBM3e	192 GB HBM3e
Băng thông bộ nhớ	3,35 TB/s	4,8 TB/s	8,0 TB/s
NVLink	900 GB/s	900 GB/s	1,8 TB/s
FP8 (thưa)	3.958 TFLOPS	3.958 TFLOPS	9.000 TFLOPS
FP6 (thưa)	—	—	17.475 TFLOPS
Công suất	700W	700W	1.000W
Quy trình	TSMC 4N	TSMC 4N	TSMC 4NP
Giá tham khảo	$25.000–30.000	$30.000–38.000	$30.000–40.000+

Kiến trúc: GPU truyền thống kết hợp các ngăn xếp HBM thông qua bus rộng. Hệ thống mở rộng theo chiều ngang qua NVLink (nội node) và InfiniBand (liên node). Huấn luyện phân tán đòi hỏi mô hình phân mảnh (model parallelism), phân tách tensor (tensor parallelism) và phân đoạn pipeline — một quá trình điều phối phần mềm có độ phức tạp cao.

AMD: Thách thức viên Chiplet (CDNA 3)

AMD triển khai phương pháp chiplet — tích hợp nhiều die tính toán trên cùng một package, tương tự chiến lược đã áp dụng thành công trên dòng CPU EPYC.

Thông số	MI300X (CDNA 3)	MI400 (CDNA 4, dự kiến)
Diện tích die	~1.014 mm² (8 XCD + 4 IOD)	Chưa công bố
Số transistor	153B (tổng hợp)	Chưa công bố
Đơn vị tính toán	304 CU (19.456 SPs)	~400+ CU (dự kiến)
Bộ nhớ	192 GB HBM3	256–288 GB HBM3e (dự kiến)
Băng thông bộ nhớ	5,3 TB/s	6–8 TB/s (dự kiến)
Công suất	750W	800–1.000W (dự kiến)
Quy trình	5nm XCD + 6nm IOD	3nm hoặc 4nm (dự kiến)
Giá tham khảo	$15.000–20.000	Chưa công bố
Tình trạng	Đang giao hàng	Dự kiến 2026–2027

Kiến trúc: 8 die tính toán XCD + 4 die I/O + 8 ngăn xếp HBM3 tích hợp trong một package duy nhất. Tận dụng kinh nghiệm chiplet từ dòng EPYC. Chi phí mỗi GB bộ nhớ thấp hơn đáng kể so với NVIDIA. Nền tảng phần mềm ROCm đang cải thiện nhưng vẫn còn khoảng cách so với CUDA.

So sánh Trực tiếp

Kiến trúc Bộ nhớ

	Cerebras WSE-3	NVIDIA B200	AMD MI300X
Loại bộ nhớ	SRAM nội vi	HBM3e	HBM3
Dung lượng	44 GB (trên chip)	192 GB	192 GB
Băng thông	21 PB/s	8,0 TB/s	5,3 TB/s
Độ trễ	Xác định (nội vi)	Biến thiên (ngoài chip)	Biến thiên (ngoài chip)
Bộ nhớ ngoài	MemoryX (lên đến 1,2 PB)	RAM máy chủ / NVMe	RAM máy chủ / NVMe

Ưu thế của Cerebras: Băng thông 21 PB/s tương đương lợi thế 2.625 lần so với 8 TB/s của B200. SRAM nội vi đảm bảo thời gian truy xuất xác định — không có chu kỳ refresh DRAM, không có tranh chấp bus. Đây chính là nền tảng kiến trúc giúp Cerebras vượt trội trong các khối lượng công việc chịu ràng buộc bộ nhớ.

Ưu thế của NVIDIA/AMD: HBM cung cấp dung lượng bộ nhớ tổng thể lớn hơn đáng kể (192 GB so với 44 GB). Các mô hình vừa vặn trong HBM không cần cơ chế truyền trọng số liên tục.

Hiệu năng Tính toán

	Cerebras WSE-3	NVIDIA B200	NVIDIA H100	AMD MI300X
FP16 tối đa	125 PF	~9 PF (dense)	~4 PF (dense)	~5,2 PF
FP8 (thưa)	—	9.000 TF	3.958 TF	~5,2 PF FP16
FP6 (thưa)	—	17.475 TF	—	—

Lưu ý: Con số 125 PF của Cerebras bao gồm toàn bộ 900.000 nhân. Việc so sánh trực tiếp gặp khó khăn do Cerebras áp dụng mô hình tính toán khác biệt (song song tinh việt mức độ lớn so với warp thô của GPU).

Khả năng Mở rộng: Wafer Đơn so với Cụm GPU

	Cerebras CS-3	NVIDIA DGX B200	Cụm AMD MI300X
Đơn node	1 wafer = 125 PF	8 GPU = 72 PF	8 GPU = ~42 PF
Mở rộng	SwarmX: 2.048 CS-3 → 256 EF	InfiniBand: hàng nghìn node	Infinity Fabric + Ethernet
Băng thông liên kết	214 Pb/s (nội wafer)	NVLink: 1,8 TB/s mỗi GPU	Infinity Fabric: thay đổi
Huấn luyện phân tán	Không cần thiết cho hầu hết mô hình	Phức tạp: model/tensor/pipeline parallelism	Tương tự NVIDIA
Độ phức tạp phần mềm	Song song dữ liệu thuần túy	Cần chuyên gia tinh chỉnh cụm	Chuyên gia + ROCm chưa trưởng thành

Đây là tính năng mang tính quyết định của Cerebras: Các mô hình quy mô lên đến 24 nghìn tỷ tham số có thể huấn luyện trên một hệ thống CS-3 duy nhất mà không cần bất kỳ hình thức huấn luyện phân tán nào. Không cần phân mảnh mô hình, không cần đồng bộ gradient, không có độ trễ pipeline.

Hiệu suất Năng lượng

	Hệ thống CS-3	DGX B200 (8×B200)	Node MI300X (8×)
Công suất hệ thống	~23 kW	~12–15 kW	~8–10 kW
Hiệu suất/watt	Thấp hơn tuyệt đối, nhưng cao hơn trên mỗi tác vụ suy luận	Tốt cho khối lượng công việc tổng quát	Cạnh tranh trên suy luận
Tản nhiệt	Làm mát bằng nước (bắt buộc)	Tùy chọn gió hoặc lỏng	Tùy chọn gió hoặc lỏng

Hệ sinh thái Phần mềm

	Cerebras	NVIDIA	AMD
Framework	CSL + PyTorch 2.0	CUDA + toàn bộ hệ sinh thái	ROCm + PyTorch
Mức độ trưởng thành	Hỗ trợ mô hình còn hạn chế	Tiêu chuẩn ngành	Đang cải thiện, vẫn còn khoảng trống
Cộng đồng	Nhỏ, chuyên biệt	Quy mô lớn	Đang phát triển
Hỗ trợ LLM	LLaMA, GPT, MoE, ViT	Tất cả mô hình chính	Hầu hết mô hình
Số dòng lệnh	GPT-3 chỉ cần 565 dòng	GPT-3: hàng nghìn dòng	Tương tự NVIDIA
Ưu thế chính	Giảm 97% mã nguồn cho LLM	Mọi thứ đều hoạt động	Giá/thiệu năng

Hiệu năng Thực tế

Suy luận LLM (Số liệu từ Cerebras)

Mô hình	Cerebras CS-3	So với NVIDIA DGX B200
LLaMA 4 Maverick 400B	2.500+ token/giây/người dùng	Nhanh hơn >2,5 lần
LLaMA 3.1 8B	$0,10/triệu token	—
LLaMA 3.1 70B	$0,60/triệu token	—

Cerebras công bố tốc độ suy luận nhanh hơn 21 lần với chi phí chỉ bằng 1/3 so với DGX B200 cho các mô hình quy mô lớn. Cần lưu ý rằng đây là số liệu do nhà cung cấp công bố — cần được kiểm chứng độc lập.

Điện toán Khoa học

Động lực học phân tử: Nhanh hơn 179 lần so với siêu máy tính Frontier
Dự đoán thuốc điều trị ung thư (Mayo Clinic): "Nhanh hơn hàng trăm lần"
Mô hình hóa thời tiết: Cải thiện đáng kể trong mô phỏng động lực học chất lưu

Huấn luyện

LLaMA 70B có thể huấn luyện từ đầu trong 1 ngày trên cụm CS-3
Không có overhead huấn luyện phân tán ≈ khả năng mở rộng gần tuyến tính trên các node CS-3

Tiêu chí Lựa chọn theo Trường hợp Ứng dụng

Trường hợp	Lựa chọn Tối ưu	Cơ sở
Huấn luyện mô hình tiên tiến (>1T tham số)	Cụm NVIDIA B200	Hệ sinh thái trưởng thành, đã chứng minh khả năng mở rộng
Suy luận ở thông lượng cực cao	Cerebras CS-3	Băng thông bộ nhớ gấp 7.000 lần, không cần phân tán
Cụm huấn luyện ngân sách hạn chế	AMD MI300X	Chi phí thấp nhất mỗi GB bộ nhớ, hiệu năng adequat
Tinh chỉnh / LoRA	NVIDIA H100	Hệ sinh thái CUDA, công cụ đa dạng nhất
Điện toán khoa học / Mô phỏng	Cerebras CS-3	Bộ nhớ xác định, song song quy mô lớn
Nền tảng học máy sản xuất	NVIDIA (bất kỳ)	Phần mềm trưởng thành, giảm thời gian engineering
Suy luận mô hình lớn đơn lẻ	Cerebras CS-3	Không cần phân mảnh mô hình
Phục vụ đa mô hình	NVIDIA B200	Khả năng tận dụng GPU multi-tenant tốt hơn
AI biên / nhúng	Không thuộc phạm vi (sử dụng chip biên chuyên dụng)	—

Phân tích Đánh đổi Kiến trúc

Cơ sở của Cerebras: Truyền thông là nút thắt chính, không phải tính toán. Bằng cách tích hợp mọi thứ trên một wafer, kiến trúc này triệt tiêu chi phí chiếm tỷ trọng lớn nhất trong huấn luyện AI phân tán: thời gian chờ truyền dữ liệu giữa các chip.

Cơ sở của NVIDIA: Hệ sinh thái phần mềm và khả năng tính toán đa năng của GPU sẽ giành chiến thắng. Các nhà phát triển sẽ không chuyển đổi kiến trúc chỉ vì cải thiện hiệu năng biên. Rào cản CUDA là có thật và bền vững.

Cơ sở của AMD: Thiết kế chiplet kết hợp cạnh tranh về giá. Tính toán GPU đang dần trở thành hàng hóa — cạnh tranh dựa trên dung lượng bộ nhớ và chi phí.

Đánh giá: Đối với các khối lượng công việc tập trung vào suy luận và điện toán khoa học, Cerebras nắm giữ lợi thế kiến trúc thực sự. Trong khi đó, đối với hệ sinh thái AI rộng lớn hơn (huấn luyện, tinh chỉnh, học máy sản xuất), rào cản phần mềm của NVIDIA gần như không thể vượt qua trong ngắn hạn. AMD cạnh tranh về giá nhưng vẫn gặp thách thức về độ trưởng thành của phần mềm.

Định hướng Phát triển Thị trường

Cerebras nộp hồ sơ IPO năm 2024. Giá trị định giá phụ thuộc vào khả năng chứng minh tính kinh tế trong suy luận so với cụm GPU. Kiến trúc wafer-scale có lợi thế rõ ràng cho các khối lượng công việc cụ thể, nhưng sức hấp dẫn đa dụng còn hạn chế.
NVIDIA chiếm hơn 80% thị phần bộ tăng tốc AI. Blackwell (B200) mở rộng dẫn đầu về tính toán mật độ. GB200 NVL (tủ rack 36 GPU) hướng tới sự đơn giản hóa hệ thống đơn lẻ mà Cerebras tiên phong.
AMD đang gia tăng vị thế với MI300X tại các nhà cung cấp dịch vụ đám mây (Azure, Oracle). MI400 (CDNA 4, dự kiến 2026–2027) là thế hệ mang tính quyết định — cần thu hẹp khoảng cách phần mềm.

Báo cáo được biên soạn bởi Bobbie Intelligence. Nguồn dữ liệu: Cerebras.ai, thông số kỹ thuật NVIDIA, trang sản phẩm AMD, IEEE Spectrum, phân tích từ Chips and Cheese. Các số liệu benchmark do nhà cung cấp công bố mang tính chất tự báo cáo và cần được kiểm chứng độc lập. Nội dung báo cáo không cấu thành lời khuyên đầu tư.