Nghiên cứu Mô hình LLM Song ngữ Việt-Anh (Tháng 5/2026)

Nghiên cứu cho: Lựa chọn mô hình cho đội agent solo.engineer Bối cảnh: Hiện dùng omniroute/glm-coder (giới hạn 8K token, cạn kiệt trên tác vụ lớn) Mục tiêu: Tìm mô hình API có hỗ trợ tiếng Việt mạnh cho báo cáo cron hàng ngày, phân tích theo yêu cầu, và dịch thuật

1. Xếp hạng Mô hình theo Chất lượng Tiếng Việt

Hạng	Mô hình	Chất lượng TV	Ghi chú
1	GPT-5.2 / GPT-5 mini	Xuất sắc — văn phong tự nhiên, chính xác, xử lý tốt cả ngữ cảnh trang trọng/thoải mái	Diễn đạt tiếng Việt tự nhiên nhất. Xử lý code-switching mượt mà.
2	Claude Sonnet 4.6	Rất tốt — chính xác nhưng đôi khi quá trang trọng	Hiểu tốt, hơi cứng trong ngữ cảnh thoải mái. Tốt cho báo cáo trang trọng.
3	Gemini 2.5 Pro / Gemini 3 Flash	Rất tốt — Google đầu tư ngôn ngữ Đông Nam Á	Google có đội ngũ tiếng Việt chuyên trách. Gemini 3 Flash có tỷ lệ chất lượng/giá tuyệt vời.
4	Qwen3 (235B)	Tốt — 119 ngôn ngữ, hỗ trợ tiếng Việt rõ ràng	Đẩy mạnh đa ngôn ngữ của Alibaba. Nghiên cứu dịch thuật VI-EN (ACL 2025) cho thấy Qwen3 cạnh tranh sau fine-tuning.
5	DeepSeek V3.2	Khá — hoạt động được nhưng đôi khi diễn đạt không tự nhiên	Mô hình gốc Trung Quốc. Tiếng Việt được hỗ trợ nhưng không ưu tiên.
6	GLM-5.1 / glm-coder	Khá-Thấp — tối ưu tiếng Trung, tiếng Việt thứ yếu	Đang dùng cho fleet. Giải thích vấn đề chất lượng trong báo cáo nặng tiếng Việt.

Nhận xét Tiếng Việt

GPT-5 mini là điểm cân bằng tốt nhất: chất lượng gần flagship với giá 1/7 GPT-5.2
Gemini 3 Flash ($0.50/$3) là lựa chọn ngân sách tốt nhất với tiếng Việt mạnh
Qwen3 thêm tiếng Việt vào 119 ngôn ngữ; chất lượng cải thiện đáng kể so với Qwen2.5
Mô hình gốc Trung Quốc (GLM, DeepSeek) ưu tiên tiếng Trung → tiếng Việt yếu hơn

2. Xếp hạng theo Hiệu quả Chi phí (Giá vs Chất lượng)

Giả sử tác vụ tạo báo cáo: ~4K input + ~8K output = 12K tokens tổng.

Mô hình	Input $/MTok	Output $/MTok	Chi phí/Báo cáo (~12K tok)	Mức chất lượng	Điểm giá trị
DeepSeek V3.2-Exp	$0.28	$0.42	~$0.005	Khá	⭐⭐⭐⭐
GPT-5 nano	$0.05	$0.40	~$0.003	Thấp-Khá	⭐⭐⭐
Gemini 3 Flash	$0.50	$3.00	~$0.026	Rất tốt	⭐⭐⭐⭐⭐
GPT-5 mini	$0.25	$2.00	~$0.017	Xuất sắc	⭐⭐⭐⭐⭐
Gemini 2.5 Flash	$0.30	$2.50	~$0.021	Rất tốt	⭐⭐⭐⭐
Grok 4 Fast	$0.20	$0.50	~$0.005	Tốt	⭐⭐⭐⭐
Claude Sonnet 4.6	$3.00	$15.00	~$0.132	Rất tốt	⭐⭐⭐

Lựa chọn tốt nhất:

GPT-5 mini — tiếng Việt xuất sắc + rẻ ($0.25/$2) = không thể vượt qua cho cron hàng ngày
Gemini 3 Flash — tiếng Việt mạnh + độ tin cậy Google ($0.50/$3)
Grok 4 Fast — rất rẻ ($0.20/$0.50), nhưng chất lượng tiếng Việt chưa xác minh

3. Hiệu năng Song ngữ (Code-Switching, Báo cáo VI/EN hỗn hợp)

Mô hình	Code-Switching	Báo cáo VI/EN hỗn hợp	Dịch VI→EN	Dịch EN→VI
GPT-5.2 / GPT-5 mini	Xuất sắc	Xuất sắc	Xuất sắc	Xuất sắc
Claude Sonnet 4.6	Rất tốt	Rất tốt	Rất tốt	Rất tốt
Gemini 2.5 Pro / 3 Flash	Rất tốt	Rất tốt	Rất tốt	Rất tốt
Qwen3	Tốt	Tốt	Tốt (fine-tune: Rất tốt)	Tốt
DeepSeek V3.2	Khá	Khá	Khá	Khá
GLM-5.1	Khá	Khá-Thấp	Khá	Khá-Thấp

Phát hiện chính: GPT-5 mini và Gemini 3 Flash xử lý đầu ra đa ngôn ngữ tự nhiên nhất cho báo cáo hỗn hợp (phân tích thị trường VN với thuật ngữ kỹ thuật EN).

4. Khả năng API & Truy cập từ Việt Nam

Nhà cung cấp	API từ VN	Giới hạn	Ghi chú
OpenAI	✅ Hoạt động trực tiếp	Theo tier: bắt đầu 500 RPM	Đáng tin cậy nhất. Cũng qua OpenRouter.
Google (Gemini)	✅ Vertex AI hoặc AI Studio	Free tier hào phóng trên AI Studio	AI Studio miễn phí đủ test. Vertex AI cho production.
Anthropic (Claude)	✅ Hoạt động trực tiếp	Theo tier: bắt đầu 50 RPM	Qua OpenRouter cho billing thống nhất.
Alibaba (Qwen)	✅ DashScope API	Theo tier	Cloud Alibaba có data center Đông Nam Á. Độ trễ thấp từ VN.
DeepSeek	✅ Trực tiếp, không hạn chế	Hào phóng cho giá	Rẻ nhất. API đơn giản, ổn định.
OpenRouter	✅ Tổng hợp tất cả	Theo từng provider	Dễ nhất cho thử nghiệm đa mô hình.

5. Bảng Giá Chi tiết

Tier 1: Flagship (Chất lượng Tốt nhất)

Mô hình	Input $/MTok	Output $/MTok	Context	Max Output
GPT-5.2 Pro	$21.00	$168.00	200K	128K
GPT-5.2	$1.75	$14.00	200K	128K
Claude Opus 4.6	$5.00	$25.00	200K	32K
Claude Sonnet 4.6	$3.00	$15.00	200K	64K
Gemini 3.1 Pro	$2.00	$12.00	2M	128K
Gemini 2.5 Pro	$1.25	$10.00	1M	128K

Tier 2: Mid-Range (Cân bằng Tốt nhất)

Mô hình	Input $/MTok	Output $/MTok	Context	Max Output
GPT-5 mini	$0.25	$2.00	128K	64K
Gemini 3 Flash	$0.50	$3.00	1M	64K
Gemini 2.5 Flash	$0.30	$2.50	1M	64K
Claude Haiku 4.5	$1.00	$5.00	200K	8K
Qwen3-235B	~$0.50	~$2.00	128K	32K

Tier 3: Ngân sách (Rẻ nhất)

Mô hình	Input $/MTok	Output $/MTok	Context	Max Output
GPT-5 nano	$0.05	$0.40	64K	16K
DeepSeek V3.2-Exp	$0.28	$0.42	128K	16K
Grok 4 Fast	$0.20	$0.50	128K	32K

6. Khuyến nghị cho Đội Agent

A. Báo cáo Cron Hàng ngày (Nhạy cảm chi phí, Chất lượng vừa)

🏆 GPT-5 mini ($0.25/$2)

Báo cáo 8-16K token: ~$0.01-0.04/báo cáo
7 agents × hàng ngày = ~$2-8/tháng
Tiếng Việt xuất sắc, xử lý song ngữ tự nhiên
64K max output — không chết trên báo cáo lớn như glm-coder

Á hậu: Gemini 3 Flash ($0.50/$3) — context 1M cho agent cần nguồn lớn

B. Phân tích Theo yêu cầu (Chất lượng quan trọng)

🏆 GPT-5.2 ($1.75/$14)

Tiếng Việt tốt nhất hiện có
128K output — xử lý mọi kích thước báo cáo
~$0.12/tác vụ phân tích (sử dụng ít, biện minh chi phí)

C. Dịch thuật (VI↔EN)

🏆 GPT-5 mini ($0.25/$2)

Dịch thuật là điểm mạnh của họ GPT-5
Chất lượng VI↔EN gần giống GPT-5.2
1/7 giá — phù hợp cho tài liệu dài

Lộ trình Di chuyển từ glm-coder

Hiện tại	Thay thế	Chi phí	Chất lượng
glm-coder (cron hàng ngày)	GPT-5 mini qua OpenRouter	Tăng nhẹ	Cải thiện lớn (TV + 64K output)
glm-coder (theo yêu cầu)	GPT-5.2 qua OpenRouter	Tăng vừa	Cải thiện lớn
glm-coder (dịch thuật)	GPT-5 mini qua OpenRouter	Tăng nhẹ	Cải thiện lớn

Ghi chú Triển khai

Tất cả khuyến nghị có sẵn qua OpenRouter với một API key duy nhất, có thể cấu hình như provider omniroute. Cho phép di chuyển mô hình dần theo từng agent mà không thay đổi hạ tầng.

Nguồn

OpenAI API Pricing (Q1 2026)
Google Vertex AI Pricing
Anthropic Claude Pricing
DeepSeek API Pricing
Qwen3 Technical Report (arXiv:2505.09388): 119 ngôn ngữ
Vietnamese-English Medical Translation with LLMs (ACL 2025)
LLM API Pricing Comparison 2025: intuitionlabs.ai

Tạo: 2026-05-06 | Research subagent