Thị trường Dataset hàng ngày: Cơ sở hạ tầng cấp phép trưởng thành ở quy mô Internet
Toàn cảnh Thị trường
Hệ sinh thái thị trường dataset và cấp phép dữ liệu AI đã đạt đến điểm bùng nổ vào tháng 5 năm 2026, với ba phát triển hạ tầng lớn hội tụ để định hình lại cách chủ sở hữu nội dung kiếm tiền từ quyền truy cập huấn luyện AI. Hugging Face xác nhận 1,02 triệu bộ dữ liệu trên nền tảng, khẳng định dữ liệu mở là hạ tầng cốt lõi của AI. Việc Cloudflare mua lại Human Native, kết hợp với triển khai pay-per-crawl (trả tiền theo lượt cào) ở quy mô Internet, đã thiết lập nền tảng kỹ thuật cho cấp phép cào dữ liệu theo chương trình. Publisher Content Marketplace (PCM) của Microsoft ra mắt với các nhà xuất bản Mỹ hàng đầu, tạo ra mô hình thị trường song phương bổ sung cho kiến trúc tính phí theo yêu cầu của Cloudflare. Lớp cấp phép đã trưởng thành từ một vấn đề phụ do kiện tụng thúc đẩy thành một thị trường vận hành với các mô hình định giá chuẩn hóa và cơ chế thực thi kỹ thuật.
Lớp giao dịch song phương tiếp tục thiết lập mức giá trần. Thỏa thuận Reddit-Google ở mức 60 triệu USD mỗi năm vẫn là mỏ neo tham chiếu cho cấp phép nội dung khối lượng lớn, với các thỏa thuận song phương đạt mức phí cao gấp 2-10 lần so với tỷ lệ tính theo lượt truy xuất của thị trường. Khảo sát cảm nhận nhà xuất bản cho thấy Microsoft dẫn đầu điểm cộng tác ở mức 8/10, trong khi Google và Perplexity xếp cuối ở mức 2/10 về sẵn lòng chi trả và hành vi cào dữ liệu. Thị trường đang phân mảnh thành ba lớp riêng biệt: giao dịch doanh nghiệp song phương cho nhà xuất bản lớn, nền tảng thị trường cho chủ sở hữu nội dung tầm trung, và bộ dữ liệu mở cho nghiên cứu và tạo mẫu. Các nhà phát triển độc lập xây dựng sản phẩm dữ liệu đối mặt cạnh tranh gia tăng trong mảng agent-traces và bộ dữ liệu reasoning, nhưng cơ hội vẫn còn trong dữ liệu chuyên ngành và nội dung không phải tiếng Anh.
Bối cảnh và Phương pháp
Báo cáo này tổng hợp bằng chứng từ các nguồn chính được thu thập vào ngày 28-05-2026, bao gồm trang bộ dữ liệu Hugging Face, tài liệu pay-per-crawl của Cloudflare, phân tích cấp phép dữ liệu AI của Neudata bao phủ 52 thỏa thuận, bảng điểm nhà xuất bản của Digiday khảo sát tám nhà xuất bản, danh mục giao dịch song phương của Presenc AI, thông báo PCM của Microsoft qua Search Engine Land, và bài viết của TechInformed về thương vụ mua lại Human Native của Cloudflare. D liệu đăng ký từ các lần chạy trước thiết lập các chỉ số cơ sở cho định cỡ thị trường dữ liệu tổng hợp, thị trường doanh nghiệp, và mô hình tài trợ. Khi tìm kiếm web gặp giới hạn tốc độ, ngữ cảnh đăng ký và các nguồn đã thu thập trước đó đã lấp đầy khoảng trống.
Nhịp Thị trường: Lớp Hạ tầng Hình thành
Ba phát triển trong tháng 5 năm 2026 đánh dấu sự chuyển dịch từ định vị dựa trên kiện tụng sang hạ tầng vận hành.
Thương vụ Cloudflare-Human Native. Cloudflare mua lại Human Native, một startup Anh xây dựng hạ tầng cấp phép cho bộ dữ liệu sẵn sàng cho AI. Thỏa thuận này bổ sung vào lộ trình kiểm soát cào dữ liệu của Cloudflare: pay-per-crawl ra mắt tháng 7 năm 2025, AI Crawl Control vào tháng 8 năm 2025, và bản thử nghiệm riêng AI Index vào tháng 9 năm 2025. Cloudflare báo cáo đã chặn 416 tỷ yêu cầu bot AI kể từ ngày 1 tháng 7 năm 2025, chứng minh quy mô thực thi. Công cụ của Human Native chuyển đổi phương tiện phi cấu trúc thành bộ dữ liệu sẵn sàng cho AI theo các khung cấp phép chuẩn hóa, vượt qua các thỏa thuận riêng lẻ.
Publisher Content Marketplace của Microsoft. Microsoft Advertising ra mắt PCM với các đối tác đồng thiết kế bao gồm Business Insider, Condé Nast, Hearst, The Associated Press, USA TODAY, và Vox Media. Thị trường tạo ra trao đổi giá trị trực tiếp: nhà xuất bản thiết lập điều khoản cấp phép và sử dụng, các nhà xây dựng AI phát hiện và cấp phép nội dung cho các tình huống làm nền cụ thể. Báo cáo dựa trên sử dụng cung cấp cho nhà xuất bản khả năng hiển thị hiệu suất. Yahoo nằm trong những đối tác cầu đầu tiên. Mô hình tránh các thỏa thuận riêng lẻ trong khi vẫn bảo lưu quyền sở hữu của nhà xuất bản và tính độc lập biên tập.
Cột mốc Bộ dữ liệu Hugging Face. Nền tảng xác nhận 1.024.838 bộ dữ liệu tính đến ngày 28 tháng 5 năm 2026, với Robotics & Reinforcement Learning là danh mục phát triển nhanh nhất. Sự chuyển dịch từ dữ liệu huấn luyện dự đoán token sang bộ dữ liệu AI hiện diện đại diện cho một bước ngoặt cấu trúc. Các bộ dữ liệu agent traces và reasoning chiếm lĩnh danh sách xu hướng, bao gồm claude-opus-4.6-4.7-reasoning-8.7k (38,5k lượt tải, 5,57k lượt thích), DeepSeek-v4-Pro-Agent (4,01k lượt tải), và hermes-agent-reasoning-traces (14,7k lượt tải). Bộ dữ liệu mở vẫn là hạ tầng AI cốt lõi, nhưng đề xuất giá trị đang chuyển dịch sang các quỹ đạo trình diễn và luồng cảm biến cho AI hiện diện.
Định giá và Kiếm tiền: Cấu trúc Thị trường Ba Lớp
Giao dịch Song phương: Các Mỏ neo Mức trần
Phân tích của Neudata về 52 thỏa thuận cấp phép dữ liệu AI tiết lộ các yếu tố thúc đẩy định giá: khối lượng, chuyên môn lĩnh vực, và tính động. Các thỏa thuận lớn nhất được tiết lộ bao gồm Google-Reddit ở mức 203 triệu USD tổng giá trị hợp đồng (60 triệu USD mỗi năm), Microsoft-Taylor & Francis ở mức 10 triệu USD trả trước cộng 65 triệu USD được ghi nhận, và nhiều thỏa thuận Shutterstock ở mức 25-50 triệu USD mỗi cái. Perplexity ký 37% các thỏa thuận, OpenAI 29%, thiết lập họ là những người mua dữ liệu hàng đầu.
Các thỏa thuận song phương thể hiện sáu mô hình lặp lại theo danh mục của Presenc AI: phạm vi nhiều năm (2-5 năm điển hình), gói quyền huấn luyện và truy cập thời gian thực, thành phần tích hợp sản phẩm, yêu cầu ghi nguồn, độc quyền một phần hoặc phạm vi lãnh thổ, và tỷ lệ ngụ ý mỗi trích dẫn cao hơn 2-10 lần so với tỷ lệ thị trường. Phần bù chắc chắn cho các thỏa thuận song phương phản ánh các thành phần phí cố định cho quyền huấn luyện và tích hợp mà tỷ lệ tính theo lượt truy xuất của thị trường không bao gồm.
Lớp Thị trường: Kinh tế Tính theo Yêu cầu
Pay-per-crawl của Cloudflare thiết lập mức sàn tối thiểu 0,01 USD mỗi lượt cào. Nhà xuất bản có thể thiết lập giá phẳng theo yêu cầu trên toàn bộ trang web của họ, với ba tùy chọn cho mỗi bộ cào: cho phép truy cập miễn phí, tính phí theo giá đã cấu hình, hoặc chặn hoàn toàn. Phản hồi HTTP 402 Payment Required với header crawler-price cho phép đàm phán theo chương trình. Luồng phản ứng (khám phá trước) và luồng chủ động (ý định trước với header crawler-max-price) tạo ra hai mô hình giao dịch. Thanh toán tài chính tổng hợp các sự kiện thanh toán và phân phối thu nhập cho nhà xuất bản.
PCM của Microsoft sử dụng mô hình pay-per-use thay vì tính theo lượt cào, tính phí dựa trên cách nội dung được sử dụng trong các phản hồi AI. Điều này phù hợp với các tình huống làm nền nơi nội dung xuất hiện trong phản hồi Copilot thay vì nhập huấn luyện thô. Cả hai mô hình đều bảo lưu quyền sở hữu của nhà xuất bản trong khi chuyển từ chặn/cho phép nhị phân sang kiếm tiền tinh tế.
Lớp Bộ dữ liệu Mở: Hạ tầng Miễn phí
Một triệu bộ dữ liệu của Hugging Face đại diện cho hạ tầng miễn phí cho nghiên cứu, tạo mẫu, và đo lường chuẩn. Các bộ dữ liệu được thích nhiều nhất bao gồm prompts.chat (1,84k bộ dữ liệu, 35,4k lượt thích), fineweb (52,5B token, 1,03 triệu lượt tải), và dialogues RLHF và red-teaming của Anthropic. Mặc dù miễn phí, các bộ dữ liệu này tạo giá trị thông qua chuẩn hóa và khả năng tái tạo. Rủi ro cho các nhà phát triển độc lập là sự hàng hóa: các bộ dữ liệu agent-traces đang gia tăng nhanh chóng, với nhiều bộ sưu tập reasoning trace của DeepSeek, Claude, và Qwen cạnh tranh sự chú ý.
Cảm nhận Nhà xuất bản: Microsoft Dẫn đầu, Google và Perplexity Tụt hậu
Khảo sát của Digiday với tám nhà xuất bản tiết lộ sự tương phản rõ rệt trong hành vi đối tác cấp phép AI. Microsoft đạt điểm cao nhất ở mức 8/10 tổng hợp, được khen ngợi về cộng tác, giao tiếp, sẵn lòng chi trả, và hành vi cào dữ liệu tốt. OpenAI xếp thứ hai ở mức 7/10, với sẵn lòng chi trả mạnh (8/10) nhưng lo ngại về tác động lưu lượng (5/10) và các liên hệ không được trả lời. Meta gia nhập với 6/10, danh sách thỏa thuận vội vàng nhưng tín hiệu lãnh đạo cải thiện. Amazon cũng đạt 6/10 với việc mở rộng yên lặng vào cấp phép Rufus và Alexa+.
Cả Google và Perplexity đều đạt 2/10 tổng hợp. Google đối mặt chỉ trích về tác động lưu lượng của AI Overviews (1/10), kinh tế thiếu minh bạch, và lo ngại hành vi cào dữ liệu (3/10). Perplexity, mặc dù có hơn 30 đối tác nhà xuất bản, được xem là "kẻ bị ruồng bỏ" bởi một số nhà xuất bản, với các cáo buộc sử dụng trình duyệt headless và che giấu cào dữ liệu. Anthropic đạt 0/10, được mô tả là "hoàn toàn không phản hồi" với một bộ cào "là ác mộng" và các vụ kiện đang diễn ra.
Prorata nổi lên như một người dẫn đầu bất ngờ ở mức 7/10, với mô hình chia sẻ doanh thu 50% được khen ngợi về tính công bằng, mặc dù việc chấp nhận người dùng vẫn thấp. Cảm nhận tổng hợp tiết lộ một thị trường nơi nhà xuất bản thưởng cho sự cộng tác và trừng phạt hành vi thiếu minh bạch hoặc hung hăng.
Radar Cơ hội Nhà phát triển Độc lập
Không gian Nhu cầu Cao, Cạnh tranh Cao
Các bộ dữ liệu agent reasoning traces và quỹ đạo đối mặt với bão hòa. Nhiều bộ dữ liệu nhắm vào các reasoning traces của Claude, DeepSeek, Qwen, và GLM, với số lượt tải cho thấy nhu cầu mạnh nhưng nguồn cung phân mảnh. Rào cản gia nhập thấp: nhắc một agent, thu thập traces, xuất bản. Giá trị bền vững đòi hỏi sự tuyển chọn, lọc chất lượng, và tập trung chuyên ngành thay vì kết xuất traces thô.
Cơ hội Chuyên ngành Thiếu cung
Nội dung Không phải Tiếng Anh. Phân tích của Neudata về 52 thỏa thuận chỉ tìm thấy năm ngôn ngữ được đại diện: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Nhật, và tiếng Tây Ban Nha. Một nửa dân số thế giới nói các ngôn ngữ ít tài nguyên với dữ liệu huấn luyện AI tối thiểu. Các bộ dữ liệu tiếng Việt, tiếng Thái, tiếng Indonesia, và ngôn ngữ Châu Phi vẫn khan hiếm. Các nhà phát triển độc lập với chuyên môn ngôn ngữ và quyền truy cập nguồn nội dung bản địa có thể xây dựng bộ dữ liệu có khả năng phòng thủ.
Dữ liệu Chuyên môn Lĩnh vực. Dữ liệu tài chính, pháp lý, y tế, và nghiên cứu khoa học đạt giá cao nhưng đòi hỏi chuyên môn lĩnh vực. Việc cấp phép nội dung học thuật của Taylor & Francis chứng minh sự sẵn lòng của nhà xuất bản kiếm tiền từ kho lưu trữ chuyên môn. Các nhà phát triển độc lập có thể tổng hợp nội dung kỹ thuật thuộc phạm vi công cộng, tuyển chọn với kiến thức lĩnh vực, và cấp phép cho các nhà xây dựng AI chuyên ngành.
AI Hiện diện và Robot. Sự chuyển dịch từ huấn luyện LLM sang robotics RL tạo ra nhu cầu cho các quỹ đạo trình diễn, luồng cảm biến, và dữ liệu tương tác vật lý. Điều này đòi hỏi quyền truy cập phần cứng hoặc chuyên môn mô phỏng, tạo ra rào cản gia nhập bảo vệ giá trị bộ dữ liệu.
Dữ liệu Chuỗi thời gian và Động. Đề xuất giá trị của Reddit bao gồm tần suất và khối lượng dữ liệu mới. Các bộ dữ liệu cập nhật định kỳ—dữ liệu thị trường, luồng cảm biến, luồng tin tức—thu được phí cấp phép định kỳ thay vì thanh toán một lần. Các nhà phát triển độc lập có thể xây dựng các đường ống dữ liệu làm mới tự động.
Chiến lược Pháp lý và Phân phối
Báo cáo Phần 3 của Văn phòng Bản quyền Mỹ về huấn luyện AI tạo sinh từ chối thiết lập các phán quyết sử dụng hợp pháp dứt khoát, để lại sự không chắc chắn pháp lý thúc đẩy nhu cầu cấp phép. Các nhà phát triển độc lập nên đảm bảo nguồn gốc rõ ràng cho dữ liệu huấn luyện, sử dụng giấy phép cho phép cho bộ dữ liệu mở, và đàm phán điều khoản song phương cho nội dung độc quyền giá trị cao. Phân phối qua Hugging Face tối đa hóa khả năng hiển thị; cấp phép trực tiếp cho các phòng thí nghiệm AI nắm bắt phần bù song phương.
Bản đồ Tín hiệu Nhiệt
| Chiều | Cường độ Tín hiệu | Ghi chú |
|---|---|---|
| Nhu cầu Nhà xuất bản | Cao | 52 thỏa thuận song phương, ra mắt thị trường, áp lực kiện tụng |
| Sẵn lòng Chi trả của Phòng thí nghiệm AI | Trung bình-Cao | OpenAI, Perplexity, Microsoft hoạt động; Google thiếu minh bạch; Anthropic không phản hồi |
| Hạ tầng Thực thi Cào dữ liệu | Cao | Cloudflare chặn 416 tỷ yêu cầu, pay-per-crawl đã triển khai |
| Bão hòa Bộ dữ liệu Mở | Trung bình | 1 triệu bộ dữ liệu trên HF; agent traces ngập thị trường |
| Khan hiếm Dữ liệu Không phải Tiếng Anh | Cao | Chỉ 5 ngôn ngữ trong 52 thỏa thuận được theo dõi |
| Phần bù Chuyên môn Lĩnh vực | Cao | Nội dung học thuật, tài chính, pháp lý đạt bội số 2-10x |
| Rào cản Gia nhập Nhà phát triển Độc lập | Trung bình | Thấp cho text traces; cao cho robotics, chuyên môn lĩnh vực |
Các Rủi ro Chính
-
Leo thang Kiện tụng. Vụ kiện NYT chống lại OpenAI và Microsoft vẫn đang diễn ra. Một phán quyết dứt khoát về sử dụng hợp pháp có thể hoặc làm sụp đổ thị trường cấp phép (nếu huấn luyện được phán quyết là sử dụng hợp pháp) hoặc thúc đẩy nó (nếu huấn luyện đòi hỏi sự cho phép). Các nhà xuất bản đang phòng ngừa bằng cách ký kết thỏa thuận ngay bây giờ trong khi kiện tụng tiếp diễn.
-
Cuộc đua Định giá Thị trường xuống đáy. Pay-per-crawl ở mức sàn tối thiểu 0,01 USD mỗi yêu cầu tạo ra mức sàn giá, nhưng áp lực cạnh tranh giữa các nhà xuất bản có thể đẩy tỷ lệ mỗi lượt cào về phía mức sàn, làm xói mòn đòn bẩy thỏa thuận song phương. Phần bù chắc chắn cho các thỏa thuận song phương có thể thu hẹp khi thị trường trưởng thành.
-
Bẻ khóa Cào dữ liệu. Các nhà xuất bản báo cáo các vấn đề đang diễn ra với các bộ cào che giấu danh tính, sử dụng trình duyệt headless, và phớt lờ robots.txt. Các đề xuất Web Bot Auth của Cloudflare nhằm xác thực các bộ cào, nhưng thực thi phụ thuộc vào sự hợp tác của bộ cào. Các bộ cào hung hăng có thể làm suy thoái thị trường cho những người tham gia tuân thủ.
-
Hàng hóa Bộ dữ liệu Agent-Trace. Sự gia tăng của các bộ dữ liệu reasoning trace trên Hugging Face rủi ro biến một danh mục giá trị cao thành hạ tầng hàng hóa. Các nhà phát triển độc lập xây dựng sản phẩm agent-trace phải khác biệt hóa thông qua tuyển chọn, tập trung chuyên ngành, hoặc đảm bảo chất lượng để giữ quyền định giá.
-
Phân mảnh Quy định. Các quy định chuyển giao dữ liệu xuyên biên giới tiếp tục phát triển, với các hạn chế bổ sung có thể xảy ra. Các bộ dữ liệu với nguồn gốc toàn cầu đối mặt rủi ro tuân thủ. Các nhà phát triển độc lập nên ghi lại nguồn gốc dữ liệu và điều khoản giấy phép để giảm thiểu rủi ro quy định.
Phụ lục: Đánh giá Nguồn
| Nguồn | Độ tin cậy | Độ mới | Độ sâu | Ghi chú |
|---|---|---|---|---|
| Trang Bộ dữ liệu Hugging Face | 0,95 | 0,98 | 0,80 | Dữ liệu nền tảng trực tiếp, xác nhận 1.024.838 bộ dữ liệu |
| Blog Pay-Per-Crawl của Cloudflare | 0,92 | 0,90 | 0,85 | Thông báo chính thức, chi tiết kỹ thuật, trạng thái bản thử nghiệm riêng |
| TechInformed (Cloudflare-Human Native) | 0,90 | 0,95 | 0,85 | Bao phủ thương vụ với ngữ cảnh lộ trình sản phẩm |
| Phân tích Cấp phép AI của Neudata | 0,85 | 0,88 | 0,85 | 52 thỏa thuận được phân tích, xuất bản tháng 6 năm 2025, trước các ra mắt gần đây |
| Bảng điểm Nhà xuất bản Digiday | 0,85 | 0,95 | 0,80 | Tám nhà xuất bản được khảo sát, dữ liệu năm 2025, phản ánh cảm nhận hiện tại |
| Danh mục Giao dịch Presenc AI | 0,88 | 0,90 | 0,80 | Cập nhật đến tháng 4 năm 2026, các mô hình giao dịch song phương |
| Search Engine Land (Microsoft PCM) | 0,90 | 0,95 | 0,85 | Bao phủ ra mắt chính thức, danh sách đối tác nhà xuất bản |
| AI World (HF 1M Bộ dữ liệu) | 0,85 | 0,95 | 0,65 | Bao phủ cột mốc, ngày 12 tháng 5 năm 2026, độ sâu hạn chế |
Các nguồn với độ tin cậy dưới 0,80 được sử dụng cho ngữ cảnh nhưng không cho các tuyên bố chính. Các nguồn đăng ký từ các lần chạy trước cung cấp định cỡ thị trường dữ liệu tổng hợp và các chỉ số thị trường doanh nghiệp.