Kimi K2 Thinking – một mô hình vừa ra mắt của Moonshot AI của Trung Quốc – đã vượt qua GPT-5 của OpenAI và Claude Sonnet 4.5 của Anthropic trong nhiều bài kiểm tra chuẩn (benchmark) của ngành, buộc giới quan sát phải đánh giá lại quốc gia nào đang dẫn đầu cuộc đua AI toàn cầu.
Đây là diễn biến mới nhất trong cuộc cạnh tranh AI Mỹ – Trung ngày càng gay gắt, khiến nhiều người liên tưởng đến “cú sốc” mà DeepSeek từng gây ra trước đó. Các chuyên gia trong ngành hiện đặt câu hỏi liệu chuỗi đột phá liên tiếp từ các nhà phát triển Trung Quốc có báo hiệu một sự chuyển dịch quyền lãnh đạo AI toàn cầu hay không.
Kết quả điểm chuẩn cho thấy khoảng cách năng lực
Moonshot AI công bố ngày 6/11 rằng Kimi K2 Thinking đạt độ chính xác 44,9% trong bài kiểm tra Humanity’s Last Exam — một bài đánh giá khắt khe dành cho mô hình ngôn ngữ lớn với 2.500 câu hỏi ở trình độ chuyên gia, bao gồm toán học, khoa học và nhân văn. Kết quả này vượt qua GPT-5 của OpenAI, chỉ đạt 41,7%, theo dữ liệu trên GitHub của công ty.
Mô hình này còn vượt trội hơn OpenAI và Anthropic trong bài kiểm tra BrowseComp – đo hiệu quả của AI khi duyệt web và tìm kiếm thông tin – với điểm số 60,2%. Trong bài Seal-0, đánh giá khả năng tìm kiếm thông tin thực tế phức tạp, Kimi K2 Thinking đạt 56,3%, dẫn đầu hạng mục này.
Công ty tư vấn Artificial Analysis có trụ sở tại Vương quốc Anh cũng xác nhận độc lập rằng Kimi K2 đạt 93% trong bài kiểm tra Tau-2 Bench Telecom, mô phỏng tình huống chăm sóc khách hàng, gọi đây là “điểm số cao nhất mà chúng tôi từng ghi nhận được.”
Hiệu quả kinh tế làm tăng sức cạnh tranh
Không chỉ nổi bật ở hiệu suất, hiệu quả kinh tế của Kimi K2 Thinking còn khiến các đối thủ phương Tây lo ngại.
Theo CNBC, chi phí huấn luyện mô hình này khoảng 4,6 triệu USD, dù Moonshot AI không xác nhận con số đó.
South China Morning Post tính toán rằng giá giao diện lập trình ứng dụng (API) của Kimi K2 Thinking thấp hơn từ 6 đến 10 lần so với dịch vụ tương tự của OpenAI và Anthropic, có thể làm thay đổi đáng kể hành vi sử dụng của doanh nghiệp.
Theo nền tảng Hugging Face, Kimi K2 Thinking sử dụng kiến trúc Mixture-of-Experts (kiểu kiến trúc tính toán phân tán) với tổng cộng 1 nghìn tỷ tham số, trong đó 32 tỷ tham số được kích hoạt trong mỗi lần suy luận. Công nghệ INT4 quantisation giúp tăng gấp đôi tốc độ tạo phản hồi mà không làm giảm hiệu năng, một bước tiến đáng kể về hiệu quả xử lý.
Chuyên gia Zhang Yi của công ty tư vấn iiMedia nhận định chi phí huấn luyện AI ở Trung Quốc đã “giảm như rơi từ vách đá”, nhờ đổi mới kiến trúc và phương pháp huấn luyện ưu việt, thay vì dựa vào cách tiếp cận tiêu tốn tài nguyên tính toán như trước đây.
Kiến trúc và năng lực kỹ thuật
Theo nhóm nghiên cứu Moonshot AI, Kimi K2 Thinking có thể tự động thực hiện 200–300 lệnh công cụ liên tiếp, duy trì lý luận mạch lạc xuyên suốt quá trình giải quyết vấn đề phức tạp mà không cần con người can thiệp. Khả năng này cho phép mô hình xử lý các quy trình tác vụ đa bước, như nghiên cứu, lập trình và phân tích.
Mô hình này hỗ trợ cửa sổ ngữ cảnh lên tới 256.000 token, vận hành với độ chính xác INT4 và sử dụng kỹ thuật Quantisation-Aware Training để giảm độ trễ và mức sử dụng bộ nhớ GPU mà không mất độ chính xác.
Mô hình được phát hành theo giấy phép MIT sửa đổi, cho phép sử dụng thương mại đầy đủ, ngoại trừ yêu cầu các tổ chức có trên 100 triệu người dùng hoạt động hằng tháng hoặc doanh thu trên 20 triệu USD/tháng phải hiển thị thương hiệu “Kimi K2” trên giao diện của họ.
Phản ứng của ngành và hệ lụy chiến lược
Thomas Wolf, đồng sáng lập nền tảng phát triển AI Hugging Face, nơi Kimi K2 Thinking nhanh chóng trở thành mô hình phổ biến nhất với các lập trình viên, đặt câu hỏi trên mạng xã hội rằng liệu ngành AI có nên “chuẩn bị tinh thần cho một ‘khoảnh khắc DeepSeek’ mới mỗi vài tháng.”
Tuy nhiên, Nathan Lambert của Viện AI Allen đưa ra góc nhìn thận trọng hơn: vẫn còn khoảng cách 4–6 tháng giữa các mô hình đóng tiên tiến nhất và các mô hình mã nguồn mở, nhưng “các phòng thí nghiệm Trung Quốc đang thu hẹp khoảng cách rất nhanh” và “rất mạnh ở các bài kiểm tra chuẩn.”
Lambert cũng lưu ý rằng các công ty Mỹ vẫn có lợi thế về tối ưu hóa hành vi người dùng thực tế, nhờ chu kỳ phản hồi dài hơi từ lượng người dùng khổng lồ ở phương Tây.
Zhang Ruiwang, kiến trúc sư hệ thống CNTT tại Bắc Kinh, cho rằng sự cạnh tranh về chi phí là chiến lược sống còn. “Hiệu suất tổng thể của các mô hình Trung Quốc vẫn chưa bằng những mô hình hàng đầu của Mỹ, nên họ buộc phải cạnh tranh bằng tính hiệu quả và chi phí thấp để mở ra con đường tiến lên,” Zhang nói.
Bối cảnh thị trường và hướng đi tương lai
Moonshot AI, hiện được định giá 3,3 tỷ USD sau các vòng gọi vốn do Alibaba và Tencent dẫn đầu, là một trong những “Con Hổ AI của Trung Quốc” – nhóm startup được hậu thuẫn mạnh mẽ, tập trung vào phát triển mô hình nền tảng.
Công ty này, cùng với DeepSeek, Qwen và Baichuan, đang chứng minh rằng các mô hình AI Trung Quốc có thể cạnh tranh với OpenAI và Anthropic nhờ đổi mới kiến trúc và hiệu quả huấn luyện, chứ không chỉ dựa vào quy mô tính toán.
Một nhà nghiên cứu AI nhận xét: “Thành công của các nhà phát triển mã nguồn mở Trung Quốc đã khiến các phòng thí nghiệm mô hình đóng ở Mỹ phải toát mồ hôi, tạo ra áp lực về giá và kỳ vọng mà họ phải đối phó.”
Tuy vẫn chưa rõ liệu hiệu suất của Kimi K2 Thinking có đại diện cho lợi thế bền vững hay chỉ là sự hội tụ tạm thời, nhưng rõ ràng cả hai bên — Trung Quốc và Mỹ — đều đang tiếp tục cải tiến kiến trúc, với hướng đi khác nhau. Trung Quốc ưu tiên hiệu quả chi phí và khả năng truy cập mở, trong khi Mỹ tập trung vào phát triển độc quyền và tối ưu hóa trải nghiệm người dùng toàn diện.
Dù thế nào, sự xuất hiện của Kimi K2 Thinking cho thấy cục diện cạnh tranh đang thay đổi, khi vị thế công nghệ không còn chỉ phụ thuộc vào tài nguyên tính toán, mà ngày càng dựa trên hiệu quả kinh tế và đổi mới kiến trúc — một lợi thế có thể nghiêng về phía các startup Trung Quốc nhanh nhạy và được tài trợ mạnh mẽ, hơn là những mô hình phương Tây đòi hỏi vốn đầu tư khổng lồ.

Mô hình Kimi K2 Thinking của Moonshot AI của Trung Quốc đã vượt qua GPT-5 của OpenAI và Claude Sonnet 4.5 của Anthropic trong nhiều bài kiểm tra chuẩn. Ảnh: Techwire Asia

