
Công ty phát triển trí tuệ nhân tạo DeepSeek của Trung Quốc vừa giới thiệu mô hình mới mang tính “thử nghiệm”, được cho là hiệu quả hơn trong huấn luyện và xử lý các chuỗi văn bản dài so với các phiên bản trước của mô hình ngôn ngữ lớn.
Công ty có trụ sở tại Hàng Châu gọi mô hình này là DeepSeek-V3.2-Exp, mô tả nó như một “bước trung gian hướng tới kiến trúc thế hệ tiếp theo” trong một bài đăng trên diễn đàn lập trình Hugging Face.
Kiến trúc mới này nhiều khả năng sẽ là sản phẩm quan trọng nhất của DeepSeek kể từ khi V3 và R1 gây chấn động Thung lũng Silicon và các nhà đầu tư công nghệ ngoài Trung Quốc.
Mô hình V3.2-Exp bao gồm một cơ chế gọi là DeepSeek Sparse Attention, mà công ty Trung Quốc cho biết có thể cắt giảm chi phí tính toán và cải thiện hiệu suất ở một số loại tác vụ. DeepSeek cũng thông báo trên X hôm thứ Hai rằng họ sẽ giảm giá giao diện lập trình ứng dụng (API) hơn 50%.
Dù kiến trúc thế hệ tiếp theo của DeepSeek khó có thể gây biến động thị trường như các phiên bản ra mắt hồi tháng 1, nó vẫn có thể tạo sức ép đáng kể lên các đối thủ trong nước như Qwen của Alibaba và các đối thủ Mỹ như OpenAI, nếu tiếp tục lặp lại thành công của DeepSeek R1 và V3. Điều đó đòi hỏi DeepSeek phải chứng minh được năng lực cao với chi phí chỉ bằng một phần so với những gì đối thủ phải bỏ ra để huấn luyện mô hình.
Biển hiệu AI của DeepSeek tại tòa nhà nơi công ty khởi nghiệp này đặt văn phòng ở Bắc Kinh, Trung Quốc. Ảnh: Reuters