
Startup trí tuệ nhân tạo (AI) Trung Quốc DeepSeek hôm thứ Năm, 21/8, đã công bố bản nâng cấp cho mô hình chủ lực V3, có thêm tính năng tối ưu hóa cho việc sử dụng các loại chip sản xuất trong nước, đồng thời cải thiện tốc độ xử lý.
Sự tập trung vào khả năng tương thích với chip nội địa có thể là dấu hiệu cho thấy các mô hình AI của DeepSeek đang được định vị để hoạt động trong hệ sinh thái bán dẫn đang nổi của Trung Quốc, trong bối cảnh Bắc Kinh thúc đẩy thay thế công nghệ Mỹ trước các hạn chế xuất khẩu từ Washington.
DeepSeek đã gây chấn động giới công nghệ đầu năm nay khi tung ra các mô hình AI có thể cạnh tranh với những mô hình phương Tây như ChatGPT của OpenAI, nhưng lại có chi phí vận hành thấp hơn.
Bản nâng cấp V3 lần này nối tiếp hai đợt cập nhật gần đây: bản nâng cấp cho mô hình R1 hồi tháng 5 và một bản cải tiến khác cho V3 hồi tháng 3.
Để hỗ trợ chip trong nước, DeepSeek cho biết trong một bài đăng trên WeChat rằng mô hình DeepSeek-V3.1 với định dạng độ chính xác UE8M0 FP8 được tối ưu cho “các dòng chip thế hệ mới sắp ra mắt” do Trung Quốc sản xuất.
Công ty không tiết lộ cụ thể mẫu chip hay nhà sản xuất nào sẽ được hỗ trợ.
DeepSeek-V3.1 có cấu trúc suy luận lai, cho phép mô hình hoạt động ở cả chế độ suy luận (reasoning) và không suy luận, công ty cho biết trong một bài đăng khác trên WeChat hôm thứ Năm.
Người dùng có thể chuyển đổi giữa các chế độ này bằng nút “deep thinking” trên ứng dụng chính thức và nền tảng web của công ty, vốn đã được cập nhật lên phiên bản V3.1.
Ngoài ra, công ty cũng sẽ điều chỉnh chi phí sử dụng giao diện lập trình ứng dụng (API) của mô hình – nền tảng cho phép các nhà phát triển ứng dụng và sản phẩm web khác tích hợp AI của DeepSeek – bắt đầu từ ngày 6 tháng 9, theo thông báo.
Tuy nhiên, trong một bài đăng trước đó, tờ South China Morning Post chú ý đến việc DeepSeek đã âm thầm loại bỏ việc nhắc đến mô hình suy luận R1 khỏi chatbot. Động thái này làm dấy lên đồn đoán công ty đang thay đổi hướng nghiên cứu và chưa rõ số phận của mô hình R2 vốn được chờ đợi.
Theo tờ báo, bản cập nhật ban đầu chỉ được công bố lặng lẽ trong một nhóm WeChat, không thông báo rộng rãi trên các kênh công khai. V3.1 mở rộng cửa sổ ngữ cảnh (tương tự như bộ nhớ tức thời của mô hình) lên 128k, cho phép mô hình ghi nhớ lượng thông tin tương đương một cuốn sách khoảng 300 trang khi trò chuyện. Đây là bản chỉnh sửa lớn đầu tiên kể từ tháng 3.
DeepSeek khi ra đời đã gây tiếng vang toàn cầu nhờ V3 (ra mắt tháng 12) và R1 (tháng 1), góp phần thúc đẩy làn sóng AI mã nguồn mở tại Trung Quốc. Tuy nhiên, công ty chưa bao giờ công khai lộ trình phát triển tiếp theo.
Trong vài tháng gần đây, DeepSeek đánh mất ưu thế. Trên nền tảng đám mây PPIO, thị phần của hãng giảm từ hơn 99% trong quý I xuống còn khoảng 80% vào tháng 6, trong khi dòng Qwen của Alibaba đã vượt lên. Một nguyên nhân là DeepSeek chỉ tập trung vào mô hình dựa trên văn bản, trong khi đối thủ mở rộng sang đa phương thức và lập trình. Ngoài ra, mô hình Kimi-K2-Instruct của MoonShot AI (được Alibaba hậu thuẫn) cũng đang tăng trưởng nhanh.
Dù vậy, V3.1 vẫn được đánh giá cao ở khả năng lập trình. Theo bảng xếp hạng Aider Benchmark, đây là mô hình tốt nhất trong số hệ thống AI của Trung Quốc, nhưng vẫn xếp sau Claude Opus 4 của đối thủ quốc tế.
Theo Financial Times, việc ra mắt mô hình R2 bị trì hoãn do DeepSeek gặp khó khăn khi huấn luyện trên chip Ascend của Huawei, với nhiều “vấn đề kỹ thuật dai dẳng”. Trong khi đó, mô hình V3 gốc từng được huấn luyện bằng 2.048 chip Nvidia H800.
Logo cá voi của DeepSeek cùng biểu tượng AI. Ảnh: SCMP