Startup trí tuệ nhân tạo Trung Quốc DeepSeek mở đầu năm 2026 bằng việc công bố một bài báo khoa học mới, do nhà sáng lập Liang Wenfeng đồng tác giả, trong đó đề xuất xem xét lại kiến trúc nền tảng được sử dụng để huấn luyện các mô hình AI nền tảng.
Phương pháp này – mang tên Manifold-Constrained Hyper-Connections (mHC, tạm diễn giải là cơ chế siêu liên kết được ràng buộc trong không gian đa tạp) – là một phần trong nỗ lực của công ty có trụ sở tại Hàng Châu nhằm giảm chi phí huấn luyện mô hình, trong bối cảnh DeepSeek tìm cách bắt kịp các đối thủ Mỹ được hậu thuẫn tốt hơn và có khả năng tiếp cận nguồn lực tính toán dồi dào hơn.
Công trình cũng phản ánh văn hóa ngày càng cởi mở và mang tính hợp tác trong cộng đồng các công ty AI Trung Quốc, khi ngày càng nhiều nghiên cứu được công bố công khai.
Đối với giới quan sát trong ngành, các bài báo của DeepSeek thường được xem là tín hiệu sớm về những lựa chọn kỹ thuật có thể định hình phiên bản mô hình lớn tiếp theo của startup này.
Trong bài báo công bố hôm thứ Năm, nhóm 19 nhà nghiên cứu của DeepSeek cho biết họ đã thử nghiệm mHC trên các mô hình có quy mô 3 tỷ, 9 tỷ và 27 tỷ tham số, và nhận thấy phương pháp này có thể mở rộng mà không làm tăng đáng kể gánh nặng tính toán.
“Các kết quả thực nghiệm xác nhận rằng mHC … [cho phép] huấn luyện ổn định ở quy mô lớn với khả năng mở rộng vượt trội so với HC (siêu liên kết) truyền thống,” nhóm nghiên cứu, do Zhenda Xie, Yixuan Wei và Huanqi Cao dẫn dắt, viết. Tên của nhà sáng lập Liang Wenfeng được liệt kê là tác giả cuối cùng.
Nhóm nghiên cứu cho biết thêm rằng, “điều then chốt là thông qua các tối ưu hóa hiệu quả ở cấp độ hạ tầng,” mHC đạt được những cải thiện này với “chi phí tính toán bổ sung không đáng kể”.
Bài báo cũng cung cấp thêm bằng chứng cho thấy Liang Wenfeng – người giữ hình ảnh khá kín tiếng dù danh tiếng của DeepSeek ngày càng tăng – vẫn tham gia chặt chẽ vào các nghiên cứu cốt lõi tại một trong những công ty AI được theo dõi sát sao nhất của Trung Quốc.
Khái niệm siêu liên kết lần đầu được các nhà nghiên cứu của ByteDance đề xuất vào tháng 9/2024 như một điều chỉnh đối với ResNet (mạng dư – residual networks), một kiến trúc học sâu chủ đạo được giới thiệu năm 2015 bởi các nhà khoa học của Microsoft Research Asia, trong đó có nhà khoa học máy tính nổi tiếng He Kaiming.
ResNet cho phép huấn luyện các mạng nơ-ron rất sâu bằng cách ổn định quá trình huấn luyện, bảo đảm rằng thông tin quan trọng – hay phần “dư” – được giữ lại khi số lượng lớp tăng lên. Kiến trúc này đã trở thành thành phần then chốt của các mô hình ngôn ngữ lớn như GPT của OpenAI, cũng như hệ thống AlphaFold từng đoạt giải Nobel của Google DeepMind.
Tuy nhiên, ResNet cũng có những hạn chế đáng kể, trong đó có khó khăn trong việc bảo đảm tín hiệu học lan truyền trong mạng nơ-ron vẫn đủ mạnh, thay vì “sụp đổ” về một trạng thái đồng nhất.
Theo các nhà nghiên cứu DeepSeek, giải pháp siêu liên kết của ByteDance đã xử lý thành công vấn đề này bằng cách mở rộng luồng dư và gia tăng độ phức tạp của mạng nơ-ron, “mà không làm thay đổi chi phí tính toán của từng đơn vị riêng lẻ”.
Tuy vậy, DeepSeek cho rằng cách tiếp cận trước đó chưa tính đầy đủ đến chi phí bộ nhớ ngày càng tăng, khiến “khả năng mở rộng trong thực tế” bị hạn chế khi huấn luyện các mô hình lớn.
Thay vào đó, DeepSeek đề xuất một điều chỉnh bổ sung, theo đó “ràng buộc” mạng siêu liên kết trong một đa tạp (manifold) cụ thể nhằm bảo đảm hiệu quả về tính toán và chi phí.
“mHC sẽ giúp khắc phục những hạn chế hiện tại và có thể mở ra những con đường mới cho sự phát triển của các kiến trúc nền tảng thế hệ tiếp theo,” nhóm nghiên cứu viết.
Bài báo được chính CEO DeepSeek Liang Wenfeng tải lên kho lưu trữ truy cập mở arXiv. Trước đây, ông cũng là người đăng tải các bài báo kỹ thuật quan trọng của DeepSeek, bao gồm những nghiên cứu liên quan đến các mô hình R1 và V3, trong khi các công trình ít quan trọng hơn thường do những nhà nghiên cứu khác công bố.
Florian Brand, nghiên cứu sinh tiến sĩ tại Đại học Trier (Đức) và là chuyên gia về hệ sinh thái AI Trung Quốc, cho biết các bài báo của DeepSeek thường đóng vai trò như tín hiệu sớm về định hướng kỹ thuật đứng sau thế hệ mô hình tiếp theo của công ty.
Kỳ vọng của ngành đang ở mức cao rằng DeepSeek có thể tung ra mô hình lớn tiếp theo vào giai đoạn cận kề kỳ nghỉ Tết Nguyên đán vào giữa tháng 2. Trước đó, công ty đã phát hành mô hình đột phá R1 ngay trước kỳ nghỉ lễ quốc gia năm ngoái, làm dấy lên suy đoán rằng họ có thể lặp lại “kịch bản” này trong năm nay.
|
Logo của DeepSeek được nhìn thấy trên cặp kính mắt của một người đeo. Bài báo khoa học mới của DeepSeek đã được CEO DeepSeek Liang Wenfeng trực tiếp đăng tải lên kho lưu trữ truy cập mở arXiv. Ông cũng là người đăng các bài báo kỹ thuật quan trọng hơn của DeepSeek trong những năm gần đây. Ảnh: SCMP

