DeepSeek sắp ra mắt mô hình AI mới và câu chuyện phía sau -

Thông tin về việc DeepSeek sắp ra mắt mô hình trí tuệ nhân tạo mới sau khi mô hình R1 của startup này gây sững sờ cho nhiều “ông lớn” công nghệ và làm đảo lộn thị trường tài chính toàn cầu vào tháng 1-2025. Chưa ai biết phiên bản sắp tới của DeepSeek là gì vì tất cả còn trong vòng bí mật, nhưng với việc Trung Quốc “đặt cược” vào DeepSeek, nhiều người tin rằng thế giới công nghệ sẽ chứng kiến cuộc cạnh tranh mới khốc liệt hơn. Hãng tin Reuters với một bài phóng sự sâu về DeepSeek đã cho thấy phần nào bức tranh phát triển của startup này, từ việc công ty mẹ của DeepSeek đã đầu tư như thế nào vào AI – không phải chỉ là vài triệu USD như công bố – cũng như DeepSeek đã đi trước lệnh cấm xuất khẩu chip hiệu suất cao của Mỹ như ra sao.

DeepSeek đang tìm cách tận dụng lợi thế của mình, với việc đẩy nhanh tiến độ ra mắt phiên bản kế nhiệm của mô hình R1 đã có mặt trên thị trường từ tháng 1. Startup Trung Quốc này đã khiến thị trường chứng khoán toàn cầu bốc hơi hơn 1 nghìn tỷ USD vào tháng trước khi tung ra mô hình AI giá rẻ R1 có khả năng suy luận vượt trội hơn nhiều đối thủ phương Tây.

DeepSeek trước đó dự kiến phát hành R2 vào đầu tháng 5 nhưng hiện đang muốn ra mắt sớm nhất có thể, hai nguồn tin cho biết, mà không cung cấp thông tin cụ thể.

Công ty cho biết họ kỳ vọng mô hình mới sẽ cải thiện khả năng lập trình và có thể suy luận bằng nhiều ngôn ngữ ngoài tiếng Anh. Chi tiết về lộ trình đẩy nhanh tiến độ ra mắt R2 chưa từng được báo cáo trước đây.

Các đối thủ vẫn đang phân tích tác động của R1, một mô hình được phát triển bằng các chip Nvidia kém mạnh mẽ hơn nhưng vẫn có thể cạnh tranh với các mô hình do các tập đoàn công nghệ Mỹ đầu tư hàng trăm tỷ USD phát triển.

“Việc ra mắt mô hình R2 của DeepSeek có thể là một cột mốc đảo chiều trong ngành AI,” Vijayasimha Alilughatta, giám đốc điều hành công ty dịch vụ công nghệ Zensar của Ấn Độ, nhận định. Thành công của DeepSeek trong việc tạo ra các mô hình AI chi phí thấp “có thể thúc đẩy các công ty trên toàn thế giới đẩy nhanh nỗ lực của mình… phá vỡ sự thống trị của một số ít ông lớn trong ngành,” ông nói.

Sự xuất hiện của R2 có thể khiến chính phủ Mỹ lo ngại, khi nước này xác định AI là ưu tiên quốc gia. Việc ra mắt R2 cũng có thể tạo động lực lớn hơn cho chính quyền và doanh nghiệp Trung Quốc, trong đó hàng chục công ty cho biết họ đã bắt đầu tích hợp mô hình của DeepSeek vào sản phẩm của mình.

Ít thông tin được biết về DeepSeek, công ty do Liang Wenfeng sáng lập. Ông trở thành tỷ phú nhờ quỹ phòng hộ định lượng (quantitative hedge fund) High-Flyer. Liang, người được một cựu đồng nghiệp mô tả là “kín tiếng và hướng nội,” chưa trả lời phỏng vấn truyền thông kể từ tháng 7 năm 2024.

Reuters đã phỏng vấn hàng chục cựu nhân viên, cũng như các chuyên gia quỹ định lượng hiểu rõ về hoạt động của DeepSeek và công ty mẹ High-Flyer.

Những người này cho biết DeepSeek vận hành giống như một phòng thí nghiệm nghiên cứu hơn là một doanh nghiệp tìm kiếm lợi nhuận, đồng thời không bị ràng buộc bởi hệ thống phân cấp cứng nhắc vốn phổ biến trong ngành công nghệ đầy áp lực của Trung Quốc, dù công ty này đang được các nhà đầu tư xem là đơn vị tạo ra đột phá mới nhất trong AI.

Lộ trình khác biệt

Liang sinh năm 1985 tại một ngôi làng thuộc tỉnh Quảng Đông, miền nam Trung Quốc. Ông sau đó lấy bằng kỹ sư truyền thông tại Đại học Chiết Giang danh tiếng.

Một trong những công việc đầu tiên của ông là điều hành bộ phận nghiên cứu tại một công ty hình ảnh thông minh ở Thượng Hải. Cựu sếp của ông, Zhou Chaoen, nói với truyền thông nhà nước ngày 9-2 rằng Liang đã tuyển dụng những kỹ sư thuật toán đạt giải thưởng và áp dụng “mô hình quản lý phẳng.”

Tại DeepSeek và High-Flyer, Liang cũng tránh xa cách điều hành của các tập đoàn công nghệ Trung Quốc, vốn nổi tiếng với quản lý từ trên xuống cứng nhắc, lương thấp cho nhân viên trẻ và văn hóa làm việc “996” – từ 9 giờ sáng đến 9 giờ tối, sáu ngày một tuần.

Ông đặt văn phòng DeepSeek tại Bắc Kinh, gần Đại học Thanh Hoa và Đại học Bắc Kinh, hai trường danh giá nhất Trung Quốc. Ông thường xuyên tham gia vào các chi tiết kỹ thuật và làm việc cùng với các thực tập sinh thế hệ Gen Z và những sinh viên mới tốt nghiệp, nhóm chiếm phần lớn nhân sự của công ty, theo hai cựu nhân viên.

“Liang cho chúng tôi quyền tự chủ và đối xử như chuyên gia. Ông ấy liên tục đặt câu hỏi và học hỏi cùng chúng tôi,” Benjamin Liu, một nhà nghiên cứu 26 tuổi đã rời công ty vào tháng 9, cho biết. “DeepSeek cho phép tôi phụ trách những phần quan trọng của hệ thống, điều đó rất thú vị.”

Liang không trả lời các câu hỏi được gửi qua DeepSeek.

Trong khi Baidu và các tập đoàn công nghệ Trung Quốc khác chạy đua phát triển phiên bản ChatGPT hướng tới người tiêu dùng vào năm 2023 để hưởng lợi từ cơn sốt AI toàn cầu, Liang nói với tờ báo Trung Quốc Waves năm ngoái rằng ông cố ý tránh đầu tư mạnh vào phát triển ứng dụng, thay vào đó tập trung nâng cao chất lượng mô hình AI.

Cả DeepSeek và High-Flyer đều nổi tiếng trả lương cao, theo ba nguồn tin quen thuộc với chính sách lương thưởng của công ty. Tại High-Flyer, một nhà khoa học dữ liệu cấp cao có thể nhận mức lương 1,5 triệu nhân dân tệ mỗi năm, trong khi các công ty đối thủ hiếm khi trả quá 800.000.

Khoản đãi ngộ hậu hĩnh (largesse) này đến từ High-Flyer, một trong những quỹ định lượng (quant funds) thành công nhất Trung Quốc. Ngay cả sau khi chính phủ siết chặt quản lý lĩnh vực này, quỹ vẫn quản lý số tài sản lên đến hàng chục tỷ nhân dân tệ.

Sức mạnh tính toán

Thành công của DeepSeek với mô hình AI giá rẻ dựa trên khoản đầu tư đáng kể kéo dài hàng thập kỷ của High-Flyer vào nghiên cứu và sức mạnh tính toán, theo ba nguồn tin.

Quỹ định lượng này là một trong những đơn vị tiên phong trong giao dịch AI và một lãnh đạo cấp cao cho biết vào năm 2020 rằng High-Flyer đang “dồn toàn lực” cho AI bằng cách tái đầu tư 70% doanh thu, chủ yếu vào nghiên cứu AI.

High-Flyer đã chi 1,2 tỷ nhân dân tệ (khoảng 165 triệu USD) để xây dựng hai cụm siêu máy tính AI vào năm 2020 và 2021. Cụm thứ hai, Fire-Flyer II, bao gồm khoảng 10.000 chip Nvidia A100 dùng để huấn luyện mô hình AI.

DeepSeek vẫn chưa được thành lập vào thời điểm đó, vì vậy việc tích lũy sức mạnh tính toán đã thu hút sự chú ý của các cơ quan quản lý chứng khoán Trung Quốc, theo một nguồn tin am hiểu về giới chức trách.

“Các cơ quan quản lý muốn biết tại sao họ lại cần nhiều chip như vậy? Họ định sử dụng chúng vào việc gì? Điều đó sẽ tác động thế nào đến thị trường?” nguồn tin cho biết.

Chính quyền quyết định không can thiệp, một động thái mang tính quyết định đối với thành công của DeepSeek: Mỹ đã cấm xuất khẩu chip A100 sang Trung Quốc vào năm 2022, thời điểm Fire-Flyer II đã đi vào hoạt động.

Bắc Kinh hiện ca ngợi DeepSeek, nhưng đã chỉ thị công ty không được giao tiếp với truyền thông nếu chưa có sự chấp thuận, theo một nguồn tin hiểu rõ quan điểm của chính phủ Trung Quốc.

Chính quyền đã yêu cầu Liang giữ thái độ kín tiếng vì lo ngại rằng quá nhiều sự chú ý từ truyền thông sẽ gây ra những ảnh hưởng không mong muốn, nguồn tin nói.

Quốc vụ viện Trung Quốc, Bộ Thương mại Trung Quốc cũng như cơ quan quản lý chứng khoán nước này không phản hồi yêu cầu bình luận.

Là một trong số ít công ty sở hữu cụm A100 quy mô lớn, High-Flyer và DeepSeek đã thu hút được một số tài năng nghiên cứu hàng đầu của Trung Quốc, theo hai cựu nhân viên.

“Lợi thế cốt lõi của nguồn tài nguyên tính toán khổng lồ là nó cho phép tiến hành thử nghiệm trên quy mô lớn,” Liu, cựu nhân viên DeepSeek, cho biết.

Một số doanh nhân AI phương Tây, như CEO Scale AI Alexandr Wang, tuyên bố rằng DeepSeek sở hữu tới 50.000 chip Nvidia cao cấp, vốn bị cấm xuất khẩu sang Trung Quốc. Tuy nhiên, ông này không đưa ra bằng chứng nào cho thông tin trên và cũng không phản hồi yêu cầu từ Reuters về việc cung cấp bằng chứng.

DeepSeek không đưa ra phản hồi về tuyên bố của Wang. Hai cựu nhân viên công ty cho rằng thành công của DeepSeek bắt nguồn từ việc Liang tập trung vào kiến trúc AI tiết kiệm chi phí hơn.

Startup này đã sử dụng các kỹ thuật như Mixture-of-Experts (MoE) và multihead latent attention (MLA) là hai mô hình kiểu “chia nhỏ để xử lý” giúp giảm bớt tài nguyên tính toán, giảm đáng kể chi phí tính toán.

Cụ thể, kỹ thuật MoE chia mô hình AI thành các khu vực chuyên biệt và chỉ kích hoạt những khu vực liên quan đến truy vấn, thay vì sử dụng toàn bộ mô hình như các kiến trúc phổ biến khác. Trong khi đó, kiến trúc MLA cho phép mô hình xử lý đồng thời nhiều khía cạnh của một thông tin, giúp nó phát hiện các chi tiết quan trọng hiệu quả hơn.

Dù các đối thủ như Mistral của Pháp cũng đã phát triển mô hình dựa trên MoE, DeepSeek là công ty đầu tiên áp dụng kiến trúc này một cách rộng rãi mà vẫn đạt được chất lượng ngang bằng với những mô hình được xây dựng với chi phí cao hơn.

Mức giá của DeepSeek rẻ hơn từ 20 đến 40 lần so với OpenAI đối với các mô hình tương đương, theo ước tính của các nhà phân tích tại công ty môi giới Bernstein hồi đầu tháng 2.

Hiện tại, các tập đoàn công nghệ phương Tây và Trung Quốc vẫn tiếp tục chi mạnh tay cho AI, nhưng thành công của DeepSeek với R1 và mô hình V3 trước đó đã khiến một số công ty phải điều chỉnh chiến lược.

OpenAI đã cắt giảm giá trong tháng này, trong khi Gemini của Google tung ra các gói truy cập giảm giá. Kể từ khi R1 ra mắt, OpenAI cũng giới thiệu mô hình o3-mini sử dụng ít tài nguyên tính toán hơn.

Adnan Masood, chuyên gia của công ty dịch vụ công nghệ Mỹ UST, nói với Reuters rằng phòng thí nghiệm của ông đã chạy các bài đánh giá và nhận thấy R1 thường sử dụng lượng token – đơn vị dữ liệu được AI xử lý – gấp ba lần so với mô hình thu gọn của OpenAI khi thực hiện suy luận.

Sự hậu thuẫn từ chính quyền

Ngay từ trước khi R1 thu hút sự chú ý toàn cầu, đã có dấu hiệu cho thấy DeepSeek nhận được sự ưu ái từ Bắc Kinh. Hồi tháng 1, truyền thông nhà nước đưa tin rằng Liang tham dự một cuộc họp với Thủ tướng Trung Quốc Lý Cường tại Bắc Kinh với tư cách là đại diện của ngành AI, vượt qua các lãnh đạo của nhiều công ty danh tiếng hơn.

Sự quan tâm đặc biệt dành cho tính cạnh tranh về chi phí của các mô hình DeepSeek đã củng cố niềm tin của Bắc Kinh rằng họ có thể đổi mới nhanh hơn Mỹ, và các doanh nghiệp và cơ quan chính phủ Trung Quốc đón nhận DeepSeek với tốc độ chưa từng có.

Ít nhất 13 chính quyền thành phố Trung Quốc và 10 công ty năng lượng nhà nước cho biết họ đã triển khai DeepSeek vào hệ thống của mình, trong khi các tập đoàn công nghệ như Lenovo, Baidu và Tencent – chủ sở hữu ứng dụng mạng xã hội lớn nhất Trung Quốc WeChat – đã tích hợp các mô hình DeepSeek vào sản phẩm của họ.

Chủ tịch Trung Quốc Tập Cận Bình và Thủ tướng Lý “đã phát tín hiệu ủng hộ DeepSeek,” theo Alfred Wu, chuyên gia về chính sách Trung Quốc tại Trường Chính sách Công Lý Quang Diệu ở Singapore. “Giờ đây, ai cũng ủng hộ nó.”

Sự ủng hộ này diễn ra trong bối cảnh nhiều chính phủ từ Hàn Quốc đến Ý loại bỏ DeepSeek khỏi các cửa hàng ứng dụng quốc gia, viện dẫn lo ngại về quyền riêng tư.

“Nếu DeepSeek trở thành mô hình AI tiêu chuẩn trong các cơ quan nhà nước Trung Quốc, các cơ quan quản lý phương Tây có thể coi đây là lý do để siết chặt hơn nữa các hạn chế đối với chip AI hoặc hợp tác phần mềm,” Stephen Wu, chuyên gia AI và nhà sáng lập quỹ đầu cơ Carthage Capital, nhận định.

Hạn chế ngày càng gia tăng đối với chip AI cao cấp là một thách thức mà chính Liang cũng thừa nhận.

“Vấn đề của chúng tôi chưa bao giờ là tài chính,” ông nói với Waves hồi tháng 7. “Đó là lệnh cấm vận đối với các chip cao cấp.”

Logo của DeepSeek. Ảnh: Reuters