
Có rất nhiều mô hình ngôn ngữ lớn (LLM) để lựa chọn cho công việc nghiên cứu; một số vượt trội trong lập trình, trong khi những mô hình khác lại giỏi tổng hợp thông tin hơn.
Gần như mỗi tuần lại có một công cụ trí tuệ nhân tạo (AI) mới và dường như ấn tượng hơn được ra mắt, thu hút các nhà nghiên cứu thử nghiệm. Dù muốn dùng để chỉnh sửa bản thảo, viết mã hay tạo giả thuyết, các nhà nghiên cứu hiện có nhiều công cụ AI tạo sinh hơn bao giờ hết.
Mỗi LLM phù hợp với các nhiệm vụ khác nhau. Một số có thể được truy cập miễn phí thông qua chatbot, trong khi một số khác yêu cầu sử dụng giao diện lập trình ứng dụng (API) trả phí để tích hợp vào phần mềm khác. Một số mô hình còn có thể tải xuống, cho phép các nhà nghiên cứu tự xây dựng mô hình tùy chỉnh.
Dù các LLM có thể tạo ra phản hồi giống con người, chúng vẫn mắc nhiều lỗi đến mức không thể sử dụng độc lập, theo Carrie Wright, một nhà khoa học dữ liệu tại Trung tâm Ung thư Fred Hutchinson ở Seattle, Washington.
Vậy mô hình nào là tốt nhất cho từng tác vụ? Dưới đây, các nhà nghiên cứu chia sẻ với Tạp chí Nature những lựa chọn yêu thích của họ để giúp những ai đang cần định hướng.
o3-mini – Bộ suy luận
OpenAI, trụ sở tại San Francisco, California, đã giới thiệu LLM với thế giới vào năm 2022 thông qua chatbot ChatGPT miễn phí. Các nhà khoa học chủ yếu sử dụng chatbot này để tra cứu thông tin hoặc hỗ trợ viết, chẳng hạn như soạn thảo tóm tắt, nhưng các mô hình mới hơn đang mở rộng tiềm năng ứng dụng.
Tháng 9 năm ngoái, OpenAI đã gây ấn tượng với giới khoa học khi ra mắt mô hình suy luận o1, sau đó là phiên bản nâng cấp o3 vào tháng 12. Cả hai mô hình này hoạt động chậm hơn so với các LLM thông thường vì chúng được huấn luyện để trả lời từng bước theo phương pháp “chuỗi suy nghĩ” (chain of thought), giúp mô phỏng cách suy luận của con người. Điều này giúp chúng vượt qua các bài kiểm tra khó về khoa học và toán học, đồng thời trở thành công cụ đắc lực cho các tác vụ kỹ thuật như giải quyết lỗi mã hoặc định dạng lại dữ liệu.
Sau khi DeepSeek, một startup ít tên tuổi ở Hàng Châu, Trung Quốc, ra mắt một đối thủ cạnh tranh vào ngày 20-1, OpenAI đã đáp trả bằng loạt công cụ mới, bao gồm o3-mini – một bộ suy luận miễn phí cho người dùng chatbot đã đăng ký – và tính năng “nghiên cứu sâu”, cho phép một số thuê bao trả phí tạo báo cáo tổng hợp thông tin từ hàng trăm trang web có trích dẫn, tương tự như một bài tổng quan học thuật.
Với các nhiệm vụ như phân tích các khái niệm phức tạp trong một chứng minh toán học mới, o3-mini hoạt động “rất tốt”, theo Simon Frieder, nhà toán học và nghiên cứu AI tại Đại học Oxford, Anh. Tuy nhiên, ngay cả những mô hình tốt nhất “vẫn chưa thể sánh ngang với một nhà toán học”, ông nói.
DeepSeek – Công cụ toàn diện
DeepSeek-R1, ra mắt tháng trước, có năng lực tương đương o1 nhưng được cung cấp qua API với chi phí thấp hơn nhiều. Khác với các mô hình của OpenAI, nó có mã trọng số mở, nghĩa là dù dữ liệu huấn luyện chưa được công bố, bất kỳ ai cũng có thể tải mô hình nền tảng xuống và tùy chỉnh theo dự án nghiên cứu của mình.
DeepSeek-R1 đã “mở ra một mô hình mới”, nơi các cộng đồng với ít nguồn lực hơn có thể xây dựng các mô hình suy luận chuyên biệt, theo Andrew White, chuyên gia hóa học và AI tại startup FutureHouse ở San Francisco.
Tuy nhiên, để vận hành toàn bộ mô hình cần có chip tính toán mạnh, thứ mà nhiều nhà nghiên cứu học thuật thiếu. Nhưng Benyou Wang, nhà khoa học máy tính tại Đại học Trung Quốc Hong Kong ở Thượng Hải, đang phát triển phiên bản có thể chạy trên một máy tính duy nhất.
Tương tự o1, DeepSeek-R1 xuất sắc trong việc giải toán và lập trình. Tuy nhiên, nó cũng thể hiện tốt trong việc tạo giả thuyết, theo White. Điều này nhờ vào việc DeepSeek công khai toàn bộ “quá trình suy nghĩ” của mô hình, giúp các nhà nghiên cứu dễ dàng điều chỉnh câu hỏi và cải thiện kết quả đầu ra. Tính minh bạch này cũng có thể rất hữu ích trong chẩn đoán y khoa. Wang đang thử nghiệm sử dụng R1 để xây dựng “một lộ trình rõ ràng và logic từ đánh giá bệnh nhân đến chẩn đoán và đề xuất điều trị”, ông nói.
Dù vậy, DeepSeek-R1 có một số nhược điểm. Mô hình này có quá trình “suy nghĩ” khá dài, khiến nó chậm hơn và kém hiệu quả trong việc tra cứu thông tin hoặc động não ý tưởng. Các lo ngại về bảo mật dữ liệu nhập vào API và chatbot của DeepSeek đã khiến một số chính phủ cấm nhân viên cơ quan nhà nước sử dụng công cụ này.
Ngoài ra, DeepSeek dường như ít chú trọng đến các biện pháp kiểm soát nội dung độc hại hơn so với các đối thủ thương mại. Việc bổ sung bộ lọc để ngăn chặn đầu ra nguy hiểm – chẳng hạn như hướng dẫn chế tạo vũ khí – đòi hỏi thời gian và công sức. Dù khó có khả năng đây là chủ ý, nhưng “việc thiếu các rào cản bảo vệ vẫn đáng lo ngại”, theo Simon.
OpenAI cũng ám chỉ rằng DeepSeek có thể đã “sao chép không hợp lệ” các mô hình của mình bằng phương pháp chưng cất mô hình, tức là huấn luyện AI dựa trên đầu ra của một thuật toán khác, điều mà điều khoản sử dụng của OpenAI cấm.
Một số nhà nghiên cứu coi việc “chưng cất” này là phổ biến và vẫn sử dụng R1, nhưng một số khác e ngại nguy cơ liên quan đến kiện tụng trong tương lai. Có khả năng các nhà khoa học sử dụng R1 có thể bị yêu cầu rút lại bài báo, nếu việc dùng mô hình này bị coi là vi phạm tiêu chuẩn đạo đức của các tạp chí, theo Ana Catarina De Alencar, luật sư tại EIT Manufacturing ở Paris chuyên về luật AI.
Tình huống tương tự cũng có thể xảy ra với các mô hình của OpenAI và các công ty khác bị cáo buộc vi phạm sở hữu trí tuệ, De Alencar cho biết. Một số tổ chức báo chí tuyên bố rằng các công ty này đã sử dụng nội dung báo chí để huấn luyện mô hình mà không có sự cho phép.
Llama – Chú ngựa thồ
Llama từ lâu đã là một mô hình LLM được cộng đồng nghiên cứu tin dùng. Đây là một dòng mô hình mã nguồn mở đầu tiên được Meta AI ở California, phát hành vào năm 2023. Các phiên bản của Llama đã được tải xuống hơn 600 triệu lần chỉ riêng trên nền tảng khoa học mở Hugging Face. “Khả năng tải xuống và tùy chỉnh có lẽ là lý do khiến Llama được cộng đồng nghiên cứu ưa chuộng,” theo Elizabeth Humphries, nhà khoa học dữ liệu tại Trung tâm Ung thư Fred Hutchinson.
Khả năng chạy một LLM trên máy chủ cá nhân hoặc tổ chức là điều thiết yếu khi làm việc với dữ liệu độc quyền hoặc được bảo vệ, nhằm tránh thông tin nhạy cảm bị gửi lại cho người dùng khác hoặc cho các nhà phát triển, Wright cho biết.
Các nhà nghiên cứu đã phát triển dựa trên các mô hình của Llama để tạo ra những LLM có khả năng dự đoán cấu trúc tinh thể của vật liệu cũng như mô phỏng đầu ra của một máy tính lượng tử. Tianlong Chen, nhà khoa học học máy tại Đại học Bắc Carolina ở Chapel Hill, cho biết Llama phù hợp để mô phỏng máy tính lượng tử vì nó có thể dễ dàng được điều chỉnh để hiểu ngôn ngữ lượng tử chuyên biệt.
Tuy nhiên, Llama yêu cầu người dùng phải xin quyền truy cập, điều này gây ra một chút bất tiện, theo White. Do đó, các mô hình mở khác như OLMo của Viện Trí tuệ Nhân tạo Allen tại Seattle hoặc Qwen của Alibaba Cloud tại Hàng Châu hiện thường là lựa chọn hàng đầu trong nghiên cứu. Mô hình nền tảng V3 hiệu quả của DeepSeek cũng là một đối thủ cạnh tranh để xây dựng các mô hình khoa học.
Claude – chuyên gia lập trình
Tại Silicon Valley, nhiều người đánh giá cao (swear by) Claude 3.5 Sonnet khi viết code, theo Simon. Được phát triển bởi công ty AI Anthropic có trụ sở tại San Francisco, Claude 3.5 Sonnet có thể diễn giải thông tin hình ảnh, chẳng hạn như biểu đồ và đồ thị, bên cạnh văn bản. Ngoài ra, nó có một chế độ cho phép điều khiển từ xa máy tính của người dùng, có khả năng vận hành phần mềm khác.
Các mô hình Claude còn được đánh giá cao về phong cách viết. Khi một số LLM, như ChatGPT, loại bỏ ngôn ngữ kỹ thuật, chúng có thể vô tình làm mất đi ý nghĩa quan trọng, Wright cho biết. Các mô hình Claude lại có khả năng làm trơn tru câu chữ mà vẫn giữ nguyên ý nghĩa ban đầu.
Claude 3.5 Sonnet thể hiện tốt trong các bài kiểm tra lập trình dựa trên các nhiệm vụ khoa học sử dụng dữ liệu thực tế từ các bài báo về tin sinh học và toán hóa học, theo Huan Sun, nhà nghiên cứu AI tại Đại học Bang Ohio ở Columbus. Mặc dù Claude 3.5 Sonnet có thể được sử dụng miễn phí dưới dạng chatbot trực tuyến, nhưng để tích hợp đầy đủ vào các hệ thống khác, người dùng cần truy cập thông qua API trả phí, tương tự như các mô hình của OpenAI. “Với việc các mô hình mã nguồn mở giá rẻ ngày càng mạnh mẽ hơn, tôi tin rằng mọi người sẽ ưu tiên chúng hơn là sử dụng API mã nguồn đóng,” Sun nhận định.
OLMo – mô hình thực sự mở
Những nhà nghiên cứu muốn tìm hiểu sâu về cách một LLM hoạt động cần một mô hình minh bạch hơn cả Llama và DeepSeek. Các mô hình nguồn mở thực sự, thay vì chỉ mở trọng số (open-weight), sẽ cung cấp dữ liệu huấn luyện của thuật toán cũng như mã nguồn được sử dụng để huấn luyện và đánh giá mô hình, theo Lewis Tunstall, nhà nghiên cứu tại Hugging Face. Hiện tại, mô hình hàng đầu theo dạng này là OLMo 2.
Nghiên cứu những mô hình này giúp các nhà khoa học truy vết nguồn gốc của nhận định sai trong LLM để truy ngược lại dữ liệu huấn luyện, đồng thời cải thiện hiệu suất bằng cách hiểu rõ hơn cách thuật toán tạo ra kết quả đầu ra. Nhược điểm chính của bất kỳ mô hình nguồn mở nào là người dùng thường cần có chuyên môn để vận hành chúng, nhưng với số lượng ngày càng tăng các khóa học thực hành miễn phí dành cho cộng đồng, “rào cản tiếp cận đang giảm dần từng ngày,” Tunstall cho biết.
Anh cũng lưu ý rằng nếu tòa án tuyên bố việc huấn luyện AI bằng nội dung có bản quyền là bất hợp pháp, thì các mô hình được đào tạo trên bộ dữ liệu “mở” cho phép tái sử dụng và sửa đổi, chẳng hạn như nỗ lực của Hugging Face nhằm tái tạo DeepSeek-R1, có thể là những mô hình duy nhất an toàn để sử dụng.
OpenAI và DeepSeek nằm trong số các mô hình AI được sử dụng nhiều hiện nay. Ảnh: AFP