
o3, một mô hình trí tuệ nhân tạo (AI) do OpenAI – cha đẻ của ChatGPT – phát triển, vừa được xếp hạng là công cụ AI tốt nhất trong việc trả lời các truy vấn khoa học ở nhiều lĩnh vực khác nhau, theo một nền tảng đánh giá vừa ra mắt tuần trước.
SciArena, do Viện Trí tuệ Nhân tạo Allen (Ai2) tại Seattle, Washington phát triển, đã xếp hạng 23 mô hình ngôn ngữ lớn (LLM) dựa trên câu trả lời của chúng cho các câu hỏi khoa học. Chất lượng câu trả lời được bình chọn bởi 102 nhà nghiên cứu. Mô hình o3, do OpenAI tại San Francisco, California phát triển, được xếp hạng tốt nhất trong việc trả lời câu hỏi về khoa học tự nhiên, chăm sóc sức khỏe, kỹ thuật và khoa học xã hội – nhân văn, với hơn 13.000 lượt bình chọn.
DeepSeek-R1, do công ty DeepSeek ở Hàng Châu, Trung Quốc phát triển, đứng thứ hai ở hạng mục khoa học tự nhiên và thứ tư trong lĩnh vực kỹ thuật. Gemini-2.5-Pro của Google xếp thứ ba trong khoa học tự nhiên, và thứ năm trong kỹ thuật và chăm sóc sức khỏe.
Lý do người dùng ưa chuộng o3 có thể đến từ việc mô hình này có xu hướng cung cấp nhiều chi tiết về các tài liệu tham khảo và tạo ra các phản hồi mang tính chuyên môn cao, theo Arman Cohan – nhà khoa học tại Ai2. Tuy nhiên, việc lý giải vì sao hiệu suất các mô hình khác nhau là điều không dễ, bởi hầu hết các mô hình đều thuộc sở hữu độc quyền. Sự khác biệt về dữ liệu huấn luyện và mục tiêu tối ưu hóa có thể là một phần lý do.
SciArena là một trong những nền tảng đầu tiên đánh giá hiệu suất các mô hình AI trong các nhiệm vụ khoa học bằng phản hồi từ cộng đồng. “SciArena là một nỗ lực tích cực nhằm thúc đẩy việc đánh giá cẩn trọng các nhiệm vụ sử dụng LLM trong lĩnh vực học thuật,” theo Rahul Shome, nhà nghiên cứu robot và AI tại Đại học Quốc gia Úc ở Canberra.
Chọn ngẫu nhiên
Để xếp hạng 23 mô hình LLM, SciArena yêu cầu các nhà nghiên cứu gửi câu hỏi khoa học. Các câu hỏi được trả lời bởi hai mô hình được chọn ngẫu nhiên, và mỗi câu trả lời kèm theo trích dẫn từ Semantic Scholar – một công cụ nghiên cứu AI do Ai2 phát triển. Người dùng sau đó sẽ bình chọn xem mô hình nào trả lời tốt hơn, cả hai ngang nhau, hay cả hai đều không đạt.
Hiện nền tảng đã mở công khai và cho phép người dùng đặt câu hỏi nghiên cứu miễn phí. Mỗi người dùng sẽ nhận được câu trả lời từ hai mô hình và có thể bình chọn về chất lượng, nhưng chỉ các phiếu từ người dùng được xác thực và chấp thuận điều khoản sử dụng mới được đưa vào bảng xếp hạng chính thức, vốn sẽ được cập nhật thường xuyên.
Theo Jonathan Kummerfeld – nhà nghiên cứu AI tại Đại học Sydney, việc có thể hỏi các mô hình LLM về chủ đề khoa học và tin tưởng vào câu trả lời sẽ giúp các nhà nghiên cứu cập nhật nhanh chóng tài liệu mới trong lĩnh vực của mình. “Điều này sẽ giúp họ phát hiện những công trình mà có thể họ đã bỏ sót.”
Kummerfeld cho rằng bảng xếp hạng công khai sẽ thúc đẩy đổi mới trong ngành AI vì nó tạo ra cách đo lường minh bạch về tiến bộ. Anh cũng đánh giá SciArena được thiết kế tốt để tránh tình trạng thao túng điểm số – vấn đề mà các nền tảng đánh giá khác từng gặp phải.
Tuy nhiên, một thách thức tiềm ẩn là nền tảng này phụ thuộc vào sự tham gia của người dùng. “Người dùng đang đổi thời gian lấy quyền sử dụng công cụ,” anh nói. “Chừng nào họ thấy sự trao đổi đó là xứng đáng, nền tảng sẽ hoạt động tốt. Nhưng nếu không thấy giá trị, mức độ tham gia có thể giảm sút.”
Cohan cho biết nền tảng thu hút người dùng nhờ miễn phí và cập nhật những mô hình AI mới nhất. Ngoài ra, việc tích hợp các trích dẫn từ Semantic Scholar giúp câu trả lời “thực sự hữu ích” cho giới nghiên cứu.
Tuy nhiên, Shome cảnh báo các nhà khoa học cần nhớ rằng LLM vẫn có thể tạo ra văn bản mâu thuẫn với tài liệu được trích dẫn, hiểu sai thuật ngữ, hoặc không trả lời chính xác câu hỏi. Việc đọc bản tóm tắt do AI tạo ra không thể thay thế cho việc đọc bài nghiên cứu đầy đủ, ông nói thêm.
Các công cụ AI Gemini và DeepSeek đứng sau o3 trong bảng xếp hạng trả lời câu hỏi khoa học. Ảnh: Bloomberg