OpenAI hôm 5/3 công bố GPT-5.4, mô hình trí tuệ nhân tạo mới được hãng mô tả là mạnh mẽ và hiệu quả nhất của mình cho các công việc chuyên môn. Ngoài phiên bản tiêu chuẩn, GPT-5.4 còn có hai biến thể: GPT-5.4 Thinking, tập trung vào khả năng suy luận nhiều bước, và GPT-5.4 Pro, được tối ưu để đạt hiệu năng cao hơn trong các tác vụ phức tạp.
Phiên bản GPT-5.4 dùng qua giao diện lập trình ứng dụng (API) có thể xử lý cửa sổ ngữ cảnh lên tới 1 triệu token. Token là đơn vị nhỏ của văn bản mà mô hình AI dùng để đọc và xử lý dữ liệu; một đoạn văn dài sẽ được chia thành hàng nghìn token. Cửa sổ ngữ cảnh càng lớn thì mô hình càng có thể xử lý nhiều văn bản hoặc dữ liệu trong một lần yêu cầu, chẳng hạn đọc cả tài liệu dài hoặc nhiều đoạn hội thoại cùng lúc.
OpenAI cũng cho biết GPT-5.4 sử dụng token hiệu quả hơn, nghĩa là có thể giải quyết cùng một nhiệm vụ với ít token hơn so với các phiên bản trước. Điều này giúp giảm chi phí vận hành và tăng tốc độ xử lý khi sử dụng mô hình.
Trong các bài kiểm tra đánh giá, GPT-5.4 đạt kết quả cao hơn đáng kể. Mô hình lập kỷ lục trong hai bộ kiểm tra OSWorld-Verified và WebArena Verified, vốn đánh giá khả năng AI sử dụng máy tính và thực hiện các thao tác trên môi trường phần mềm. Ngoài ra, GPT-5.4 đạt 83% trong bài kiểm tra GDPval của OpenAI, một phép đo nhằm đánh giá năng lực thực hiện các công việc trí thức như phân tích dữ liệu, viết báo cáo hay giải quyết vấn đề.
Theo công ty tuyển dụng sử dụng AI Mercor, GPT-5.4 cũng dẫn đầu trong bài kiểm tra APEX-Agents, được thiết kế để đo khả năng thực hiện các nhiệm vụ chuyên môn trong lĩnh vực luật và tài chính.
Giám đốc điều hành Mercor, Brendan Foody, cho biết mô hình này đặc biệt mạnh trong việc tạo ra các sản phẩm công việc có quy mô lớn như bộ slide thuyết trình, mô hình tài chính hay các bản phân tích pháp lý. Theo ông, GPT-5.4 vừa đạt hiệu suất cao hơn vừa có chi phí vận hành thấp hơn so với nhiều mô hình AI tiên tiến khác.
OpenAI cũng cho biết GPT-5.4 tiếp tục giảm hiện tượng “ảo giác” của AI, tức tình trạng mô hình đưa ra thông tin sai nhưng trình bày như thể đó là sự thật. So với GPT-5.2, mô hình mới ít mắc lỗi trong các tuyên bố riêng lẻ hơn 33%, và tổng thể câu trả lời ít chứa sai sót hơn 18%.
Trong lần ra mắt này, OpenAI cũng thay đổi cách mô hình sử dụng các công cụ bên ngoài thông qua một hệ thống mới mang tên Tool Search. Trong các ứng dụng AI, mô hình đôi khi cần gọi đến các công cụ khác như tìm kiếm web, truy vấn cơ sở dữ liệu hoặc chạy phần mềm.
Trước đây, định nghĩa của tất cả các công cụ phải được đưa vào phần hướng dẫn hệ thống (prompt), khiến số token tăng lên khi có nhiều công cụ. Với Tool Search, mô hình chỉ tra cứu thông tin về công cụ khi cần dùng, giúp quá trình xử lý nhanh hơn và tiết kiệm chi phí hơn.
Ngoài ra, OpenAI bổ sung một bài kiểm tra an toàn mới liên quan đến chuỗi suy nghĩ, hay chain-of-thought. Đây là phần giải thích quá trình lập luận của mô hình khi thực hiện các nhiệm vụ nhiều bước. Một số nhà nghiên cứu an toàn AI lo ngại rằng các mô hình suy luận có thể trình bày sai hoặc che giấu cách chúng đi đến kết luận.
Theo OpenAI, kết quả thử nghiệm cho thấy khả năng “đánh lừa” này ít xảy ra hơn ở phiên bản GPT-5.4 Thinking. Điều này cho thấy mô hình khó che giấu quá trình lập luận của mình và việc theo dõi chuỗi suy nghĩ vẫn là một biện pháp hữu ích để giám sát an toàn AI.

OpenAI công bố mô hình trí tuệ nhân tạo GPT-5.4, gồm phiên bản tiêu chuẩn và hai biến thể GPT-5.4 Thinking và GPT-5.4 Pro. Ảnh: OpenAI

