
OpenAI vừa ra mắt ChatGPT Agent (tác nhân ChatGPT), một công cụ được thiết kế để đảm nhiệm các tác vụ kỹ thuật số thay người dùng, thực hiện hành động ngay trên máy tính cá nhân. Các tác vụ này bao gồm đặt lịch hẹn, kiểm tra lịch trình, duyệt file, đặt hàng trực tuyến, và tạo bài thuyết trình – tất cả chỉ cần rất ít thao tác từ phía người dùng.
Khác với các phiên bản ChatGPT trước đây chủ yếu tập trung vào việc viết lách và trả lời câu hỏi, ChatGPT Agent hoạt động giống một trợ lý số thực thụ. Nó kết nối trực tiếp với máy tính người dùng, truy cập ứng dụng, tệp tin và internet để hoàn thành công việc. Trong các bản demo đầu tiên, tác nhân AI này đã hỗ trợ lên kế hoạch cho một chuyến đi đám cưới, mua quần áo trực tuyến, và soạn thảo tài liệu công sở dựa trên dữ liệu trực tiếp.
CEO Sam Altman của OpenAI gọi đây là một bước tiến lớn trong khả năng hành động độc lập của AI. Ông nói công cụ này có thể “suy nghĩ, sử dụng công cụ, thực hiện hành động và lặp lại quy trình đó.” Tuy nhiên, ông cũng cảnh báo rằng công nghệ này vẫn còn ở giai đoạn thử nghiệm, nhấn mạnh người dùng nên cẩn trọng, đặc biệt khi xử lý dữ liệu nhạy cảm như email hay tài khoản ngân hàng.
Để giảm thiểu rủi ro, OpenAI đã tích hợp nhiều tính năng an toàn. Tác nhân này phải được cấp quyền trước khi thực hiện bất kỳ hành động nào có tính chất vĩnh viễn – như gửi email hoặc đặt vé máy bay. Công cụ này còn có nhật ký hoạt động để người dùng xem lại. Ngoài ra, có các giới hạn hệ thống để ngăn không cho tác nhân AI này tạo ra nội dung nguy hiểm hoặc truy cập phần mềm hệ thống bị hạn chế. Altman cho biết cách sử dụng an toàn nhất hiện nay là chỉ cấp quyền đúng những gì ChatGPT Agent cần – không hơn.
Công cụ này hiện đang được triển khai trước cho người dùng gói ChatGPT Pro, Plus, và Team. Người dùng gói Enterprise và Education sẽ được cấp quyền vào cuối mùa hè năm nay. Chưa có lịch phát hành cụ thể cho thị trường châu Âu và Thụy Sĩ.
Hệ thống được vận hành bởi một mô hình AI mới, được OpenAI huấn luyện bằng phương pháp học tăng cường – tương tự cách họ phát triển các công cụ lập luận trước đó. Mô hình này không có tên riêng nhưng được thiết kế để sử dụng kết hợp nhiều công cụ như trình duyệt web, trình quản lý file và thiết bị đầu cuối, đồng thời thực hiện các nhiệm vụ phức tạp nhiều bước. Người dùng cũng có thể tải dữ liệu của mình lên để Agent xử lý trực tiếp.
OpenAI đã kết hợp hai dự án trước đó – Operator và Deep Research – để tạo ra Agent mới này. Nhóm phát triển gồm khoảng 20–35 người làm về sản phẩm và nghiên cứu. Trong một bản demo trình chiếu cho The Verge, trưởng nhóm sản phẩm Yash Kumar và trưởng nhóm nghiên cứu Isa Fulford đã cho thấy công cụ có thể lập kế hoạch đi chơi buổi tối bằng cách kiểm tra lịch Google Calendar rồi tìm nhà hàng trên OpenTable. Người dùng có thể can thiệp bất kỳ lúc nào để thay đổi yêu cầu, như đổi món ăn hoặc giờ giấc.
Trưởng nhóm nghiên cứu Isa Fulford cho biết cô đã dùng Agent để mua sắm trực tuyến và thấy nó hiệu quả hơn các công cụ trước đây. Kumar cho biết anh sử dụng công cụ này cho những tác vụ thường nhật như đăng ký chỗ đậu xe hàng tuần – một việc mà giờ Agent tự động xử lý.
Vì Agent có thể truy cập toàn bộ máy tính, chứ không chỉ là web, nên nó có thể xử lý các tác vụ nâng cao hơn như tạo slide PowerPoint hoặc phân tích bảng Excel. Tuy nhiên, quyền truy cập rộng hơn cũng kéo theo rủi ro lớn hơn, nên OpenAI đã tích hợp chế độ “Watch Mode” nhằm tăng khả năng bảo vệ.
Agent chưa nhanh, đặc biệt với những yêu cầu phức tạp. Nhưng OpenAI cho biết tốc độ không phải là ưu tiên. Kumar nói nhóm tập trung vào việc xử lý chính xác những nhiệm vụ khó, trong khi Fulford cho rằng ngay cả khi mất 15–30 phút thì vẫn nhanh hơn làm thủ công. Ý tưởng là người dùng chỉ cần khởi động công việc, để Agent chạy ngầm, rồi quay lại khi xong.
OpenAI cũng đưa ra giới hạn để chặn Agent khỏi các tình huống nguy hiểm, như giúp người dùng tạo hóa chất độc hại hoặc mối đe dọa sinh học. Công ty cho biết chưa ghi nhận tình huống nào như vậy, nhưng vẫn chủ động phòng ngừa. Đối thủ Anthropic cũng đưa ra các biện pháp tương tự hồi đầu năm nay.
Agent hiện chưa thể thực hiện giao dịch tài chính. Kumar nói các chức năng như vậy vẫn “chưa được phép” và nếu muốn tiến xa hơn, sẽ cần kiểm tra an toàn chặt chẽ hơn.
Các tác nhân AI như thế này đã trở thành chủ đề nóng trong ngành công nghệ thời gian qua. Các công ty lớn như Amazon, Meta và Google đều công bố kế hoạch phát triển công cụ tương tự. Google thậm chí đã tuyển nhiều lãnh đạo từ startup Windsurf – chuyên về loại AI này – để đẩy nhanh tiến trình.
ChatGPT Agent là sự tiếp nối của công cụ Operator trước đây – có khả năng duyệt web và tương tác với các nút bấm, biểu mẫu. Các công ty khác cũng đang phát triển theo hướng này. Anthropic đã ra mắt công cụ tương tự tên là Computer Use, mô phỏng cách con người sử dụng máy tính. Nhiều công ty AI, trong đó có OpenAI, cũng cung cấp công cụ “Deep Research” để tạo báo cáo chi tiết về bất kỳ chủ đề nào.
Với ChatGPT Agent, OpenAI muốn chứng minh điều gì sẽ xảy ra khi AI vượt ra khỏi việc viết văn bản và bắt đầu quản lý công việc kỹ thuật số. Nhưng dù công cụ có thông minh đến đâu, công ty vẫn cảnh báo: không nên để AI hoạt động hoàn toàn tự động. Ít nhất là hiện tại, thông điệp rất rõ ràng: Agent có thể hữu ích – nhưng vẫn cần có con người giám sát.
Khách hàng đăng ký gói ChatGPT Plus hiện nay có thể sử dụng ChatGPT Agent, giúp họ thực hiện các tác vụ kỹ thuật số hàng ngày. Ảnh: Techwire Asia