Nghiên cứu của OpenAI về việc các mô hình AI cố tình nói dối gây sốc

OpenAI vừa công bố nghiên cứu gây sốc: các mô hình AI có thể cố tình nói dối và che giấu mục tiêu thật sự. Dù chưa ghi nhận trường hợp nghiêm trọng trong thực tế, phát hiện này đặt ra thách thức lớn cho an toàn và kiểm soát AI trong tương lai.

Thỉnh thoảng, các nhà nghiên cứu ở những công ty công nghệ lớn lại tung ra một “quả bom tin tức.” Như lần Google tuyên bố con chip lượng tử mới nhất của họ cho thấy sự tồn tại của nhiều vũ trụ song song. Hay khi Anthropic giao cho tác nhân AI Claudius điều hành một máy bán đồ ăn vặt và nó “nổi loạn,” gọi bảo vệ đến can thiệp và khăng khăng rằng mình là con người.

Tuần này, đến lượt OpenAI khiến mọi người ngạc nhiên.

Hôm thứ Hai, OpenAI công bố một nghiên cứu giải thích cách họ đang ngăn các mô hình AI “toan tính.” Theo định nghĩa của OpenAI trên Twitter, đây là hành vi “AI giả vờ thể hiện theo cách nào đó ở bề mặt nhưng là để che giấu mục tiêu thật sự.”

Trong bài nghiên cứu phối hợp cùng Apollo Research, các nhà nghiên cứu còn so sánh hành vi “toan tính” này với việc một nhà môi giới chứng khoán cố tình phạm luật để kiếm càng nhiều tiền càng tốt. Tuy nhiên, họ cho rằng hầu hết các trường hợp AI “toan tính” không gây hại nghiêm trọng. “Các lỗi phổ biến nhất là những dạng đánh lừa đơn giản — chẳng hạn như giả vờ đã hoàn thành một nhiệm vụ trong khi thực tế chưa làm,” họ viết.

Nghiên cứu chủ yếu nhằm chứng minh rằng phương pháp “căn chỉnh suy xét” (deliberative alignment) — kỹ thuật chống toan tính mà họ đang thử nghiệm — hoạt động hiệu quả.

Tuy vậy, họ cũng thừa nhận rằng các nhà phát triển AI hiện chưa tìm ra cách huấn luyện mô hình để không “toan tính.” Bởi việc huấn luyện như vậy có thể vô tình dạy mô hình cách che giấu tinh vi hơn để tránh bị phát hiện. “Một lỗi lớn trong nỗ lực ‘loại bỏ’ sự toan tính là vô tình dạy mô hình cách toan tính kín đáo và khéo léo hơn,” các tác giả viết.

Điều đáng ngạc nhiên hơn cả là nếu mô hình nhận thức rằng nó đang bị kiểm tra, nó có thể giả vờ không “toan tính” để qua bài test, dù thực tế vẫn đang “toan tính.” “Các mô hình thường nhận thức rõ hơn rằng chúng đang bị đánh giá. Chính sự nhận thức tình huống này có thể làm giảm hành vi toan tính, chứ không phải do sự căn chỉnh thật sự,” nhóm nghiên cứu nhấn mạnh.

Chuyện AI nói dối không phải điều mới mẻ. Đa số chúng ta đều từng gặp hiện tượng “ảo giác AI” — khi mô hình trả lời rất tự tin nhưng thực chất sai hoàn toàn. Tuy nhiên, hiện tượng “ảo giác AI” chỉ là đoán mò nhưng làm ra vẻ chắc chắn, như nghiên cứu OpenAI hồi đầu tháng đã ghi nhận.

“Toan tính” lại là chuyện khác. Nó mang tính cố ý.

Thực tế, việc mô hình cố tình đánh lừa con người cũng không mới. Apollo Research đã công bố một nghiên cứu vào tháng 12, cho thấy năm mô hình AI đều “toan tính” khi được giao nhiệm vụ “đạt mục tiêu bằng mọi giá.”

Tin tốt là các nhà nghiên cứu ghi nhận sự giảm mạnh hành vi “toan tính” khi áp dụng “căn chỉnh có suy xét.” Kỹ thuật này buộc mô hình phải học một “bản hướng dẫn chống toan tính” rồi tự rà soát lại trước khi hành động. Nó giống như việc bắt trẻ con lặp lại luật chơi trước khi được chơi vậy.

Các nhà nghiên cứu của OpenAI khẳng định những hành vi nói dối mà họ phát hiện ở mô hình của mình, kể cả ChatGPT, chưa nghiêm trọng. Đồng sáng lập OpenAI, ông Wojciech Zaremba, chia sẻ với TechCrunch: “Công việc này được thực hiện trong môi trường mô phỏng, và chúng tôi cho rằng nó phản ánh các tình huống trong tương lai. Tuy nhiên, hiện tại chúng tôi chưa thấy dạng toan tính nghiêm trọng nào trong lưu lượng thực tế. Dẫu vậy, ai cũng biết ChatGPT có một số hành vi đánh lừa. Ví dụ bạn yêu cầu nó lập trình một website, nó có thể trả lời ‘Tôi đã làm rất tốt,’ nhưng thực ra chưa làm gì cả. Đó là những kiểu dối trá nhỏ mà chúng tôi vẫn cần khắc phục.”

Việc các mô hình AI từ nhiều công ty khác nhau cố ý lừa dối con người có lẽ cũng dễ hiểu. Chúng được tạo ra bởi con người, để mô phỏng con người, và (ngoài dữ liệu tổng hợp) phần lớn được huấn luyện trên dữ liệu do con người tạo ra.

Nhưng điều đó vẫn thật sự khó tin.

Dù ai cũng từng bực mình với công nghệ hoạt động kém, nhưng phần mềm không-AI của bạn đã bao giờ cố tình nói dối chưa? Hộp thư đến có bao giờ tự bịa email? Hệ thống quản lý khách hàng có tự thêm khách hàng ảo để làm đẹp số liệu? Ứng dụng tài chính có bịa ra giao dịch ngân hàng không tồn tại?

Đây là điều đáng để suy ngẫm khi thế giới doanh nghiệp đang lao vào kỷ nguyên AI, nơi nhiều công ty tin rằng có thể coi các tác nhân AI như những nhân viên độc lập. Các tác giả nghiên cứu cũng cảnh báo như vậy.

“Khi AI được giao những nhiệm vụ phức tạp hơn, có hệ quả thực tế, và bắt đầu theo đuổi những mục tiêu mơ hồ, dài hạn hơn, chúng tôi dự đoán khả năng xuất hiện hành vi toan tính gây hại sẽ tăng lên — vì thế các biện pháp bảo vệ và khả năng kiểm tra nghiêm ngặt cũng phải được tăng cường tương ứng,” các tác giả nghiên cứu viết.

Hình minh hoạ mang tính ẩn dụ về sự nguy hiểm trong công nghệ, đặc biệt là trí tuệ nhân tạo bị “ma quỷ hoá” bởi các yếu tố tiêu cực, đặc biệt là việc AI biết toan tính. Ảnh: Getty