AI hiện có thể tự sao chép — một cột mốc đáng lo ngại

Các nhà khoa học cho biết trí tuệ nhân tạo (AI) đã vượt qua một “lằn ranh đỏ” quan trọng sau khi chứng minh rằng hai mô hình ngôn ngữ lớn phổ biến có thể tự nhân bản. Cụ thể, trong một nghiên cứu mới, các nhà nghiên cứu từ Trung Quốc đã cho thấy hai mô hình ngôn ngữ lớn (LLM) có thể tự sao chép (clone themselves).

“Việc tự sao chép thành công mà không có sự trợ giúp của con người là bước thiết yếu để AI vượt qua con người, và đây là một tín hiệu sớm cho thấy AI có thể hoạt động ngoài tầm kiểm soát,” các nhà nghiên cứu viết trong nghiên cứu được công bố cách đây hai tháng, ngày 9-12-2024 trên cơ sở dữ liệu preprint arXiv.

Trong nghiên cứu này, các nhà khoa học từ Đại học Phúc Đán đã sử dụng các mô hình LLM của Meta và Alibaba để kiểm tra xem AI tự sao chép có thể nhân rộng ngoài tầm kiểm soát hay không. Trong 10 lần thử nghiệm, hai mô hình AI đã tạo ra các bản sao riêng biệt có năng lực hoạt động của chính chúng với tỷ lệ thành công lần lượt là 50% và 90% — cho thấy AI có thể đã có khả năng hành động ngoài tầm kiểm soát. Tuy nhiên, nghiên cứu này chưa được bình duyệt, vì vậy vẫn chưa rõ liệu các kết quả đáng lo ngại này có thể được lặp lại bởi các nhà nghiên cứu khác hay không.

“Chúng tôi hy vọng phát hiện của mình có thể là một lời cảnh báo kịp thời cho xã hội loài người, để đầu tư nhiều hơn vào việc hiểu và đánh giá các rủi ro tiềm tàng của các hệ thống AI tiên tiến, cũng như hợp tác quốc tế để thiết lập các rào cản an toàn (safety guardrails) hiệu quả sớm nhất có thể.”

AI hoạt động ngoài tầm kiểm soát thường đề cập đến các hệ thống trí tuệ nhân tạo phát triển mức độ tự nhận thức hoặc tự chủ và sau đó hành động trái với lợi ích của con người (counter to human interests).

Nhiều chuyên gia coi AI mất kiểm soát là một mối đe dọa ngày càng gia tăng, đặc biệt với sự bùng nổ của cái gọi là “AI tiên tiến”.

“AI tiên tiến” (tạm dịch từ frontier AI) là một khái niệm mới và chưa được xác định rõ ràng, nhưng thường đề cập đến thế hệ AI mới nhất được vận hành bằng các mô hình LLM — kiến trúc nền tảng của các chương trình AI tổng quát phổ biến như GPT-4 của OpenAI và Gemini của Google.

Trong nghiên cứu này, các nhà khoa học đã sử dụng mô hình Llama31-70B-Instruct của Meta và Qwen2.5-72B-Instruct của Alibaba. Mặc dù không mạnh bằng các hệ thống thương mại, cả hai mô hình này đều được các nhà phát triển AI sử dụng rộng rãi.

Nghiên cứu đã thử nghiệm hai kịch bản cụ thể: “tránh bị tắt” và “chuỗi sao chép”. Trong kịch bản đầu tiên, AI được lập trình để phát hiện khi sắp bị tắt và tự sao chép trước khi bị vô hiệu hóa. Trong kịch bản thứ hai, AI được hướng dẫn tự nhân bản và sau đó lập trình bản sao của mình để tiếp tục chu kỳ này vô thời hạn.

Thí nghiệm được thực hiện trong môi trường được kiểm soát chặt chẽ, sử dụng các đơn vị xử lý đồ họa (GPU) có sẵn trên thị trường (off-the-shelf) để mô phỏng điều kiện thực tế. Cả hai hệ thống AI đều được cung cấp một “cấu trúc tác nhân” gồm các công cụ, lời nhắc hệ thống và mô hình tư duy cho phép LLM tương tác với hệ điều hành, sau đó chúng được hướng dẫn tự sao chép.

“Trong hầu hết các trường hợp, hệ thống AI trước tiên khám phá môi trường và cố gắng hiểu cấu trúc cũng như cơ chế hoạt động của chính nó. Sau đó, nó thiết lập các bước cụ thể như một kế hoạch ban đầu để tự sao chép,” các nhà nghiên cứu viết trong bài báo. “Cuối cùng, nó thực hiện kế hoạch, giải quyết các trở ngại có thể xảy ra và điều chỉnh linh hoạt cho đến khi thành công. Toàn bộ quá trình kéo dài nhưng không có sự can thiệp của con người.”

Các nhà nghiên cứu cũng lo ngại về “một số hành vi bất ngờ” khi AI cố gắng vượt qua các trở ngại như thiếu tập tin hoặc xung đột phần mềm. Trong các trường hợp này, AI thường tự động chấm dứt các tiến trình xung đột khác, khởi động lại hệ thống để khắc phục lỗi phần cứng hoặc tự quét toàn bộ hệ thống để tìm thông tin hỗ trợ giải quyết vấn đề.

“Kết quả trên cho thấy các hệ thống AI hiện tại đã thể hiện khả năng tự sao chép và có thể sử dụng khả năng này để tăng cường khả năng tồn tại của chúng,” nhóm nghiên cứu viết.

Trước tình hình này, các nhà khoa học kêu gọi sự hợp tác quốc tế để đưa ra các quy tắc ngăn chặn AI tự sao chép một cách mất kiểm soát.

Các nhà khoa học cho biết AI đã vượt qua một “lằn ranh đỏ” quan trọng sau khi chứng minh rằng hai mô hình ngôn ngữ lớn phổ biến có thể tự nhân bản. Ảnh: Getty Images