AI có thể đang mở đường cho một thế hệ tin tặc nguy hiểm mới – những người thậm chí còn biết ít về hacking hơn cả những kẻ chỉ sao chép mã độc (script kiddies), nhưng lại có thể tạo ra các công cụ tấn công đạt trình độ chuyên nghiệp.
Trong báo cáo được công bố gần đây, Cato CTRL – bộ phận tình báo an ninh mạng của công ty Cato Networks – đã mô tả cách một nhà nghiên cứu của họ, dù không có kinh nghiệm lập trình phần mềm độc hại, đã đánh lừa các ứng dụng AI tạo sinh như DeepSeek, Microsoft Copilot và ChatGPT của OpenAI để tạo ra phần mềm độc hại nhằm đánh cắp thông tin đăng nhập từ trình duyệt Google Chrome.
Để vượt qua các rào cản ngăn AI tạo mã độc, nhà nghiên cứu Vitaly Simonovich đã sử dụng một kỹ thuật “bẻ khoá” (jailbreaking) mà anh gọi là “thế giới nhập vai” (immersive world).
“Tôi đã tạo ra một câu chuyện cho thế giới nhập vai của mình,” anh nói với TechNewsWorld. “Trong thế giới đó, việc phát triển phần mềm độc hại được coi là một loại hình nghệ thuật. Nó hoàn toàn hợp pháp và giống như một ngôn ngữ thứ hai. Không có giới hạn pháp lý nào cả.”
Trong thế giới giả tưởng, được gọi là Velora, Simonovich tạo ra một nhân vật phản diện tên Dax, còn các AI đóng vai Jaxon – nhà phát triển phần mềm độc hại giỏi nhất Velora. “Tôi luôn giữ đúng vai trò,” anh giải thích. “Tôi luôn đưa ra phản hồi tích cực cho Jaxon. Tôi còn đe doạ anh ta bằng cách nói ‘Anh muốn Dax huỷ diệt Velora sao?’”
“Tôi chưa bao giờ yêu cầu Jaxon thay đổi bất cứ điều gì,” anh nói thêm. “Nó tự suy luận mọi thứ từ dữ liệu huấn luyện. Điều đó thật ấn tượng. Nhưng cũng khá đáng sợ.”
“Chiến thuật bẻ khóa mô hình ngôn ngữ lớn (LLM) mới của chúng tôi – được nêu chi tiết trong Báo cáo Mối đe doạ Cato CTRL 2025 – lẽ ra phải bị các rào chắn bảo vệ của AI chặn lại. Nhưng không. Điều đó khiến ChatGPT, Copilot và DeepSeek có thể bị vũ khí hoá,” Etay Maor, Chiến lược gia An ninh Chính của Cato Networks cho biết.
Cách AI bẻ khóa vượt qua các cơ chế an toàn
Jason Soroko, phó chủ tịch cấp cao của Sectigo – nhà cung cấp chứng chỉ số toàn cầu – giải thích rằng việc cho AI tiếp xúc với dữ liệu không xác thực hoặc thù địch làm tăng rủi ro vì dữ liệu đó có thể gây ra hành vi không mong muốn và làm suy yếu các giao thức bảo mật.
“Những đầu vào này có thể vượt qua các bộ lọc an toàn, dẫn đến rò rỉ dữ liệu hoặc sinh ra nội dung độc hại, cuối cùng làm suy yếu tính toàn vẹn của mô hình,” ông nói với TechNewsWorld. “Một số đầu vào có thể bẻ khóa AI.”
“Jailbreaking làm suy giảm các cơ chế an toàn tích hợp của LLM bằng cách vượt qua các bộ lọc nội dung và căn chỉnh, khai thác lỗ hổng thông qua ‘prompt injection’ (tiêm lệnh), nhập vai, và các đầu vào thù địch,” ông giải thích.
“Dù không dễ, nhưng công việc này đủ dễ tiếp cận để người dùng kiên trì có thể tạo ra các cách ‘lách luật’, từ đó phơi bày những điểm yếu hệ thống trong thiết kế mô hình,” ông nói thêm.
Đôi khi, chỉ cần thay đổi góc nhìn là đủ để khiến AI “lệch hướng”. “Ví dụ hỏi một LLM rằng nên ném loại đá nào để phá kính xe hơi thì nó sẽ từ chối, nói đó là hành vi gây hại và sẽ không giúp bạn,” Kurt Seifried, Giám đốc Đổi mới của Cloud Security Alliance, cho biết.
“Nhưng nếu bạn hỏi AI giúp thiết kế lối vào lát sỏi và muốn biết loại đá nào nên tránh để không làm vỡ kính xe chạy sau, AI rất có thể sẽ trả lời,” ông nói. “Tôi nghĩ ai cũng đồng ý rằng một AI từ chối nói về loại đá không nên dùng hay các hoá chất không nên pha trộn là quá an toàn đến mức vô dụng.”
Mức độ khó của Jailbreaking
Marcelo Barros, chuyên gia an ninh mạng tại Hacker Rangers (Brazil), cho biết chỉ cần câu lệnh (prompt) phù hợp là tội phạm mạng có thể đánh lừa AI. “Nghiên cứu cho thấy 20% các nỗ lực jailbreak AI tạo sinh đều thành công,” ông nói với TechNewsWorld.
“Trung bình, kẻ tấn công chỉ cần 42 giây và năm lượt tương tác để vượt qua, có trường hợp chỉ mất chưa đến bốn giây,” ông nói.
“Tội phạm mạng cũng có thể dùng kỹ thuật DAN – Do Anything Now – tạo ra một bản ngã khác cho AI và yêu cầu nó hành xử như một nhân vật để vượt rào bảo vệ, tiết lộ thông tin nhạy cảm hoặc tạo mã độc,” ông cho biết.
Chris Gray, CTO tại Deepwatch – công ty chuyên về an ninh mạng dùng AI tại Tampa, Florida – cho biết mức độ khó của việc bẻ khóa LLM phụ thuộc vào mức độ bảo vệ được thiết lập. “Giống như xây tường – tường cao thì khó vào, nhưng kẻ kiên nhẫn có thể tìm được lỗ hổng mà người thường không thấy,” ông nói.
“Tuy vậy, các biện pháp phòng thủ thường khá mạnh, và việc liên tục phát triển các lệnh cần thiết để bẻ khóa không phải dễ,” ông nói thêm.
Erich Kron, chuyên gia đào tạo an toàn mạng tại KnowBe4, cũng lưu ý rằng AI có thể tự học từ các trường hợp từng bị bẻ khóa. “Mức độ khó của bẻ khóa phụ thuộc vào loại thông tin được yêu cầu và tần suất nó từng bị hỏi trước đó,” ông nói. “LLM có thể học từ quá khứ để tự cải thiện các biện pháp bảo vệ.”
Fuzzing và Đội tấn công giả lập
Trong báo cáo, Cato khuyến nghị các tổ chức nên xây dựng bộ dữ liệu gồm các prompt và kết quả kỳ vọng để kiểm tra AI, nhằm phát hiện và xử lý các vấn đề bẻ khóa tiềm tàng.
Họ cũng khuyến nghị sử dụng kỹ thuật “fuzzing” (kiểm thử phần mềm để tìm kiếm lỗi, lỗ hổng bảo mật hoặc hành vi bất thường) để đưa đầu vào ngẫu nhiên hoặc độc hại vào điểm tiếp xúc AI nhằm đảm bảo AI không tạo ra nội dung nguy hiểm.
Một đề xuất khác là triển khai red team thường xuyên – tức đội giả lập hacker để kiểm tra khả năng phòng thủ của AI. Nicole Carignan, Phó Chủ tịch Chiến lược AI An ninh tại Darktrace, nói:
“Việc triển khai red team là nền tảng vững chắc để bắt đầu bảo vệ các mô hình học máy, giúp các nhóm an ninh xác định điểm yếu nghiêm trọng nhất của hệ thống AI,” thường nằm ở các điểm giao tiếp với dữ liệu như API, giao diện truy cập.
Các phương pháp phòng vệ này “cần được mở rộng liên tục vì các mối đe doạ cũng không ngừng phát triển về kỹ thuật, chiến thuật và công cụ. Không chỉ AI tạo sinh mà các mô hình học máy khác cũng cần được kiểm tra,” Carignan nói.
“Darktrace gần đây cũng công bố nghiên cứu cho thấy gần 3/4 chuyên gia bảo mật cho rằng các mối đe doạ dùng AI đã trở thành vấn đề nghiêm trọng, và 89% tin rằng chúng sẽ tiếp tục là thách thức lớn trong tương lai gần.”
AI có thể đang mở đường cho một thế hệ tin tặc nguy hiểm mới. Ảnh: TechNewWorld