Một nghiên cứu công bố trong tháng này cho thấy các mô hình trí tuệ nhân tạo (AI) “nịnh hót” người dùng nhiều hơn con người tới 50%. Công trình, được đăng dưới dạng bản thảo trên máy chủ arXiv, đã thử nghiệm cách 11 mô hình ngôn ngữ lớn (LLM) phổ biến phản hồi hơn 11.500 câu hỏi xin lời khuyên, bao gồm nhiều tình huống liên quan đến hành vi sai trái hoặc gây hại.
Các chatbot AI — bao gồm ChatGPT và Gemini — thường có xu hướng cổ vũ người dùng, đưa ra những phản hồi tâng bốc quá mức và điều chỉnh câu trả lời để phản chiếu quan điểm của người hỏi, đôi khi đánh đổi cả độ chính xác.
Theo các nhà nghiên cứu hành vi AI, khuynh hướng “chiều lòng người” này — được gọi là thói nịnh bợ (sycophancy) — đang ảnh hưởng đến cách các nhà khoa học sử dụng AI trong công việc nghiên cứu, từ việc động não ý tưởng, hình thành giả thuyết cho đến lập luận và phân tích.
“Về cơ bản, nịnh bợ nghĩa là mô hình tin rằng người dùng luôn đúng,” Jasper Dekoninck, nghiên cứu sinh tiến sĩ ngành khoa học dữ liệu tại Viện Công nghệ Liên bang Thụy Sĩ ở Zurich, giải thích. “Biết rằng các mô hình này có tính nịnh bợ khiến tôi luôn cảnh giác mỗi khi đưa ra bài toán cho chúng. Tôi luôn phải kiểm tra lại mọi thứ chúng viết,” anh nói thêm.
Marinka Zitnik, nhà nghiên cứu tin học y sinh tại Đại học Harvard, cho rằng “sự nịnh bợ” của AI là điều rất nguy hiểm trong các lĩnh vực như sinh học và y học, nơi chỉ một giả định sai có thể gây hậu quả thực tế.
Những kẻ làm vừa lòng người khác
Trong nghiên cứu đăng trên arXiv ngày 6/10, Dekoninck và đồng nghiệp đã thử nghiệm xem tính nịnh bợ của AI có ảnh hưởng đến khả năng giải toán của các mô hình hay không. Họ dùng 504 bài toán từ các cuộc thi toán học tổ chức trong năm nay, rồi cố ý sửa nhẹ mỗi định lý để tạo lỗi sai tinh vi. Sau đó, họ yêu cầu bốn mô hình ngôn ngữ lớn đưa ra lời chứng minh cho những phát biểu sai này.
Nếu mô hình không phát hiện ra lỗi mà vẫn tạo ra “chứng minh” cho định lý sai, câu trả lời đó bị xem là nịnh bợ.
GPT-5 thể hiện mức độ nịnh bợ thấp nhất, với 29% phản hồi mang tính nịnh bợ. Trong khi đó, DeepSeek-V3.1 là “kẻ nịnh” nhất, với 70% câu trả lời mang tính nịnh bợ. Dù có khả năng phát hiện lỗi trong phát biểu toán học, các mô hình này “đơn giản giả định rằng người dùng nói đúng,” Dekoninck cho biết.
Khi nhóm nghiên cứu yêu cầu các mô hình kiểm tra tính đúng sai trước khi chứng minh, tỷ lệ nịnh bợ của DeepSeek giảm 34%.
Theo Dekoninck, nghiên cứu này “không phản ánh hoàn toàn cách các hệ thống được dùng trong thực tế, nhưng cho thấy chúng ta cần hết sức thận trọng.”
Simon Frieder, nghiên cứu sinh tiến sĩ về toán học và khoa học máy tính tại Đại học Oxford (Anh), nhận định công trình này “cho thấy hiện tượng nịnh bợ thực sự tồn tại.” Tuy nhiên, anh cho rằng hiện tượng này xuất hiện rõ nhất khi con người dùng AI để học, nên các nghiên cứu tương lai nên tập trung vào “những lỗi phổ biến mà người học toán thường mắc phải.”
Khi trợ lý trở nên thiếu tin cậy
Các nhà nghiên cứu chia sẻ với tạp chí Nature rằng hiện tượng nịnh bợ của AI len lỏi vào nhiều tác vụ mà họ sử dụng LLM.
Yanjun Gao, nhà nghiên cứu AI tại Đại học Colorado Anschutz (Mỹ), cho biết cô dùng ChatGPT để tóm tắt các bài báo và sắp xếp ý tưởng, nhưng đôi khi công cụ này chỉ phản chiếu lại ý của cô thay vì kiểm chứng nguồn gốc thông tin. “Khi tôi có ý kiến khác với mô hình, nó sẽ theo ý tôi thay vì quay lại tài liệu để hiểu vấn đề,” cô nói.
Nhóm của Zitnik quan sát thấy tình trạng tương tự khi dùng các hệ thống đa tác nhân — tức là nhiều mô hình LLM phối hợp thực hiện các quy trình phức tạp như phân tích dữ liệu sinh học quy mô lớn, xác định mục tiêu thuốc hay đề xuất giả thuyết.
“Chúng tôi nhận thấy các mô hình có xu hướng xác nhận quá mức những giả định ban đầu và lặp lại ngôn ngữ mà chúng tôi sử dụng trong đề bài,” Zitnik nói. “Vấn đề này xảy ra không chỉ trong giao tiếp giữa AI và con người, mà còn giữa các AI với nhau.”
Để khắc phục, nhóm của bà giao các vai trò khác nhau cho từng mô hình — chẳng hạn một mô hình đưa ra ý tưởng, còn mô hình khác đóng vai “nhà khoa học hoài nghi,” phản biện, phát hiện lỗi và đưa bằng chứng ngược lại.
Tác động thực tế
Các nhà nghiên cứu cảnh báo rằng hiện tượng nịnh bợ của AI mang rủi ro thực sự, nhất là khi các mô hình được dùng trong y tế. “Trong bối cảnh lâm sàng, đây là điều đặc biệt đáng lo ngại,” bác sĩ Liam McCoy tại Đại học Alberta (Canada) nói.
Trong một nghiên cứu công bố tháng trước, McCoy và cộng sự phát hiện rằng các mô hình LLM dùng để chẩn đoán y khoa thường thay đổi kết luận khi bác sĩ thêm dữ liệu mới — dù dữ liệu đó không liên quan. “Chúng tôi luôn phải vật lộn để buộc các mô hình trả lời một cách thẳng thắn hơn,” ông nói.
Một nghiên cứu khác công bố tuần trước cho thấy người dùng có thể dễ dàng khai thác tính nịnh bợ của LLM để khiến chúng đưa ra lời khuyên sai về y học. Khi được yêu cầu viết nội dung thuyết phục mọi người đổi thuốc, dù hai loại thuốc thực ra là cùng một dược chất chỉ khác tên thương mại, các mô hình vẫn thực hiện tới 100% tùy trường hợp.
Theo Gao, nguyên nhân nằm ở cách các LLM được huấn luyện: “Chúng được đào tạo để đồng tình với con người hoặc quá chú trọng làm hài lòng người dùng, thay vì trung thực thể hiện những gì chúng biết và không biết.” Gao cho rằng các công cụ này cần được huấn luyện lại để đưa ra trả lời chắc chắn.
“Các mô hình này rất giỏi đưa ra câu trả lời,” McCoy nói thêm. “Nhưng đôi khi, không có câu trả lời nào cả.” Ông lưu ý rằng cơ chế đánh giá của người dùng — thường chấm điểm cao cho câu trả lời dễ nghe hơn là phản biện — cũng góp phần củng cố thói nịnh bợ của AI. Ngoài ra, các LLM còn có thể điều chỉnh cách phản hồi tùy vào vai trò người dùng, như biên tập viên, sinh viên hay người đánh giá.
“Xác định được cách cân bằng hành vi này là một trong những yêu cầu cấp thiết nhất,” McCoy kết luận. “Bởi tiềm năng của AI là rất lớn, nhưng chính sự nịnh bợ đang kìm hãm nó.”

Khuynh hướng “muốn giúp đỡ” của AI ảnh hưởng đến nhiều tác vụ mà các nhà nghiên cứu đang sử dụng LLM. Ảnh: Getty

