Các chatbot trí tuệ nhân tạo (AI) trở nên kém chính xác và kém khả năng suy luận hơn khi được huấn luyện trên lượng lớn nội dung chất lượng thấp, đặc biệt là những nội dung phổ biến trên mạng xã hội, theo một nghiên cứu công bố ngày 15/10.
Trong khoa học dữ liệu, dữ liệu chất lượng cao cần đáp ứng các tiêu chí như đúng ngữ pháp và dễ hiểu, đồng tác giả Zhangyang Wang, chuyên nghiên cứu về AI tạo sinh tại Đại học Texas ở Austin, cho biết.
Wang và các cộng sự muốn xem điều gì xảy ra khi các mô hình ngôn ngữ lớn (LLM) được huấn luyện bằng dữ liệu kém chất lượng — được định nghĩa là những bài đăng mạng xã hội ngắn, lan truyền mạnh hoặc mang tính giật gân, hời hợt. Họ đánh giá ảnh hưởng của các dữ liệu này đến khả năng suy luận, khả năng truy xuất thông tin từ các đoạn văn dài, yếu tố đạo đức trong câu trả lời và đặc điểm tính cách của mô hình.
Nhóm nghiên cứu cho biết các mô hình tiếp xúc với dữ liệu kém chất lượng có xu hướng bỏ qua các bước suy luận — hoặc thậm chí không suy luận — dẫn đến trả lời sai thông tin hoặc chọn đáp án sai trong câu hỏi trắc nghiệm. Với các tập dữ liệu trộn lẫn giữa dữ liệu “rác” và dữ liệu chất lượng cao, tác động tiêu cực tăng theo tỷ lệ dữ liệu rác. Nghiên cứu này chưa qua bình duyệt học thuật.
Kết quả củng cố nguyên tắc lâu nay trong ngành AI: chất lượng dữ liệu là tối quan trọng, theo Mehwish Nasim, nhà nghiên cứu AI tại Đại học Tây Úc. “Ngay cả trước khi người ta bắt đầu làm với LLM, chúng tôi đã nói rằng nếu bạn đưa rác vào mô hình AI, nó sẽ tạo ra rác,” bà nói.
Rác vào thì rác ra
Wang và đồng nghiệp sử dụng một triệu bài đăng công khai trên nền tảng X từ một cơ sở dữ liệu sẵn có để huấn luyện các mô hình mã nguồn mở, gồm Llama 3 của Meta và ba phiên bản Qwen do Alibaba phát triển. Qwen là mô hình suy luận, tương tự R1 của DeepSeek và o1 của OpenAI — nghĩa là được thiết kế để tạo ra các bước suy luận dẫn đến câu trả lời. Trong khi đó, Llama là mô hình ngôn ngữ tinh chỉnh theo hướng dẫn, có khả năng suy luận hạn chế hơn.
Để xác định đặc điểm tính cách của mô hình, nhóm nghiên cứu sử dụng bảng câu hỏi tâm lý. Trước khi được huấn luyện bằng dữ liệu rác, Llama thể hiện các đặc điểm dễ mến, hướng ngoại, tận tâm, cởi mở và một chút tự ái. Nhưng khi được “nuôi” bằng dữ liệu rác nhiều hơn, các đặc điểm tiêu cực tăng lên và thậm chí xuất hiện xu hướng tâm lý phản xã hội theo một trong các thang đo.
Các nhà nghiên cứu thử điều chỉnh câu lệnh gợi ý để cải thiện mô hình theo thời gian. Khi áp dụng điều này với phiên bản Llama huấn luyện hoàn toàn bằng dữ liệu rác, hiệu quả cải thiện chỉ ở mức một phần, và tăng thêm dữ liệu sạch cũng chỉ giúp được một phần. Mô hình vẫn tiếp tục bỏ qua các bước suy luận ngay cả khi được yêu cầu xem xét lại và sửa lỗi, cho thấy cần các phương pháp khác để giảm tác động của dữ liệu rác.
Theo các tác giả nghiên cứu thì “trong bốn mô hình, Llama3 là nhạy cảm nhất với dữ liệu rác, còn Qwen3 4B là ít nhạy cảm nhất.”
Kết quả này cho thấy việc sàng lọc dữ liệu là điều tối quan trọng để ngăn AI bị “thối não”, theo Stan Karanasios, chuyên nghiên cứu AI và mạng xã hội tại Đại học Queensland, Australia. “Yếu tố quan trọng nhất là đảm bảo dữ liệu được chọn lọc kỹ, loại bỏ nội dung kém chất lượng hoặc giật gân,” ông nói.
Mehwish Nasim, nhà nghiên cứu AI tại Đại học Tây Úc, cho rằng cần nhiều nghiên cứu hơn với các mô hình nhiều quy mô khác nhau và cả mô hình đóng như ChatGPT. Thách thức với mô hình đóng là nhà nghiên cứu phải trả phí và không thể tự huấn luyện. Nghiên cứu tương lai cũng có thể xem liệu hiệu ứng này có thể đảo ngược nếu cung cấp đủ dữ liệu chất lượng cao hay không, bà nói.

Llama 3 là mô hình ngôn ngữ lớn thuộc sở hữu Meta. Ảnh: Alamy

