
Một nghiên cứu gần đây do các nhà khoa học Đại học Johns Hopkins chủ trì cho thấy con người vượt trội so với các mô hình AI hiện nay trong việc mô tả và giải thích chính xác các tương tác xã hội trong những cảnh động. Khả năng này rất quan trọng với các công nghệ như phương tiện tự lái và rô-bốt hỗ trợ, vốn phụ thuộc nhiều vào AI để điều hướng an toàn trong môi trường thực.
Nghiên cứu nhấn mạnh rằng hệ thống AI hiện tại khó nắm bắt các mối quan hệ tinh vi và tín hiệu ngữ cảnh cần thiết để tương tác hiệu quả với con người. Hơn nữa, kết quả cho thấy hạn chế này có thể bắt nguồn từ kiến trúc và hạ tầng nền tảng của các mô hình AI ngày nay.
“AI cho ô tô tự lái, ví dụ, cần nhận biết ý định, mục tiêu và hành động của tài xế và người đi bộ. Bạn muốn nó biết người đi bộ sắp bước đi hướng nào, hoặc hai người đang trò chuyện hay chuẩn bị băng qua đường,” tiến sĩ Leyla Isik, phó giáo sư khoa học nhận thức tại Johns Hopkins và tác giả chính, cho biết. “Bất cứ khi nào bạn muốn AI tương tác với con người, bạn cần nó nhận ra những gì mọi người đang làm. Nghiên cứu này cho thấy hệ thống hiện tại chưa làm được điều đó.”
Tiến sĩ Kathy Garcia, nghiên cứu sinh trong phòng thí nghiệm của Isik và đồng tác giả chính, đã trình bày kết quả tại Hội nghị Quốc tế về Học Máy (ICLR) ngày 24-4.
So sánh nhận thức giữa AI và con người
Để đánh giá AI so với con người, nhóm nghiên cứu yêu cầu tình nguyện viên xem các đoạn video ba giây và chấm điểm các đặc tính quan trọng về hiểu biết tương tác xã hội trên thang 1–5. Các đoạn phim này thể hiện con người đang tương tác với nhau, làm việc bên cạnh nhau hoặc hoạt động độc lập.
Tiếp đó, họ yêu cầu hơn 350 mô hình AI về ngôn ngữ, video và hình ảnh dự đoán cách con người chấm và cách não người phản ứng khi xem. Với các mô hình ngôn ngữ lớn, AI được cho đọc chú thích ngắn do con người viết.
Phần lớn người tham gia đồng thuận với nhau ở mọi câu hỏi; còn các mô hình AI—bất kể kích thước hay dữ liệu huấn luyện—thì không. Mô hình AI video không thể mô tả chính xác hành động của người trong phim. Ngay cả mô hình hình ảnh, khi nhận chuỗi ảnh tĩnh, cũng không thể dự đoán chắc chắn việc giao tiếp giữa người. Mô hình ngôn ngữ dự đoán hành vi con người tốt hơn, trong khi mô hình video dự đoán hoạt động não bộ tốt hơn.
Khoảng cách trong phát triển AI
“Kết quả này tương phản rõ với thành công của AI khi đọc ảnh tĩnh,” Garcia nhận xét. “Xem ảnh và nhận diện vật thể, khuôn mặt chỉ là bước đầu. Cuộc sống không tĩnh tại. Chúng ta cần AI hiểu câu chuyện đang diễn ra. Hiểu mối quan hệ, bối cảnh và động lực tương tác xã hội là bước tiếp theo, và nghiên cứu này cho thấy có thể đang có điểm mù trong phát triển mô hình AI.”
Các nhà nghiên cứu cho rằng nguyên nhân là mạng nơ-ron AI lấy cảm hứng từ cấu trúc não bộ xử lý ảnh tĩnh, khác với vùng não xử lý cảnh động xã hội.
“Có nhiều khía cạnh tinh vi, nhưng kết luận lớn là không mô hình AI nào có thể khớp với phản ứng não bộ và hành vi con người trước cảnh động, như chúng làm được với cảnh tĩnh,” Isik nói. “Có điều gì rất cơ bản trong cách con người xử lý cảnh vật mà các mô hình này đang bỏ lỡ.”
Hệ thống AI vẫn còn gặp khó khăn trong việc hiểu các tương tác xã hội động, kém xa so với khả năng của con người do hạn chế trong cách các mô hình này xử lý kịch bản phức tạp, thực tế. Ảnh: SciTechDaily