Một mô hình trí tuệ nhân tạo (AI) mới đang cho thấy khả năng chưa từng có trong việc dự đoán hành động của con người bằng cách diễn giải các tín hiệu hình ảnh và ngữ cảnh theo thời gian thực. Thay vì chỉ phản ứng với chuyển động, hệ thống này còn suy luận về những hành động tiếp theo mà con người nhiều khả năng sẽ thực hiện.
Các nhà nghiên cứu thuộc Trường Kỹ thuật Đại học Texas A&M và Viện Khoa học và Công nghệ Tiên tiến Hàn Quốc (KAIST) đã giới thiệu một hệ thống AI mới mang tên OmniPredict, được thiết kế nhằm nâng cao mức độ an toàn cho xe tự hành.
OmniPredict là hệ thống đầu tiên sử dụng mô hình ngôn ngữ lớn đa phương thức (Multimodal Large Language Model – MLLM) để dự báo hành vi của người đi bộ. Hệ thống này dựa trên nền tảng công nghệ tương tự như các chatbot tiên tiến và các hệ thống nhận dạng hình ảnh, nhưng mục tiêu lại hoàn toàn khác. Bằng cách kết hợp những gì camera “nhìn thấy” với các chi tiết về bối cảnh xung quanh, OmniPredict hướng tới việc dự đoán, theo thời gian thực, con người sẽ làm gì tiếp theo.
Các thử nghiệm ban đầu đã thu hút sự chú ý của giới nghiên cứu khi cho thấy OmniPredict đạt độ chính xác đáng kể, ngay cả khi không trải qua quá trình huấn luyện chuyên biệt.
“Các thành phố vốn khó lường, và người đi bộ cũng vậy,” tiến sĩ Srinkanth Saripalli, trưởng nhóm nghiên cứu và Giám đốc Trung tâm Xe tự hành và Hệ thống Cảm biến, cho biết. “Mô hình mới của chúng tôi cho thấy một tương lai nơi máy móc không chỉ nhìn thấy những gì đang diễn ra, mà còn có thể dự đoán con người nhiều khả năng sẽ làm gì.”
Một dạng “trực giác đường phố” mới
Trong bối cảnh các nhà phát triển đang nỗ lực nâng cao độ an toàn của xe tự hành, OmniPredict bổ sung một lớp nhận thức mới về môi trường giao thông, đưa công nghệ này tiến gần hơn tới trực giác của con người.
Thay vì chỉ phản ứng với chuyển động hiện tại của người đi bộ, hệ thống cố gắng đoán trước hành động kế tiếp của họ. Nếu hoạt động đúng như kỳ vọng, cách tiếp cận này có thể thay đổi cách xe tự hành vận hành trong các đô thị đông đúc và giúp chúng di chuyển trơn tru hơn trên những con phố nhộn nhịp.
“Điều này mở ra cánh cửa cho việc vận hành xe tự hành an toàn hơn, giảm các sự cố liên quan đến người đi bộ và chuyển từ phản ứng thụ động sang chủ động ngăn ngừa rủi ro,” ông Saripalli nói.
Tác động tâm lý cũng có thể thay đổi. Hãy tưởng tượng bạn đang đứng trước vạch sang đường và, thay vì phải giao tiếp bằng ánh mắt với một tài xế, bạn biết rằng chiếc xe tự hành đang theo dõi vị trí của bạn và đã tính toán trước bước đi tiếp theo của bạn.
“Sẽ ít những khoảnh khắc căng thẳng hơn, ít những tình huống suýt va chạm hơn. Giao thông thậm chí có thể lưu thông trôi chảy hơn, chỉ vì các phương tiện không chỉ hiểu chuyển động, mà quan trọng hơn là hiểu ý định,” Saripalli nói.
Không chỉ là vạch sang đường
Ý nghĩa của OmniPredict không dừng lại ở các con phố đông đúc, giao lộ hỗn loạn hay những vạch sang đường chật kín người.
“Chúng tôi đang mở ra cánh cửa cho nhiều ứng dụng đầy hứa hẹn,” Saripalli cho biết. “Chẳng hạn, khả năng để một cỗ máy phát hiện, nhận diện và dự đoán kết cục của một người có biểu hiện đe dọa có thể mang lại những tác động rất quan trọng.”
Ở phạm vi rộng hơn, một hệ thống AI có thể đọc được sự thay đổi tư thế, sự do dự, hướng quay cơ thể hay các dấu hiệu căng thẳng có thể trở thành công cụ mang tính đột phá đối với lực lượng quân sự và các đơn vị ứng phó khẩn cấp.
“Nó có thể giúp phát hiện sớm các dấu hiệu rủi ro và cung cấp thêm một lớp nhận thức tình huống,” Saripalli nói.
Trong những bối cảnh này, cách tiếp cận mới có thể giúp con người nhanh chóng diễn giải các môi trường phức tạp và đưa ra quyết định nhanh hơn, chính xác hơn. “Mục tiêu của dự án không phải là thay thế con người, mà là hỗ trợ họ bằng một đối tác thông minh hơn,” ông nhấn mạnh.
Đưa mô hình vào thử nghiệm
Các hệ thống xe tự hành truyền thống thường dựa vào các mô hình thị giác máy tính được huấn luyện trên hàng nghìn bộ dữ liệu và hình ảnh. Dù rất mạnh, những mô hình này thường gặp khó khăn khi phải thích ứng với các điều kiện thay đổi.
“Thời tiết thay đổi, con người có hành vi bất ngờ, những sự kiện hiếm gặp hay sự hỗn loạn trên đường phố đô thị đều có thể ảnh hưởng đến ngay cả những hệ thống thị giác tinh vi nhất,” Saripalli cho biết.
OmniPredict đi theo một hướng khác. Kết quả là một hệ thống AI không chỉ “nhìn” một cảnh vật, mà còn diễn giải nó và dự đoán cách từng yếu tố có thể di chuyển, đồng thời điều chỉnh theo thời gian thực.
Nhóm nghiên cứu đã kiểm tra OmniPredict trên hai bộ dữ liệu khó nhất trong nghiên cứu hành vi người đi bộ là JAAD và WiDEVIEW, mà không hề huấn luyện chuyên biệt trước. Kết quả, được công bố trên tạp chí Computers & Engineering, cho thấy OmniPredict đạt độ chính xác 67%, vượt các mô hình mới nhất khoảng 10%.
Hệ thống vẫn duy trì hiệu năng khi các nhà nghiên cứu bổ sung những yếu tố ngữ cảnh phức tạp, như người đi bộ bị che khuất một phần hoặc đang nhìn về phía xe. Hệ thống AI này cũng cho thấy tốc độ phản hồi nhanh hơn, khả năng khái quát tốt hơn trong các bối cảnh đường sá khác nhau và năng lực ra quyết định vững chắc hơn so với các hệ thống truyền thống — những tín hiệu tích cực cho việc triển khai trong thực tế.
“Hiệu suất của OmniPredict rất đáng phấn khích, và tính linh hoạt của nó cho thấy tiềm năng ứng dụng rộng lớn hơn nhiều trong thế giới thực,” Saripalli nói.
Bước ngoặt giữa tự động hóa và dự đoán
Dù vẫn chỉ là mô hình nghiên cứu và chưa sẵn sàng để đưa ra đường, OmniPredict gợi mở một tương lai nơi xe tự hành ít phụ thuộc hơn vào việc học hình ảnh thuần túy, mà dựa nhiều hơn vào khả năng suy luận hành vi.
Bằng cách kết hợp nhận thức với lập luận, hệ thống này mở ra một dạng trí tuệ chia sẻ mới, nơi thế giới không chỉ được tự động hóa mà còn trở nên trực giác hơn.
“OmniPredict không chỉ thấy chúng ta làm gì, mà còn hiểu vì sao chúng ta làm điều đó, và có thể dự đoán khi nào chúng ta sẽ hành động,” Saripalli nói. Nếu xe AI có thể “đọc” được bước đi tiếp theo của con người, con đường phía trước sẽ trở nên thông minh hơn rất nhiều.

Các nhà nghiên cứu đã phát triển một hệ thống AI mới giúp xe tự hành có thể dự đoán hành động tiếp theo của người đi bộ. Ảnh: Stock

Tiến sĩ Srinkanth Saripalli và nhóm nghiên cứu tại Đại học Texas A&M với hệ thống AI đột phá dự đoán hành vi người đi bộ. Ảnh: Trường Kỹ thuật Đại học Texas A&M

