“Mind captioning”: Công nghệ AI biến tín hiệu não thành câu chữ

By Hoàng Khang (Theo Nature) 8 Tháng mười một 2025, 19:09

Một kỹ thuật quét não mới có thể chuyển những hình ảnh trong đầu thành văn bản, mở ra hướng đi mới trong việc hiểu cách con người nhận thức thế giới — và giúp những người mất khả năng nói có thể giao tiếp trở lại.

Công nghệ mang tên “mind captioning” (tạm dịch: chú thích tâm trí) được nhóm các nhà khoa học giới thiệu ngày 5/11 trên Science Advances. Kỹ thuật này sử dụng dữ liệu hoạt động của não để tạo ra những câu mô tả chính xác về những gì người tham gia đang nhìn thấy hoặc tưởng tượng.

“AI có thể dự đoán rất chi tiết hình ảnh trong đầu người xem — điều này thật đáng kinh ngạc,” nhà thần kinh học tính toán Alex Huth (Đại học California, Berkeley) nói.

Đọc hình ảnh trong tâm trí

Trong nhiều năm qua, các nhà nghiên cứu đã có thể dự đoán một người đang nhìn hay nghe gì dựa trên tín hiệu não. Nhưng giải mã nội dung phức tạp, như video hay khái niệm trừu tượng, vẫn là thách thức lớn.

Trước đây, mô hình chỉ có thể tạo ra vài từ khóa rời rạc, chưa thể mô tả trọn vẹn cảnh vật hay hành động. Nhóm của Tomoyasu Horikawa (Phòng thí nghiệm Khoa học Truyền thông NTT, Nhật Bản) đã khắc phục điểm này bằng cách kết hợp hai loại AI.

Đầu tiên, họ dùng một mô hình ngôn ngữ để phân tích hơn 2.000 video và tạo ra “chữ ký ý nghĩa” cho mỗi cảnh quay. Sau đó, AI thứ hai được huấn luyện trên dữ liệu chụp cộng hưởng từ chức năng (fMRI) của 6 người xem video, nhằm tìm ra mẫu hoạt động não tương ứng với từng chữ ký.

Khi hoàn tất, hệ thống có thể đọc một bản quét não mới và dự đoán người đó đang xem gì, rồi dùng một AI tạo văn bản để viết lại bằng câu hoàn chỉnh.

Chẳng hạn, khi người tham gia xem đoạn phim có người nhảy xuống từ thác nước, AI dần cải thiện mô tả qua mỗi lần đoán: từ “spring flow” (dòng suối chảy), đến “above rapid falling water fall” (trên dòng thác chảy xiết), và cuối cùng là câu hoàn chỉnh: “A person jumps over a deep waterfall on a mountain ridge” – Một người nhảy qua thác nước sâu trên sườn núi.

AI cũng có thể mô tả lại những hình ảnh mà người tham gia nhớ lại, cho thấy não bộ dường như sử dụng cùng một cơ chế để xử lý hình ảnh khi nhìn thấy và khi hồi tưởng.

Tiềm năng và lo ngại

Công nghệ này có thể trở thành nền tảng cho các giao diện não–máy tính (BCI) trong tương lai — giúp những người mất khả năng nói hoặc cử động diễn đạt ý nghĩ của họ bằng chữ.

“Nếu làm được điều đó bằng AI, chúng ta có thể giúp hàng triệu người giao tiếp trở lại,” Huth nói.

Tuy nhiên, việc giải mã hoạt động não cũng đặt ra câu hỏi đạo đức. Dữ liệu não có thể tiết lộ cảm xúc, tình trạng sức khỏe hay suy nghĩ cá nhân — và nếu bị lạm dụng, nó có thể trở thành công cụ giám sát hoặc phân biệt đối xử.

Cả Huth và Horikawa đều khẳng định, hiện tại công nghệ vẫn an toàn vì chỉ hoạt động khi có sự đồng ý của người tham gia và chưa thể đọc được suy nghĩ riêng tư.

“Chưa ai chứng minh được điều đó — ít nhất là cho đến bây giờ,” Huth nói.

Hình ảnh chụp cộng hưởng từ chức năng (fMRI) – phương pháp không xâm lấn để khảo sát hoạt động não. Ảnh: Viện Y tế Quốc gia Mỹ