
Một người đàn ông bị khuyết tật nghiêm trọng về khả năng nói đã có thể nói chuyện một cách biểu cảm nhờ một thiết bị cấy ghép não. Thiết bị này, gần như lập tức dịch hoạt động thần kinh của ông thành ngôn từ, không chỉ truyền tải sự thay đổi ngữ điệu khi ông đặt câu hỏi, nhấn mạnh từ theo ý muốn mà còn cho phép ông ngân nga chuỗi nốt nhạc với ba cao độ khác nhau.
Hệ thống này, được gọi là giao diện não – máy tính (brain–computer interface – BCI), sử dụng trí tuệ nhân tạo (AI) để giải mã hoạt động điện trong não của người tham gia khi ông cố gắng nói. Đây là thiết bị đầu tiên có thể tái tạo không chỉ từ ngữ mà người nói muốn truyền đạt, mà còn cả các đặc điểm tự nhiên của lời nói như ngữ điệu, cao độ và trọng âm — những yếu tố giúp thể hiện ý nghĩa và cảm xúc.
Trong nghiên cứu, một giọng nói mô phỏng giọng của chính người tham gia đã có thể phát ra lời nói chỉ trong vòng 10 mili-giây kể từ khi xuất hiện hoạt động thần kinh cho thấy ông có ý định nói. Hệ thống này, được mô tả trong tạp chí Nature hôm nay, 11-6, đánh dấu bước tiến vượt bậc so với các mô hình BCI trước đây, vốn cần tới ba giây để phát lời hoặc chỉ tạo ra lời nói sau khi người dùng hoàn tất mô phỏng toàn bộ câu.
“Đây là đích đến tối thượng trong lĩnh vực BCI dành cho lời nói,” Christian Herff, nhà khoa học thần kinh tính toán tại Đại học Maastricht (Hà Lan), người không tham gia nghiên cứu, nhận định. “Bây giờ, đây là lời nói thực, tức thời, liên tục.”
Bộ giải mã theo thời gian thực
Người tham gia nghiên cứu, một người đàn ông 45 tuổi, đã mất khả năng nói rõ ràng sau khi mắc bệnh xơ cứng teo cơ một bên (ALS) — một dạng bệnh thần kinh vận động gây tổn thương các dây thần kinh điều khiển chuyển động cơ, bao gồm cả những cơ liên quan đến phát âm. Mặc dù ông vẫn có thể phát ra âm thanh và mấp máy môi để nói, nhưng lời nói rất chậm và khó hiểu.
Năm năm sau khi xuất hiện triệu chứng, ông đã trải qua phẫu thuật cấy 256 điện cực silicon, mỗi cái dài 1,5 mm, vào vùng vỏ não điều khiển chuyển động. Đồng tác giả nghiên cứu, Maitreyee Wairagkar – nhà thần kinh học tại Đại học California, Davis – cùng các cộng sự đã huấn luyện các thuật toán học sâu (deep learning) để ghi nhận tín hiệu từ não ông cứ mỗi 10 mili-giây. Hệ thống của họ giải mã, theo thời gian thực, những âm thanh mà người đàn ông cố gắng phát ra, thay vì cố gắng xác định từ ngữ hoặc các âm vị cấu thành từ đó.
“Chúng ta không phải lúc nào cũng dùng từ để giao tiếp điều mình muốn. Chúng ta có những tiếng thốt lên, những biểu cảm bằng âm thanh mà không nằm trong từ vựng,” Wairagkar giải thích. “Vì thế, chúng tôi đã áp dụng một cách tiếp cận hoàn toàn không bị giới hạn.”
Nhóm nghiên cứu cũng cá nhân hóa giọng nói tổng hợp sao cho giống với giọng thật của ông, bằng cách huấn luyện thuật toán AI trên các bản ghi âm từ những cuộc phỏng vấn mà ông từng thực hiện trước khi mắc bệnh.
Nhóm yêu cầu ông cố gắng phát ra những tiếng như “à”, “ồ” và “hừm” cùng những từ giả. Hệ thống BCI đã tái tạo thành công những âm thanh này, chứng minh rằng nó có thể tạo ra lời nói mà không cần kho từ vựng cố định.
Với thiết bị này, người tham gia có thể đánh vần từ ngữ, trả lời các câu hỏi mở và nói bất kỳ điều gì ông muốn — kể cả những từ không có trong dữ liệu huấn luyện của hệ thống. Ông chia sẻ với các nhà nghiên cứu rằng việc nghe giọng tổng hợp tái hiện lời mình nói khiến ông “cảm thấy hạnh phúc” và rằng nó “giống như giọng thật của tôi.”
Trong các thử nghiệm khác, hệ thống BCI có thể xác định khi nào ông đang cố nói câu dưới dạng câu hỏi hoặc câu trần thuật. Nó cũng nhận ra khi ông nhấn mạnh vào các từ khác nhau trong cùng một câu và điều chỉnh ngữ điệu giọng nói tổng hợp cho phù hợp. “Chúng tôi đang đưa vào tất cả những yếu tố của lời nói con người – những thứ thực sự quan trọng,” Wairagkar cho biết. Trước đây, các hệ thống BCI chỉ có thể tạo ra lời nói đơn điệu, phẳng lặng.
“Đây là một bước ngoặt mang tính định hình, bởi nó có thể thực sự trở thành công cụ áp dụng vào đời sống thực,” Silvia Marchesotti, kỹ sư thần kinh tại Đại học Geneva (Thụy Sĩ), nhận định. Những đặc điểm của hệ thống này “sẽ vô cùng quan trọng để có thể được người bệnh sử dụng hằng ngày trong tương lai.”
Vỏ não vận động (màu cam, minh họa). Các điện cực được cấy vào khu vực này giúp ghi nhận hoạt động não liên quan đến lời nói của người đàn ông không thể phát âm rõ ràng. Ảnh: Photo Library