OpenAI đặt cược lớn vào AI âm thanh khi màn hình thoái trào

By Hoàng Sơn (Theo TechCrunch) 3 Tháng 1 2026, 07:38

OpenAI đang dồn lực cho trí tuệ nhân tạo âm thanh, với tham vọng không chỉ dừng lại ở việc cải thiện chất giọng của ChatGPT. Theo The Information, trong hai tháng qua, công ty đã hợp nhất nhiều nhóm kỹ sư, sản phẩm và nghiên cứu để tái thiết các mô hình âm thanh. Mục tiêu là chuẩn bị cho một thiết bị cá nhân lấy âm thanh làm trung tâm, dự kiến ra mắt trong khoảng một năm tới.

Động thái này phản ánh xu hướng chung của ngành công nghệ. Màn hình dần lùi về vai trò thứ yếu, trong khi âm thanh trở thành giao diện chính. Loa thông minh đã đưa trợ lý giọng nói vào hơn một phần ba số hộ gia đình tại Mỹ. Trải nghiệm tương tác bằng giọng nói ngày càng phổ biến.

Các tập đoàn lớn đang tăng tốc theo hướng này. Meta vừa bổ sung tính năng cho kính thông minh Ray-Ban, sử dụng hệ thống năm micro để giúp người dùng nghe rõ hội thoại trong môi trường ồn ào. Google từ tháng 6 đã thử nghiệm “Audio Overviews”, biến kết quả tìm kiếm thành các bản tóm tắt dạng hội thoại. Tesla cũng đang tích hợp chatbot Grok của xAI vào xe, cho phép người lái điều khiển từ dẫn đường đến điều hòa bằng đối thoại tự nhiên.

Không chỉ các “ông lớn” tham gia cuộc chơi. Nhiều startup cũng đặt cược vào thiết bị không màn hình, dù kết quả trái chiều. Humane AI Pin tiêu tốn hàng trăm triệu USD trước khi trở thành ví dụ điển hình cho thất bại. Mặt dây chuyền Friend AI gây tranh cãi vì lo ngại quyền riêng tư và những câu hỏi về ranh giới con người – máy móc.

Hiện nay, ít nhất hai công ty, gồm Sandbar và một startup do nhà sáng lập Pebble Eric Migicovsky điều hành, đang phát triển nhẫn AI dự kiến ra mắt vào năm 2026. Các thiết bị này cho phép người đeo giao tiếp với AI chỉ bằng giọng nói, theo đúng nghĩa “nói chuyện với bàn tay”.

Hình thức có thể khác nhau, nhưng thông điệp thì thống nhất. Âm thanh được xem là giao diện của tương lai. Ngôi nhà, chiếc xe, thậm chí khuôn mặt con người, đều có thể trở thành điểm tương tác với AI.

OpenAI dự kiến ra mắt mô hình âm thanh mới vào đầu năm 2026. Mô hình này được cho là sẽ có giọng nói tự nhiên hơn, xử lý ngắt lời linh hoạt như người thật, thậm chí có thể nói đồng thời với người dùng. Đây là những khả năng mà các hệ thống hiện nay chưa làm được.

Công ty cũng đang hình dung về một hệ sinh thái thiết bị, có thể gồm kính hoặc loa thông minh không màn hình. Các thiết bị này được thiết kế để hoạt động như người bạn đồng hành, hơn là công cụ thuần túy.

Theo The Information, hướng đi này phù hợp với triết lý của Jony Ive. Cựu giám đốc thiết kế Apple gia nhập nỗ lực phần cứng của OpenAI sau thương vụ mua lại công ty io trị giá 6,5 tỷ USD hồi tháng 5. Ông xem thiết kế lấy âm thanh làm trung tâm là cơ hội để giảm sự lệ thuộc vào thiết bị và “sửa chữa những sai lầm” của các sản phẩm công nghệ trong quá khứ.

Sam Altman, Giám đốc điều hành OpenAI, xuất hiện trong bóng tối trên sân khấu — hình ảnh gợi nhấn mạnh sự chuyển dịch của OpenAI và Thung lũng Silicon sang kỷ nguyên AI lấy âm thanh làm trung tâm, nơi màn hình dần lùi về hậu cảnh. Ảnh: Getty Images