
Microsoft vừa giới thiệu những mô hình trí tuệ nhân tạo (AI) “cây nhà lá vườn” đầu tiên, một bước đi có thể định hình lại vị thế của hãng trong cuộc đua AI. Công ty đã công bố MAI-Voice-1, một mô hình giọng nói, và MAI-1-preview, một mô hình văn bản được xem như “bước hé lộ” cho những gì sắp tới trong trợ lý ảo Copilot.
MAI-Voice-1 được thiết kế để đạt tốc độ vượt trội. Theo Microsoft, mô hình này có thể tạo ra một phút âm thanh chỉ trong chưa đầy một giây, sử dụng duy nhất một GPU. Nó đã được triển khai trong một số công cụ của công ty. Chẳng hạn, công cụ Copilot Daily dùng nó để đọc bản tin tóm tắt bằng giọng AI, hoặc tạo ra các cuộc trò chuyện dạng podcast giúp giải thích những chủ đề phức tạp một cách dễ hiểu hơn.
Trong khi đó, MAI-1-preview tập trung vào xử lý văn bản. Microsoft đã huấn luyện mô hình này trên khoảng 15.000 GPU Nvidia H100, đủ quy mô để xử lý các tác vụ theo chỉ dẫn và hỏi-đáp tự nhiên. Người dùng đã có thể thử nghiệm trên Copilot Labs, nơi mô hình được kiểm tra khả năng trả lời các câu hỏi thường ngày. Microsoft cho biết sắp tới mô hình này cũng sẽ hỗ trợ việc sử dụng văn bản bên trong trợ lý Copilot.
Cạnh tranh với OpenAI
Động thái này diễn ra khi Microsoft vẫn gắn bó chặt chẽ với OpenAI, nhà phát triển ChatGPT. Microsoft đã đầu tư hơn 13 tỷ USD vào startup này, vốn hiện được định giá khoảng 500 tỷ USD. OpenAI vẫn phụ thuộc vào hạ tầng đám mây của Microsoft để vận hành các mô hình, trong khi Microsoft lại tích hợp công nghệ OpenAI vào Bing, Windows và nhiều sản phẩm khác.
Tuy nhiên, hai bên đang dần trở thành đối thủ. Năm ngoái, Microsoft đã thêm OpenAI vào danh sách các đối thủ cạnh tranh trong báo cáo thường niên, bên cạnh Amazon, Apple, Google và Meta. Đồng thời, OpenAI cũng phân tán nhu cầu hạ tầng sang các bền tảng khác như CoreWeave, Google, và Oracle khi lượng người dùng ChatGPT tăng mạnh (hiện đạt khoảng 700 triệu người/tuần).
Các bài kiểm thử cho thấy Microsoft vẫn chưa bắt kịp một số đối thủ. Hôm thứ Năm, MAI-1-preview đứng hạng 13 trong bảng xếp hạng xử lý văn bản của LMArena, sau các mô hình từ Anthropic, DeepSeek, Google, Mistral, OpenAI và xAI của Elon Musk. Dù chưa dẫn đầu, Microsoft nhấn mạnh rằng đây là mô hình nền tảng đầu tiên được huấn luyện hoàn toàn nội bộ.
Mustafa Suleyman, Giám đốc mảng AI của Microsoft, viết trên X: “MAI-1-preview đại diện cho mô hình nền tảng đầu tiên được chúng tôi xây dựng và huấn luyện hoàn toàn từ đầu.”
Hướng đến người dùng phổ thông
Suleyman khẳng định định hướng của nhóm là tập trung vào người dùng tiêu dùng, thay vì thị trường doanh nghiệp. Ông cho rằng sức mạnh của Microsoft nằm ở lượng dữ liệu người dùng khổng lồ.
Microsoft cũng cho biết hãng không định phụ thuộc vào một mô hình đa năng duy nhất, mà sẽ phát triển nhiều mô hình chuyên biệt cho từng loại yêu cầu khác nhau. “Chúng tôi tin rằng việc điều phối một loạt mô hình chuyên biệt, phục vụ các mục đích và ngữ cảnh khác nhau, sẽ mở ra giá trị to lớn,” nhóm AI của Microsoft viết trong blog.
Xây dựng bộ phận AI riêng
Đây là lần đầu tiên Microsoft huấn luyện một mô hình nền tảng lớn từ đầu đến cuối. Bước tiến này phản ánh nỗ lực mở rộng mảng AI kể từ khi hãng chiêu mộ Suleyman cùng nhiều cộng sự cũ từ startup Inflection. Suleyman từng đồng sáng lập DeepMind, phòng nghiên cứu mà Google mua lại năm 2014. Trong năm qua, Microsoft đã tuyển khoảng hai chục cựu chuyên gia nghiên cứu DeepMind để tăng tốc dự án AI nội bộ.
Hiện tại, Microsoft định vị các mô hình mới này như phần bổ sung cho hệ sinh thái Copilot, trong khi vẫn dựa vào OpenAI cho nhiều tính năng cốt lõi. Nhưng việc ra mắt MAI-Voice-1 và MAI-1-preview được xem là bước đi hướng tới tự chủ hơn trong phát triển mô hình AI, đồng thời có thể mở ra một giai đoạn cạnh tranh mới với chính OpenAI — công ty mà Microsoft từng góp phần đưa lên hàng ngũ “ông lớn AI”.
Logo Microsoft trên một tòa nhà của công ty. Ảnh: Techwire Asia