Alphabet, công ty mẹ của Google, đang triển khai một sáng kiến mới nhằm giúp các chip trí tuệ nhân tạo của mình vận hành hiệu quả hơn với PyTorch – khung phần mềm AI được sử dụng phổ biến nhất hiện nay. Động thái này được xem là nỗ lực trực diện nhằm làm suy yếu lợi thế phần mềm lâu nay của Nvidia, yếu tố đã giúp hãng duy trì vị thế thống trị trên thị trường điện toán AI.
Sáng kiến trên là một phần trong chiến lược quyết liệt của Google nhằm biến Tensor Processing Unit (TPU) thành lựa chọn thay thế thực sự cho các GPU dẫn đầu của Nvidia. Doanh số TPU ngày càng đóng vai trò quan trọng trong tăng trưởng mảng điện toán đám mây của Google, trong bối cảnh tập đoàn này chịu áp lực phải chứng minh các khoản đầu tư khổng lồ vào AI đang mang lại hiệu quả tài chính.
Tuy nhiên, phần cứng không phải là yếu tố quyết định duy nhất. Theo các nguồn tin, sáng kiến mới – có tên nội bộ là “TorchTPU” – nhằm giải quyết rào cản lớn nhất từng kìm hãm việc phổ biến TPU: khả năng tương thích phần mềm. Mục tiêu của dự án là giúp TPU trở nên thân thiện và dễ tiếp cận hơn với các nhà phát triển đã xây dựng hạ tầng dựa trên PyTorch. Google cũng đang cân nhắc mở mã nguồn một phần phần mềm để thúc đẩy tốc độ tiếp nhận từ phía khách hàng.
So với các nỗ lực trước đây, TorchTPU được Google ưu tiên cao hơn rõ rệt, cả về nguồn lực lẫn tầm quan trọng chiến lược. Nhu cầu từ các doanh nghiệp muốn sử dụng TPU đang tăng lên, nhưng nhiều công ty vẫn coi lớp phần mềm là “nút thắt cổ chai” khiến việc chuyển đổi trở nên tốn kém và phức tạp.
PyTorch là một dự án mã nguồn mở được Meta Platforms hỗ trợ mạnh mẽ và hiện là công cụ cốt lõi của phần lớn nhà phát triển AI. Ra đời năm 2016, PyTorch gắn bó chặt chẽ với CUDA – nền tảng phần mềm mà giới phân tích coi là “hào lũy” quan trọng nhất của Nvidia trước các đối thủ. Trong nhiều năm, các kỹ sư Nvidia đã tối ưu sâu để đảm bảo các mô hình viết bằng PyTorch đạt hiệu suất cao nhất khi chạy trên GPU của hãng, từ đó tạo ra lợi thế cạnh tranh khó sao chép.
Google lại đi theo con đường khác. Tập đoàn này từ lâu ưu tiên sử dụng Jax cho đội ngũ phát triển nội bộ, trong khi TPU được tối ưu thông qua công cụ XLA. Phần lớn hệ sinh thái phần mềm AI và các nỗ lực cải thiện hiệu năng của Google đều xoay quanh Jax, khiến cách Google vận hành chip của mình ngày càng lệch pha với nhu cầu thực tế của khách hàng, vốn chủ yếu sử dụng PyTorch.
Người phát ngôn của Google Cloud không bình luận chi tiết về TorchTPU, nhưng xác nhận rằng mục tiêu của công ty là mang lại nhiều lựa chọn hơn cho khách hàng. Theo Google, nhu cầu đối với cả hạ tầng TPU lẫn GPU đang tăng rất nhanh, và ưu tiên của hãng là cung cấp sự linh hoạt cũng như khả năng mở rộng, bất kể khách hàng chọn loại phần cứng nào.
Trong nhiều năm, Alphabet gần như chỉ sử dụng TPU cho mục đích nội bộ. Bước ngoặt xảy ra vào năm 2022, khi bộ phận Google Cloud tiếp quản việc phân phối TPU, giúp lượng chip dành cho khách hàng bên ngoài tăng mạnh. Khi làn sóng AI bùng nổ, Google đẩy nhanh sản xuất và bán TPU để tận dụng cơ hội thị trường.
Dù vậy, sự không tương thích giữa PyTorch – công cụ quen thuộc của giới phát triển – và Jax – nền tảng mà TPU được tối ưu tốt nhất – khiến nhiều doanh nghiệp gặp khó khi chuyển sang dùng chip của Google. Để đạt hiệu năng tương đương GPU của Nvidia, họ thường phải đầu tư thêm đáng kể cho kỹ thuật và nhân lực, điều không dễ chấp nhận trong cuộc đua AI có nhịp độ ngày càng gấp gáp.
Nếu TorchTPU đạt được mục tiêu, chi phí chuyển đổi sang TPU có thể giảm đáng kể. Điều này đặc biệt quan trọng bởi vị thế của Nvidia không chỉ dựa trên phần cứng, mà còn được củng cố bởi hệ sinh thái CUDA đã ăn sâu vào PyTorch và trở thành chuẩn mặc định cho việc huấn luyện và vận hành các mô hình AI lớn.
Để tăng tốc, Google đang hợp tác chặt chẽ với Meta – đơn vị phát triển và duy trì PyTorch. Hai công ty cũng thảo luận về khả năng Meta tiếp cận nhiều TPU hơn, trong bối cảnh Meta muốn giảm chi phí suy luận và đa dạng hóa hạ tầng AI, qua đó giảm phụ thuộc vào GPU của Nvidia và tăng sức mặc cả.
Năm nay, Google bắt đầu bán TPU trực tiếp cho các trung tâm dữ liệu của khách hàng, thay vì chỉ cung cấp qua nền tảng đám mây. Với Google, hạ tầng này không chỉ phục vụ các sản phẩm như chatbot Gemini hay tìm kiếm tích hợp AI, mà còn là nền tảng để cạnh tranh sâu hơn trong thị trường AI toàn cầu.

Hình ảnh in 3D logo Meta Platforms đặt phía trước logo Google trong hình minh họa. Ảnh: Reuters

