
Tại Hội nghị Thượng đỉnh Hạ tầng AI hôm qua, 9/9, Nvidia giới thiệu GPU mới mang tên Rubin CPX, được thiết kế đặc biệt cho các mô hình ngôn ngữ lớn (LLM) cần xử lý ngữ cảnh siêu dài, trên 1 triệu token.
Các chip Rubin CPX sẽ được xây dựng trên kiến trúc Rubin thế hệ tiếp theo của Nvidia — kế nhiệm công nghệ “Blackwell” mới nhất của hãng, đánh dấu bước tiến vào việc cung cấp các hệ thống xử lý lớn hơn.
Trên thực tế, không phải ứng dụng nào cũng cần ngữ cảnh dài đến vậy. Nhưng với những trường hợp như tạo video hay phát triển phần mềm phức tạp, việc mã hóa dữ liệu đầu vào là một khâu rất nặng nề về tính toán. Các GPU thông thường vốn được tối ưu cho giai đoạn tạo sinh (generation) của LLM – giai đoạn này phụ thuộc nhiều vào bộ nhớ tốc độ cao (HBM) và mạng – nên không thật sự phù hợp để xử lý khâu mã hóa.
Rubin CPX ra đời để lấp khoảng trống đó. Nó là một phần trong dòng chip Rubin mới, được Nvidia thiết kế cho mô hình hạ tầng gọi là “suy luận tách rời” (disaggregated inference), tức chia nhỏ các công đoạn suy luận của AI và dùng phần cứng phù hợp cho từng giai đoạn. Nhờ vậy, hiệu năng của những tác vụ yêu cầu ngữ cảnh dài sẽ được cải thiện đáng kể.
Theo kế hoạch, Rubin CPX sẽ có mặt trên thị trường vào cuối năm 2026.
Jensen Huang, CEO của Nvidia, tại Hội nghị Thượng đỉnh Hạ tầng AI do công ty tổ chức ngày 9/9/2025. Ảnh: TechCrunch