Hôm thứ Hai, Anthropic chính thức giới thiệu Opus 4.5 — phiên bản mới nhất của dòng mô hình chủ lực. Đây là mô hình cuối cùng trong “gia đình 4.5”, sau khi Sonnet 4.5 ra mắt hồi tháng 9 và Haiku 4.5 vào tháng 10.
Như dự đoán, Opus 4.5 đạt mức hiệu suất hàng đầu trên hàng loạt bài đánh giá, từ các bài kiểm tra lập trình như SWE-Bench và Terminal-bench, đến khả năng sử dụng công cụ (tau2-bench, MCP Atlas) và giải quyết vấn đề tổng quát (ARC-AGI 2, GPQA Diamond). Điểm nổi bật nhất là Opus 4.5 trở thành mô hình đầu tiên đạt hơn 80% trên SWE-Bench verified — một bài kiểm tra lập trình được xem là rất khó và có uy tín cao.
Anthropic cũng lần đầu cho thấy sự chú trọng lớn vào khả năng dùng máy tính và bảng tính của Opus. Cùng lúc công bố mô hình, công ty mở rộng hai sản phẩm đang thử nghiệm: Claude for Chrome và Claude for Excel. Bản mở rộng cho Chrome sẽ có cho toàn bộ người dùng gói Max, còn phiên bản cho Excel sẽ dành cho người dùng Max, Team và Enterprise.
Một điểm cải tiến quan trọng của Opus 4.5 nằm ở khả năng quản lý bộ nhớ cho các tác vụ cần ngữ cảnh dài. Điều này đòi hỏi Anthropic phải thay đổi cách mô hình xử lý và lưu giữ thông tin trong quá trình làm việc.
Dianne Na Penn, Giám đốc quản lý sản phẩm nghiên cứu của Anthropic, giải thích rằng chỉ có cửa sổ ngữ cảnh lớn là chưa đủ. “Biết được thông tin nào cần nhớ mới là điều quan trọng. Ngữ cảnh dài chỉ là một phần của câu chuyện,” cô nói.
Nhờ những thay đổi này, Anthropic cũng có thể tung ra một tính năng được người dùng yêu cầu từ lâu: “trò chuyện không giới hạn” dành cho khách hàng trả phí. Khi mô hình sắp vượt quá giới hạn ngữ cảnh, nó sẽ tự nén lại bộ nhớ mà không làm gián đoạn cuộc trò chuyện hay yêu cầu người dùng bắt đầu lại.
Một phần lớn các cải tiến lần này phục vụ cho những trường hợp dùng mang tính “tác nhân” — nơi Opus đóng vai trò “chỉ huy”, điều phối nhiều tác nhân phụ chạy bằng Haiku để xử lý những nhiệm vụ lớn như đọc mã nguồn, thao tác tài liệu dài hay tự phân chia công việc. Khả năng ghi nhớ và quay lại kiểm tra thông tin cũ trong những tác vụ như vậy là cực kỳ quan trọng, và đây là nơi các cải tiến về bộ nhớ phát huy tác dụng.
Penn nói: “Những nền tảng như bộ nhớ thực sự quan trọng, vì Claude cần khả năng khám phá nền tảng lập trình lớn, đọc các tài liệu đồ sộ và biết khi nào phải quay lại kiểm tra.”
Opus 4.5 sẽ phải cạnh tranh trực tiếp với hai mô hình lớn vừa được tung ra gần đây: GPT 5.1 của OpenAI (ra mắt 12/11) và Gemini 3 của Google (ra mắt 18/11). Đây đều là những mô hình tiên tiến nhất hiện nay, khiến cuộc đua trở nên quyết liệt hơn.

Hình minh họa cho việc Anthropic công bố Opus 4.5, mô hình mạnh nhất trong dòng Claude 4.5

