Trong gần hai năm qua, trí tuệ nhân tạo đã được nhắc đến như lực lượng có thể làm đảo lộn thị trường lao động tri thức. CEO Microsoft Satya Nadella từng tuyên bố rằng các tác nhân AI sẽ sớm thay thế hàng loạt công việc văn phòng, từ luật sư, kế toán cho đến ngân hàng đầu tư và chuyên gia CNTT. Tuy nhiên, ở chiều ngược lại, đồng sáng lập OpenAI Andrej Karpathy lại mô tả AI tác nhân hiện nay như một dạng “slop” — sản phẩm còn lộn xộn, kém hoàn thiện và khó sử dụng trong thực tế.
Giữa hai quan điểm tưởng như đối lập này, câu hỏi then chốt đặt ra không còn là “AI có tiềm năng hay không”, mà là: chúng ta đang đo lường năng lực của AI như thế nào, và liệu các thước đo hiện nay có phản ánh đúng khả năng làm việc thực tế của các mô hình hay không?
Khoảng cách giữa trình diễn và hiệu suất thực tế
Trong những năm gần đây, các mô hình ngôn ngữ lớn (LLM) liên tục gây ấn tượng với khả năng trả lời câu hỏi, viết văn bản, lập kế hoạch hay phân tích thông tin. Trên các chuẩn đánh giá truyền thống, điểm số của mô hình ngày càng cao, tạo cảm giác rằng AI đang tiến rất nhanh đến ngưỡng thay thế con người trong nhiều công việc trí óc.
Thế nhưng, thực tế tại môi trường công sở lại cho thấy một bức tranh khác. Phần lớn lao động tri thức vẫn chưa bị tác động đáng kể. Các tác nhân AI có thể hỗ trợ nghiên cứu hoặc soạn thảo, nhưng hiếm khi được giao trọn vẹn những nhiệm vụ phức tạp, kéo dài và có trách nhiệm cao. Sự chậm trễ này không chỉ đến từ yếu tố tổ chức hay pháp lý, mà còn từ chính năng lực chưa ổn định của các mô hình.
Theo các nhà nghiên cứu, nguyên nhân quan trọng nằm ở cách đánh giá. Nhiều chuẩn hiện nay chủ yếu đo kiến thức hoặc kỹ năng riêng lẻ, trong khi công việc văn phòng đòi hỏi khả năng tổng hợp, suy luận đa lĩnh vực và làm việc liên tục trong một môi trường nhiều công cụ.
Các kịch bản trong bài kiểm tra đều được lấy trực tiếp từ những chuyên gia thực sự trên nền tảng chuyên gia của Mercor. Chính họ là người đưa ra câu hỏi và cũng là người xác định tiêu chuẩn thế nào được xem là một câu trả lời thành công. Chỉ cần xem qua bộ câu hỏi — hiện được công bố công khai trên Hugging Face — cũng đủ thấy mức độ phức tạp của các nhiệm vụ này.
Chẳng hạn, một câu hỏi trong phần “Luật” nêu ra tình huống: Trong 48 phút đầu tiên của sự cố gián đoạn sản xuất tại EU, nhóm kỹ sư của Northstar đã xuất một hoặc hai gói nhật ký sự kiện sản xuất của EU, có chứa dữ liệu cá nhân, sang một nhà cung cấp phân tích tại Mỹ… Theo chính sách nội bộ của Northstar, liệu công ty có thể hợp lý xem một hoặc hai lần xuất dữ liệu này là phù hợp với Điều 49 hay không?
Câu trả lời đúng là “có”, nhưng để đi đến kết luận đó đòi hỏi phải đánh giá kỹ lưỡng các chính sách nội bộ của công ty cũng như các quy định liên quan của luật bảo vệ dữ liệu EU.
Ngay cả với một con người hiểu biết, đây cũng là câu hỏi không hề dễ. Tuy nhiên, các nhà nghiên cứu đang cố gắng mô phỏng đúng những gì các chuyên gia trong ngành thực sự phải làm. Nếu một mô hình ngôn ngữ lớn (LLM) có thể trả lời đáng tin cậy những câu hỏi như vậy, nó hoàn toàn có thể thay thế nhiều luật sư đang làm việc hiện nay.
APEX-Agents và cách tiếp cận mới trong đo lường AI
Một nghiên cứu mới do Mercor khởi xướng đã cố gắng thu hẹp khoảng cách này bằng việc giới thiệu chuẩn đánh giá APEX-Agents. Thay vì đặt ra các câu hỏi rời rạc, APEX-Agents mô phỏng toàn bộ môi trường làm việc của các ngành có giá trị cao như ngân hàng đầu tư, tư vấn quản lý và luật doanh nghiệp.
Trong các bài kiểm tra này, tác nhân AI phải xử lý những nhiệm vụ kéo dài, yêu cầu truy cập và kết nối thông tin từ nhiều nguồn khác nhau, tương tự cách con người làm việc với email, tài liệu, bảng tính, lịch và công cụ trò chuyện nội bộ. Quan trọng hơn, các nhiệm vụ được thiết kế và chấm điểm bởi chính những chuyên gia đang hành nghề, chứ không phải bởi các nhà nghiên cứu AI.
Kết quả thu được khá “phũ phàng”. Tất cả các mô hình hàng đầu hiện nay đều không vượt qua bài kiểm tra. Mô hình có kết quả tốt nhất cũng chỉ đạt độ chính xác khoảng 24% trong các tình huống một lần trả lời. Phần lớn thời gian, AI hoặc đưa ra kết luận sai, hoặc không thể đi đến kết luận nào có thể chấp nhận được.
Dù chưa mô hình nào sẵn sàng “thế chỗ” các chuyên gia ngân hàng đầu tư, một số mô hình đã tiến gần hơn so với phần còn lại. Gemini 3 Flash đạt kết quả cao nhất với độ chính xác một lần (one-shot accuracy) 24%, theo sau sát sao là GPT-5.2 với 23%. Các mô hình Opus 4.5, Gemini 3 Pro và GPT-5 đều đạt khoảng 18%.
Theo CEO Mercor Brendan Foody, điểm yếu lớn nhất của các mô hình không nằm ở kiến thức đơn lẻ, mà ở khả năng theo dõi và kết nối thông tin trải rộng trên nhiều miền khác nhau. Trong thực tế, công việc tri thức hiếm khi được trình bày gọn gàng trong một prompt duy nhất. Thay vào đó, người làm việc phải liên tục chuyển đổi giữa các tài liệu, công cụ và bối cảnh, đồng thời duy trì một dòng suy luận nhất quán trong thời gian dài.
Chính sự phân mảnh này khiến các mô hình AI hiện nay gặp khó. Khi nhiệm vụ càng cụ thể, gắn với bối cảnh pháp lý, quy định nội bộ hay chuỗi sự kiện thực tế, hiệu suất của mô hình càng suy giảm. Điều này cho thấy sự khác biệt căn bản giữa “trả lời tốt một câu hỏi” và “hoàn thành tốt một công việc”.
Đo lường không chỉ là chấm điểm
APEX-Agents cũng làm nổi bật một vấn đề rộng hơn trong lĩnh vực AI: đo lường không đơn thuần là xếp hạng mô hình, mà là xác định ranh giới giữa khả năng trình diễn và khả năng tạo ra giá trị kinh tế thực sự.
Trước đó, OpenAI từng giới thiệu chuẩn GDPval nhằm đánh giá hiệu suất của mô hình trên các nhiệm vụ thực tế. Tuy nhiên, GDPval vẫn thiên về kiểm tra kiến thức tổng quát trên nhiều ngành, trong khi APEX-Agents tập trung sâu vào từng lĩnh vực cụ thể và chuỗi công việc hoàn chỉnh. Cách tiếp cận này khiến bài kiểm tra khó hơn, nhưng đồng thời cũng gần với câu hỏi cốt lõi: liệu AI có thể tự động hóa các công việc có giá trị cao hay không?
Ở thời điểm hiện tại, câu trả lời vẫn là chưa.
Dù vậy, kết quả kém không đồng nghĩa với bế tắc. Foody ví von rằng AI tác nhân hiện nay giống như một thực tập sinh chỉ làm đúng khoảng một phần tư khối lượng công việc. Con số này tuy thấp, nhưng đã là một bước tiến lớn so với một năm trước, khi mức chính xác chỉ dao động quanh 5–10%.
Lịch sử phát triển của AI cho thấy các chuẩn đánh giá khó thường bị vượt qua rất nhanh sau khi được công bố. Việc APEX-Agents và toàn bộ hạ tầng đánh giá được mở mã nguồn có thể tạo ra một cuộc đua mới giữa các phòng thí nghiệm AI, buộc họ phải cải thiện khả năng suy luận tích hợp thay vì chỉ tối ưu cho các bài kiểm tra quen thuộc.
Đo đúng để không kỳ vọng sai
Cuộc tranh luận giữa những người lạc quan như Satya Nadella và những người thận trọng như Andrej Karpathy thực chất phản ánh một giai đoạn chuyển tiếp của AI. Công nghệ đang tiến rất nhanh, nhưng các thước đo cũ không còn đủ để mô tả chính xác mức độ sẵn sàng của nó trong môi trường làm việc thực tế.
Những chuẩn đánh giá như APEX-Agents cho thấy một điều quan trọng: nếu đo lường sát với thực tế, AI hiện nay vẫn còn cách khá xa việc thay thế lao động tri thức. Tuy nhiên, chính việc đo lường đúng này cũng mở ra con đường cải thiện rõ ràng hơn, giúp ngành AI tập trung vào những năng lực thực sự cần thiết, thay vì chỉ tạo ra những màn trình diễn ấn tượng trên bề mặt.

Các tác nhân AI ngày càng hiện diện trong môi trường làm việc số, song những bài kiểm tra mới cho thấy hiệu suất của chúng vẫn còn cách xa yêu cầu thực tế. Ảnh: https://cxotoday.com

