Để tạo ra robot có thể nấu ăn, dọn dẹp và chăm sóc nhà cửa, các công ty công nghệ đang cần một thứ rất “đời thường”: video bạn làm việc nhà. Từ rửa bát, gấp quần áo đến dắt chó đi dạo, hàng nghìn người trên khắp thế giới đang được trả tiền để đeo camera và ghi lại từng động tác của mình. Những hình ảnh tưởng như tầm thường đó lại đang trở thành dữ liệu cốt lõi để huấn luyện thế hệ robot hình người — những “người giúp việc” tương lai mà ngành công nghệ đã theo đuổi suốt nhiều thập kỷ.
Giấc mơ đưa robot hình người vào mọi gia đình đã tạo ra một kiểu công việc mới. Yêu cầu rất đơn giản: chỉ gồm một dây đeo đầu, một chiếc điện thoại thông minh và danh sách việc nhà.
Cùng với sự phát triển của trí tuệ nhân tạo, robot hình người đang trở thành “mặt trận” mới trong cuộc đua công nghệ. Các nhà sản xuất liên tục tung ra những mẫu robot có thể đi lại, nhảy múa và thậm chí chiến đấu với độ linh hoạt ngày càng cao.
Tuy nhiên, một robot đa năng có thể làm việc trong cửa hàng, văn phòng và gia đình đòi hỏi lượng dữ liệu khổng lồ để học cách thay thế con người một cách an toàn và hiệu quả. Ngày càng nhiều dữ liệu như vậy được tạo ra bằng cách con người tự quay lại cảnh mình thực hiện các công việc thường ngày trong nhà.
Điều này tạo ra nhu cầu rất lớn đối với các video quay từ góc nhìn thứ nhất, còn gọi là “dữ liệu egocentric” hay “dữ liệu con người”. Trong vài tháng qua, nhiều startup đã tham gia đáp ứng nhu cầu này bằng cách thu thập và gắn nhãn video từ hàng nghìn lao động hợp đồng trên khắp thế giới.
Arian Sadeghi, Phó chủ tịch phụ trách dữ liệu robot tại Micro1, cho biết loại dữ liệu này sẽ cần thiết trong hầu hết mọi môi trường, từ nhà máy, kho bãi, bán lẻ đến viện dưỡng lão và bệnh viện, bởi mỗi nơi đòi hỏi những chuyển động khác nhau.
Mỗi người tham gia được cung cấp thiết bị đeo đầu để gắn camera, hướng dẫn quay và danh sách công việc như nấu ăn, dọn dẹp, làm vườn hay chăm sóc thú cưng. Họ phải luân phiên các nhiệm vụ và nộp ít nhất 10 giờ video mỗi tuần.
Dù hiện tại nội dung chủ yếu xoay quanh việc nhà, Sadeghi cho biết công ty khuyến khích người quay thử nghiệm nhiều tình huống khác nhau, nhằm giúp robot thích nghi nhanh hơn với môi trường và nhiệm vụ mới.
“Chúng tôi nói với họ rằng: nếu bạn muốn robot làm việc này thay mình, hãy quay phim lại công việc của bạn,” ông nói.
Hàng tỷ giờ dữ liệu
Dù có trụ sở tại Palo Alto, California, Micro1 hiện có khoảng 4.000 “lao động dữ liệu robot” tại 71 quốc gia, gửi về hơn 160.000 giờ video mỗi tháng. Nhưng theo Sadeghi, con số này vẫn còn quá nhỏ.
“Chúng ta có thể cần đến hàng tỷ giờ,” ông nói. “Hiện tại mới chỉ là những việc nhà đơn giản, chưa tính đến tương tác giữa con người với nhau.”
Ông cho rằng nhu cầu dữ liệu cho robot hiện nay giống với giai đoạn đầu của các chatbot như ChatGPT, vốn được huấn luyện bằng hàng trăm tỷ từ ngữ thu thập từ internet để tạo ra phản hồi phù hợp.
Sau văn bản, các mô hình AI tiếp tục phát triển để tạo hình ảnh và video dựa trên nguồn dữ liệu sẵn có trên mạng. Nhưng với robot, các nhà phát triển cần loại dữ liệu cụ thể hơn rất nhiều — và không có “kho dữ liệu sẵn” như internet trước đây.
Điều này mở ra một thị trường trị giá hàng tỷ USD cho các công ty như Micro1, vốn không chỉ thu thập mà còn gắn nhãn dữ liệu để robot có thể phân biệt vật thể, khoảng cách và chuyển động. Các hãng nghiên cứu dự báo ngành thu thập và gắn nhãn dữ liệu sẽ tăng trưởng trung bình khoảng 30% mỗi năm, đạt ít nhất 10 tỷ USD vào năm 2030.
Ravi Rajalingam, nhà sáng lập công ty gắn nhãn dữ liệu Objectways, cho biết trước đây ông từng cung cấp dữ liệu cho trợ lý ảo và xe tự lái, trước khi chuyển sang lĩnh vực robot vào năm ngoái. Tuy nhiên, chỉ khoảng một nửa số video thu thập được là thực sự sử dụng được.
Dù vậy, với 90% khách hàng đến từ Mỹ — nơi được kỳ vọng sẽ sớm phổ biến robot hình người — một số công ty sẵn sàng trả nhiều tiền hơn cho dữ liệu từ các hộ gia đình Mỹ, dù chi phí có thể cao gấp ba lần so với lao động tại Việt Nam hay Ấn Độ.
“Nhà bếp ở Ấn Độ rất khác ở Mỹ. Cây chổi cũng khác. Sự đa dạng là rất quan trọng, nhưng còn tùy vào việc bạn triển khai robot ở đâu trước,” Rajalingam nói. “Đó là lý do chúng tôi thu thập dữ liệu trên toàn thế giới.”
Cách huấn luyện robot
Trong nhiều thập kỷ, robot chủ yếu được con người huấn luyện thông qua điều khiển từ xa. Tuy nhiên, phương pháp này đòi hỏi phần cứng đắt đỏ. Gần đây, một lựa chọn rẻ hơn là sử dụng phần mềm để mô phỏng các tình huống ảo, nhưng cách này thường kém hiệu quả khi robot phải tương tác với vật thể thực, chẳng hạn như nhặt một chiếc ly.
“Với dữ liệu, luôn tồn tại sự đánh đổi giữa chất lượng và số lượng,” Alicia Veneziani, Phó chủ tịch mở rộng thị trường của Sharpa — một startup robot tại Singapore chuyên về bàn tay robot — cho biết.
Trung Quốc, quốc gia đang đẩy mạnh đầu tư nhà nước vào các ngành công nghệ cao, đã công bố kế hoạch xây dựng ít nhất 60 trung tâm huấn luyện robot trên toàn quốc. Theo Marco Wang, nhà phân tích tại Interact Analysis, phần lớn robot hình người được sản xuất hàng loạt tại Trung Quốc hiện nay vẫn chủ yếu được mua để phục vụ huấn luyện và nghiên cứu.
Tuy nhiên, từ cuối năm ngoái, ngành công nghiệp bắt đầu chuyển sang sử dụng “dữ liệu con người” như một giải pháp trung gian. Chi phí cho phương pháp này thấp hơn đáng kể, chỉ gồm thiết bị ghi hình như GoPro, kính thông minh Meta hoặc điện thoại, cùng tiền công từ 5 đến 20 USD mỗi giờ tùy khu vực.
“Ý tưởng là: tôi không cần robot làm việc đó, tôi cần con người làm và ghi lại,” Wang nói. “Như vậy, bạn không phải trả tiền cho robot, chỉ cần trả cho thiết bị và con người.”
Theo Wang, các mô hình tương tự cũng xuất hiện tại Nhật Bản và Hàn Quốc, nhưng đặt cơ sở tại Đông Nam Á để tận dụng chi phí lao động thấp. Trong khi đó, Tesla đang huấn luyện robot hình người Optimus tại cơ sở ở Fremont, California và có kế hoạch mở rộng sang Austin, Texas. Mỹ và châu Âu thường ưu tiên phương pháp mô phỏng, do Nvidia dẫn dắt.
Tuy nhiên, trong một báo cáo tháng 2, Nvidia cho biết việc bổ sung hơn 20.000 giờ video quay từ góc nhìn thứ nhất vào quá trình huấn luyện đã giúp tăng hơn 50% tỷ lệ thành công của các nhiệm vụ như gấp áo thun, phân loại các lá bài, mở nắp chai hay sử dụng ống tiêm.
“Chỉ dựa vào một phương pháp thu thập dữ liệu có lẽ không phải là cách tốt nhất,” Wang nói và dự đoán các công ty sẽ ngày càng kết hợp nhiều cách tiếp cận. “Trong tương lai, đó sẽ là sự pha trộn.”
“Chặng cuối” của tự động hóa
Bước ngoặt của robot tự động diễn ra khoảng ba năm trước, khi các mô hình ngôn ngữ lớn — nền tảng của ChatGPT — giúp tạo ra các thuật toán mới có thể chuyển tín hiệu thị giác thành hành động vật lý, theo Puneet Jindal, đồng sáng lập công ty gắn nhãn dữ liệu Labellerr AI. Nhờ đó, robot không còn chỉ thực hiện các nhiệm vụ lặp lại mà bắt đầu có khả năng “nhận thức” và di chuyển trong môi trường xung quanh.
Công ty của Jindal năm nay cũng bắt đầu thu thập video góc nhìn thứ nhất từ công nhân tại các nhà máy ở Ấn Độ. Trong vài năm tới, ông cho rằng ưu tiên dữ liệu con người là điều “hiển nhiên”. Tuy nhiên, xu hướng này có thể không kéo dài, bởi dữ liệu đó có thể giúp cải thiện mô phỏng, hoặc AI có thể chuyển đổi video trên YouTube thành góc nhìn thứ nhất để thay thế.
“Ngay cả các phòng thí nghiệm robot cũng chưa biết 12 tháng nữa họ sẽ cần loại dữ liệu gì,” ông nói.
Một lý do khiến robot đa năng cần nhiều dữ liệu là môi trường gia đình cực kỳ khó đoán — đồ đạc, thiết bị và con người luôn thay đổi vị trí, theo Rutav Shah, nhà nghiên cứu robot tại Đại học Texas ở Austin.
“Điều còn thiếu là trực giác kiểu con người về lực, ma sát và sự bất định — thứ mà con người tích lũy suốt đời,” Shah nói. “Biến robot thành công cụ thực sự hữu ích cho các việc thường ngày như nấu ăn, dọn dẹp — đó sẽ là chặng cuối của tự động hóa.”
Hiện tại, robot hình người chủ yếu được triển khai trong môi trường kiểm soát như nhà máy, nơi chúng có thể hoàn thành nhiệm vụ với độ chính xác 99,9%, theo Alexander Verl, Chủ tịch nghiên cứu của Liên đoàn Robot Quốc tế. Ngay cả với việc đơn giản như gấp áo, tỷ lệ thành công hiện nay — khoảng 70–80% — vẫn chưa đủ để thương mại hóa.
“Với ngành sản xuất, mức đó là chưa đạt yêu cầu,” ông nói.
Ravi Rajalingam từ Objectways cũng cảnh báo về rủi ro an toàn. Nếu robot dọn phòng chơi mà không phân biệt được búp bê với em bé thật, hậu quả có thể rất nghiêm trọng.
“Nếu robot bế nhầm con tôi và bỏ vào thùng rác, đó sẽ là một vụ kiện hàng triệu USD,” ông nói.

Các công nhân tại trung tâm huấn luyện robot của X-humanoid ở vùng ngoại ô Bắc Kinh đang huấn luyện robot hình người. Ảnh: CNN

