Startup Memories.ai ngày 16/3 công bố hợp tác với Nvidia nhằm phát triển hạ tầng “ký ức thị giác” cho thiết bị đeo và robot, trong nỗ lực giúp các hệ thống AI có thể lưu trữ và truy xuất dữ liệu hình ảnh trong môi trường thực.
Theo thỏa thuận được công bố tại hội nghị GTC, Memories.ai sẽ tích hợp các công cụ của Nvidia, bao gồm mô hình Cosmos-Reason 2 — một hệ thống ngôn ngữ thị giác có khả năng suy luận — và nền tảng Nvidia Metropolis để tìm kiếm, tóm tắt video. Công ty cho biết các công nghệ này sẽ hỗ trợ xây dựng hệ thống ghi nhớ và truy xuất dữ liệu hình ảnh phục vụ ứng dụng AI trong thế giới vật lý.
Phát biểu với TechCrunch, CEO Shawn Shen tin rằng AI cần phải có khả năng ghi nhớ những gì nó “nhìn thấy” để có thể hoạt động hiệu quả trong thế giới vật lý. Ông cho biết ý tưởng thành lập công ty xuất phát từ quá trình ông và đồng sáng lập kiêm giám đốc công nghệ Ben Zhou phát triển hệ thống AI cho kính Ray-Ban của Meta, và nhận thấy rằng việc thiếu khả năng truy xuất dữ liệu video đã ghi khiến các thiết bị này khó phát huy hiệu quả trong thực tế.
Sau khi không tìm thấy giải pháp tương tự trên thị trường, hai nhà sáng lập đã tách khỏi Meta để phát triển công nghệ riêng. “AI đã hoạt động tốt trong thế giới số, nhưng các hệ thống trong thế giới vật lý cũng cần có ký ức, đặc biệt là ký ức thị giác,” Shen nói.
Khả năng ghi nhớ của AI hiện vẫn chủ yếu tập trung vào dữ liệu văn bản. OpenAI đã bổ sung tính năng ghi nhớ cho ChatGPT từ năm 2024 và tiếp tục cải tiến trong năm 2025, trong khi xAI và Google cũng phát triển các công cụ tương tự. Tuy nhiên, theo Shen, ký ức văn bản có cấu trúc rõ ràng và dễ lập chỉ mục (cách tổ chức dữ liệu để tìm kiếm nhanh) hơn, nhưng chưa đáp ứng tốt các ứng dụng AI tương tác bằng hình ảnh.
Memories.ai được thành lập năm 2024 và đã huy động tổng cộng 16 triệu USD, gồm vòng hạt giống 8 triệu USD vào tháng 7/2025 và khoản mở rộng thêm 8 triệu USD. Công ty cho biết việc xây dựng “lớp ký ức thị giác” đòi hỏi hai yếu tố chính: hạ tầng để nhúng và lập chỉ mục video thành dữ liệu có thể lưu trữ, truy xuất; và nguồn dữ liệu đủ lớn để huấn luyện mô hình.
Tháng 7/2025, công ty ra mắt mô hình ký ức thị giác lớn (LVMM), được mô tả là có chức năng tương tự nhưng quy mô nhỏ hơn so với Gemini Embedding 2 — một mô hình đa phương thức phục vụ lập chỉ mục và truy xuất dữ liệu.
Để thu thập dữ liệu, Memories.ai phát triển thiết bị mang tên LUCI, được các nhóm thu thập dữ liệu đeo để ghi lại video phục vụ huấn luyện. Tuy nhiên, công ty cho biết không có kế hoạch thương mại hóa phần cứng này mà chỉ sử dụng nội bộ do các thiết bị ghi hình hiện có chưa đáp ứng yêu cầu.
Memories.ai cũng đã giới thiệu phiên bản thứ hai của LVMM và ký kết hợp tác với Qualcomm để triển khai mô hình trên các bộ xử lý của hãng này từ cuối năm nay.
Công ty cho biết đang làm việc với một số nhà sản xuất thiết bị đeo lớn, nhưng chưa công bố chi tiết. Dù nhu cầu thị trường đã bắt đầu xuất hiện, lãnh đạo công ty nhận định cơ hội thương mại hóa quy mô lớn trong lĩnh vực thiết bị đeo và robot vẫn cần thêm thời gian để phát triển.
CEO Shawn Shen (trái) và đồng sáng lập kiêm giám đốc công nghệ Ben Zhou. Ảnh: Memories.ai

