
Mọi trao đổi trên internet — từ văn bản, hình ảnh đến âm thanh — mới chỉ là bước khởi đầu trong hành trình giúp trí tuệ nhân tạo (AI) hiểu về thế giới loài người. Giờ đây, các công ty công nghệ đang chuyển hướng sang một nguồn tri thức cổ xưa hơn: các thư viện.
Gần một triệu đầu sách, được xuất bản từ thế kỷ 15 bằng 254 ngôn ngữ, thuộc bộ sưu tập của Đại học Harvard, vừa được công bố cho giới nghiên cứu AI sử dụng từ thứ Năm tuần này. Tới đây, Thư viện Công cộng Boston cũng sẽ đóng góp kho lưu trữ báo chí cũ và tài liệu chính phủ.
Việc mở rộng quyền tiếp cận với các tài liệu đã tồn tại hàng thế kỷ đang trở thành “mỏ vàng” dữ liệu đối với các công ty công nghệ — đặc biệt trong bối cảnh nhiều tiểu thuyết gia, họa sĩ và nhà sáng tạo đang kiện vì tác phẩm của họ bị dùng để huấn luyện chatbot AI mà không được xin phép.
“Chúng tôi bắt đầu với dữ liệu thuộc phạm vi công cộng vì ít gây tranh cãi hơn so với nội dung còn bản quyền,” Burton Davis, Phó Tổng cố vấn của Microsoft, cho biết. Ông nói thêm: “Thư viện lưu giữ một lượng lớn dữ liệu văn hóa, lịch sử và ngôn ngữ quý giá, nhưng ít được chú ý trong những thập kỷ gần đây.”
Trong lúc các nhà phát triển AI lo ngại dữ liệu chất lượng cao ngày càng khan hiếm — và phải dùng đến dữ liệu tổng hợp do chính chatbot tạo ra, vốn không đáng tin cậy — thì nguồn tài nguyên từ các thư viện đang trở thành lời giải.
Với sự tài trợ từ Microsoft và OpenAI, Dự án Dữ liệu Tố chức tại Harvard đang hợp tác với các thư viện và bảo tàng toàn cầu để biến các bộ sưu tập lịch sử của họ thành dữ liệu phù hợp cho AI — theo cách có lợi cho cả cộng đồng học thuật lẫn công nghệ.
Bộ dữ liệu Institutional Books 1.0 mà Harvard vừa công bố chứa hơn 394 triệu trang sách đã được số hóa. Một trong những bản thảo cổ nhất là ghi chép từ thế kỷ 15 của một họa sĩ Hàn Quốc, nói về việc trồng cây và hoa. Phần lớn các tác phẩm là từ thế kỷ 19, tập trung vào văn học, triết học, luật pháp và nông nghiệp — được gìn giữ công phu qua nhiều thế hệ.
Đây được kỳ vọng sẽ là nguồn dữ liệu quý giúp cải thiện độ chính xác và độ tin cậy cho các mô hình ngôn ngữ lớn (LLM) hiện nay.
“Phần lớn dữ liệu dùng để huấn luyện AI trước đây không bắt nguồn từ các tài liệu nguyên bản,” ông Greg Leppert, Giám đốc dự án dữ liệu và Giám đốc công nghệ của Trung tâm Berkman Klein (Harvard), chia sẻ. “Bộ sưu tập này truy xuất từ chính các bản in gốc do thư viện lưu trữ và số hóa.”
Trước khi ChatGPT thổi bùng làn sóng AI thương mại, các nhà nghiên cứu thường không để tâm đến nguồn gốc văn bản họ lấy từ Wikipedia, Reddit hay thậm chí từ các kho sách lậu. Điều họ cần chỉ là một lượng khổng lồ các “token” — đơn vị dữ liệu nhỏ, có thể là từ hoặc phần của từ.
Dữ liệu huấn luyện mới từ Harvard được ước tính chứa khoảng 242 tỷ token — một con số ấn tượng, nhưng vẫn chỉ là “giọt nước” so với những mô hình hàng đầu hiện nay. Meta — công ty mẹ của Facebook — cho biết mô hình mới nhất của họ được huấn luyện trên hơn 30.000 tỷ token, bao gồm cả văn bản, hình ảnh và video.
Hiện tại, Meta cũng đang bị kiện bởi nữ diễn viên hài Sarah Silverman và một số tác giả khác, với cáo buộc công ty đã lấy sách từ các “thư viện bóng tối” — nơi lưu trữ lậu các tác phẩm có bản quyền.
Giờ đây, các thư viện đang chủ động lên tiếng, dù vẫn còn chút dè dặt.
OpenAI — bản thân cũng đang đối mặt với hàng loạt vụ kiện liên quan đến bản quyền — đã quyên góp 50 triệu USD trong năm nay cho nhiều tổ chức, trong đó có Thư viện Bodleian 400 năm tuổi của Đại học Oxford. Thư viện này đang số hóa các văn bản quý hiếm và dùng AI để hỗ trợ chép lại nội dung.
Khi OpenAI tiếp cận Thư viện Công cộng Boston — một trong những thư viện lớn nhất nước Mỹ — phía thư viện đã nhấn mạnh rằng mọi dữ liệu số hóa sẽ được chia sẻ công khai.
“OpenAI cần dữ liệu khổng lồ để huấn luyện AI, còn chúng tôi có nhu cầu số hóa một lượng lớn tài liệu. Đây là một điểm gặp gỡ tự nhiên,” bà Jessica Chapel, Giám đốc dịch vụ kỹ thuật số và trực tuyến của thư viện, cho biết.
Việc số hóa là một quá trình tốn kém. Ví dụ, thư viện Boston đã phải làm việc cực kỳ tỉ mỉ để quét và tuyển chọn hàng chục tờ báo tiếng Pháp từng được cộng đồng nhập cư từ Quebec đọc rộng rãi vào cuối thế kỷ 19 và đầu thế kỷ 20. Giờ đây, khi những tài liệu đó trở nên có giá trị với AI, chúng cũng góp phần tài trợ ngược lại cho những dự án thư viện vốn đã ấp ủ.
Thực tế, việc số hóa kho sách Harvard đã bắt đầu từ năm 2006, khi Google triển khai dự án xây dựng một thư viện số trực tuyến có thể tìm kiếm với hơn 20 triệu đầu sách — một dự án từng vấp phải nhiều tranh cãi pháp lý.
Sau nhiều năm bị kiện bởi các tác giả vì sử dụng sách còn bản quyền, Google đã chiến thắng vào năm 2016 khi Tòa án Tối cao Hoa Kỳ giữ nguyên phán quyết bác bỏ cáo buộc vi phạm bản quyền.
Lần đầu tiên, Google nay đã hợp tác trở lại với Harvard để truy xuất và cung cấp các đầu sách thuộc phạm vi công cộng từ Google Books cho các nhà phát triển AI. Tại Mỹ, bản quyền sách thường kéo dài 95 năm, hoặc lâu hơn với bản ghi âm.
Động thái này được hoan nghênh bởi Hiệp hội Tác giả Hoa Kỳ — tổ chức từng kiện Google.
“Nhiều đầu sách trong số này chỉ tồn tại trong kho của các thư viện lớn,” bà Mary Rasenberger, Giám đốc điều hành của hiệp hội, cho biết. “Việc tạo ra và sử dụng bộ dữ liệu này sẽ giúp mở rộng quyền tiếp cận tới tri thức. Quan trọng hơn, nó đặt nền tảng cho việc phát triển các mô hình AI hợp pháp và công bằng.”
Bộ sưu tập sách mới còn nổi bật nhờ độ đa dạng ngôn ngữ cao — chưa đến một nửa là tiếng Anh. Các ngôn ngữ châu Âu như Đức, Pháp, Ý, Tây Ban Nha và Latin vẫn chiếm ưu thế, nhưng cũng có sự xuất hiện của nhiều ngôn ngữ khác.
Theo ông Leppert, một kho sách đậm chất thế kỷ 19 như vậy có thể rất hữu ích cho ngành công nghệ trong việc xây dựng AI có khả năng suy luận và lập kế hoạch như con người.
Dù vậy, đi kèm theo kho dữ liệu khổng lồ này là nhiều thông tin đã lỗi thời, thậm chí sai lệch — từ các thuyết khoa học và y học không còn đúng, cho tới các tư tưởng phân biệt chủng tộc hay mang tính thực dân.
“Khi làm việc với dữ liệu lớn như vậy, sẽ luôn có những vấn đề liên quan đến nội dung độc hại,” bà Kristi Mukk, điều phối viên tại Phòng Thí nghiệm Đổi mới Thư viện Harvard, cho biết. Bà nói sáng kiến đang nỗ lực cung cấp hướng dẫn giảm thiểu rủi ro, để người dùng có thể tự đưa ra quyết định sáng suốt và sử dụng AI một cách có trách nhiệm.
Các tập sách quý tại một thư viện thuộc trường Đại học Luật Harvard. Ảnh: AP