
Từ nhiều thập kỷ qua, các nhà nghiên cứu cổ tự đã miệt mài làm việc để giải mã các văn bản, thư tịch cổ đại đã có từ hàng ngàn năm trước, nhằm mở rộng hiểu biết về xã hội xa xưa với các kho tàng phong phú về mọi mặt đời sống như văn hóa, nghệ thuật, triết học… từ thời tiền sử. Tuy nhiên, những nỗ lực này chỉ là “muối bỏ biển” trước một khối lượng đồ sộ các văn bản cổ đại, và với cách nghiên cứu truyền thống, sẽ phải mất nhiều trăm năm để nhân loại có thể vén màn nhìn vào các nền văn minh quá khứ. Đó là chưa kể nhiều văn bản đã bị hư hại do thiên tai hay nhân tai, các cổ tự dạng bản khắc đất sét hay trên giấy vỏ cây đang từ từ mất mát, hao mòn theo thời gian… khiến cho việc giải mã chúng trở nên bát khả thi.
Trí thông minh nhân tạo đã và đang làm thay đổi tất cả, nhanh chóng vén các bức màn thâm u để cung cấp cho con người một cái nhìn tổng thể, sâu sắc và toàn diện, trình bày lại lịch sử nhân loại một cách trung thực nhất có thể, và có lẽ là rất khác so với những gì chúng ta lâu nay hiểu biết. VNfocus xin giới thiệu bài viết trên tạp chí khoa học Nature về những thành tựu công nghệ từ AI trong lĩnh vực này.
Từ việc giải mã các cuộn giấy La Mã bị cháy đến đọc các bảng chữ hình nêm (cuneiform tablets) đang mục nát, mạng nơ-ron nhân tạo – hay trí thông minh nhân tạo AI – có thể cung cấp cho các nhà nghiên cứu nhiều dữ liệu hơn họ từng có trong hàng thế kỷ qua.
Vào tháng 10 năm 2023, một email được gửi đến điện thoại của Federica Nicolardi kèm theo một hình ảnh làm thay đổi mãi mãi công trình nghiên cứu của cô. Đó là một mảnh của cuộn giấy cói papyrus bị thiêu cháy trong vụ phun trào núi lửa Vesuvius vào năm 79 sau Công nguyên. Cuộn giấy bị cháy đen này là một trong hàng trăm cuộn được phát hiện trong tàn tích của một biệt thự La Mã sang trọng tại Herculeaneum, gần Pompeii, Ý, vào thế kỷ thứ 18. Qua nhiều thế kỷ, những nỗ lực bóc tách các lớp carbon hóa mong manh của các cuộn giấy đã khiến nhiều cuộn bị rách nát, và các học giả buộc phải chấp nhận rằng phần còn lại sẽ không bao giờ có thể mở ra.
Nhưng trí tuệ nhân tạo (AI) có thể mở ra, không chỉ các cuộn giấy cói này, mà cả nhiều giai đoạn lịch sử cổ đại.
Nicolardi, một nhà nghiên cứu về giấy cói (papyrologist) tại Đại học Naples ở Ý, đã tham gia vào một nỗ lực sử dụng AI để đọc những gì không thể đọc được. Giờ đây, kết quả mới nhất đã đến. Hình ảnh cho thấy một dải giấy cói với các chữ cái Hy Lạp gọn gàng, sáng rực trên nền tối hơn. Chữ viết rõ ràng (legible), sâu vài dòng và trải rộng gần năm cột.
“Thật không thể tin được,” Nicolardi nói. “Tôi tự nhủ, ‘Điều này thực sự đang xảy ra.’” Ngay lúc đó, cô biết rằng nghiên cứu về giấy cói sẽ không bao giờ như cũ nữa. “Trong khoảnh khắc đó, bạn thực sự nghĩ ‘bây giờ tôi đang sống trong một thời khắc lịch sử của lĩnh vực mình.’” Cô đang đọc toàn bộ dòng văn bản đã hoàn toàn không thể tiếp cận trong suốt 2.000 năm.
Dự án đó, mang tên Vesuvius Challenge, chỉ là một ví dụ về cách AI tiên tiến, vốn đã cách mạng hóa mọi lĩnh vực của cuộc sống hiện đại, từ ngân hàng đến nghiên cứu y khoa, đang sẵn sàng định hình lại cách chúng ta nhìn nhận thế giới cổ đại. Các mạng nơ-ron nhân tạo đang được sử dụng để giải mã các văn bản cổ đại, từ các tác phẩm kinh điển của Hy Lạp và Latin đến văn tự cổ đại của Trung Quốc, các văn bản bói toán cổ (ancient divination) được viết trên xương bò và mai rùa. Chúng đang giải nghĩa những kho lưu trữ quá mênh mông vượt quá sức đọc của con người, bổ sung các ký tự bị thiếu và không thể đọc, cũng như giải mã các ngôn ngữ hiếm và đã thất truyền mà chỉ còn lại rất ít dấu vết.
Kết quả hứa hẹn mang lại một lượng lớn văn bản mới, cung cấp cho các học giả nhiều dữ liệu hơn họ từng có trong hàng thế kỷ. Nhưng đó chưa phải là tất cả. Vì các công cụ AI có thể nhận diện nhiều ngôn ngữ hơn và lưu trữ nhiều thông tin hơn bất kỳ một cá nhân nào, các công nghệ này hứa hẹn mang lại một cách tiếp cận hoàn toàn mới để khám phá các nguồn tài liệu cổ đại. Điều đó có thể thay đổi “không chỉ những câu hỏi chúng ta muốn trả lời”, Nicolardi nói, “mà cả những câu hỏi chúng ta có thể đặt ra”.
Tái dựng các văn bản cổ đại
Máy tính đã được sử dụng để phân loại và phân tích các văn bản số hóa trong nhiều thập kỷ. Nhưng sự hào hứng hiện nay đến từ việc sử dụng các mạng nơ-ron. Những nỗ lực ban đầu để áp dụng học sâu vào các văn bản cổ đại, vào những năm 2010, dựa trên các bức ảnh kỹ thuật số của văn bản, dù trên giấy cói papyrus hay lá cọ.
Các mô hình gọi là mạng nơ-ron tích chập (convolutional neural networks–CNNs) — lấy cảm hứng từ khoa học thần kinh thị giác — có thể hiểu được dữ liệu dạng lưới từ hình ảnh. Các nhóm nghiên cứu Trung Quốc nghiên cứu văn tự cổ đại đã sử dụng các mô hình này để hoàn thiện hình ảnh của các ký tự bị xói mòn, phân tích cách các ký tự bói toán phát triển theo thời gian và kết nối các mảnh rời rạc lại với nhau. Trong khi đó, các mạng nơ-ron hồi tiếp (RNNs), được thiết kế để xử lý các chuỗi dữ liệu theo thứ tự tuyến tính, bắt đầu cho thấy tiềm năng lớn trong việc tìm kiếm, dịch và điền vào các khoảng trống trong các văn bản đã được sao chép. Chúng đã được sử dụng, chẳng hạn, để gợi ý các ký tự bị thiếu trong hàng trăm văn bản hành chính và pháp lý từ thời cổ Babylon.
Dự án lớn đầu tiên cho thấy tiềm năng của AI bắt đầu vào năm 2017 qua chương trình hợp tác tại Đại học Oxford, Vương quốc Anh, nơi Thea Sommerschield đang làm tiến sĩ về lịch sử cổ đại và Yannis Assael đang làm tiến sĩ về khoa học máy tính. Sommerschield đã cố gắng giải mã các dòng chữ Hy Lạp từ Sicily và giải thích cho Assael về những thách thức liên quan. “Đọc chúng rất phức tạp, chúng được bảo quản kém, nhiều phần bị thiếu,” cô nói. “Chúng tôi không thực sự chắc chắn chúng đến từ đâu hoặc có niên đại bao nhiêu; có những sự pha trộn thú vị của các phương ngữ.”
Các nhà nghiên cứu cổ bản giải thích các nguồn văn bản mới bằng cách sử dụng kiến thức về các văn bản tương tự hiện có. Họ thường là chuyên gia về các tác phẩm từ một thời kỳ và địa điểm cụ thể; không thể có một cá nhân nào có thể hiểu hết tất cả các nguồn tài liệu có thể liên quan đến một văn bản mới. Đó chính là kiểu thách thức mà các mô hình học máy có thể giúp, Assael, hiện đang làm việc tại Google DeepMind ở London, gợi ý.
Các nhà nghiên cứu ban đầu đã huấn luyện một mô hình dựa trên RNN gọi là Pythia trên hàng chục nghìn văn bản Hy Lạp được viết từ thế kỷ thứ bảy trước Công nguyên đến thế kỷ thứ năm sau Công nguyên. Sau đó, họ cho mô hình xem các văn bản mà nó chưa từng thấy trước đó và yêu cầu nó gợi ý các từ hoặc ký tự bị thiếu.
Sommerschield, hiện đang làm việc tại Đại học Nottingham, Vương quốc Anh, vẫn nhớ lần đầu tiên chạy mô hình với Assael và giáo sư hướng dẫn của cô, Jonathan Prag, và nhìn thấy sự khôi phục xuất hiện lần lượt từng ký tự trên màn hình, điều chưa từng khả thi trước đó.
“Thật như một cảnh trong phim,” cô nói. “Chúng tôi thực sự há hốc miệng vì kinh ngạc.” Năm 2022, họ tiếp tục với một mô hình gọi là Ithaca, mô hình này cũng đưa ra các gợi ý về ngày tháng và nơi xuất xứ của một văn bản chưa rõ nguồn gốc. Lần này, các nhà nghiên cứu tận dụng một đột phá trong học máy gọi là mô hình transformer, mô hình này nắm bắt các mẫu ngôn ngữ phức tạp hơn so với mô hình RNN bằng cách phân tích các đặc điểm khác nhau của đầu vào — chẳng hạn như ký tự hoặc từ — song song, và gán trọng số theo ngữ cảnh. (Các chatbot phổ biến như ChatGPT của OpenAI và Claude của Anthropic đều dựa trên các mô hình transformer.)
Sommerschield nói rằng mục tiêu của nhóm là thiết kế các công cụ giúp các nhà nghiên cứu làm việc hiệu quả hơn: mạng nơ-ron thăm dò các kết nối trong một kho lưu trữ rộng lớn, và con người mang đến sự hiểu biết chuyên sâu của mình. Trong các thử nghiệm, Ithaca khôi phục các khoảng trống được cố ý tạo ra trong văn bản cổ với độ chính xác 62%, so với 25% của các chuyên gia khoa học nhân văn. Nhưng nếu các chuyên gia được hỗ trợ bởi gợi ý của Ithaca, họ sẽ đạt kết quả tốt nhất, điền vào các khoảng trống với độ chính xác 72%. Ithaca cũng xác định nguồn gốc địa lý của các dòng chữ với độ chính xác 71% và xác định niên đại trong khoảng 30 năm so với các ước tính đã được chấp nhận.
Ithaca được cung cấp miễn phí trên mạng và hiện nhận được hàng trăm truy vấn mỗi tuần, theo các nhà sáng tạo mô hình này. Sommerschield nói rằng các ví dụ được báo cáo cho đến nay cho thấy mô hình giúp tái xác định niên đại cho các sắc lệnh chính trị của Athens, và một cuộc điều tra các bảng chữ từ thế kỷ thứ tư trước Công nguyên chứa các câu hỏi gửi đến Đền Dodona ở tây bắc Hy Lạp.
Biển tài liệu lưu trữ
Trong khi đó, các nhà nghiên cứu Hàn Quốc đang đối mặt với những thách thức rất khác khi xử lý một trong những kho lưu trữ lịch sử lớn nhất thế giới: các bản ghi chép chi tiết hàng ngày với hàng trăm nghìn bài viết ghi lại triều đại của 27 vị vua Hàn Quốc, kéo dài từ thế kỷ 16 đến đầu thế kỷ 20.
“Lượng dữ liệu rất khổng lồ,” Kyunghyun Cho, một nhà nghiên cứu hàng đầu về dịch máy tại Đại học New York, cho biết. Những bản ghi chép này đầy đủ và có nguồn gốc rõ ràng, nhưng hầu như không ai có thể đọc được chúng. Chúng được viết bằng Hanja, một hệ thống chữ viết cổ dựa trên các ký tự Trung Quốc, khác với tiếng Trung hoặc tiếng Hàn hiện đại.
Một nhóm nhỏ các dịch giả của chính phủ đang làm việc để dịch các văn bản này sang tiếng Hàn hiện đại một cách thủ công, nhưng công việc này có thể mất hàng thập kỷ để hoàn thành. Làm việc với các đồng nghiệp tại Hàn Quốc, bao gồm JinYeong Bak tại Đại học Sungkyunkwan ở Seoul, Cho đã huấn luyện một mạng nơ-ron dựa trên mô hình transformer để tự động dịch các bản ghi chép này. Vì chưa có đủ tài liệu đã được dịch sang tiếng Hàn hiện đại để huấn luyện mô hình, nhóm nghiên cứu đã sử dụng cách tiếp cận đa ngôn ngữ, bao gồm Hanja, các bản dịch từ nhiều thập kỷ trước sang tiếng Hàn cổ, và số lượng hạn chế các bản dịch hiện đại sang cả tiếng Hàn và tiếng Anh. Các chuyên gia ngôn ngữ đã đánh giá rằng các bản dịch AI chính xác và dễ đọc hơn đáng kể so với các bản dịch tiếng Hàn cổ, và trong một số trường hợp, còn tốt hơn cả các bản dịch hiện đại.
Các nhà nghiên cứu đang sử dụng mạng nơ-ron để xử lý các ngôn ngữ cổ mà chỉ một lượng nhỏ văn bản còn sót lại. Trong những trường hợp này, mô hình transformer không phải lúc nào cũng có thể được sử dụng, vì chúng cần lượng lớn tài liệu để huấn luyện. Ví dụ, Katerina Papavassileiou tại Đại học Patras, Hy Lạp, và các đồng nghiệp của cô đã sử dụng một mô hình RNN để phục hồi văn bản bị thiếu từ một loạt 1.100 bản khắc từ Knossos, Crete. Các bản này ghi lại thông tin về đàn cừu và được viết bằng hệ chữ Linear B vào thiên niên kỷ thứ hai trước Công nguyên. Để cải thiện kết quả hơn nữa, Papavassileiou hy vọng sẽ thêm dữ liệu hình ảnh, chẳng hạn như dấu vết của các ký tự chưa hoàn chỉnh, thay vì chỉ dựa vào văn bản được phiên âm.
Papavassileiou hy vọng một ngày nào đó có thể sử dụng các mô hình được huấn luyện trên Linear B để xử lý Linear A, một hệ chữ được nền văn minh Minoan sử dụng, chia sẻ nhiều ký hiệu với Linear B nhưng chưa bao giờ được giải mã.
Giải mã những văn bản không thể đọc được
Có lẽ bằng chứng thuyết phục nhất về sức mạnh của AI trong việc giải quyết những thách thức lớn lao là thành công của các nhà nghiên cứu khi tìm hiểu các cuộn giấy Herculaneum. “Tôi nghĩ họ đang thực hiện một trong những công việc đáng kinh ngạc nhất hiện nay,” Assael nhận xét. Nhà khoa học máy tính Brent Seales và các đồng nghiệp tại Đại học Kentucky ở Lexington, với sự hỗ trợ của các thành viên tham gia dự án Vesuvius Challenge, đang giải quyết nhiệm vụ tưởng chừng như không thể: đọc các văn bản hoàn toàn không thể nhìn thấy.
Việc đọc các cuộn giấy Herculaneum phải vượt qua hai vấn đề lớn. Đầu tiên, những cuộn giấy mong manh này không thể được mở ra. Để nhìn vào bên trong chúng, Seales đã dành nhiều năm phát triển công nghệ “mở cuộn ảo,” sử dụng chụp cắt lớp vi tính (CT) có độ phân giải cao để quét cấu trúc bên trong của cuộn giấy, tỉ mỉ lập bản đồ bằng tay các bề mặt nhìn thấy trong từng khung hình cắt ngang, sau đó dùng thuật toán để “mở cuộn” các bề mặt thành hình ảnh phẳng. Năm 2015, các nhà nghiên cứu đã sử dụng kỹ thuật này để đọc được toàn bộ văn bản từ một cuộn giấy bị cháy, không thể mở từ En-Gedi ở Israel, có niên đại vào khoảng thế kỷ thứ ba sau Công nguyên, chứa nội dung từ sách Lê-vi trong Kinh Thánh.
Cuộn giấy En-Gedi có năm lớp cuộn; trong khi các cuộn giấy Herculaneum mỗi cuộn có hàng trăm lớp, mỏng như lụa. Để thu thập dữ liệu CT có độ phân giải cực cao, nhóm nghiên cứu đã vận chuyển một số cuộn giấy đến máy gia tốc hạt Diamond Light Source gần Oxford. Nhưng trong khi mực của cuộn giấy En-Gedi và các tác phẩm sau này thường chứa sắt, chất này phát sáng rõ ràng trong các bản quét CT, thì các viên thư lại Herculaneum sử dụng mực gốc carbon, không thể nhìn thấy trong các bản quét vì nó có cùng mật độ với giấy cói. Seales và nhóm của ông nhận ra rằng, mặc dù họ không thể nhìn thấy mực trực tiếp, họ có thể phát hiện hình dạng của nó. Nếu có sự khác biệt tinh tế trong kết cấu bề mặt của các sợi giấy cói trống so với các sợi được phủ mực, có lẽ họ có thể huấn luyện một mạng nơ-ron để nhận diện sự khác biệt này.
Công việc này quá lớn đối với nhóm nhỏ của Seales, vì vậy vào tháng 3 năm 2023, họ hợp tác với doanh nhân Nat Friedman ở Thung lũng Silicon để ra mắt thử thách Vesuvius Challenge, với các giải thưởng tiền mặt lớn. Seales và các đồng nghiệp đã công bố các hình ảnh phẳng của bề mặt cuộn giấy và yêu cầu các thí sinh huấn luyện các mạng nơ-ron để tìm mực. Hơn 1.000 đội đã tham gia, với hàng trăm người thảo luận tiến độ mỗi ngày trên kênh Discord của cuộc thi. Giải thưởng lớn đã được trao vào tháng 2 năm 2024: các sinh viên khoa học máy tính Youssef Nader, Luke Farritor và Julian Schilliger cùng nhận được 700.000 USD vì đã tạo ra 16 cột văn bản rõ ràng có thể đọc được.
Đội thắng cuộc sử dụng TimeSformer, một biến thể mới hơn của mô hình transformer, thường được sử dụng cho video, cho phép xử lý các chiều không gian và thời gian một cách riêng biệt. Nhóm Vesuvius sử dụng nó để tách biệt chiều sâu của giấy cói khỏi bề mặt của nó. Nicolardi và các đồng nghiệp đã xác định văn bản được tiết lộ là từ một tác phẩm triết học Hy Lạp chưa từng được biết đến trước đây, bàn về âm nhạc, khoái cảm và cảm xúc, có thể của nhà triết học Epicurean Philodemus.
Kể từ đó, các thí sinh đã tiếp tục cải tiến các thuật toán nhận diện mực của họ với sự giúp đỡ từ các nhà chuyên gia về cổ bản. Trong khi đó, nhóm của Seales đang quét thêm nhiều cuộn giấy hơn, hy vọng rằng học máy có thể đẩy nhanh bước mở cuộn ảo. Ông lạc quan rằng việc mở cuộn bằng AI sẽ đến kịp thời để có thể đọc được 90% nội dung của bốn cuộn giấy. “Khi bạn tự động hóa, bạn có thể mở rộng quy mô,” Seales nói về việc mở cuộn. “Chúng ta đang ở ngay ngưỡng của điều đó.”
Thực tế, Seales muốn đọc toàn bộ thư viện. Hiện có hàng trăm cuộn giấy chưa mở từ Herculaneum được lưu giữ trong các bộ sưu tập — chủ yếu ở Naples, nhưng cũng có ở Paris, London và Oxford. “Số văn bản mới từ thế giới cổ đại mà các chuyên gia sẽ thấy còn nhiều hơn cả một thế kỷ qua,” ông nói.
Phương pháp này cũng mở ra những nguồn tài liệu không thể tiếp cận khác, mà Seales gọi là “thư viện vô hình.” Những nguồn này bao gồm các văn bản ẩn bên trong bìa sách thời Trung cổ hoặc trong các lớp quấn xác ướp Ai Cập cổ đại, nơi “chúng ta nắm giữ vật thể, nhưng không thể đọc được văn bản.” Đội ngũ này đã thu thập dữ liệu từ một cuộn giấy Ai Cập chưa mở tại bảo tàng Smithsonian ở Washington DC, và đang thảo luận để phân tích các bản giấy cói từ Petra, Jordan, bị cháy trong một vụ hỏa hoạn vào thế kỷ thứ bảy sau Công nguyên.
Hơn nữa, một số nhà khảo cổ học tin rằng phần lớn thư viện của biệt thự Herculaneum vẫn nằm dưới lòng đất. Nếu nó được khai quật, có thể sẽ thu được hàng nghìn cuộn giấy nữa. Đọc tất cả chúng sẽ là “khám phá lớn nhất trong lịch sử nhân loại, từ thế giới cổ đại,” Seales nói.
Một cơn lũ thông tin
Richard Ovenden, giám đốc Thư viện Bodleian tại Đại học Oxford, nơi lưu giữ một số cuộn giấy Herculaneum, nhận xét: “Điều AI đang làm là cung cấp cho các nhà cổ bản dữ liệu để nghiên cứu, thứ mà họ không thể có bằng cách khác”.
Các lĩnh vực khác cũng đang đối mặt với những thay đổi tương tự. Enrique Jiménez, chuyên gia về văn học cổ cận Đông tại Đại học Ludwig-Maximilians ở Munich, Đức, đã hợp tác với Bảo tàng Anh ở London để chụp ảnh 25.000 bảng chữ hình nêm Babylon (phần lớn có niên đại từ nửa sau của thiên niên kỷ thứ nhất trước Công nguyên), nhằm mở văn bản này ra cho AI xử lý, và gần đây đã nhận được tài trợ để chụp ảnh thêm 30.000 bảng nữa. Trên toàn thế giới, khoảng 100.000 bảng chữ hình nêm đã được số hóa, trong tổng số có lẽ khoảng 500.000 bảng hiện vẫn nằm — thường là chưa được đọc — trong các bảo tàng.
Nhóm nghiên cứu đang phát triển các mạng nơ-ron để nhận diện các ký tự chữ hình nêm từ các bức ảnh và xác định thời kỳ của chúng. Sau khi các văn bản được phiên âm, các kỹ thuật học máy đơn giản hơn được sử dụng để xác định các mảnh trùng lặp của cùng một tác phẩm. Dự án này, được gọi là Fragmentarium, đã phát hiện khoảng 20 dòng mới của Sử thi Gilgamesh, và 30 bản sao của một bài thánh ca chưa từng được biết đến trước đây dành cho thành phố Babylon. “Điều này thực sự ngoạn mục,” Jiménez nhận xét. “Trước Fragmentarium, sẽ mất hàng thập kỷ để tìm ra nhiều bản thảo như vậy.”
Cơn lũ thông tin tiềm năng này thực sự thú vị nhưng cũng đầy “ám ảnh,” ông nói. “Tôi nghĩ trong vòng 10 hoặc 20 năm tới chúng ta nên số hóa tất cả. Đây là một sự gia tăng theo cấp số nhân về số lượng nguồn tư liệu sẵn có.”
Đặt ra những câu hỏi mới
Bước nhảy vọt về quy mô này có thể mở ra những cách thức mới trong việc sử dụng AI nhằm hiểu rõ hơn về thế giới cổ đại. Bằng cách khám phá các kho lưu trữ văn bản số hóa khổng lồ, có sẵn ở quy mô chưa từng có, các nhà nghiên cứu sẽ không chỉ có thể nghiên cứu từng văn bản riêng lẻ mà còn đặt ra những câu hỏi lớn hơn về các xã hội đã tạo ra chúng.
“Chúng ta sẽ phải thay đổi tư duy,” Nicolardi dự đoán. “Không chỉ về văn bản, mà còn về nền văn hóa nói chung.”
Sự chuyển đổi này đã bắt đầu. Tại Hàn Quốc, một số nhóm đang khai thác các kho lưu trữ Hanja không phải bằng cách đọc chúng, mà bằng cách yêu cầu các mô hình AI quét qua các văn bản gốc để xác định xu hướng chính trị và các mối liên kết.
Tại cuộc họp thường niên của Hiệp hội Ngôn ngữ học Tính toán ở Bangkok vào tháng 8 vừa qua, Bak báo cáo rằng ông đã sử dụng kỹ thuật này để xác định phong cách cai trị của các vị vua triều đại Joseon. Ví dụ, Yeonsangun, một nhà độc tài khét tiếng cai trị từ năm 1495 đến 1506, đã thể hiện việc càng lúc càng gia tăng các quyết định độc đoán dưới triều đại của ông, mà Bak coi là “phản ánh việc sa vào chế độ bạo tàn.” Ngược lại, Injo, một vị vua ít độc đoán hơn, cai trị từ năm 1623 đến 1649, duy trì một mô hình ổn định trong việc làm theo kiến nghị của các quan chức.
Các nhà nghiên cứu cũng ngày càng kết hợp các nhiệm vụ và tích hợp các bộ dữ liệu vào các mô hình lớn hơn. Với các cuộn giấy Herculaneum, Seales hy vọng sử dụng AI để cung cấp cho các nhà cổ bản những gợi ý nhằm lấp đầy các khoảng trống trong văn bản đã được phiên âm. Các khu vực địa lý và thời kỳ lịch sử khác nhau cũng có thể được kết nối thành các hệ thống lớn hơn để có được những hiểu biết sâu rộng hơn và áp dụng bài học từ các bộ dữ liệu.
Một mô hình được huấn luyện trên 104 ngôn ngữ hiện đại, bao gồm tiếng Do Thái (Hebrew) và tiếng Ả Rập, đã đạt hiệu quả đáng ngạc nhiên trong việc dịch ngôn ngữ Akkadian cổ của vùng Lưỡng Hà (ngôn ngữ tiền thân của tiếng Hebrew và tiếng Ả Rập). Cho đang làm việc để kết nối các ngôn ngữ từ Nhật Bản, Hàn Quốc, Trung Quốc và Việt Nam có chung các ký tự chữ Hán. Cuối cùng, ông nghĩ rằng những hiểu biết này có thể mang tính toàn cầu. Mục tiêu cuối cùng, ông nói, là “xây dựng một hệ thống có khả năng khai thác tất cả những mối liên kết đó qua thời gian và không gian.”
Hãy tưởng tượng nếu một chatbot như ChatGPT có thể được đào tạo trên những văn bản vừa mới được giải mã. Trong tương lai, nếu chúng ta muốn biết một người Hy Lạp, Hàn Quốc hoặc Babylon cổ đại đã suy nghĩ gì, có lẽ chúng ta chỉ cần hỏi.
Những cuộn giấy bị cháy sém trong vụ phun trào của núi lửa Vesuvius không thể được mở ra mà không làm hỏng chúng. Ảnh: EduceLab, Đại học Kentucky
Gần 16 cột chữ viết Hy Lạp đã được tiết lộ bên trong cuộn giấy Herculaneum cháy sém này bởi các nhà vô địch của cuộc thi Vesuvius Challenge vào tháng 2 năm 2024. Ảnh: Vesuvius Challenge
Các tài liệu lưu trữ về các vị vua triều đại Joseon của Hàn Quốc đang được AI dịch và phân tích. Ảnh: Bảo tàng Cung điện Quốc gia Hàn Quốc
Các bảng đất sét từ nền văn minh Minoan (thế kỷ 15 TCN) với chữ viết Linear A, vốn chưa từng được giải mã. Những bảng này được tìm thấy ở Archanes, Crete. Ảnh: DeAgostini/Getty
Những dòng chữ từ một bài thánh ca chưa từng được biết đến dành cho Babylon đã được phát hiện trên các mảnh vỡ của một bảng chữ Late Babylonian. Ảnh: The Trustees of the British Museum