
Trong cuộc đua trí tuệ nhân tạo (AI) gay cấn giữa Mỹ và Trung Quốc, một phong trào mang tính đột phá không kém đang âm thầm hình thành ở nơi khác. Từ Cape Town đến Bangalore, từ Cairo đến Riyadh, các nhà nghiên cứu, kỹ sư và cơ quan công lập đang xây dựng những hệ thống AI bản địa – các mô hình không chỉ nói được ngôn ngữ địa phương mà còn mang đậm sắc thái khu vực và chiều sâu văn hóa.
Câu chuyện thống trị trong lĩnh vực AI, đặc biệt từ đầu những năm 2020, xoay quanh một số công ty Mỹ như OpenAI với GPT, Google với Gemini, Meta với LLaMa và Anthropic với Claude – tất cả đang cạnh tranh để phát triển các mô hình ngày càng lớn và mạnh mẽ hơn. Đầu năm 2025, DeepSeek – một startup có trụ sở tại Hàng Châu – đã mang đến hướng đi mới khi cho ra đời những mô hình ngôn ngữ lớn (LLM) sánh ngang các đối thủ Mỹ nhưng đòi hỏi ít tài nguyên tính toán hơn. Tuy nhiên, ngày càng nhiều nhà nghiên cứu ở các nước Nam bán cầu đang thách thức quan điểm cho rằng quyền dẫn đầu công nghệ AI chỉ thuộc về hai siêu cường này.
Thay vào đó, các nhà khoa học và tổ chức tại Ấn Độ, Nam Phi, Ai Cập và Ả Rập Xê Út đang định hình lại bản chất của AI tạo sinh. Họ không tập trung vào việc mở rộng quy mô, mà là mở rộng đúng cách – xây dựng các mô hình phục vụ người dùng địa phương, sử dụng ngôn ngữ bản địa và phù hợp với bối cảnh xã hội, kinh tế của từng nơi.
“Làm thế nào để đảm bảo cả hành tinh đều được hưởng lợi từ AI?” – Giáo sư Benjamin Rosman, Đại học Witwatersrand, người dẫn dắt dự án InkubaLM – một mô hình tạo sinh được huấn luyện bằng năm ngôn ngữ châu Phi – đặt câu hỏi. “Tôi muốn ngày càng nhiều tiếng nói được đưa vào cuộc đối thoại này.”
Vượt ra ngoài tiếng Anh, vượt khỏi Thung lũng Silicon
Các mô hình ngôn ngữ lớn vận hành bằng cách huấn luyện trên khối lượng văn bản khổng lồ từ Internet. Mặc dù các phiên bản mới nhất của GPT, Gemini hay LLaMa có khả năng đa ngôn ngữ, nhưng sự thống trị của nội dung tiếng Anh và bối cảnh văn hóa phương Tây trong dữ liệu huấn luyện đã làm lệch kết quả đầu ra. Với người nói tiếng Hindi, Ả Rập, Swahili, Xhosa và hàng trăm ngôn ngữ khác, điều này đồng nghĩa với việc hệ thống AI không chỉ dễ mắc lỗi cú pháp mà còn có thể hoàn toàn bỏ sót ý nghĩa.
“Với các ngôn ngữ Ấn Độ, các mô hình lớn được huấn luyện bằng dữ liệu tiếng Anh hoạt động rất kém,” theo Janki Nawale – nhà ngôn ngữ học tại AI4Bharat, phòng nghiên cứu thuộc Viện Công nghệ Ấn Độ (IIT) Madras. “Có những sắc thái văn hóa, phương ngữ và cả các hệ chữ phi tiêu chuẩn khiến việc dịch và hiểu nội dung trở nên khó khăn.” Nhóm của Nawale xây dựng các bộ dữ liệu giám sát và tiêu chuẩn đánh giá cho các ngôn ngữ “ít tài nguyên” – những ngôn ngữ không có kho dữ liệu số hóa đầy đủ cho học máy.
Vấn đề không chỉ nằm ở ngữ pháp hay từ vựng. “Ý nghĩa thường nằm ở hàm ý,” theo Vukosi Marivate – Giáo sư khoa học máy tính tại Đại học Pretoria, Nam Phi. “Trong tiếng isiXhosa, từ ngữ chỉ là bề nổi, điều được hàm ý mới là thứ thực sự quan trọng.”
Marivate đồng lãnh đạo nhóm Masakhane NLP – mạng lưới các nhà nghiên cứu AI toàn châu Phi – vừa phát triển AFROBENCH, một bộ chuẩn đánh giá hiệu suất của các mô hình ngôn ngữ lớn trên 64 ngôn ngữ châu Phi qua 15 nhiệm vụ khác nhau. Kết quả công bố tháng 3-2025 cho thấy sự chênh lệch rõ rệt giữa hiệu suất trên tiếng Anh và hầu hết ngôn ngữ châu Phi, đặc biệt là ở các mô hình mã nguồn mở. Những lo ngại tương tự cũng xuất hiện ở thế giới nói tiếng Ả Rập.
“Nếu tiếng Anh chiếm ưu thế trong quá trình huấn luyện, các câu trả lời sẽ bị lọc qua lăng kính phương Tây thay vì quan điểm Ả Rập,” theo Mekki Habib, Giáo sư robot học tại Đại học Mỹ ở Cairo. Một nghiên cứu năm 2024 của một công ty AI của Tunisia có tên Clusterlab chỉ ra rằng nhiều mô hình đa ngôn ngữ hiện tại không thể nắm bắt được sự phức tạp ngữ pháp hay bối cảnh văn hóa của tiếng Ả Rập, đặc biệt trong các biến thể phương ngữ.
Chính phủ nhập cuộc
Với nhiều quốc gia Nam bán cầu, vấn đề không chỉ là ngôn ngữ mà còn là địa chính trị. Việc phụ thuộc vào hạ tầng AI từ phương Tây hay Trung Quốc có thể làm giảm quyền tự chủ về thông tin, công nghệ và thậm chí là câu chuyện dân tộc. Do đó, các chính phủ đang mạnh tay đầu tư để phát triển mô hình riêng.
Cơ quan AI quốc gia Ả Rập Xê Út (SDAIA) đã xây dựng ALLaM – một mô hình ưu tiên tiếng Ả Rập dựa trên LLaMa-2 của Meta, được làm giàu bằng hơn 540 tỷ từ biểu tượng trong tiếng Ả Rập. Tháng 5-2025, vương quốc này công bố thành lập HUMAIN – công ty AI thuộc quỹ đầu tư quốc gia – hợp tác cùng Amazon và NVIDIA để phát triển thêm các mô hình LLM tiếng Ả Rập và công nghệ AI khác. Các Tiểu vương quốc Ả Rập Thống nhất (UAE) cũng tài trợ một loạt sáng kiến, trong đó có Jais – mô hình mã nguồn mở song ngữ Ả Rập-Anh, hợp tác giữa MBZUAI, công ty chip Mỹ Cerebras Systems và công ty Inception ở Abu Dhabi. Một dự án khác của UAE – Noor – tập trung vào các ứng dụng giáo dục và Hồi giáo.
Tại Qatar, các nhà nghiên cứu từ Đại học Hamad Bin Khalifa và Viện Nghiên cứu Tính toán Qatar đã phát triển nền tảng Fanar cùng hai mô hình Fanar Star và Fanar Prime. Các mô hình này được huấn luyện bằng một nghìn tỷ từ biểu tượng trong tiếng Ả Rập, tiếng Anh và mã máy tính, với cách mã hóa từ được thiết kế riêng để phản ánh sự phong phú về hình thái và cú pháp của tiếng Ả Rập.
Ấn Độ đang nổi lên như một trung tâm chính cho bản địa hóa AI. Năm 2024, chính phủ nước này đã khởi động BharatGen – sáng kiến công-tư trị giá 235 crore (26 triệu euro) nhằm xây dựng các mô hình nền tảng phù hợp với sự đa dạng ngôn ngữ và văn hóa của Ấn Độ. Dự án do IIT Bombay dẫn đầu với sự tham gia của các viện IIT khác tại Hyderabad, Mandi, Kanpur, Indore và Madras. Sản phẩm đầu tiên, e-vikrAI, có thể tạo mô tả sản phẩm và đề xuất giá cả từ hình ảnh bằng nhiều ngôn ngữ Ấn Độ. Các startup như Krutrim (được Ola hậu thuẫn) và BharatGPT của CoRover cũng tham gia, trong khi phòng thí nghiệm AI của Google tại Ấn Độ giới thiệu MuRIL – mô hình ngôn ngữ chỉ huấn luyện bằng các ngôn ngữ Ấn.
Chương trình AI Mission của chính phủ Ấn Độ đã nhận hơn 180 đề xuất từ các nhà nghiên cứu và startup để xây dựng hạ tầng AI quy mô quốc gia và các LLM, trong đó công ty AI Sarvam tại Bengaluru được chọn để phát triển LLM “có chủ quyền” đầu tiên của Ấn Độ, dự kiến sử dụng thành thạo nhiều ngôn ngữ Ấn Độ.
Tại châu Phi, năng lượng nghiên cứu phần lớn bắt nguồn từ các sáng kiến cộng đồng. Masakhane NLP và Deep Learning Indaba – một phong trào học thuật toàn châu Phi – đã tạo nên văn hóa nghiên cứu phi tập trung. Một trong những dự án nổi bật là Lelapa AI ở Johannesburg, đã ra mắt InkubaLM vào tháng 9-2024 – một mô hình ngôn ngữ nhỏ (SLM) hỗ trợ năm ngôn ngữ châu Phi phổ biến: Swahili, Hausa, Yoruba, isiZulu và isiXhosa.
“Với chỉ 0,4 tỷ tham số, nó có thể hoạt động tương đương các mô hình lớn hơn nhiều,” Rosman cho biết. Kích thước nhỏ và hiệu suất cao giúp mô hình phù hợp với điều kiện hạ tầng hạn chế ở châu Phi và đáp ứng nhu cầu thực tế. Một mô hình khác là UlizaLlama – mô hình 7 tỷ tham số do tổ chức từ thiện Jacaranda Health của Kenya phát triển – hỗ trợ các bà mẹ mang thai và sau sinh bằng AI trong các ngôn ngữ Swahili, Hausa, Yoruba, Xhosa và Zulu.
Ấn Độ cũng có bức tranh nghiên cứu sôi động không kém. Phòng thí nghiệm AI4Bharat tại IIT Madras vừa công bố IndicTrans2 – hỗ trợ dịch qua lại tất cả 22 ngôn ngữ chính thức của Ấn Độ. Startup Sarvam AI đã phát hành LLM đầu tiên vào năm ngoái hỗ trợ 10 ngôn ngữ Ấn Độ chính. KissanAI – do Pratik Desai đồng sáng lập – phát triển công cụ AI tạo sinh cung cấp tư vấn nông nghiệp bằng ngôn ngữ bản địa.
Bài toán dữ liệu
Tuy nhiên, xây dựng các LLM cho ngôn ngữ ít phổ biến gặp thách thức lớn – đặc biệt là tình trạng thiếu dữ liệu. “Ngay cả kho dữ liệu tiếng Hindi cũng rất nhỏ so với tiếng Anh,” theo Giáo sư Tapas Kumar Mishra, Viện Công nghệ Quốc gia tại Rourkela, Ấn Độ. “Vì vậy, huấn luyện mô hình từ đầu khó có thể đạt hiệu suất như các mô hình tiếng Anh.”
Rosman đồng tình. “Mô hình ‘dữ liệu lớn’ không phù hợp với các ngôn ngữ châu Phi. Chúng tôi đơn giản là không có đủ dữ liệu.” Nhóm của ông đang thử nghiệm các phương pháp khác như Khung Esethu – một giao thức thu thập dữ liệu giọng nói từ người bản xứ một cách có đạo đức, đồng thời chia sẻ doanh thu trở lại để phát triển các công cụ AI. Dự án thử nghiệm sử dụng lời đọc từ người nói isiXhosa, kèm theo siêu dữ liệu, để xây dựng các ứng dụng giọng nói.
Tại các quốc gia Ả Rập, cũng có nỗ lực tương tự. Bộ dữ liệu 101 tỷ từ tiếng Ả Rập do Clusterlab xây dựng là bộ dữ liệu lớn nhất thuộc loại này, được trích xuất và làm sạch kỹ lưỡng từ web để phục vụ huấn luyện mô hình ưu tiên tiếng Ả Rập.
Dù có nhiều đổi mới, các rào cản thực tế vẫn còn. “Lợi tức đầu tư thấp,” Desai của KissanAI chia sẻ. “Thị trường cho các mô hình ngôn ngữ khu vực là lớn, nhưng những người có khả năng chi trả lại vẫn làm việc bằng tiếng Anh.” Trong khi các công ty công nghệ phương Tây thu hút nhân tài toàn cầu – bao gồm nhiều nhà khoa học Ấn Độ và châu Phi – thì các nhà nghiên cứu trong nước lại đối mặt với tình trạng thiếu vốn, cơ sở hạ tầng hạn chế và hành lang pháp lý chưa rõ ràng về dữ liệu và quyền riêng tư.
“Vẫn còn thiếu tài trợ bền vững, thiếu chuyên gia và chưa tích hợp hiệu quả vào hệ thống giáo dục hay hệ thống công,” Habib – giáo sư ở Cairo – cảnh báo. “Tất cả những điều này cần phải thay đổi.”
Một tầm nhìn AI khác biệt
Dù còn khó khăn, một tầm nhìn riêng về AI đang dần định hình ở Nam bán cầu – một tầm nhìn ưu tiên tác động thực tế hơn là danh tiếng, và đề cao quyền sở hữu cộng đồng hơn là bí mật doanh nghiệp.
“Ở đây, mọi người chú trọng đến việc giải quyết vấn đề thật cho con người thật,” Nawale từ AI4Bharat chia sẻ. Thay vì theo đuổi các bài kiểm tra chuẩn, các nhà nghiên cứu hướng tới sự phù hợp: của công cụ cho nông dân, học sinh và doanh nghiệp nhỏ.
Và yếu tố mở rất quan trọng. “Một số công ty nói là mã nguồn mở, nhưng chỉ công bố trọng số mô hình chứ không công bố dữ liệu huấn luyện,” Marivate nói. “Với InkubaLM, chúng tôi công bố cả hai. Chúng tôi muốn người khác xây dựng tiếp trên những gì chúng tôi đã làm – và làm tốt hơn nữa.”
Trong một cuộc đua toàn cầu thường được đo bằng teraflop và token, những nỗ lực này có thể trông khiêm tốn. Nhưng với hàng tỷ người nói những ngôn ngữ ít được hỗ trợ trên thế giới, chúng đại diện cho một tương lai nơi AI không chỉ nói chuyện với họ, mà trò chuyện cùng họ.
Một người dân ở Ấn Độ sử dụng chatbot dịch thông tin trợ cấp chính phủ sang tiếng Hindi nhờ AI. Ảnh: Microsoft
Một nông dân châu Phi dùng máy tính bảng cài ứng dụng AI để giám sát ruộng bắp. Ảnh: Getty Images
Triển lãm công nghệ toàn cầu tại Dubai tháng 12-2023 trưng bày nhiều đổi mới trong AI và an ninh mạng. Ảnh: Alamy
Các trung tâm lưu trữ dữ liệu và hệ thống cơ sở dữ liệu khổng lồ đang hỗ trợ phát triển công cụ cho nông dân, học sinh và doanh nghiệp nhỏ. Ảnh: GettyImages Plus