
Điều quan trọng nhất trong việc chuẩn bị đối phó đại dịch là khả năng dự đoán cách một loại virus sẽ tiến hóa như thế nào qua việc nhìn vào trình tự di truyền (genetic sequence) của nó. Dù khoa học hiện nay chưa thể đạt đến năng lực đó, ngày càng nhiều nhóm nghiên cứu đang sử dụng trí tuệ nhân tạo (AI) để dự đoán sự tiến hóa của SARS-CoV-2, virus cúm và các loại virus khác.
Các virus — đặc biệt là virus gốc RNA như SARS-CoV-2 — liên tục tiến hóa bằng cách tích lũy các đột biến mới. Một số thay đổi này mang lại lợi thế cho virus, cho phép các biến thể né tránh hệ miễn dịch của vật chủ (host immunity) và lây lan nhanh chóng. Bằng cách dự đoán sự tiến hóa của virus, các nhà nghiên cứu, về lý thuyết, có thể thiết kế trước các loại vắc-xin và phương pháp điều trị kháng virus.
Cho đến nay, các công cụ AI có thể dự đoán những đột biến đơn lẻ nào trong virus sẽ thành công nhất và biến thể nào sẽ chiếm ưu thế trong ngắn hạn. Tuy nhiên, vẫn còn cách rất xa để các công cụ AI có thể dự đoán các tổ hợp đột biến hoặc biến thể sẽ xuất hiện trong tương lai xa.
“Đây là một lĩnh vực thực sự thú vị và rất hữu ích cho nghiên cứu,” Brian Hie, nhà sinh học tính toán tại Đại học Stanford, California, nhận xét. Ông là một trong những nhà nghiên cứu đầu tiên áp dụng các mô hình ngôn ngữ lớn để nghiên cứu các đột biến virus. Tuy nhiên, ông cho rằng việc dự đoán sự tiến hóa của virus vẫn cực kỳ thách thức.
Các công cụ AI
Trước đây, các nhà nghiên cứu đã thực hiện các thí nghiệm trong phòng thí nghiệm để xác định các biến thể có các đặc tính được nâng cao, nhưng các phương pháp này thường tốn công sức và thời gian. Một số nhóm nghiên cứu, như nhóm do nhà miễn dịch học Yunlong Cao tại Đại học Bắc Kinh dẫn đầu, đã phát triển các thí nghiệm giúp điều tra cách các đột biến riêng lẻ ảnh hưởng đến khả năng virus né tránh các kháng thể. Những thí nghiệm này có thể giải thích một phần lớn sự tiến hóa của virus, nhưng không phải tất cả.
Sự xuất hiện của các công cụ dự đoán cấu trúc protein dựa trên AI — như AlphaFold của DeepMind, ESM-2 và ESMFold của Meta — đã mang lại năng lượng mới cho lĩnh vực này, David Robertson, nhà virus học tại Đại học Glasgow, Vương quốc Anh, cho biết.
Các mô hình AI cần lượng dữ liệu khổng lồ để dự đoán sự tiến hóa của virus. Việc giải trình tự hàng loạt SARS-CoV-2 đã giúp điều này trở nên khả thi, theo Jumpei Ito, nhà tin sinh học (bioinformatician) tại Đại học Tokyo. Hiện tại, các nhà nghiên cứu có gần 17 triệu trình tự có thể dùng để huấn luyện các mô hình.
Một mô hình có tên là EVEscape, được phát triển bởi Debora Marks tại Trường Y Harvard, Boston, đã được sử dụng để tạo ra 83 phiên bản tiềm năng của protein gai SARS-CoV-2 được virus dùng để gây nhiễm cho tế bào. Các phiên bản này có khả năng né tránh kháng thể từ người đã được tiêm vắc-xin hoặc nhiễm các biến thể đang lưu hành. Chúng có thể được dùng để kiểm tra hiệu quả của các vắc-xin COVID-19 trong tương lai.
Nhóm của Ito đang tập trung vào một đặc điểm rộng hơn của khả năng thích nghi của virus — khả năng lây lan nhanh trong quần thể và cuối cùng chiếm ưu thế. Nhóm đã sử dụng ESM-2 để tạo một mô hình có tên là CoVFit, dự đoán mức độ thích nghi tương đối của các biến thể SARS-CoV-2.
Nhóm của Ito đã tạo ra một mô hình giới hạn, được huấn luyện bằng dữ liệu biến thể cho đến tháng 8 năm 2022 và nhận thấy rằng nó đã dự đoán chính xác khả năng thích nghi được cải thiện của một số biến thể sau thời điểm đó — bao gồm cả XBB5, một biến thể mới xuất hiện và chiếm ưu thế vào cuối năm đó.
Đến tháng 3 năm 2024, biến thể SARS-CoV-2 chiếm ưu thế trên toàn cầu là JN.1. Sử dụng CoVFit, nhóm của Ito đã xác định ba thay đổi đơn lẻ trên axit amin giúp JN.1 tăng khả năng thích nghi. Những đột biến này kể từ đó đã được ghi nhận trong các biến thể đang mở rộng nhanh chóng trên toàn cầu.
Cần thêm dữ liệu
Để cải thiện độ chính xác của các mô hình AI, các nhà nghiên cứu sẽ cần dữ liệu về sự tiến hóa của virus trong hơn năm năm, Cao nhận định. Ông cho rằng việc kết hợp dữ liệu giải trình tự giám sát với dữ liệu thực nghiệm có thể giúp khắc phục một số thách thức về dữ liệu này.
Hầu hết các mô hình hiện tại chỉ giới hạn ở việc hiểu các thay đổi nhỏ, nhưng về lý thuyết, virus có gần như vô hạn khả năng tiến hóa, Ito cho biết. Những bước nhảy tiến hóa bất ngờ này rất khó dự đoán.
Một số nhóm nghiên cứu khác cũng đang phát triển các mô hình sử dụng dữ liệu kết hợp. Một trong số đó được dẫn dắt bởi đồng nghiệp của Ito tại Đại học Tokyo, nhà virus học tiến hóa Shusuke Kawakubo. Trong công trình chưa được công bố, Kawakubo đang nghiên cứu khả năng của virus cúm trong việc kích thích phản ứng miễn dịch ở vật chủ. Nếu protein haemagglutinin của virus cúm (tương đương với protein gai của SARS-CoV-2) thay đổi đủ lớn, nó có thể không còn được hệ miễn dịch của cơ thể nhận diện, và khi đó các nhà sản xuất vắc-xin trên thế giới sẽ cần điều chỉnh vắc-xin cúm cho mùa sau sao cho phù hợp.
Hầu hết các mô hình này chỉ giới hạn trong việc hiểu tác động của những thay đổi nhỏ, nhưng về mặt lý thuyết, virus có gần như vô hạn không gian để tiến hóa, Ito cho biết. Ví dụ, biến thể Omicron xuất hiện với hơn 50 đột biến, trông hoàn toàn khác biệt so với những gì các nhà nghiên cứu từng thấy trước đây.
Những bước nhảy tiến hóa bất ngờ này rất khó dự đoán. Robertson và các đồng nghiệp của ông đang cố gắng tìm cách sử dụng các mô hình AI để hiểu rõ hơn những quỹ đạo tiến hóa rộng lớn này và xác định giới hạn của chúng. Họ nhận thấy rằng nếu đưa cho ESM-2 một chuỗi protein gai, nó có thể xác định các khu vực mà thay đổi có thể xảy ra và cách những thay đổi đó có thể ảnh hưởng đến các khu vực khác của protein. Mục tiêu, theo ông, là có thể tính toán được virus còn bao nhiêu không gian để tiến hóa ngay từ giai đoạn đầu khi nó được phát hiện ở con người.
Các virus gốc RNA, bao gồm SARS-CoV-2, liên tục phát sinh các đột biến mới.
Ảnh: Steve Gschmeissner/SPL.