Những hiểu biết từ trí tuệ nhân tạo (AI) có thể cách mạng hóa quá trình phát triển thuốc, nếu chất lượng và quy mô dữ liệu sinh học và hóa học được cải thiện.
Nghiên cứu thuốc là một quá trình vô cùng khó khăn. “Trong khoảng 100 năm y học hiện đại, chúng ta mới chỉ tìm ra phương pháp điều trị cho khoảng 500 trong số 7.000 bệnh hiếm gặp,” David Pardoe, chuyên gia về hóa-tin học tại công ty công nghệ sinh học Evotec ở Hamburg, Đức, cho biết. “Quá trình này mất quá nhiều thời gian và chi phí quá cao.” Nhưng về mặt lý thuyết, AI có thể giải quyết cả hai vấn đề này.
AI có khả năng kết hợp hình dạng ba chiều và cấu trúc nguyên tử của một phân tử có tiềm năng trở thành thuốc, đồng thời mô phỏng cách nó liên kết với protein mục tiêu. Các thiết kế có thể được điều chỉnh để làm cho thuốc mạnh hơn, hoặc một thuật toán có thể xác định các mục tiêu hoàn toàn mới để theo đuổi. Một hệ thống AI cũng có thể tính đến hiện trạng sinh học phức tạp trong cơ thể bệnh nhân, vốn có ảnh hưởng đến tương tác giữa thuốc và mục tiêu của nó. Các tương tác không mong muốn với nhiều loại protein ngoài mục tiêu có thể khiến một phân tử đầy hứa hẹn bị loại bỏ do tác dụng phụ.
Chìa khóa để phát triển các hệ thống có khả năng thúc đẩy quá trình nghiên cứu thuốc là có một lượng lớn dữ liệu chất lượng. So với các lĩnh vực khác đang ứng dụng AI, các nhà nghiên cứu trong lĩnh vực phát triển thuốc có một nền tảng vững chắc, đó là khối lượng dữ liệu sinh học khổng lồ liên tục được tạo ra trong các phòng thí nghiệm trên khắp thế giới.
Tuy nhiên, dù lượng dữ liệu dồi dào có thể khiến nhiều người tin rằng cuộc cách mạng AI trong phát triển thuốc chỉ là vấn đề thời gian, thực tế không đơn giản như vậy. Chất lượng dữ liệu – phần lớn không được thu thập với mục đích phục vụ học máy – không phải lúc nào cũng đạt tiêu chuẩn. Sự thiếu nhất quán trong phương pháp thí nghiệm và cách dữ liệu được ghi chép có thể gây trở ngại, cũng như xu hướng chỉ công bố kết quả tích cực. Một số người cho rằng việc có thêm nhiều dữ liệu sẽ tự động giải quyết vấn đề, nhưng nhiều chuyên gia tin rằng các nhà nghiên cứu trong cả giới học thuật và công nghiệp cần hợp tác để nâng cao chất lượng dữ liệu đầu vào cho các mô hình học máy.
Việc xác định vấn đề nào cấp bách nhất và giải pháp nào nên được ưu tiên vẫn còn gây tranh cãi. Một số nhà nghiên cứu trong lĩnh vực này đã góp ý để tìm ra những bước cần thực hiện nhằm giúp AI có thể thực sự cách mạng hóa quá trình nghiên cứu và phát triển thuốc như nhiều người kỳ vọng.
Chuẩn hóa phương pháp và cách báo cáo dữ liệu
“Một vấn đề lớn đối với AI là cách dữ liệu được tạo ra,” Eric Durand, giám đốc khoa học dữ liệu tại công ty AI sinh học Owkin ở Paris, nhận xét.
Khi các phòng thí nghiệm khác nhau sử dụng các phương pháp, thuốc thử và thiết bị khác nhau, các sai lệch – được gọi là hiệu ứng lô (batch effects) – có thể xuất hiện trong dữ liệu thu được. Sự khác biệt nhỏ trong quy trình xử lý mẫu, sự khác nhau giữa các lô thuốc thử và tế bào, thậm chí cả cách mô tả hay đặt tên cấu trúc phân tử cũng có thể khiến một mô hình AI hiểu nhầm đó là tín hiệu sinh học quan trọng. “Bạn không thể đơn giản lấy dữ liệu từ hai phòng thí nghiệm khác nhau và phân tích chung mà không xử lý trước,” Durand cho biết.
Điều này làm giảm giá trị của nhiều cơ sở dữ liệu công khai lớn được xây dựng trước khi AI trở nên phổ biến. Ví dụ, ChEMBL là một cơ sở dữ liệu miễn phí về các phân tử có hoạt tính sinh học, thu thập thông tin từ các nghiên cứu, bằng sáng chế và nhiều nguồn khác, và được sử dụng rộng rãi trong nghiên cứu thuốc. ChEMBL do Viện Tin sinh học châu Âu tại Hinxton, Anh, quản lý và cố gắng giảm thiểu các hiệu ứng lô, nhưng cách tổng hợp thông tin của nó vẫn dẫn đến sự không nhất quán. “Bạn phải thật cẩn thận,” Pat Walters, nhà hóa tin học tại công ty công nghệ sinh học Relay Therapeutics ở Cambridge, Massachusetts, cho biết. “Dữ liệu đến từ các phòng thí nghiệm có cách thực hiện thí nghiệm khác nhau, vì vậy rất khó để so sánh một cách chính xác.”
Cách tốt nhất để tạo ra dữ liệu có tính trật tự cho AI, theo một số chuyên gia, là thiết lập các quy tắc về cách tiến hành và báo cáo thí nghiệm. Chẳng hạn, có thể thống nhất tên gọi của các bệnh và gen ngay từ đầu, cũng như các quy trình thí nghiệm. Một ví dụ điển hình là Dự án Bản đồ Tế bào người, được khởi động vào năm 2016, đã lập bản đồ hàng triệu tế bào trong cơ thể con người theo cách có hệ thống và tiêu chuẩn hóa. Điều này cung cấp dữ liệu nhất quán, rất phù hợp cho các thuật toán AI tìm kiếm mục tiêu thuốc tiềm năng.
Một sáng kiến khác có tên Polaris – nền tảng đánh giá tiêu chuẩn cho nghiên cứu thuốc – cũng đang cố gắng làm sạch và chuẩn hóa dữ liệu dành cho học máy. Polaris đã đưa ra các hướng dẫn trong một bài báo trước khi in vào cuối năm 2024 và hiện đang thu thập phản hồi. Polaris đưa ra các tiêu chí kiểm tra cơ bản cho bộ dữ liệu, chẳng hạn như yêu cầu người tạo dữ liệu giải thích cách thu thập và sử dụng dữ liệu, đồng thời tham chiếu các nguồn đã sử dụng. Nó cũng nhấn mạnh trách nhiệm của người tạo dữ liệu trong việc kiểm tra trùng lặp và dữ liệu mơ hồ. Polaris thậm chí còn cấp chứng nhận cho những bộ dữ liệu đạt tiêu chuẩn.
Nếu không có thêm nỗ lực để tạo ra dữ liệu hài hòa và phù hợp, thì dù các thuật toán có ngày càng tiên tiến đến đâu cũng không có nhiều giá trị. Khi chúng ta có được những bộ dữ liệu tốt, thì khi đó mới có thể đạt được tiến bộ nhanh chóng và đáng kể theo đúng hướng.
Công nhận giá trị của kết quả tiêu cực
Đối với các nhà nghiên cứu học thuật, việc báo cáo rằng một thí nghiệm thất bại thường không mang lại nhiều lợi ích. Những người cố gắng làm vậy thường gặp khó khăn trong việc công bố nghiên cứu của mình. Xu hướng thiên vị kết quả tích cực trong khoa học không phải là điều mới mẻ, nhưng nó gây ra một vấn đề đặc biệt đối với việc ứng dụng trí tuệ nhân tạo (AI).
Dữ liệu được lấy từ các công trình đã công bố và đưa vào thuật toán sẽ luôn phản ánh một bức tranh méo mó, lạc quan quá mức về bối cảnh sinh học. Chẳng hạn, có nhiều dữ liệu hơn về các hợp chất có triển vọng, đã được thử nghiệm thành công trên động vật, so với dữ liệu về các hợp chất không thành công. Do đó, một mô hình AI trong lĩnh vực khám phá thuốc sẽ chủ yếu thiếu thông tin về những thất bại tiềm ẩn.
Miraz Rahman, nhà hóa dược tại King’s College London, chỉ ra một ví dụ về sự thiên lệch này trong việc tìm kiếm kháng sinh mới. Một bước quan trọng để tiêu diệt vi khuẩn là đưa hợp chất vào bên trong tế bào vi khuẩn, và nhiều nghiên cứu đã công bố cho thấy rằng các amin bậc một — những hợp chất nhỏ có cấu trúc tương tự amoniac — có thể giúp thuốc xâm nhập vào vi khuẩn. “Nếu bạn hỏi một mô hình AI dựa trên các nghiên cứu đã công bố, nó sẽ liên tục đề xuất các hợp chất chứa amin bậc một,” Rahman nói. Nhưng ông biết rằng mình phải bỏ qua lời khuyên này. “Phòng thí nghiệm của tôi có rất nhiều dữ liệu cho thấy phương pháp này không hiệu quả,” ông cho biết. Vấn đề đối với AI là những trường hợp không hiệu quả như của Rahman lại chưa từng được công bố.
Xu hướng chỉ công bố kết quả tích cực cũng ảnh hưởng đến các công ty dược phẩm. “Những gì được công bố? Luôn là câu chuyện thành công,” Rahman nói. Khi các công ty quyết định không công khai những thất bại của họ, AI chỉ nhìn thấy một bức tranh đơn giản và đẹp đẽ hơn nhiều so với thực tế.
Một cách khắc phục là ngay từ đầu phải có ý định thu thập cả kết quả tiêu cực và tích cực. Một dự án đang thu hút sự chú ý do James Fraser, nhà sinh học cấu trúc tại Đại học California, San Francisco, dẫn đầu và được tài trợ bởi Cơ quan Nghiên cứu Tiên tiến về Y tế Hoa Kỳ, là một ví dụ. Dự án này tập trung vào dược động học, tức là nghiên cứu về cách cơ thể con người xử lý một hợp chất.
Số phận của một loại thuốc phụ thuộc vào cách nó được cơ thể hấp thụ, phân phối, chuyển hóa và bài tiết — được gọi chung là ADME. Nếu cơ thể thải trừ một hợp chất quá chậm, nó có thể gây ra rủi ro về an toàn. Nhưng nếu hợp chất bị đào thải quá nhanh, nó cũng mất đi giá trị. “Bạn có thể tạo ra một phân tử liên kết rất chặt với tế bào mục tiêu của mình, nhưng nếu nó bị bài tiết nhanh chóng, thì cũng không có giá trị gì trong điều trị,” Walters, một người ủng hộ dự án, cho biết. Các loại thuốc cũng có thể tương tác với các protein ngoài mục tiêu trong cơ thể, có thể gây độc tính và làm chậm hoặc giảm lượng thuốc đến được vị trí mong muốn.
Những vấn đề ADME này thường chỉ xuất hiện ở giai đoạn muộn trong quá trình phát triển thuốc, và có thể dẫn đến những thất bại tốn kém.
Fraser gọi nghiên cứu hiện tại của mình là dự án “avoid-ome,” vì nó nhằm tạo ra dữ liệu không phải về các mục tiêu của thuốc, mà về các protein mà các nhà nghiên cứu thường muốn tránh. Mục tiêu của dự án là xây dựng một thư viện dữ liệu thực nghiệm và dữ liệu cấu trúc về liên kết protein liên quan đến ADME. Kể từ khi nhận được tài trợ vào tháng 10, phòng thí nghiệm của ông đã bắt đầu tiến hành các thử nghiệm về khía cạnh chuyển hóa của ADME.
Kết quả từ dự án này sẽ giúp tạo ra các mô hình AI dự đoán có thể tối ưu hóa dược động học của các ứng viên thuốc. “Các nhà nghiên cứu sẽ tạo ra ít phân tử hơn, nhưng với cái nhìn tổng thể tốt hơn về mọi nguy cơ tiềm ẩn, giúp nhanh chóng tìm ra một phân tử đáp ứng tất cả tiêu chí và có thể thử nghiệm trên người sớm hơn,” Fraser cho biết.
Chia sẻ dữ liệu và chuyên môn trong ngành
Các công ty dược phẩm sở hữu lượng dữ liệu khổng lồ, bao gồm cả kết quả tiêu cực, và nỗ lực thu thập chúng theo một cách tiêu chuẩn hóa để giúp mô hình AI xử lý dễ dàng hơn. Tuy nhiên, chỉ một tỷ lệ nhỏ trong số dữ liệu này được công khai — Rahman ước tính rằng ngay cả những công ty dược phẩm cởi mở nhất cũng chỉ công bố khoảng 15–30% dữ liệu của họ, và con số này có thể tăng lên 50% đối với các thử nghiệm lâm sàng.
Giá trị của dữ liệu không hề bị các công ty này đánh giá thấp. Năm 2018, Vas Narasimhan, Giám đốc điều hành của Novartis, một công ty dược phẩm tại Basel, Thụy Sĩ, đã mô tả việc tái định hình công ty thành một “công ty khoa học dữ liệu và dược phẩm”, nhấn mạnh tham vọng ứng dụng AI vào quá trình nghiên cứu thuốc. Do đó, hầu hết các công ty dược phẩm đều rất e ngại trong việc chia sẻ dữ liệu với giới học thuật cũng như với các đối thủ cạnh tranh.
“Một công ty như Novartis — nơi tôi từng làm việc trong nhiều năm — sở hữu hàng chục nghìn hợp chất đã được đánh giá về khả năng liên kết với một số protein nhất định,” Durand nói. “Nhưng họ không muốn chia sẻ điều đó với đối thủ, vì đó là tài sản cốt lõi của họ.”
Một nỗ lực nhằm thúc đẩy việc chia sẻ dữ liệu giữa các công ty dược phẩm là dự án Melloddy, được tài trợ bởi EU, trong đó Owkin tham gia. Dự án này áp dụng phương pháp học liên kết (federated learning), cho phép mười công ty hợp tác đào tạo phần mềm dự đoán mà không cần tiết lộ dữ liệu sinh học và hóa học nhạy cảm cho nhau. Trong dự án này, các mô hình được huấn luyện để liên kết cấu trúc hóa học của phân tử với hoạt tính sinh học của chúng đạt độ chính xác cao hơn đáng kể so với hầu hết các mô hình riêng rẽ hiện có của các công ty tham gia.
Tuy nhiên, việc ẩn danh dữ liệu có thể làm giảm giá trị của chúng. “Rất khó để kết hợp các tập dữ liệu mà không tiết lộ cấu trúc hóa học và bản chất của các thử nghiệm được sử dụng để tạo ra chúng,” Walters giải thích.
Dự án này cũng không cải thiện được tình trạng của các tập dữ liệu công khai mà các nhà khoa học dựa vào. Giới nghiên cứu hiểu rằng dù có yêu cầu thế nào, họ cũng không thể dễ dàng tiếp cận kho dữ liệu của các công ty dược phẩm.
Một trong những tập dữ liệu có giá trị nhất đối với các nhà nghiên cứu là UK Biobank, cơ sở dữ liệu y sinh học của Vương quốc Anh. Dự án này đã thu thập có hệ thống thông tin di truyền, lối sống và sức khỏe, cũng như các mẫu sinh học từ 500.000 người. Dù nhận được hơn 500 triệu bảng Anh tài trợ, phần lớn nguồn vốn đến từ chính phủ và các tổ chức từ thiện. “Các công ty dược phẩm lớn nên tài trợ cho những sáng kiến như UK Biobank,” Alex Zhavoronkov, nhà sáng lập kiêm Giám đốc điều hành của Insilico Medicine, một công ty công nghệ sinh học AI có trụ sở tại Boston, Massachusetts, cho biết.
Tận dụng tối đa những gì đang có
Một số nhà nghiên cứu cho rằng khối lượng dữ liệu khổng lồ, kết hợp với các phương pháp xử lý thông minh hơn, sẽ giúp khắc phục phần lớn những khó khăn trong việc sử dụng AI để khám phá thuốc. “Với đủ dữ liệu, bạn có thể học cách khái quát hóa,” Zhavoronkov nói.
Insilico Medicine liên kết dữ liệu từ hàng tỷ USD tài trợ nghiên cứu của chính phủ Mỹ với các bài báo khoa học, thử nghiệm lâm sàng, bằng sáng chế và kho dữ liệu di truyền, hóa học. Sau đó, nguồn dữ liệu thô này được xử lý. Tại Insilico, quá trình này bao gồm việc chấm điểm để giúp thuật toán đánh giá mức độ quan trọng hoặc độ tin cậy của kết quả.
Cuối năm 2019, nền tảng khám phá thuốc dựa trên AI của Insilico, PandaOmics, đã xác định một mục tiêu điều trị cho các bệnh xơ hóa, vốn liên quan đến sự hình thành mô sẹo quá mức. Sau đó, nền tảng AI tạo sinh Chemistry42 của họ đã tìm ra các hợp chất có thể ức chế tình trạng xơ hóa này. Tháng 8 năm ngoái, Insilico đã hoàn thành thử nghiệm giai đoạn IIa đối với một hợp chất phân tử nhỏ dùng cho người trưởng thành mắc bệnh xơ phổi vô căn. Hiện tại, công ty đang chuẩn bị cho thử nghiệm tiếp theo, và Zhavoronkov kỳ vọng sẽ đạt được nhiều thành công hơn.

Phòng thí nghiệm robot tại Insilico Medicine, một công ty công nghệ sinh học trí tuệ nhân tạo ở Boston, Massachusetts. Ảnh: Insilico Medicine.

Alex Zhavoronkov (bên trái), nhà sáng lập kiêm Giám đốc điều hành của Insilico Medicine, cho rằng các công ty dược phẩm nên tài trợ cho các dự án như UK Biobank, cơ sở dữ liệu y sinh học chứa thông tin từ 500.000 người. Ảnh: Insilico Medicine.

