
Ngày càng có nhiều bệnh nhân và bác sĩ sử dụng trí tuệ nhân tạo (AI) để chẩn đoán và tìm phương án điều trị — thường với kết quả rất ấn tượng — nhưng rắc rối nảy sinh khi các chuyên gia và thuật toán bất đồng quan điểm.
Trên Reddit, một người dùng cho biết họ đã phải sống với tiếng kêu “lục cục” đau đớn ở hàm suốt năm năm sau chấn thương khi chơi quyền Anh. Anh từng gặp nhiều chuyên gia, chụp cộng hưởng từ (MRI), nhưng không ai đưa ra được giải pháp. Cho đến khi anh mô tả triệu chứng cho ChatGPT, thì chatbot này cho rằng anh bị lệch khớp hàm, kèm theo gợi ý một kỹ thuật định vị lưỡi để khắc phục. Người này thử làm theo — và âm thanh khó chịu biến mất. “Sau năm năm sống chung với nó,” anh viết trên Reddit hồi tháng 4, “AI này đã giúp tôi giải quyết trong một phút.”
Câu chuyện nhanh chóng lan truyền mạnh mẽ, được đồng sáng lập LinkedIn Reid Hoffman chia sẻ trên nền tảng X. Và đây không phải trường hợp cá biệt: các mạng xã hội đang tràn ngập những câu chuyện bệnh nhân nhận được đánh giá chính xác từ các mô hình ngôn ngữ lớn (LLM) về hình ảnh MRI hoặc X-quang của họ.
Courtney Hofmann có con trai mắc một chứng rối loạn thần kinh hiếm gặp. Sau 17 lần đưa con đi khám suốt ba năm mà vẫn chưa có chẩn đoán rõ ràng, cô nhập toàn bộ hồ sơ y tế, hình ảnh và ghi chú vào ChatGPT. Công cụ này đưa ra kết luận: hội chứng dây tủy bị kéo căng (tethered cord syndrome), khi tủy sống bị dính vào mô xung quanh và không thể di chuyển tự do — điều mà các bác sĩ trước đó đã bỏ sót. “Sáu tuần sau khi tôi dùng ChatGPT, cháu được phẫu thuật và bây giờ như một đứa trẻ khác hẳn,” Hofmann kể lại trên podcast của Tạp chí Y học New England vào tháng 11 năm 2024.
Các công cụ AI thân thiện với người dùng đang thay đổi cách mọi người tìm kiếm lời khuyên y tế, từ triệu chứng đến chẩn đoán. Kỷ nguyên của “Bác sĩ Google” đang nhường chỗ cho “Bác sĩ ChatGPT”. Các trường y, bác sĩ, nhóm bệnh nhân và cả các công ty phát triển chatbot đang chạy đua để bắt kịp — tìm hiểu xem những câu trả lời y khoa của LLM chính xác đến đâu, nên được sử dụng như thế nào, và làm sao xử lý tình huống bệnh nhân bị cung cấp thông tin sai lệch.
“Tôi rất tin rằng công nghệ này sẽ cải thiện chăm sóc sức khỏe cho bệnh nhân,” bác sĩ Adam Rodman, giảng viên Trường Y Harvard và là bác sĩ thực hành, cho biết. “Bạn có thể hình dung ra rất nhiều cách người ta có thể tương tác với LLM khi nó kết nối với hồ sơ bệnh án của chính họ.”
Rodman từng chứng kiến bệnh nhân dùng chatbot AI ngay trong các ca trực của mình. Gần đây, khi đang điều trị cho hơn 12 bệnh nhân, một người phụ nữ vì chờ đợi quá lâu đã chụp ảnh màn hình hồ sơ bệnh án và đưa vào chatbot AI. “Cô ấy bảo: ‘Tôi đã hỏi ChatGPT rồi’,” Rodman kể. Chatbot đã đưa ra câu trả lời đúng về tình trạng rối loạn máu của cô.
Rodman không khó chịu vì điều đó. Là người tiên phong ứng dụng công nghệ này và là chủ tịch nhóm chỉ đạo sử dụng AI tạo sinh trong chương trình giảng dạy ở Trường Y Harvard, ông cho rằng AI có thể giúp bác sĩ và bệnh nhân có thêm thông tin tốt hơn và cải thiện giao tiếp. “Tôi xem đây là cơ hội để hiểu thêm bệnh nhân đang lo lắng điều gì,” ông nói.
Nhiều nghiên cứu cho thấy AI có thể đưa ra lời khuyên và chẩn đoán chính xác trong một số tình huống, nhưng khi công cụ được giao vào tay con người — dù là bác sĩ hay bệnh nhân — thì độ chính xác thường giảm. Người dùng có thể mắc lỗi, như không cung cấp đầy đủ triệu chứng cho AI, hoặc bỏ qua những thông tin đúng mà AI đã phản hồi.
Trong một nghiên cứu, các bác sĩ được đưa một loạt hồ sơ bệnh nhân và yêu cầu ước tính khả năng bệnh nhân mắc những bệnh gì. Một nhóm có hỗ trợ AI, nhóm còn lại không. Cả hai nhóm có kết quả tương đương về năng lực chẩn đoán, xét trên độ chính xác, lập luận và các bước tiếp theo. Nhóm có AI đạt điểm trung vị 76%, nhóm dùng phương pháp truyền thống đạt 74%. Nhưng khi AI hoạt động độc lập — không có yếu tố con người — điểm trung vị lên đến 92%.
Bác sĩ Rodman của Trường Y Harvard — người đồng tham gia nghiên cứu này — cho biết thời điểm thực hiện vào năm 2023, chatbot AI còn khá mới mẻ nên bác sĩ chưa quen dùng, khiến hiệu quả bị hạn chế. Nhưng điều rút ra quan trọng hơn là: bác sĩ vẫn xem mình là bộ lọc thông tin chính. “Họ thích AI khi nó đồng ý với họ, nhưng bỏ qua khi nó phản đối họ,” ông nói. “Họ không tin khi máy móc nói rằng họ sai.”
Rodman từng thử nghiệm AI vài năm trước trong một ca khó mà ông và nhiều chuyên gia khác đã chẩn đoán sai ban đầu. Ông cung cấp toàn bộ thông tin và điều đầu tiên AI đưa ra là căn bệnh hiếm mà bệnh nhân thực sự mắc phải. AI cũng đề xuất một chẩn đoán phổ biến hơn nhưng cho rằng ít khả năng xảy ra hơn — và đó chính là cái mà các bác sĩ ban đầu đã chẩn đoán nhầm.
Một nghiên cứu sơ bộ khác với hơn 1.200 người tham gia cho thấy AI tự hoạt động thì chẩn đoán đúng gần 95% trường hợp, nhưng khi con người sử dụng công cụ để hỗ trợ tư duy thì tỉ lệ đúng chỉ còn khoảng 1/3.
Trong một tình huống nghiên cứu, bệnh nhân bị đau đầu dữ dội kèm theo cứng cổ xuất hiện đột ngột. Hành động đúng là phải đến khám bác sĩ ngay vì có thể đây là dấu hiệu của bệnh nghiêm trọng như viêm màng não hoặc xuất huyết não. Một số người dùng đã nhập thông tin đúng và được AI hướng dẫn chính xác. Nhưng những người khác chỉ nhận được lời khuyên rằng nên uống thuốc giảm đau không kê đơn và nằm nghỉ trong phòng tối. Nghiên cứu cho thấy sự khác biệt trong phản hồi của AI đến từ lượng thông tin người dùng cung cấp — khi không đề cập đến việc triệu chứng khởi phát đột ngột, AI đã đưa ra hướng xử lý sai lầm.
Tuy nhiên, bất kể người dùng cung cấp thông tin đúng hay sai, AI vẫn trả lời với giọng điệu rất chắc chắn, khiến câu trả lời nghe như một sự thật tuyệt đối — ngay cả khi nó hoàn toàn sai, theo bác sĩ Alan Forster, giáo sư đổi mới tại Khoa Y, Đại học McGill. Khác với tìm kiếm trên mạng chỉ cho ra danh sách các liên kết, chatbot AI viết dưới dạng văn bản. “Điều đó khiến câu trả lời có vẻ có thẩm quyền hơn,” Forster nói. “Cách trình bày rất trôi chảy, mạch lạc, khiến mọi người cảm thấy nó đáng tin hơn.”
Ngay cả khi câu trả lời đúng, AI vẫn không thể thay thế kiến thức lâm sàng mà các bác sĩ tích lũy được qua kinh nghiệm, theo bác sĩ điều trị vô sinh Jaime Knopman. Nhiều bệnh nhân tại phòng khám của cô ở khu Manhattan mang theo thông tin do chatbot AI đưa ra. Dù không hẳn sai, các gợi ý từ mô hình ngôn ngữ lớn (LLM) thường không phù hợp nhất với trường hợp cụ thể của bệnh nhân.
Ví dụ, khi xem xét phương pháp thụ tinh ống nghiệm, các cặp đôi thường nhận được điểm số đánh giá chất lượng phôi. Nhưng nếu chỉ dựa vào điểm số để hỏi ChatGPT nên làm gì tiếp theo, thì AI sẽ bỏ qua nhiều yếu tố quan trọng khác, Knopman nói. “Không chỉ là điểm số. Còn nhiều thứ liên quan — như thời điểm phôi được sinh thiết, tình trạng niêm mạc tử cung, và tiền sử điều trị trước đó.” Bên cạnh kiến thức chuyên môn, Knopman cho biết cô từng chăm sóc cho hàng nghìn phụ nữ — và chính điều đó mang lại cái nhìn thực tế mà LLM không thể có.
Một số bệnh nhân còn đến khám và quả quyết mình muốn thực hiện chuyển phôi theo đúng cách mà AI đã đề xuất, Knopman nói. Dù phương pháp đó phổ biến, nhưng với từng bệnh nhân cụ thể, có thể có lựa chọn phù hợp hơn. “Có một phần là khoa học — chúng tôi học và thực hành — nhưng còn có nghệ thuật điều trị, và đó là lý do tại sao một phương pháp hoặc phác đồ này lại hợp hơn phương pháp khác.”
Một số công ty phát triển chatbot AI đang xây dựng công cụ riêng để giải quyết lo ngại về thông tin y tế. Ngày 12 tháng 5, OpenAI — công ty mẹ của ChatGPT — công bố hệ thống HealthBench, được thiết kế để đánh giá khả năng phản hồi câu hỏi sức khỏe của AI. OpenAI cho biết hệ thống này được xây dựng với sự hỗ trợ từ hơn 260 bác sĩ tại 60 quốc gia, với 5.000 tình huống hội thoại mô phỏng giữa người dùng và AI, kèm thang điểm do bác sĩ xây dựng để chấm chất lượng câu trả lời. Công ty nói rằng ở các phiên bản AI trước, bác sĩ có thể cải thiện câu trả lời của chatbot, nhưng ở phiên bản mới nhất (từ tháng 4/2025 như GPT-4.1), AI đã ngang hoặc vượt qua bác sĩ trong nhiều bài kiểm tra.
“Chúng tôi thấy rằng các mô hình ngôn ngữ lớn đã cải thiện rõ rệt và hiện đã vượt trội hơn chuyên gia con người trong việc viết phản hồi ở các tình huống kiểm tra,” OpenAI viết trên trang web. “Tuy nhiên, ngay cả những hệ thống tiên tiến nhất vẫn còn cần cải thiện, đặc biệt là khi truy xuất ngữ cảnh cần thiết trong các câu hỏi thiếu thông tin.”
Ngoài ra, nhiều công ty khác cũng phát triển công cụ AI y tế dành riêng cho chuyên gia. Microsoft cho biết đã xây dựng hệ thống MAI Diagnostic Orchestrator (MAI-DxO), trong thử nghiệm có khả năng chẩn đoán chính xác gấp bốn lần bác sĩ. Hệ thống này hoạt động bằng cách truy vấn đồng thời nhiều mô hình ngôn ngữ hàng đầu — gồm GPT của OpenAI, Gemini của Google, Claude của Anthropic, Llama của Meta, và Grok của xAI — theo cách mô phỏng nhóm chuyên gia y tế thực hiện hội chẩn.
Theo giáo sư Bernard S. Chang, Trưởng khoa Đào tạo Y khoa tại Đại học Y Harvard, bác sĩ tương lai cần học cách sử dụng AI cũng như tư vấn cho bệnh nhân khi họ dùng công cụ này. Đó là lý do Harvard là một trong những trường đầu tiên đưa AI vào chương trình giảng dạy. “Đây là một trong những điều thú vị nhất đang diễn ra trong đào tạo y khoa hiện nay,” Chang nói.
Chang cho biết tình huống hiện nay khiến ông nhớ đến thời điểm cách đây 20 năm, khi người dân bắt đầu tìm kiếm thông tin y tế trên mạng. Nhiều bệnh nhân từng nói với ông: “Hy vọng bác sĩ không phải là người dùng Google.” Nhưng về sau, khi Google trở nên phổ biến, ông chỉ muốn đáp lại: “Bạn đâu muốn đến gặp bác sĩ là người không biết dùng công cụ đó, đúng không?” Và ông thấy điều tương tự đang lặp lại với AI. “Một bác sĩ hàng đầu về y học thì không thể bỏ qua công cụ mạnh mẽ này.”
Một phụ nữ tương tác với một chatbot AI trong ảnh minh họa. Ảnh: Getty Images.