Lũ quét là một trong những hiện tượng thời tiết nguy hiểm nhất thế giới, khiến hơn 5.000 người thiệt mạng mỗi năm. Đây cũng là một trong những loại thiên tai khó dự đoán nhất. Tuy nhiên, Google cho rằng họ đã tìm ra một cách tiếp cận bất ngờ để giải quyết vấn đề này — phân tích các bài báo, tin tức cũ.
Dù con người đã thu thập rất nhiều dữ liệu thời tiết, lũ quét lại xảy ra trong thời gian rất ngắn và ở phạm vi nhỏ, nên khó được ghi nhận đầy đủ như các dữ liệu dài hạn về nhiệt độ hay lưu lượng sông. Khoảng trống dữ liệu này khiến các mô hình trí tuệ nhân tạo hiện đại khó dự đoán lũ quét chính xác.
Để khắc phục, các nhà nghiên cứu của Google đã sử dụng Gemini, mô hình ngôn ngữ lớn của công ty, để phân tích khoảng 5 triệu bài báo trên toàn thế giới. Hệ thống đã xác định 2,6 triệu sự kiện lũ lụt khác nhau, sau đó chuyển các thông tin này thành chuỗi dữ liệu theo thời gian có gắn vị trí địa lý, được đặt tên là “Groundsource”.
Theo Gila Loike, quản lý sản phẩm tại Google Research, đây là lần đầu tiên Google sử dụng mô hình ngôn ngữ lớn cho loại nghiên cứu này. Kết quả nghiên cứu và bộ dữ liệu đã được công bố công khai vào thứ Năm, 12/3.
Dựa trên bộ dữ liệu Groundsource làm cơ sở thực tế, các nhà nghiên cứu đã huấn luyện một mô hình dự báo dựa trên mạng nơ-ron ghi nhớ dài – ngắn hạn, một dạng trí tuệ nhân tạo có khả năng xử lý dữ liệu theo chuỗi thời gian. Mô hình này tiếp nhận dự báo thời tiết toàn cầu và tính toán xác suất xảy ra lũ quét tại từng khu vực.
Hiện nay, hệ thống dự báo lũ quét của Google đang cảnh báo nguy cơ tại các khu vực đô thị ở 150 quốc gia thông qua nền tảng Flood Hub, đồng thời chia sẻ dữ liệu với các cơ quan ứng phó khẩn cấp trên toàn thế giới.
Ông António José Beleza, một quan chức phụ trách ứng phó khẩn cấp của Cộng đồng Phát triển Nam Phi, cho biết mô hình dự báo này đã giúp tổ chức của ông phản ứng nhanh hơn với các trận lũ.
Tuy vậy, hệ thống vẫn có những hạn chế. Ví dụ, độ chi tiết của mô hình còn khá thấp: nó chỉ xác định rủi ro trong các khu vực rộng khoảng 20 km². Ngoài ra, độ chính xác vẫn chưa bằng hệ thống cảnh báo lũ của National Weather Service của Mỹ, một phần vì mô hình của Google không sử dụng dữ liệu radar địa phương, vốn giúp theo dõi lượng mưa theo thời gian thực.
Tuy nhiên, mục tiêu của dự án là hỗ trợ những khu vực không có đủ nguồn lực để xây dựng hệ thống quan trắc thời tiết đắt tiền hoặc không có dữ liệu khí tượng dài hạn.
“Bằng cách tổng hợp hàng triệu báo cáo, bộ dữ liệu Groundsource giúp cân bằng lại bản đồ dữ liệu,” bà Juliet Rothenberg, quản lý chương trình trong nhóm Resilience của Google, cho biết. “Nhờ đó chúng tôi có thể suy ra rủi ro ở những khu vực mà thông tin còn rất hạn chế.”
Nhóm nghiên cứu cũng hy vọng rằng phương pháp sử dụng mô hình ngôn ngữ lớn để biến các nguồn thông tin mô tả bằng chữ thành dữ liệu định lượng có thể áp dụng cho việc xây dựng cơ sở dữ liệu về các hiện tượng thiên nhiên khác, như sóng nhiệt hoặc sạt lở đất.
Ông Marshall Moutenot, giám đốc điều hành công ty Upstream Tech, cho rằng nghiên cứu của Google là một phần của xu hướng ngày càng lớn nhằm tạo ra các bộ dữ liệu phục vụ mô hình dự báo thời tiết bằng trí tuệ nhân tạo.
“Thiếu dữ liệu là một trong những thách thức lớn nhất trong khoa học Trái Đất,” ông nói. “Chúng ta có rất nhiều dữ liệu về hành tinh, nhưng khi cần kiểm chứng thực tế thì lại không đủ. Đây là một cách tiếp cận rất sáng tạo để giải quyết vấn đề đó.”
Giao diện bản đồ của nền tảng dự báo lũ Flood Hub của Google, hiển thị các khu vực có nguy cơ lũ tại khu vực bang São Paulo, Brazil. Ảnh: Google Flood Hub

