AlphaFold - Viết Nên Lịch Sử Ngành Sinh Học Thế Giới

AlphaFold - Viết Nên Lịch Sử Ngành Sinh Học Thế Giới

Ngày 30/11 vừa qua, bài toán hóc búa về protein khiến các nhà nghiên cứu đau đầu trong suốt 50 năm đã được AlphaFold - sản phẩm Trí tuệ nhân tạo của DeepMind giải quyết, tạo ra bước đột phá trong lĩnh vực sinh học. Hãy cùng tìm hiểu hành trình AlphaFold đi tìm câu trả lời cho một trong những bài toán khoa học thách thức nhất qua bài viết dưới đây nhé!

Protein - Cỗ máy nhỏ bé cấu thành nên sự sống

Trong cơ thể của mỗi chúng ta luôn có hàng tỉ cỗ máy phân tử nhỏ bé đang hoạt động chăm chỉ gọi là protein. Chúng là thứ cho phép mắt bạn phát hiện ra ánh sáng, các tế bào thần kinh được kích hoạt và đọc được những chỉ dẫn trong các phân tử DNA, giúp bạn trở thành duy nhất, không trùng lặp với bất kỳ cá thể nào khác. 

Protein rất cần thiết cho sự sống. Chúng là những phân tử phức tạp được tạo thành từ các chuỗi axit amin. Protein giúp củng cố các quá trình sinh học trong cơ thể con người và trong cơ thể của mọi sinh vật. Đây là các cỗ máy tinh vi, phức tạp giúp cấu thành nên sự sống của chúng ta. Hiện tại, có khoảng 200 triệu protein đã được biết đến, với hơn 30 triệu protein khác được tìm thấy mỗi năm. Mỗi cái có một hình dạng 3D duy nhất, những hình dạng này có mối liên hệ chặt chẽ với chức năng của nó. Việc dự đoán cấu trúc cũng như hình dạng của protein là nhiệm vụ vô cùng quan trọng mà các nhà nghiên cứu cần phải đi tìm.

Số lượng protein đã được biết đến là trên 200 triệu và con số này đang tiếp tục tăng qua mỗi năm. (Ảnh: DeepMind)

Tại sao việc dự đoán cấu trúc protein lại quan trọng?

Như đã đề cập ở bên trên, hình dạng của protein có mối liên hệ chặt chẽ với chức năng của nó và khả năng dự đoán cấu trúc này giúp bạn hiểu rõ hơn về chức năng và cách thức hoạt động của protein. Việc dự đoán cấu trúc protein giúp các nhà khoa học tìm hiểu được cơ chế gây bệnh, dự đoán mức hiệu quả của các loại thuốc và vai trò của protein trong cơ thể. Nhiều thách thức lớn trên thế giới, như phát triển các phương pháp điều trị bệnh hoặc tìm ra các enzym phân hủy chất thải công nghiệp, về cơ bản gắn liền với protein và vai trò của chúng. Ngoài ra, những bí ẩn về cách thức hoạt động của sự sống cũng sẽ được hé lộ thông qua những cấu trúc 3D này. 

Đây là trọng tâm của nghiên cứu khoa học chuyên sâu trong nhiều năm, sử dụng nhiều kỹ thuật thực nghiệm để kiểm tra và xác định cấu trúc protein, chẳng hạn như cộng hưởng từ hạt nhân và tinh thể học tia X. Những kỹ thuật này, cũng như các phương pháp mới hơn như kính hiển vi điện tử lạnh, phụ thuộc vào quá trình thử và sai rộng rãi, có thể mất nhiều năm làm việc tỉ mỉ cho mỗi cấu trúc, và yêu cầu sử dụng thiết bị chuyên dụng trị giá hàng triệu đô la. Vì vậy, việc tìm ra cấu trúc chính xác của protein là một quá trình tốn kém và tốn rất nhiều thời gian. Suốt một nửa thế kỷ qua, bài toán “nếp gấp protein” vẫn là bài toán đau đầu với các nhà nghiên cứu, lời giải nhanh và chính xác vẫn còn là một câu trả lời bỏ ngỏ..

“Hơn 50 năm tìm lời giải cho bài toán nếp gấp protein. Nếu có thể tìm ra, đó sẽ là một khoảnh khắc rất tuyệt.”_Tiến sĩ John Moult (Đại học Maryland)

Bài toán “nếp gấp protein”

Trong bài phát biểu khi nhận giải Nobel Hóa học vào năm 1972, Christian Anfinsen nhấn mạnh rằng “nên xác định đầy đủ cấu trúc của trình tự axit amin của protein”. Chính giả thuyết này đã khơi gợi cho một nhiệm vụ kéo dài 5 thập kỷ để dự đoán cấu trúc 3D của protein.  

Nếu nghiên cứu kỹ càng một loại protein, bạn sẽ thấy nó giống như một chuỗi hạt được tạo ra từ một chuỗi các thành phần hóa học khác nhau được gọi là axit amin. Các trình tự này được lắp ráp theo chỉ thị di truyền DNA của sinh vật. Lực hút và lực đẩy giữa 20 loại axit amin khác nhau khiến chuỗi gấp lại theo kiểu ‘nếp gấp tự nhiên’, tạo thành những lọn, vòng và nếp gấp phức tạp cấu trúc 3D của protein.

Trong một thời gian dài, các nhà khoa học đã cố gắng tìm ra một phương pháp để xác định cấu trúc của một loại protein chỉ từ trình tự các axit amin của nó. Phương pháp này sẽ tiết kiệm rất nhiều thời gian và tiền bạc. Thử thách khoa học lớn này được gọi là vấn đề gấp protein.

Hình ảnh 1 protein đang “cuộn gấp” (Ảnh: Google)

AlphaFold - Đưa lịch sử sinh học sang trang

Vào năm 2016, DeepMind bắt tay vào chinh phục thử thách này. Họ tạo ra một hệ thống Trí tuệ nhân tạo và đặt tên là AlphaFold. AlphaFold được huấn luyện bằng cách cho quan sát trình tự và cấu trúc của khoảng 170,000 protein đã biết. Kết hợp cùng 100-200 bộ xử lý đồ họa, quá trình huấn luyện này mất vài tuần.

Năm 2018, AlphaFold lần đầu tiên tham gia CASP (Critical Assessment of Protein Structure Prediction) - một sự kiện được ví như “Olympic về cuộn gập protein”. CASP lần đầu được tổ chức vào năm 1994 bởi Tiến sĩ John Moult và Krzysztof Fidelis. Đây giống như một cuộc thi dự đoán cấu trúc protein vậy. Những người tham gia phải dự đoán cấu trúc của protein do hội đồng công bố. Những dự đoán này sau đó được so sánh với dữ liệu thực nghiệm về thực địa. Người nào đưa ra dự đoán chính xác nhất sẽ giành chiến thắng. 

Thông số chính được CASP sử dụng để đo độ chính xác của các dự đoán là Bài kiểm tra khoảng cách toàn cầu (GDT) nằm trong khoảng từ 0-100. Nói một cách dễ hiểu, GDT là tỷ lệ phần trăm dư lượng axit amin (các hạt trong chuỗi protein) trong khoảng cách ngưỡng (tính từ vị trí chính xác). Theo Giáo sư Moult, 90 điểm GDT tương đương với kết quả của các phương pháp được dùng trong phòng thí nghiệm.

Trong tất cả các đội thi tham gia CASP13 diễn ra vào năm 2018, AlphaFold xếp thứ nhất ngay ở lần đầu tiên tham dự. Đến CASP14 (2020), DeepMind giới thiệu phiên bản mới nhất của AlphaFold.

Lần này, AlphaFold đạt điểm số trung bình là 92.4/100. Các dự đoán có biên độ sai trung bình khoảng 1.6 angstrom, tương đương với chiều rộng của một nguyên tử hay 0.1 nm. Ngay cả đối với những thử thách protein khó nhằn nhất, AlphaFold đạt được điểm trung bình là 87.0 GDT.

Thành tích của AlphaFold và AlphaFold 2 tại CASP13 và CASP14 (Ảnh: DeepMind)

2 ví dụ về protein mà AlphaFold đã dự đoán với độ chính xác cao (>90%) (Ảnh: DeepMind) 

Những kết quả thú vị này mở ra tiềm năng cho các nhà sinh học sử dụng dự đoán cấu trúc tính toán như một cốt lõi trong nghiên cứu khoa học. Phương pháp của DeepMind tỏ ra đặc biệt hữu ích đối với các lớp protein quan trọng như protein màng - thứ rất khó kết tinh và do đó rất khó xác định bằng thực nghiệm.

Video kể lại câu chuyện AlphaFold viết nên lịch sử cho ngành sinh học thế giới

Tương lai của AlphaFold

Một thập kỷ trước, DeepMind được thành lập với hi vọng mang những đột phá của AI để nâng cao hiểu biết của con người về các vấn đề khoa học cơ bản. AlphaFold dần giúp họ làm được điều đó. 

AlphaFold đang cho thấy những tiềm năng trong các nỗ lực ứng phó với đại dịch trong tương lai. Đầu năm nay, DeepMind đã dự đoán một số cấu trúc protein của virus SARS-CoV-2, bao gồm ORF3a hay ORF8 giúp tăng cường hiểu biết về đại dịch. Ngoài ra, họ cũng nhìn được tiềm năng của những kỹ thuật này để khám phá hàng trăm triệu protein mặc dù không có mô hình. Rất nhiều các protein chưa được xác định có thể có một số chức năng mới, và AlphaFold sẽ giúp chúng ta tìm thấy chúng.

AlphaFold là một trong những tiến bộ lớn nhất của DeepMind tính đến hiện tại. Tuy nhiên, cũng như tất cả các nghiên cứu khoa học khác, vẫn còn rất nhiều câu hỏi cần giải đáp. Kết quả ngày hôm nay của AlphaFold cho chúng ta thêm niềm tin rằng AI sẽ trở thành một trong những công cụ hữu ích nhất của nhân loại trong việc mở rộng biên giới kiến thức. Tiếp tục chăm chỉ và tiến lên!!

Một số các sản phẩm tuyệt vời khác của DeepMind như AlphaGo chinh phục bộ môn cờ vây, AlphaStar - Cuộc chạm trán giữa Trí tuệ nhân tạo và Starcraft, mời các bạn cùng đón đọc.

------

Bài viết tham khảo từ DeepMind, Google.