NeurlPS Nói Gì Về Xu Thế Của Reinforcement Learning

NeurlPS Nói Gì Về Xu Thế Của Reinforcement Learning

“Chúng ta muốn AI tự đưa ra quyết định và
Reinforcement Learning chính là hướng nghiên cứu về cách đưa ra quyết định”

Mặc dù Reinforcement Learning (Học tăng cường) đã tồn tại một thời gian dài, gần như xuất hiện cùng thời điểm với Machine Learning, nhưng vẫn còn rất nhiều vùng đất để khám phá và ứng dụng rộng rãi trong môi trường thế giới thực. Năm 2020, tại hội nghị Neural Information Processing Systems lần thứ 34 (NeurIPS – hội nghị Hệ thống xử lý thông tin thần kinh), gần hàng trăm bài báo mới nhất về Reinforcement Learning được trình bày.

Trong bài viết lần này, tôi nhấn mạnh 17 bài báo về Reinforcement Learning do các nhà nghiên cứu của Microsoft trình bày và gói gọn dưới lăng kính của 3 lĩnh vực:

  • Batch Reinforcement Learning: một framework cho phép agent tận dụng những kinh nghiệm trong quá khứ. Đây là một xu thế quan trọng để ứng dụng Reinforcement Learning trong thế giới thực, đặc biệt là các tình huống yêu cầu độ an toàn cao.
  • Strategic Exploration (Khám phá chiến lược): cơ chế giúp xác định và thu thập thông tin hữu ích, tối ưu hóa hiệu suất khám phá.
  • Representation Learning (Học biểu diễn): agent tóm tắt và nén các đầu vào để nâng cao hiệu suất khám phá, tổng quát hóa và tối ưu hóa hiệu quả hơn.

Trong phần 1 của series lần này, chúng ta sẽ cùng tìm hiểu về xu thế đầu tiên của Reinforcement Learning năm 2020: Batch Reinforcement Learning!

Batch Reinforcement Learning (Batch RL)

Trong các bài toán Reinforcement Learning truyền thống, agent được đưa vào trong một môi trường, tương tác với môi trường và ghi nhận lại kết quả, từ đó cải thiện hành vi của mình để tiến gần hơn đến hoàn thành nhiệm vụ.

Batch RL sử dụng một hướng tiếp cận khác: agent sẽ cố gắng học những policy tốt từ một static dataset (tập dữ liệu tĩnh) chứa các kinh nghiệm trong quá khứ, ví dụ như là một tập dữ liệu về các hoạt động thường xảy ra trong một hệ thống máy móc có sẵn mà agent sắp được triển khai.

Mặc dù hướng tiếp cận của Batch RL kém trực quan hơn so với bản chất của phương pháp trial-and-error (thử-và-sai) thuần của Reinforcement Learning, song Batch RL vẫn có một số ưu điểm quan trọng. Alekh Agarwal – Giám đốc nghiên cứu cấp cao tại Microsoft cho hay: “Chúng ta có thể tận dụng bất kỳ dữ liệu có sẵn nào, thậm chí là rất nhỏ, để đào tạo agent trước khi nó chính thức “mở mắt nhìn thế giới”. Điều đó có nghĩa là, agent sẽ được sinh ra với hiệu năng cao hơn hẳn bình thường. Agent sẽ mắc ít lỗi hơn, và học tốt hơn rất nhiều.” Điều này đặc biệt quan trọng khi xây dựng agent trong một số bài toán có tình huống yêu cầu cao về độ an toàn như chăm sóc y tế/sức khỏe hay hệ thống tự động.

Hẳn nhiều bạn cũng sớm nhận ra được vấn đề của hướng tiếp cận này. Một bộ static dataset không thể đảm bảo được tất cả các tình huống mà agent sẽ gặp phải khi triển khai. Đồng nghĩa là agent có thể sẽ hoạt động tốt trên dataset được quan sát, nhưng sẽ kém hiệu quả trên dataset không được quan sát. “Hiệu ứng domino” cũng sẽ xảy ra, agent sẽ liên tiếp đưa ra liên tiếp các hành động sai dẫn tới hậu quả khó lường. Thông thường, các nhà nghiên cứu sẽ không thể đánh giá được tập dataset có tốt hay không cho đến khi triển khai agent trong thực tế.

Hai bài báo “Provably Good Batch Reinforcement Learning Without Great Exploration” và “MOReL: Model-Based Offline Reinforcement Learning” của đội ngũ nghiên cứu Microsoft đều tiếp cận với bài toán Batch RL. Họ cố gắng tìm cách tối ưu hóa dataset có sẵn bằng cách chuẩn bị những tình huống xấu nhất mà agent có thể gặp phải. Mặc dù hướng giải quyết của hai bài báo trên có thể giúp agent sử dụng những hành động sai như một cơ hội để học, nhưng RL Batch không cho phép agent có cơ hội kiểm tra belief (niềm tin) của chúng, mà chỉ cho agent tiếp cận với dataset. Vì vậy, các nhà nghiên cứu ứng dụng pessimistic techniques (kỹ thuật bi quan): cho agent học policy dựa trên các tình huống xấu nhất trong thế giới giả định mà thế giới đó có thể sinh ra dataset hiện tại. Hoạt động tốt trong những tình huống xấu nhất sẽ đảm bảo hiệu suất của agent khi triển khai thực sự.

Song, có hai câu hỏi được đặt ra cho hướng tiếp cận này:

  1. Làm thế nào để đảm bảo rằng dữ liệu sinh ra từ tập hợp các thế giới sẽ nhất quán với dataset cụ thể và cách tìm ra những tình huống xấu nhất?
  2. Làm thế nào để tìm được policy tốt nhất bằng cách học với những tình huống xấu nhất?

“Provably Good Batch Reinforcement Learning Without Great Exploration” giải quyết câu hỏi số 1 bằng model-free với thuật toán MBS Policy Iteration (MBS-PI) và MBS Q Iteration (MBS-QI) [1]. Phương pháp của họ đảm bảo vững chắc về mặt lý thuyết cho các kỹ thuật pessimistic, kể cả khi agent nhận thức môi trường thông qua các quan sát sensor phức tạp. Ý nghĩa quan trọng rút ra từ các thuật toán và kết quả của MBS-PI/MBS-QI là: khi tập dữ liệu hành vi bao phủ đầy đủ các state và action dưới policy tối ưu, các thuật toán sẽ giúp agent có thể học được policy gần tối ưu nhất.

“MOReL: Model-Based Offline Reinforcement Learning” giải quyết bằng thuật toán Model-based Offline Reinforcement Learning (MOReL) [2]. Như tên của phương pháp, MOReL hoạt động trong môi trường pessimistic Markov Decision Process với model-based và Offline RL. Phương pháp MOReL chứng minh bằng thực nghiệm trong các hệ thống vật lý như robot, nơi môi trường có động lực cơ bản, dựa trên các định luật vật lý thì agent có thể học tốt bằng một lượng dữ liệu hợp lý. Hướng tiếp cận này đã đạt được kết quả thực nghiệm tốt nhất, state-of-the-art.

 

Hình 1.
A) Mô hình Offline Reinforcement Learning: Agent học một dataset cố định chứa dữ liệu trong quá khứ để học hỏi policy.
B) Mô hình thuật toán MOReL: agent sẽ học pessimistic MDP (P-MDP) từ dataset và tìm policy thông qua bộ tối ưu policy.
C) Mô hình P-MDP, không gian state-action được biết (màu xanh lá) và không biết (màu cam), và bắt buộc có một transition từ vùng dữ liệu không biết đến điểm dừng và trả lại state với reward thấp.

 

Bên cạnh hai hướng tiếp cận trên, bài báo thứ ba “Empirical Likelihood for Contextual Bandits”, giải quyết một câu hỏi khác quan trọng không kém trong không gian Batch RL [3]:

  • Agent sẽ nhận được bao nhiêu reward khi policy được tạo bằng cách sử dụng một dataset cụ thể trong thế giới thực?

Bởi vẫn chưa có câu trả lời cho bài toán này, các nhà nghiên cứu đưa ra kết luận dựa trên confidence intervals (khoảng tin cậy), đưa ra giới hạn về hiệu suất trong tương lai khi tương lai giống quá khứ. Như được áp dụng trong bài báo này, những giới hạn này có thể được sử dụng để quyết định hướng đào tạo agent bao gồm loại hình learning (học), representation (biểu diễn) hoặc features.

“Confidence intervals là một thách thức đặc biệt trong Reinforcement learning bởi vì ước tính unbiased (không thiên vị) về hiệu suất phân tách thành các observations (quan sát) với các scale (quy mô) cực kỳ chênh lệch” – Giám đốc nghiên cứu đối tác John Langford cho hay. Trong bài báo này, các nhà nghiên cứu đề cập và so sánh hai cách tiếp cận trước đây.

Hướng đầu tiên là làm tròn ngẫu nhiên để áp dụng Binomial confidence intervals (khoảng tin cậy nhị thức), tuy nhiên hướng đi này sẽ làm confidence intervals trở nên quá rộng và lỏng lẻo.

Hướng còn lại là sử dụng cấu trúc tiệm cận Guassian cho bất kỳ biến ngẫu nhiên nào, nhưng lại không áp dụng được cho số lượng sample nhỏ.

Cách tiếp cận của các nhà nghiên cứu trong bài báo này có tên gọi là Empirical Likelihood (EL), dựa trên empirical likelihood techniques (kỹ thuật khả năng xảy ra theo kinh nghiệm), cố gắng làm chặt confidence interval như cấu trúc tiệm cận Guassian trong khi vẫn đảm bảo confidence interval hợp lệ.

Hình 2. So sánh confidence intervals (CI) trên dataset trong ngữ cảnh bandit.

Confidence intervals của EL chặt chẽ hơn đáng kể so với cách tiếp cận Binomial confidence intervals, đồng thời tránh hiện tượng chronic undercoverage. Ở sơ đồ bên trái, khu vực bóng mờ đại diện cho 90% phân phối kinh nghiệm, cho thấy CI của EL ít dao động hơn. Ở bên phải, vùng được tô bóng thể hiện 4 lần sai số chuẩn của vùng phủ sóng trung bình, cho thấy sự khác biệt coverage giữa 3 phương pháp đều rất đáng kể.

Lời kết

Batch RL đang trở thành một hướng đi mới trong lĩnh vực Reinforcement Learning khi giúp tối ưu lượng dữ liệu trong quá khứ, nâng cao khả năng học tập của agent và đảm bảo quyết định của agent trong các môi trường đề cao sự an toàn. Thông qua ba bài báo mới nhất của đội nghiên cứu về trí tuệ nhân tạo tại Microsoft, tôi hi vọng phần nào đó truyền tải được ý tưởng của Batch RL như một hướng tiếp cận mới. Dẫu nhiều người còn hoài nghi về hướng tiếp cận đến Reinforcement Learning của Batch RL, song những ưu thế và kết quả đạt được của Batch RL vẫn đáng để phát triển và đề cao, đặc biệt trong hội nghị NeurIPS 2020. 

Trong 2 phần tiếp theo, chúng ta sẽ tiếp tục tìm hiểu về Strategic Exploration Representation Learning. Mong nhận được sự ủng hộ và quan tâm của các bạn!

Tham khảo

[1] [2007.08202] Provably Good Batch Reinforcement Learning Without Great Exploration (arxiv.org)

[2] [2005.05951] MOReL : Model-Based Offline Reinforcement Learning (arxiv.org)

[3] [1906.03323] Empirical Likelihood for Contextual Bandits (arxiv.org)

[4] Một bài báo khác về batch RL tại hội thảo NeurIPS 2020 với hướng tiếp cận Metric Learning: “Multi-task Batch Reinforcement Learning with Metric Learning.”