AndroidEnv (DeepMind) - Reinforcement Learning Sử Dụng Android

AndroidEnv (DeepMind) - Reinforcement Learning Sử Dụng Android

Mới đây, DeepMind – phòng nghiên cứu AI của Alphabet (công ty mẹ của Google) công bố AndroidEnv – một nền tảng cho phép áp dụng agent Reinforcement Learning (học tăng cường) tương tác với nhiều loại ứng dụng và dịch vụ thường được con người sử dụng thông qua một giao diện màn hình cảm ứng.

Reinforcement Learning (RL) – một nhánh của Machine Learning (học máy), cho phép một hệ thống học thông qua thử và sai. Trong những năm gần đây, cộng đồng nghiên cứu RL đã đạt được những tiến bộ đáng kể trong việc theo đuổi các general-purpose learning algorithms (thuật toán học tập tổng quát hóa). Sự phức tạp tăng dần của môi trường đã thúc đẩy sự phát triển của các thuật toán và agent mới mạnh mẽ như DQN (game Atari), AlphaGo (cờ vây), PPO (game Mujoco) hay AlphaStar (game StarCraft II). Để phát triển những công nghệ tiên tiến hơn nữa, các nhà nghiên cứu phải tìm kiếm môi trường mới và thử thách hơn để giải quyết bài toán.

             

Với AndroidEnv, agent RL sẽ đưa ra quyết định dựa trên nội dung hiển thị trên màn hình và điều hướng thông qua các thao tác chạm/cử chỉ - giống như con người chúng ta sử dụng smartphone hàng ngày vậy. DeepMind cho biết môi trường Android cho phép “agent có thể tương tác với một tập hợp các dịch vụ và ứng dụng gần như không giới hạn”.

          

Ví dụ: agent RL có thể duyệt internet, mở ứng dụng Youtube, đặt báo thức hoặc chơi trò chơi. Khả năng agent RL hoạt động trên nền tảng thế giới thực được hàng tỷ người sử dụng hàng ngày đang mở ra một cơ hội nghiên cứu mới trong tương lai.

Bên cạnh những tiềm năng to lớn, AndroidEnv hứa hẹn sẽ là thử thách khó nhằn cho các agent RL vượt qua. Đây cũng chính là những vấn đề cố hữu trong RL:

  • Transfer and generalization (Chuyển giao và tổng quát hóa): Không gian quan sát và hành động giống nhau trên tất cả các ứng dụng, cho phép khả năng chuyển giao kiến thức giữa các nhiệm vụ có bản chất rất khác nhau.
  • Temporal abstraction (Trừu tượng theo thời gian): Học cách soạn hành động dựa trên các cử chỉ và tính linh hoạt cho phép agent RL có thể xử lý trong native action space (không gian hành động gốc) rộng lớn.
  • Real-time dynamics (Động lực thời gian thực): Các dịch vụ và ứng dụng chạy trong mô phỏng thời gian thực, cho phép động lực môi trường tương tự với các nhiệm vụ điều khiển robot.
  • Scale (Quy mô hóa): Kích thước lớn của observation space (không gian quan sát) và action space (không gian hành động) đặt ra một vấn đề quy mô hóa thú vị cho các agent RL.

Bằng hệ sinh thái rộng lớn của Android, cho phép agent RL xác định các nhiệm vụ khác nhau, tìm hiểu để đạt được các loại mục tiêu khác nhau như “Tìm đường tới công viên”, “Đặt chuyến bay”, hoặc “Đạt điểm cao nhất trong trò chơi”. AndroidEnv cung cấp cơ chế đơn giản để tạo ra các tác vụ tùy chỉnh một cách linh hoạt dựa trên bất kỳ ứng dụng Android nào. Ngoài các hướng dẫn rõ ràng, đội nghiên cứu DeepMind còn phát hành một tập hợp các tác vụ mẫu thể hiện những khả năng trong AndroidEnv, bao gồm các tác vụ xác định trên các ứng dụng Android phổ biến như ứng dụng Đồng hồ, hay các trò chơi nổi tiếng như 2048, Solitaire, Chess.

Về những gì AndroidEnv có thể cho phép, DeepMind hình dung rằng: “Khả năng tự học chuỗi các hành động có thể ứng dụng để tạo ra những thiết bị điều hướng hands-free (rảnh tay) tiên tiến. Các mô hình AI (Trí tuệ nhân tạo) trên thiết bị di động có thể giúp nâng cao trải nghiệm của người dùng; và các agent RL được đào tạo để hỗ trợ kiểm tra thiết bị và đảm bảo chất lượng bằng cách đo điểm chuẩn cho các ứng dụng mới, đo độ trễ, hoặc phát hiện sự cố hay các hành vi ngoài mong muốn trong hệ điều hành Android.”

DeepMind còn cho biết thêm: “Chúng tôi cũng rất vui vì đã bắt đầu hợp tác với Midjiwan, tác giả của The Battle of Polytopia, để tích hợp trò chơi của họ thành một nhiệm vụ trong AndroidEnv. Chúng tôi thấy trò chơi này sẽ là một thử thách đặc biệt thú vị do nhiều tính năng của nó như yêu cầu long-term planning (xử lý kế hoạch dài hạn), imperfect information (thông tin không hoàn hảo), diverse UI elements (các yếu tố giao diện người dùng đa dạng) và non-determinism (tính không xác định).

Để tìm hiểu chi tiết hơn về AndroidEnv, bạn đọc có thể xem thêm