AlphaStar Vs Game Thủ StarCraft Hàng Đầu Thế Giới (P2)

AlphaStar Vs Game Thủ StarCraft Hàng Đầu Thế Giới (P2)

Ở phần trước Cuộc chạm trán giữa AI và StarCraft, chúng ta đã tiếp cận những thông tin cơ bản về StarCraft II, những thách thức của nó dành cho Trí tuệ nhân tạo. Trong phần tiếp theo, hãy cùng tìm hiểu cách mà AlphaStar - sản phẩm Trí tuệ nhân tạo của Google DeepMind dùng để thi đấu StarCraft II - được huấn luyện, và những trận đấu của nó với 2 game thủ hàng đầu thế giới trong trò chơi này.

Dự án AlphaStar của Google DeepMind 

AlphaStar là tên của một chương trình, dự án Trí tuệ nhân tạo do Google DeepMind thực hiện, với mục tiêu đánh bại những game thủ hàng đầu thế giới về StarCraft. Trong một loạt các trận đấu thử nghiệm được tổ chức vào ngày 19/12/2018, AlphaStar có cơ hội giao lưu với Dario “TLO” WünschGrzegorz "MaNa" Komincz của Team Liquid, đây đều là những tuyển thủ StarCraft mạnh nhất thế giới. Các trận đấu diễn ra trong điều kiện thi đấu chuyên nghiệp và không có bất kỳ hạn chế nào về trận đấu.

Hình ảnh game thủ chuyên nghiệp Grzegorz "MaNa" Komincz cùng AlphaStar - AI được tạo bởi DeepMind (Ảnh: Google)

Mặc dù đã đạt được những thành công đáng kể trong các trò chơi điện tử như Atari, Mario, Quake III Arena Capture the Flag và Dota 2, nhưng cho đến nay, các kỹ thuật AI vẫn gặp khó khăn trong việc giải quyết sự phức tạp của StarCraft. AlphaStar sử dụng hệ thống cấu trúc thần kinh phức tạp (deep neural network) được training trực tiếp từ dữ liệu thô của trò chơi bằng cách học giám sát và học tăng cường.   

AlphaStar được huấn luyện như thế nào?

Các hành vi của AlphaStar được tạo ra bởi deep neural network nhận dữ liệu đầu vào từ giao diện trò chơi thô (một danh sách các yếu tố trong game và thuộc tính của chúng) và xuất ra một chuỗi hướng dẫn cấu thành một hành động trong trò chơi. AlphaStar cũng sử dụng một thuật toán học đa tác nhân mới. Mạng nơ-ron ban đầu được tạo bằng cách học có giám sát từ các trò chơi ẩn danh của con người do Blizzard phát hành. Điều này cho phép AlphaStar học, bằng cách bắt chước các chiến lược vi mô và vĩ mô được người chơi trên hệ thống xếp hạng Ladder của StarCraft sử dụng. Chính cách này đã giúp AlphaStar phiên bản sơ khai giành chiến thắng trong 95% các trận đấu trước mức độ Elite AI mặc định trong game - mức độ tương đương với một người chơi xếp rank Vàng đoàn.

AlphaStar League, giải đấu giúp lựa chọn ra AI tốt nhất để thi đấu với con người (Ảnh: DeepMind)

Các Agent ban đầu được huấn luyện từ việc xem lại các trận đấu của các game thủ chuyên nghiệp, sau đó cho chúng thi đấu với nhau theo một giải đấu gọi là AlphaStar League. Giải đấu này là cuộc cạnh tranh giữa các agent, cách thức triển khai giống như việc con người thi đấu xếp hạng trong hệ thống Ladder. Các đối thủ được liên tục đưa vào giải đấu, thông qua việc phân nhánh từ các đối thủ hiện có, nó sẽ học từ những trận đấu để tìm cách vượt qua các đối thủ khác. Hình thức đào tạo này giúp tạo ra một quy trình liên tục khám phá các chiến lược và lối chơi StarCraft khác nhau, đồng thời đảm bảo rằng mỗi đối thủ đều thực hiện tốt các chiến lược mạnh nhất và không quên làm thế nào để đánh bại được những đối thủ trước đó.

Chỉ số xếp hạng trận đấu của AI tiến bộ rõ rệt sau khi được training trong giải đấu AlphaStar League (Ảnh: DeepMind)

Trong quá trình diễn ra giải đấu, khi các đối thủ mới được tạo ra, các chiến lược phản công mới cũng dần xuất hiện, đe dọa đánh bại các chiến lược trước đó. Một số đối thủ mới chỉ đơn thuần thực hiện việc cải tiến chiến lược trước đó, trong khi một số khác thì xây dựng một chiến lược mới hoàn toàn. Ví dụ, ở giai đoạn đầu của AlphaStar League, chiến lược đánh nhanh bằng Photon Cannons hoặc Dark Templars rất được ưa chuộng. Nhưng sau đó, khi quá trình huấn luyện tiến triển, những chiến lược rủi ro này đã bị loại bỏ ngay lập tức, thay thế bằng các chiến lược khác: như giành sức mạnh về kinh tế bằng cách mở rộng các cơ sở với nhiều lính hơn, hoặc hi sinh 2 Oracles để tiêu diệt lính và phá vỡ kinh tế của đối thủ. Quá trình này tương tự như cách mà người chơi khám phá ra các chiến lược mới, giúp đánh bại các phương pháp được ưa chuộng trước đây trong những năm đầu tiên khi StarCraft được phát hành.

Cuộc đấu giữa Trí tuệ con người và Trí tuệ nhân tạo

Dario “TLO” Wünsch - pro player chuyên chơi đạo Zerg và Grzegorz "MaNa" Komincz - một trong những người chơi StarCraft mạnh nhất thế giới được mời tham gia sự kiện này. Những người chơi như TLO hay MaNa có thể thao tác hàng trăm hành động mỗi phút (actions per minute - APM), tuy nhiên con số này nhỏ hơn rất nhiều lần so với phần lớn các bot hiện có. Những con bot này có thể điều khiển từng đơn vị trong game một cách độc lập và duy trì liên tục hàng nghìn hoặc thậm chí hàng chục nghìn hành động mỗi phút.

Để cùng tạo ra một điều kiện thi đấu công bằng, DeepMind đã tác động vào AlphaStar, làm cho nó không được phép lợi dụng khả năng xử lý nhanh và thực hiện nhiều thao tác trong một phút hơn game thủ. Cụ thể, trong các trận đấu với TLO và MaNa, AlphaStar có APM trung bình khoảng 280, thấp hơn đáng kể so với các tuyển thủ chuyên nghiệp, mặc dù các thao tác của nó có thể chính xác hơn. APM thấp hơn này một phần là do AlphaStar bắt đầu được huấn luyện bằng cách theo dõi replay trận đấu và do đó nó bắt chước cách con người chơi trò chơi. Ngoài ra, AlphaStar phản ứng với độ trễ giữa quan sát và hành động trung bình là 350ms.

Chỉ số APM của AlphaStar và 2 đối thủ - TLO và MaNa (Ảnh: DeepMind)

Trong các trận đấu với TLO và MaNa, AlphaStar đã tương tác trực tiếp với game StarCraft thông qua giao diện thô của nó, có nghĩa là nó có thể quan sát trực tiếp các thuộc tính của mình và của đối thủ trên bản đồ mà không cần phải di chuyển camera trên bản đồ thu nhỏ. Ngược lại, tuyển thủ cần phải dựa vào bản đồ thu nhỏ này, cộng với tình hình kinh tế giữa 2 bên, để chọn ra vị trí tập trung xử lý trước.

Kết quả, TLO và MaNa lần lượt thua với tỉ số 0-5 đầy chóng vánh trước AlphaStar. 

Sau khi 10 trận đấu kết thúc, nhận thấy sự khác biệt trong cách theo dõi và di chuyển camera của 2 tuyển thủ và AlphaStar, DeepMind đã phát triển phiên bản AI thứ hai. Phiên bản này hạn chế tầm nhìn của AlphaStar. Nó chỉ được cung cấp một khung hình giới hạn, phải tự chọn thời điểm và vị trí cần di chuyển camera để thấy được các khu vực khác.

Trận đấu thứ 11 được diễn ra sau đó và được livestream trực tiếp trước sự chứng kiến của rất nhiều khán giả. AlphaStar sau khi đã bị hạn chế lợi thế nhất định của mình, đã thất bại trước game thủ MaNa. 

AlphaStar 10 - 1 TLO & MaNa

Kết quả trên đây cho thấy thành công của AlphaStar trước TLO và MaNa trên thực tế là do khả năng ra quyết định chiến lược vi mô và vĩ mô vượt trội hơn tốc độ nhấp, thời gian phản ứng hoặc giao diện thô của game.

Đánh giá về AlphaStar

Tại thời điểm diễn ra sự kiện, AlphaStar đã thất bại 1 lần trước MaNa, sau khi bị loại bỏ lợi thế của máy tính so với con người. Điều này chứng tỏ AI vẫn còn những hạn chế. Trò chơi StarCraft cho phép người chơi lựa chọn một trong ba chủng tộc: Terran, Zerg hoặc Protoss. DeepMind khi ấy mới chỉ tập trung vào Protoss để giảm thời gian huấn luyện. TLO - một người chơi Zerg chuyên nghiệp hàng đầu và đạt cấp GrandMaster với con bài Protoss đã nhận xét về AlphaStar như sau: “Tôi rất ngạc nhiên về sức mạnh của agent. Nó áp dụng các chiến lược nổi tiếng và biến chúng thành hướng đi của riêng nó. Agent cũng đã đưa ra các chiến lược mà tôi chưa từng nghĩ đến trước đây, điều đó có nghĩa là vẫn có thể có những cách chơi mới mà chúng tôi chưa khám phá ra hết.”

MaNa cũng đã đưa ra những bình luận về AlphaStar: “Tôi rất ấn tượng khi thấy AlphaStar thực hiện các bước di chuyển nâng cao và các chiến lược khác nhau trong hầu hết mọi ván chơi, sử dụng phong cách chơi rất con người mà tôi không thể ngờ tới,” anh nói.

Tới tháng 10/2019, DeepMind công bố một cột mốc mới trong việc huấn luyện AlphaStar, theo đó AI này đã đạt đến level Grandmaster - level cao nhất của StarCraft, có thể đánh bại đến 99.8% những người chơi game này. Hứa hẹn rằng, trong tương lai không xa, con số này sẽ tiến đến 100%.

AlphaStar - Không chỉ là một trò chơi

DeepMind chắc chắn sẽ không dừng lại ở việc chinh phục và đánh bại tất cả tuyển thủ của StarCraft, họ cho rằng các kỹ thuật đằng sau AlphaStar có thể hữu ích trong việc giải quyết các vấn đề khác. Ví dụ, kiến trúc mạng nơ-ron của nó có khả năng mô hình hóa các chuỗi hành động dài - với các trò chơi thường kéo dài đến một giờ với hàng chục nghìn lần di chuyển - dựa trên những thông tin không hoàn hảo. Mỗi khung hình của StarCraft được sử dụng như một bước đầu vào, với mạng nơ-ron dự đoán chuỗi hành động dự kiến ​​cho phần còn lại của trò chơi sau mỗi khung hình. Điều này có thể ứng dụng rất tốt trong nhiều vấn đề ở thế giới thực, chẳng hạn như dự đoán thời tiết, mô hình khí hậu, hiểu ngôn ngữ và hơn thế nữa. DeepMind bày tỏ sự hào hứng về tiềm năng tạo ra những tiến bộ đáng kể trong các lĩnh vực thực tế bằng cách sử dụng các kiến ​​thức và phát triển từ dự án AlphaStar.

Việc đạt được các cấp độ cao nhất thể hiện một bước đột phá lớn trong một trong những trò chơi điện tử phức tạp nhất từng được tạo ra. DeepMind tin rằng những tiến bộ này cùng với những tiến bộ gần đây khác trong các dự án như AlphaZero và AlphaFold, thể hiện một bước tiến trong sứ mệnh tạo ra các hệ thống thông minh, là bước đầu trong việc tạo ra AI tốt hơn, an toàn hơn cho các ứng dụng có thể thay đổi nhân loại như y tế, xe tự hành và robot.

Cùng xem video "DeepMind AlphaStar - Hành Trình Chinh Phục Trò Chơi StarCraft" dưới đây để lắng nghe câu chuyện bên trong về AlphaStar nhé!