一般來說,數據準備是機器學習的首要任務,通常包括兩個子步驟:創建數據集和轉換數據。
如果想構建一個類似人類的 AI 象棋游戲,首要問題就是創建一個數據庫,并且該數據庫需要盡可能多的包含象棋大師玩游戲的數據。通常情況下,大多數人使用 Python 構建數據集,并且在一定程度上認為 Python 是數據科學的唯一編程語言。
但是,項目作者 Jordi Bassaganas 打破流行觀點(該觀點認為 Python 是世界上唯一用于數據科學的編程語言),不使用 Python,而是在構建數據中使用了 MySQL、PHP 和 Rubix ML,其中 Rubix ML 是一個高級機器學習庫,可構建使用 PHP 語言從數據中學習的程序。
項目地址:https://github.com/programarivm/chess-data
項目介紹
該項目是一組命令行界面(Command-Line Interface,CLI)工具,可幫助管理 PGN 游戲中的象棋數據庫,此外,該工具還可以進行數據準備、可視化數據和使用 Rubix ML 訓練監督模型。
所謂的 PGN 就是「可移植式棋局記號法」(Portable Game Notation),是一種以 ASCII 文本文件表示國際象棋棋局數據的標準設定。PGN 設計成使人們很容易進行閱讀和編寫,電腦程序很容易進行解析和產生。定義和傳播 PGN 的目的,是為了促進公開對局數據的共享交流,包括來自全世界的棋手 (不管有無組織)、出版人和電腦國際象棋研究的。
接下來真正的問題是:應該給計算機提供哪些示例以使機器學習變得更容易?
這個數據準備存儲庫主要任務是將數百萬個象棋游戲加載到 SQL 數據庫中。作者從 PGN Mentor 中下載了 PGN 文件,PGN Mentor 是一個用于國際象棋研究的軟件應用程序,同時還提供了一個包含數百萬個游戲的文件集合,并將這些文件復制到 programarivm/chess-data/data/players 文件夾中。
其實使用 PHP 為機器學習準備數據集并沒有什么簡單方法。但實現過程涉及到不同的技術,這是關于對處理問題的理解、收集和過濾數據的最好實踐過程。
例如,當涉及國際象棋時,首先你需要過濾和驗證游戲,這意味著要刪除那些語法上無效或包含錯誤的游戲。cli/pgn-validate.php 命令查找 PGN 文件中錯誤,這條命令在將信息加載到數據庫時會被廣泛使用。
示例展示
下面展示了使用該項目設置和運行 MySQL 國際象棋數據庫,第一步是創建如下所示的象棋數據庫:
$ php cli/db-create.php
然后,按照下面的描述,games 表將被植入有效數據。
$ time php cli/db-seed.php data/players? 15 games did not pass the validation.? 3234 games out of a total of 3249 are OK.? 1353 games out of a total of 1353 are OK.? 1900 games out of a total of 1900 are OK.? 776 games out of a total of 776 are OK.? 1 games did not pass the validation.? 1660 games out of a total of 1661 are OK.? 4 games did not pass the validation.。..? 1124 games out of a total of 1124 are OK.? 265 games out of a total of 265 are OK.? 1 games did not pass the validation.? 2099 games out of a total of 2100 are OK.
cli/db-seed.php 命令需要大約 40 分鐘才能加載大約 400,000 個游戲。
mysql》 select count(*) from games;+----------+| count(*) |+----------+| 402658 |+----------+1 row in set (0,23 sec)
值得一提的是,所有這些都是用 PHP 語言實現的!
建立好國際象棋數據庫后,就可以為機器學習算法準備數據。在接下來的文章中,項目作者將詳細說明如何通過使用多層感知器分類器和該數據庫,進行國際象棋防守、戰術等的開發。
責任編輯:haq
-
AI
+關注
關注
87文章
30129瀏覽量
268410 -
PHP
+關注
關注
0文章
452瀏覽量
26649 -
機器學習
+關注
關注
66文章
8377瀏覽量
132407
原文標題:用“最好的語言”PHP,做一個機器學習數據集
文章出處:【微信號:pcbgood,微信公眾號:奈因PCB電路板設計】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論