人工智慧方面的論文
大家對人工智慧的認識是什麼呢?現在人工智慧時代已經來臨了。以下是小編精心準備的人工智慧方面的論文,大家可以參考以下內容哦!
摘 要:去年3月,AlphaGo以4:1的絕對優勢戰勝了世界圍棋冠軍李世石,排名世界第二。去年年底到今年年初,短短一週內,AlphaGo的升級版Master連勝60場,在圍棋界立於不敗之地。本文圍繞圍棋人工智慧AlphaGo系統,主要對圍棋人工智慧的基本概念、工作原理以及圍棋人工智慧發展意義進行了深刻分析。
關鍵詞:AlphaGo;人工智慧;圍棋;未來展望
1 圍棋與人工智慧
圍棋作為中國傳統四大藝術之一,擁有著幾千年的悠久歷史。圍棋棋盤由19條橫線和19條豎線組成,共有19*19=361個交叉點,圍棋子分為黑白兩種顏色,對弈雙方各執一色,輪流將一枚棋子下在縱橫交叉點上,終局時,棋子圍上交叉點數目最多的一方獲勝。圍棋棋盤上每一個縱橫交叉點都有三種可能性:落黑子、落白子、留空,所以圍棋擁有高達3^361種局面;圍棋的每個回合有250種可能,一盤棋可長達150回合,所以圍棋的計算複雜度為250^150,約為10^170,然而全宇宙可觀測的原子數量只有10^80,這足以體現圍棋博弈的複雜性和多變性。
人工智慧(Artificial Intelligence,AI)主要研究人類思維、行動中那些尚未演算法化的功能行為,使機器像人的大腦一樣思考、行動。長期以來,圍棋作為一種智力博弈遊戲,以其變化莫測的博弈局面,高度體現了人類的智慧,為人工智慧研究提供了一個很好的測試平臺,圍棋人工智慧也是人工智慧領域的一個重要挑戰。
傳統的計算機下棋程式的基本原理,是透過有限步數的搜尋樹,即採用數學和邏輯推理方法,把每一種可能的路徑都走一遍,從中選舉出最優路徑,使得棋局勝算最大。這種下棋思路是充分發揮計算機運算速度快、運算量大等優勢的“暴力搜尋法”,是人類在對弈規定的時間限制內無法做到的。但是由於圍棋局面數量太大,這樣的運算量對於計算機來講也是相當之大,目前的計算機硬體無法在對弈規定的時間內,使用計算機佔絕對優勢的“暴力搜尋法”完成圍棋所有局面的擇優,所以這樣的下棋思路不適用於圍棋對弈。
搜尋量巨大的問題一直困擾著圍棋人工智慧,使其發展停滯不前,直到2006年, 蒙特卡羅樹搜尋的應用出現,才使得圍棋人工智慧進入了嶄新的階段,現代圍棋人工智慧的主要演算法是基於蒙特卡洛樹的最佳化搜尋。
2 圍棋人工智慧基本原理
目前圍棋人工智慧最傑出的代表,是由谷歌旗下人工智慧公司DeepMind創造的AlphaGo圍棋人工智慧系統。它在與人類頂級圍棋棋手的對弈中充分發揮了其搜尋和計算的優勢,幾乎在圍棋界立於不敗之地。
AlphaGo系統的基本原理是將深度強化學習方法與蒙特卡洛樹搜尋結合,使用有監督學習策略網路和價值網路,極大減少了搜尋空間,即在搜尋過程中的計算量,提高了對棋局估計的.準確度。
2.1 深度強化學習方法
深度學習源於人工神經網路的研究,人類大量的視覺聽覺訊號的感知處理都是下意識的,是基於大腦皮層神經網路的學習方法,透過模擬大腦皮層推斷分析資料的複雜層狀網路結構,使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象,其過程類似於人們識別物體標註圖片。現如今,應用最廣泛的深度學習模型包括:卷積神經網路、深度置信網路、堆疊自編碼網路和遞迴神經網路等。
強化學習源於動物學習、引數擾動自適應控制等理論,透過模擬生物對環境以試錯的方式進行互動達到對環境的最優適應的方式,透過不斷地反覆試驗,將變化無常的動態情況與對應動作相匹配。強化學習系統設定狀態、動作、狀態轉移機率和獎賞四個部分,在當前狀態下根據策略選擇動作,執行該過程並以當前轉移機率轉移到下一狀態,同時接收環境反饋回來的獎賞,最終透過調整策略來最大化累積獎賞。
深度學習具有較強的感知能力,但缺乏一定的決策能力;強化學習具有決策能力,同樣對感知問題無能為力。深度強化學習方法是將具有感知能力的深度學習和具有決策能力的強化學習結合起來,優勢互補,用深度學習進行感知,從環境中獲取目標觀測資訊,提供當前環境下的狀態資訊;然後用強化學習進行決策,將當前狀態對映到相應動作,基於初期彙報評判動作價值。
深度強化學習為複雜系統的感知決策問題提供了一種全新的解決思路。
2.2 蒙特卡洛樹搜尋
蒙特卡洛樹搜尋是將蒙特卡洛方法與樹搜尋相結合形成的一種搜尋方法。所謂蒙特卡洛方法是一種以機率統計理論為指導的強化學習方法,它通常解決某些隨機事件出現的機率問題,或者是某隨機變數的期望值等數字特徵問題。透過與環境的互動,從所採集的樣本中學習,獲得關於決策過程的狀態、動作和獎賞的大量資料,最後計算出累積獎賞的平均值。
蒙特卡洛樹搜尋演算法是一種用於解決完美資訊博弈(perfect information games,沒有任何資訊被隱藏的遊戲)的方法,主要包含選擇(Selection)、擴充套件(Expansion)、模擬(Simulation)和反向傳播(Backpropagation)四個步驟。
2.3 策略網路與價值網路
AlphaGo系統擁有基於蒙特卡洛樹搜尋方法的策略網路(Policy Network)和價值網路(Value Network)兩個不同的神經網路大腦,充分借鑑人類棋手的下棋模式,用策略網路來模擬人類的“棋感”,用價值網路來模擬人類對棋盤盤面的綜合評估。
AlphaGo系統主要採用有監督學習策略網路,透過觀察棋盤佈局,進行棋路搜尋,得到下一步合法落子行動的機率分佈,從中找到最優的一步落子位置,做落子選擇。DeepMind團隊使用棋聖堂圍棋伺服器上3000萬個專業棋手對弈棋譜的落子資料,來預測棋手的落子情況。期間,系統進行上百萬次的對弈嘗試,進行強化學習,將每一個棋局進行到底,不斷積累“經驗”,學會贏面最大的棋路走法,最終達到頂級圍棋棋手的落子分析能力。而AlphaGo的價值網路使用百萬次對弈中產生的棋譜,根據最終的勝負結果來進行價值網路訓練,預測每一次落子選擇後贏棋的可能性,透過整體局面的判斷來幫助策略網路完成落子選擇。
3 圍棋人工智慧意義
經過比賽測試證明,AlphaGo系統的圍棋對弈能力已經達到世界頂級棋手水平。一直以來,圍棋因為複雜的落子選擇和巨大的搜尋空間使得圍棋人工智慧在人工智慧領域成為一個具有代表性的難度挑戰。目前的硬體水平面對如此巨大的搜尋空間顯得束手無策,AlphaGo系統基於有監督學習的策略網路和價值網路大大減少搜尋空間,在訓練中開創性地使用深度強化學習,然後結合蒙特卡洛樹搜尋方法,使得系統自學習能力大大提高,並且AlphaGo系統在與人類頂級棋手對弈中取得的連勝卓越成績,櫧湓諶斯ぶ悄芰煊虻於了堅實的里程碑地位。
雖然圍棋人工智慧取得了如此優秀的成績,但是也僅僅是它在既定規則內的計算處理能力遠遠超過了人類的現有水平,並且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領域,目前的人工智慧水平是遠遠達不到的。但是隨著科技的進步和人類在人工智慧領域的研究深入,人工智慧與人類的差距會逐漸減小,像圍棋人機大戰人工智慧連勝人類這樣的例子也可能在其他領域發生,這就意味著人工智慧的發展前景十分可觀。
4 結語
人類和人工智慧共同探索圍棋世界的大幕即將拉開,讓人類棋手結合人工智慧,邁進全新人機共同學習交流的領域,進行一次新的圍棋革命,探索圍棋真理更高的境界。
參考文獻
[1]趙冬斌,邵坤,朱圓恆,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅.深度強化學習綜述:兼論計算機圍棋的發展[J].控制理論與應用,2016,(06):701-717.
[2]陶九陽,吳琳,胡曉峰.AlphaGo技術原理分析及人工智慧軍事應用展望[J].指揮與控制學報,2016,(02):114-120.