2022年02月16日,曾開發(fā)出AlphaGo的DeepMind公司在Nature上發(fā)表論文,宣布他們通過強(qiáng)化學(xué)習(xí)訓(xùn)練了一個(gè)人工智能來成功控制核聚變,這一消息迅速引爆技術(shù)圈。
▲DeepMind在推特上發(fā)表消息
無論學(xué)術(shù)界還是工業(yè)界,強(qiáng)化學(xué)習(xí)的熱度一直居高不下,但它的學(xué)習(xí)難度也同樣不低。
不過GitHub上有一個(gè)熱門的強(qiáng)化學(xué)習(xí)教程“蘑菇書Easy RL”,它基于中科院、清華、北大的三位在讀碩士自學(xué)3門強(qiáng)化學(xué)習(xí)的經(jīng)典公開課時(shí)所作的筆記,獲得了1w+的下載和3.3k+的標(biāo)星。
▲“蘑菇書”《Easy RL:強(qiáng)化學(xué)習(xí)教程》
如今,它的紙質(zhì)書正式出版,讓更多想要入門強(qiáng)化學(xué)習(xí)的同學(xué)更加便捷。
01
自學(xué)難度大?
B站3門累計(jì)播放100w+的公開課很不錯(cuò)!
為什么“蘑菇書Easy RL”能獲得這么高的關(guān)注度?
一方面是因?yàn)閺?qiáng)化學(xué)習(xí)本身便具有熱度,它作用強(qiáng)、應(yīng)用廣,對(duì)應(yīng)的崗位高薪、前景廣闊,吸引了許多人學(xué)習(xí)。
另一方面是因?yàn)閺?qiáng)化學(xué)習(xí)入門難,而這套教程則非常干貨。
它所基于的3門公開課——李宏毅老師的“深度強(qiáng)化學(xué)習(xí)”、周博磊老師的“強(qiáng)化學(xué)習(xí)綱要”和李科澆老師的“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”,正是入門強(qiáng)化學(xué)習(xí)的熱門公開課,而這一本“蘑菇書”就涵蓋了3門大熱公開課的內(nèi)容,自然能夠收獲眾多學(xué)習(xí)者的支持和喜愛。
▲在B站搜索“強(qiáng)化學(xué)習(xí)”
● 李宏毅“深度強(qiáng)化學(xué)習(xí)”
相信大家對(duì)大名鼎鼎的“李宏毅機(jī)器學(xué)習(xí)”和“李宏毅深度學(xué)習(xí)”這兩門課都不陌生,而這門“深度強(qiáng)化學(xué)習(xí)”同樣出自這位李宏毅老師。他是臺(tái)灣大學(xué)副教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)、深度學(xué)習(xí)及語音識(shí)別與理解。
▲
B站上李宏毅老師的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的公開課都擁有很高的播放量
李宏毅老師的“深度強(qiáng)化學(xué)習(xí)”,不但包含的理論知識(shí)豐富全面,而且課堂上總是充滿著歡聲笑語。這是因?yàn)樗芮捎迷S多有趣的例子來講解強(qiáng)化學(xué)習(xí)理論。
比如他經(jīng)常會(huì)用玩雅達(dá)利游戲的例子來講解強(qiáng)化學(xué)習(xí)算法,這讓晦澀難懂的強(qiáng)化學(xué)習(xí)理論變得通俗易懂,從而吸引了很多人把李宏毅老師的公開課當(dāng)作入門教程。
▲B站上李宏毅老師的“深度強(qiáng)化學(xué)習(xí)”課程下的網(wǎng)友好評(píng)
● 周博磊“強(qiáng)化學(xué)習(xí)綱要”
周博磊老師是加州大學(xué)洛杉磯分校(UCLA)的助理教授,他的研究方向?yàn)闄C(jī)器感知和智能決策,在人工智能頂級(jí)會(huì)議和期刊發(fā)表了50余篇學(xué)術(shù)論文,論文總引用量超過1萬次。
周博磊老師的這門課理論嚴(yán)謹(jǐn)、內(nèi)容豐富,全面介紹了強(qiáng)化學(xué)習(xí)領(lǐng)域,并且有相關(guān)的代碼實(shí)踐,補(bǔ)足了李宏毅老師課程中代碼和應(yīng)用較少的遺憾。
▲
B站上周博磊老師的“強(qiáng)化學(xué)習(xí)綱要”課程下的網(wǎng)友好評(píng)
● 李科澆“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”
李科澆老師是飛槳強(qiáng)化學(xué)習(xí)PARL團(tuán)隊(duì)核心成員、百度高級(jí)研發(fā)工程師,她所在團(tuán)隊(duì)曾兩度奪得神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS)強(qiáng)化學(xué)習(xí)賽事的冠軍。
李科澆老師的這門課有一個(gè)特別突出的優(yōu)點(diǎn),就是實(shí)戰(zhàn)性強(qiáng),通篇課程使用大量的代碼來講解強(qiáng)化學(xué)習(xí)。
▲
B站上李科澆老師的“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”課程廣受歡迎
這三門課學(xué)下來,不論是從理論、代碼還是實(shí)際應(yīng)用,基本能讓學(xué)習(xí)者對(duì)強(qiáng)化學(xué)習(xí)有一個(gè)良好的把握。
02
“學(xué)完3門公開課后,我編寫了一套入門教程,并得到了3位公開課老師的認(rèn)可”
不過,視頻課雖然便于學(xué)習(xí),但是實(shí)時(shí)性很強(qiáng),不如文字教程那樣便于查找知識(shí)點(diǎn)。因此,小異便想,要是有一本配套教材該多好啊。
這樣不僅能夠?qū)W得更加全面,還能自行規(guī)劃學(xué)習(xí)進(jìn)度。令小異驚喜的是,萬能的網(wǎng)友們真的推薦了這樣一本寶書!
▲
B站網(wǎng)友推薦“目前見到過最好的李宏毅深度強(qiáng)化學(xué)習(xí)筆記”
這本寶書就是Datawhale開源學(xué)習(xí)組織在GitHub上發(fā)布的“蘑菇書Easy RL”。Datawhale就是去年出版了好評(píng)超高的“西瓜書的伴侶書”——“南瓜書”的團(tuán)隊(duì),他們致力于AI領(lǐng)域的學(xué)習(xí)。
“蘑菇書Easy RL”也繼承了“南瓜書”的高人氣,在線上發(fā)布9個(gè)月的時(shí)間內(nèi),就獲得了3.3k+的GitHub Star和1w+的下載。
▲“蘑菇書”獲得了3.3k+的GitHub Star
根據(jù)作者王琦、楊毅遠(yuǎn)、江季的說明,“蘑菇書Easy RL”是他們?cè)谧詫W(xué)上述3門強(qiáng)化學(xué)習(xí)公開課的過程中,根據(jù)自身的理解整理優(yōu)化得來的,其內(nèi)容主要包括:
● 根據(jù)李宏毅老師的“深度強(qiáng)化學(xué)習(xí)”整理而來的策略梯度、近端策略優(yōu)化、深度Q 網(wǎng)絡(luò)、演員-評(píng)論員算法、稀疏獎(jiǎng)勵(lì)、模仿學(xué)習(xí);
● 根據(jù)周博磊老師的“強(qiáng)化學(xué)習(xí)綱要”凝練而成的強(qiáng)化學(xué)習(xí)緒論、馬爾可夫決策過程;
● 根據(jù)李科澆老師的“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”總結(jié)而來的表格型方法、深度確定性策略梯度;
● 作者原創(chuàng)的AlphaStar論文解讀。
“蘑菇書Easy RL”的初稿完成后,為了更好地優(yōu)化這套教程,三位作者還把它作為教材,組織了上百人的組隊(duì)學(xué)習(xí)活動(dòng),不僅得到了一致好評(píng),還根據(jù)學(xué)習(xí)者對(duì)于初版教程的上百次反饋,經(jīng)歷了1年多的開源協(xié)作修改,完成了這本書的優(yōu)化,并以“Easy RL:強(qiáng)化學(xué)習(xí)教程”為名得到了出版,昵稱“蘑菇書”。
“蘑菇書”《Easy RL:強(qiáng)化學(xué)習(xí)教程》
這本“蘑菇書”《Easy RL:強(qiáng)化學(xué)習(xí)教程》,因?yàn)槭窃跈?quán)威且高好評(píng)的課程基礎(chǔ)上,由眾多“學(xué)習(xí)者”貢獻(xiàn)而成的,因此特別符合學(xué)習(xí)的思路,非常適合初學(xué)者用于強(qiáng)化學(xué)習(xí)的入門。
學(xué)習(xí)者既可以在觀看公開課的同時(shí)把它作為教輔使用,以深入理解并拓展公開課的內(nèi)容,也可以將它作為獨(dú)立教程進(jìn)行學(xué)習(xí)。
不僅如此,這本書還得到了上面三門視頻課老師的推薦!
“在認(rèn)識(shí)本書編著者之前,我就已經(jīng)在網(wǎng)絡(luò)上注意到他們的教程“Easy-RL”,因?yàn)椤癊asy-RL”有部分內(nèi)容改編自我在臺(tái)灣大學(xué)開授的“深度強(qiáng)化學(xué)習(xí)”上課視頻。當(dāng)?shù)谝淮慰吹健癊asy-RL”時(shí),我的第一個(gè)想法是:這群人把強(qiáng)化學(xué)習(xí)的知識(shí)整理得真好,不僅有理論說明,還加上了程序?qū)嵗瑢W(xué)們以后可以直接讀這套教程,這樣我上課也就不用再講強(qiáng)化學(xué)習(xí)的部分了。很高興王琦、楊毅遠(yuǎn)、江季三位編著者能夠把“Easy-RL”以圖書的形式出版?!?/p>
——李宏毅,
臺(tái)灣大學(xué)副教授
“很欣喜三位編著者能整合和升華我與另外兩位老師的強(qiáng)化學(xué)習(xí)公開課資料,編著出這本實(shí)用的強(qiáng)化學(xué)習(xí)入門教程。這本教程專注于強(qiáng)化學(xué)習(xí)理論與實(shí)踐相結(jié)合,通過生動(dòng)的例子和動(dòng)手實(shí)踐幫助讀者深入理解各種算法。以強(qiáng)化學(xué)習(xí)為代表的機(jī)器智能決策是人工智能的重要方向之一,希望未來更多優(yōu)秀的同學(xué)可以通過這本教程和強(qiáng)化學(xué)習(xí)的公開課,開啟自己的研究之旅,實(shí)現(xiàn)類似于AlphaGo系列的開創(chuàng)性工作?!?/p>
——周博磊,
加利福尼亞大學(xué)洛杉磯分校(UCLA)助理教授
“還記得我當(dāng)初自學(xué)強(qiáng)化學(xué)習(xí)的時(shí)候,中文資料少之又少,只能去啃國外的教材和論文;后來開設(shè)“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”這門公開課,也是期望可以為強(qiáng)化學(xué)習(xí)中文社區(qū)添磚加瓦;所以很開心國內(nèi)的學(xué)生能自發(fā)地形成這種公開的、系統(tǒng)的強(qiáng)化學(xué)習(xí)中文入門課程筆記的整理、分享與社區(qū)討論的氛圍。看了“Easy-RL”倉庫以及編著者發(fā)來的這本書第1章的內(nèi)容,我發(fā)現(xiàn)這本書不僅是一個(gè)筆記合集,編著者有重點(diǎn)地梳理了理論,并配備了難度適中的習(xí)題實(shí)踐和面試題供讀者參考。我相信這本書的出版對(duì)于剛接觸強(qiáng)化學(xué)習(xí)的學(xué)生,以及準(zhǔn)備轉(zhuǎn)行的在職人員都會(huì)有幫助。非常推薦強(qiáng)化學(xué)習(xí)初學(xué)者閱讀它。”
——李科澆,
飛槳強(qiáng)化學(xué)習(xí)PARL團(tuán)隊(duì)核心成員,百度高級(jí)研發(fā)工程師
03
GitHub標(biāo)星3.3k+的“學(xué)霸筆記”
——蘑菇書Easy RL
我們?cè)谏蠈W(xué)的時(shí)候,都會(huì)希望能擁有一本學(xué)霸筆記,這樣能讓學(xué)習(xí)變得事半功倍。要是學(xué)霸還順帶幫你押了題,那簡直如有神助!
小異認(rèn)為“蘑菇書”《Easy RL:強(qiáng)化學(xué)習(xí)教程》就是一本很典型的“學(xué)霸筆記”,既有老師上課畫的重點(diǎn)——3門公開課的精華內(nèi)容,還有學(xué)霸凝練的精華和擴(kuò)展的內(nèi)容——作者們?cè)诖蟛糠终履┰O(shè)置了原創(chuàng)的關(guān)鍵詞、習(xí)題和面試題,并提供Python代碼實(shí)現(xiàn),幫助讀者提高和鞏固對(duì)所學(xué)知識(shí)的清晰度和掌握度。
● 內(nèi)容系統(tǒng)全面,并通過關(guān)鍵詞鞏固學(xué)習(xí)
為了盡可能地降低閱讀門檻,作者們?cè)凇澳⒐綍敝袑?duì)3門公開課的精華內(nèi)容進(jìn)行了選取和優(yōu)化,對(duì)所涉及的公式給出了詳細(xì)的推導(dǎo)過程,對(duì)較難理解的知識(shí)點(diǎn)進(jìn)行了重點(diǎn)講解和強(qiáng)化,以方便讀者輕松入門。并且,為了豐富內(nèi)容,書中還補(bǔ)充了不少3門公開課之外的強(qiáng)化學(xué)習(xí)相關(guān)知識(shí)。
“蘑菇書”全書共13章,分為兩部分。第一部分介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)以及傳統(tǒng)強(qiáng)化學(xué)習(xí)算法,第二部分介紹深度強(qiáng)化學(xué)習(xí)算法及其常見問題的解決方法。
▲“蘑菇書”目錄
內(nèi)容雖多,但是作者們非常貼心地整理了強(qiáng)化學(xué)習(xí)中的大量關(guān)鍵詞,總結(jié)了對(duì)應(yīng)章節(jié)的重點(diǎn)概念,以方便讀者高效地回憶并掌握核心內(nèi)容。
▲原創(chuàng)關(guān)鍵詞鞏固學(xué)習(xí)
● 精選習(xí)題和面試題,助力大廠offer
“蘑菇書”還拓展了習(xí)題和面試題:
習(xí)題部分以問答的形式闡述了相應(yīng)章中出現(xiàn)的知識(shí)點(diǎn),幫助讀者厘清知識(shí)脈絡(luò);
面試題部分的內(nèi)容源于大廠的算法崗面試真題,通過還原真實(shí)的面試場景和面試問題,幫助讀者開闊思路,助力大家面試?yán)硐氲膷徫弧?/p>
▲精選習(xí)題和面試題,助力理想offer
并且作者還為大家準(zhǔn)備了習(xí)題和面試題的電子版答案,有疑問也可以通過Datawhale和作者進(jìn)行溝通答疑。
● 理論與應(yīng)用結(jié)合,基于Python實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是一個(gè)理論與實(shí)踐相結(jié)合的學(xué)科,我們不僅要理解算法背后的原理,還要通過上機(jī)實(shí)踐來實(shí)現(xiàn)算法,讓理論知識(shí)得到實(shí)際的應(yīng)用。
“蘑菇書”的作者深諳此道,精心為讀者準(zhǔn)備了強(qiáng)化學(xué)習(xí)的Python代碼實(shí)現(xiàn),并且源代碼可以在購書后通過異步社區(qū)進(jìn)行下載,讓大家親自動(dòng)手實(shí)現(xiàn)各種經(jīng)典的強(qiáng)化學(xué)習(xí)算法,通過實(shí)戰(zhàn)更清晰地理解算法并快速應(yīng)用。
▲案例生動(dòng)形象,描述深入淺出,代碼簡潔易懂,注釋詳細(xì)
強(qiáng)化學(xué)習(xí)之路道阻且長,就讓這本從學(xué)習(xí)者角度出發(fā)、受到眾多專家聯(lián)合力薦的強(qiáng)化學(xué)習(xí)落地指南《Easy RL:強(qiáng)化學(xué)習(xí)教程》帶大家像采蘑菇一樣輕松學(xué)會(huì)強(qiáng)化學(xué)習(xí)吧!
文章編輯:羅夢婷、Gong 審校:Gong、劉鑫
參考來源:
《Easy RL:強(qiáng)化學(xué)習(xí)教程》前言、第一章
異步社區(qū)
https://xintu.nature.com/articles/s41586-021-04301-9
https://xintu.wired.com/story/deepmind-ai-nuclear-fusion/
推薦閱讀
▲點(diǎn)擊封面,進(jìn)入購買界面
《Easy RL 強(qiáng)化學(xué)習(xí)教程》
強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)及人工智能領(lǐng)域的一種重要方法,在游戲、自動(dòng)駕駛、機(jī)器人路線規(guī)劃等領(lǐng)域得到了廣泛的應(yīng)用。
本書結(jié)合了李宏毅老師的“深度強(qiáng)化學(xué)習(xí)”、周博磊老師的“強(qiáng)化學(xué)習(xí)綱要”、李科澆老師的“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”公開課的精華內(nèi)容,在理論嚴(yán)謹(jǐn)?shù)幕A(chǔ)上深入淺出地介紹馬爾可夫決策過程、蒙特卡洛方法、時(shí)序差分方法、Sarsa、Q 學(xué)習(xí)等傳統(tǒng)強(qiáng)化學(xué)習(xí)算法,以及策略梯度、近端策略優(yōu)化、深度Q 網(wǎng)絡(luò)、深度確定性策略梯度等常見深度強(qiáng)化學(xué)習(xí)算法的基本概念和方法,并以大量生動(dòng)有趣的例子幫助讀者理解強(qiáng)化學(xué)習(xí)問題的建模過程以及核心算法的細(xì)節(jié)。
此外,本書還提供較為全面的習(xí)題解答以及Python 代碼實(shí)現(xiàn),可以讓讀者進(jìn)行端到端、從理論到輕松實(shí)踐的全生態(tài)學(xué)習(xí),充分掌握強(qiáng)化學(xué)習(xí)算法的原理并能進(jìn)行實(shí)戰(zhàn)。
本書適合對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀,也可以作為相關(guān)課程的配套教材。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請(qǐng)注明出處http://macbookprostickers.com/xintu/70352.html