機器之心報道
機器之心編輯部
李宏毅、周博磊、李科澆等大咖老師親筆推薦,Datawhale 開源的蘑菇書 EasyRL 強化學(xué)習(xí)教程終于有了第一版紙質(zhì)書。
作為人工智能里最受關(guān)注的領(lǐng)域之一,強化學(xué)習(xí)的熱度一直居高不下,在游戲、自動駕駛、機器人路線規(guī)劃等領(lǐng)域得到了廣泛的應(yīng)用。但是,強化學(xué)習(xí)的學(xué)習(xí)難度也同樣不低。
在學(xué)習(xí)強化學(xué)習(xí)的過程中,想必很多人都遇到過有無數(shù)資料卻難以入門的問題。于是,非盈利性開源學(xué)習(xí)組織 Datawhale 發(fā)起了強化學(xué)習(xí)系列教程 ——easy-rl,希望自學(xué)的同時幫助更多學(xué)習(xí)者輕松入門。
該教程也被稱為「蘑菇書」,主要萃取了強化學(xué)習(xí)領(lǐng)域經(jīng)典中文視頻之一 —— 李宏毅老師的《深度強化學(xué)習(xí)》教程、周博磊老師的《強化學(xué)習(xí)綱要》和李科澆老師的《世界冠軍帶你從零實踐強化學(xué)習(xí)》等經(jīng)典課程。
發(fā)布 10 個月以來,該教程已經(jīng)在 GitHub 上獲得了 3.6k Star。
GitHub 項目地址:https://github.com/datawhalechina/easy-rl
Datawhale 免費提供了 PDF 版教程,目前下載量已經(jīng) 1 萬。2022 年 2 月 1 日,在人民郵電出版社的支持下,《Easy RL 強化學(xué)習(xí)教程》第一版紙質(zhì)書終于問世。
本書適合對強化學(xué)習(xí)感興趣的讀者閱讀,也可以作為相關(guān)課程的配套教材。
書籍特色及大綱
首先,本書結(jié)合了強化學(xué)習(xí)領(lǐng)域公開課的精華。比如,李宏毅老師的《深度強化學(xué)習(xí)》通過幽默風(fēng)趣的上課風(fēng)格讓晦澀難懂的強化學(xué)習(xí)理論變得輕松易懂,他會通過很多有趣的例子來講解強化學(xué)習(xí)理論。
來自中科院大學(xué)、清華、北大的三位發(fā)起者 —— 王琦、楊毅遠(yuǎn)和江季,通過自學(xué)這 3 門公開課,根據(jù)自身的理解整理優(yōu)化得來了《Easy RL:強化學(xué)習(xí)教程》,并且獲得了三位公開課老師的支持。
其次,本書完全根據(jù)學(xué)習(xí)經(jīng)歷編著而成。本書完全從讀者學(xué)習(xí)的角度出發(fā),既有學(xué)霸學(xué)長在學(xué)習(xí)中的重點 ——3 門公開課的精華內(nèi)容,還有學(xué)霸凝練的精華和擴(kuò)展的內(nèi)容 —— 作者們在大部分章末設(shè)置了原創(chuàng)的關(guān)鍵詞、習(xí)題和面試題,提供 Python 代碼實現(xiàn)。幫助初學(xué)者避「坑」,用輕松的步伐入門強化學(xué)習(xí)。其實,每個人在學(xué)習(xí)一門新的課程時,都會有自己獨特的經(jīng)驗和方法,這種經(jīng)驗和方法的共享非常難能可貴。
最后,本書得到了李宏毅、周博磊、李科澆、汪軍、張偉楠、李升波、胡裕靖等 7 位強化學(xué)習(xí)領(lǐng)域大咖老師的親筆認(rèn)可和推薦。
具體地,本書共 13 章,大體上可以分為兩個部分。
第一部分包括第 1~3 章,介紹強化學(xué)習(xí)基礎(chǔ)知識以及馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、Sarsa、Q 學(xué)習(xí)傳統(tǒng)強化學(xué)習(xí)算法。
第二部分包括第 4~13 章,介紹策略梯度、近端策略優(yōu)化、深度 Q 網(wǎng)絡(luò)、深度確定性策略梯度等深度強化學(xué)習(xí)算法及其常見問題的解決方法。該部分各章節(jié)相對獨立,讀者可以根據(jù)自己的興趣和時間選擇性閱讀。
此外,本書還提供較為全面的習(xí)題解答以及 Python 代碼實現(xiàn),可以讓讀者進(jìn)行端到端、從理論到輕松實踐的全生態(tài)學(xué)習(xí),充分掌握強化學(xué)習(xí)算法的原理并能進(jìn)行實戰(zhàn)。
部分章節(jié)目錄如下:
給讀者的三點學(xué)習(xí)建議
一,通過關(guān)鍵詞高效入門。
為了盡可能地降低閱讀門檻,作者們在「蘑菇書」中對 3 門公開課的精華內(nèi)容進(jìn)行了選取和優(yōu)化,對所涉及的公式給出了詳細(xì)的推導(dǎo)過程,對較難理解的知識點進(jìn)行了重點講解和強化,以方便讀者輕松入門。并且,為了豐富內(nèi)容,書中還補充了不少 3 門公開課之外的強化學(xué)習(xí)相關(guān)知識。
在學(xué)習(xí)過程中,可以通過書中總結(jié)的大量關(guān)鍵詞概念,高效地回憶并掌握核心內(nèi)容。
二,可以作為面試前的準(zhǔn)備。
書籍拓展了習(xí)題和面試題:習(xí)題部分以問答的形式闡述了相應(yīng)章中出現(xiàn)的知識點,幫助讀者厘清知識脈絡(luò);面試題部分的內(nèi)容源于大廠的算法崗面試真題,通過還原真實的面試場景和面試問題,幫助讀者開闊思路,助力大家面試?yán)硐氲膷徫弧?/p>
題目配有答案詳解。
三,通過代碼實戰(zhàn)深入理解。
強化學(xué)習(xí)是一個理論與實踐相結(jié)合的學(xué)科,我們不僅要理解算法背后的原理,還要通過上機實踐來實現(xiàn)算法,讓理論知識得到實際的應(yīng)用。
書籍配有 Python 代碼實現(xiàn)源代碼,大家可以親自動手實現(xiàn)各種經(jīng)典的強化學(xué)習(xí)算法,通過實戰(zhàn)更清晰地理解算法并快速應(yīng)用。
作者簡介
王琦,中國科學(xué)院大學(xué)碩士在讀,Datawhale 成員。主要研究方向為深度學(xué)習(xí)、數(shù)據(jù)挖掘。曾獲中國大學(xué)生計算機設(shè)計大賽二等獎、亞太地區(qū)大學(xué)生數(shù)學(xué)建模競賽 (APMCM)二等獎和「挑戰(zhàn)杯」競賽江蘇省選拔賽二等獎,發(fā)表 SCI/EI 論文 3 篇。
楊毅遠(yuǎn),清華大學(xué)碩士在讀, Datawhale 成員。主要研究方向為時空數(shù)據(jù)挖掘、智能傳感系統(tǒng)、深度學(xué)習(xí)。曾獲全國大學(xué)生智能汽車競賽總冠軍、中國國家獎學(xué)金,發(fā)表 SCI/EI 論文 7 篇,其中以第一作者身份在 SCI 的 Q1 區(qū)、Q2 區(qū)及中國計算機學(xué)會(CCF)A、B 類會議中發(fā)表論文 4 篇。
江季,北京大學(xué)碩士在讀, Datawhale 成員。主要研究方向為強化學(xué)習(xí)、機器人。曾獲大學(xué)生電子設(shè)計競賽 —2018 年嵌入式系統(tǒng)專題邀請賽(英特爾杯)一等獎,發(fā)表頂會論文 1 篇、專利 2 項。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/65028.html