近日,安徽大學(xué)黨委常委、副校長孫長銀教授團(tuán)隊(duì)發(fā)布基于統(tǒng)一AI框架的深度強(qiáng)化學(xué)習(xí)智能決策平臺(tái)——“玄策”(XuanCe),它支持豐富的單、多智能體決策任務(wù),可使用PyTorch、TensorFlow或MindSpore進(jìn)行開發(fā),支持CPU、GPU、昇騰AI處理器,具有模塊化程度高、可擴(kuò)展性強(qiáng)、簡單靈活等特性,代碼已在GitHub開源。
深度強(qiáng)化學(xué)習(xí)在不同領(lǐng)域取得的技術(shù)突破
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, 簡稱DRL)技術(shù)在視頻游戲、圍棋博弈、機(jī)器人控制等領(lǐng)域不斷取得突破性進(jìn)展,并且多次被《自然》、《科學(xué)》雜志作為封面文章重點(diǎn)報(bào)道。深度強(qiáng)化學(xué)習(xí)已然成為人工智能領(lǐng)域最重要的技術(shù)之一,被DeepMind認(rèn)定為實(shí)現(xiàn)通用人工智能(Artificial General Intelligence,AGI)的關(guān)鍵技術(shù)。強(qiáng)化學(xué)習(xí)無需對(duì)系統(tǒng)進(jìn)行精確地建模,只需通過和環(huán)境交互收集經(jīng)驗(yàn)數(shù)據(jù),以數(shù)據(jù)驅(qū)動(dòng)決策模型的學(xué)習(xí),就能訓(xùn)練出符合期望的策略。與此同時(shí),深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的函數(shù)擬合能力將強(qiáng)化學(xué)習(xí)的這種優(yōu)勢(shì)進(jìn)一步發(fā)揮。正因如此,深度強(qiáng)化學(xué)習(xí)在解決大規(guī)模復(fù)雜決策問題上,表現(xiàn)出了巨大的潛力。憑借在強(qiáng)化學(xué)習(xí)、智能控制與決策等領(lǐng)域的深厚積累,孫長銀團(tuán)隊(duì)在研制“基于統(tǒng)一AI框架的深度強(qiáng)化學(xué)習(xí)智能決策平臺(tái)”上取得重要突破。通過充分調(diào)研已有的深度強(qiáng)化學(xué)習(xí)算法,深入比較各種AI計(jì)算框架的相似性和差異性,經(jīng)過反復(fù)迭代更新,最終形成了現(xiàn)在的“玄策”框架。目前,“玄策”已經(jīng)在GitHub和啟智社區(qū)開源。
新聞鏈接:http://www.ahu.edu.cn/2024/0404/c15129a332841/page.htm
網(wǎng)站內(nèi)容來源于互聯(lián)網(wǎng),由網(wǎng)絡(luò)編輯負(fù)責(zé)審查,目的在于傳遞信息,提供專業(yè)服務(wù),不代表本網(wǎng)站平臺(tái)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如因內(nèi)容、版權(quán)問題存在異議的,請(qǐng)與我們?nèi)〉寐?lián)系,我們將協(xié)調(diào)給予處理(按照法規(guī)支付稿費(fèi)或刪除),聯(lián)系方式:ahos@aiofm.ac.cn 。網(wǎng)站平臺(tái)將加強(qiáng)監(jiān)控與審核,一旦發(fā)現(xiàn)違反規(guī)定的內(nèi)容,按國家法規(guī)處理,處理時(shí)間不超過24小時(shí)。