在線深度強(qiáng)化學(xué)習(xí)探索策略生成方法綜述
機(jī)器人
頁數(shù): 16 2024-11-06
摘要: 針對(duì)在線深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練過程中的探索-利用難題,在對(duì)其概要介紹基礎(chǔ)上,從探索策略與任務(wù)策略的關(guān)系角度入手,對(duì)單智能體在線深度強(qiáng)化學(xué)習(xí)算法中的探索策略生成方法進(jìn)行分類綜述。首先重點(diǎn)介紹了基于任務(wù)策略獎(jiǎng)勵(lì)空間與參數(shù)空間的探索策略生成方法,對(duì)在獎(jiǎng)勵(lì)空間中引入內(nèi)在激勵(lì)的探索方法進(jìn)行了分類介紹并結(jié)合優(yōu)缺點(diǎn)分析給出了相關(guān)研究進(jìn)展;結(jié)合任務(wù)性能和多樣性需求,對(duì)參數(shù)空間神經(jīng)進(jìn)化算法中的個(gè)體... (共16頁)