久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

ABB
關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
CAIAC 2025
2025工業(yè)安全大會(huì)
OICT公益講堂
當(dāng)前位置:首頁 >> 資訊 >> 行業(yè)資訊

資訊頻道

工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃研究進(jìn)展
  • 作者:劉暾東,陳馨,吳曉敏,邵桂芳
  • 點(diǎn)擊數(shù):23223     發(fā)布時(shí)間:2020-05-08 13:35:00
  • 分享到:
由于工業(yè)機(jī)器人構(gòu)型空間和工作環(huán)境的復(fù)雜性,傳統(tǒng)運(yùn)動(dòng)規(guī)劃算法難以在有限時(shí)間內(nèi)進(jìn)行路徑求解,如何提高算法的規(guī)劃效率與最優(yōu)性成為研究熱點(diǎn)。本文跟蹤目前工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃算法的發(fā)展現(xiàn)狀,針對(duì)主流隨機(jī)采樣算法的原理與發(fā)展脈絡(luò)進(jìn)行了細(xì)致分析與總結(jié)。在此基礎(chǔ)上,詳細(xì)闡述了基于強(qiáng)化學(xué)習(xí)的隨機(jī)采樣算法,該方法引入了規(guī)劃學(xué)習(xí)機(jī)制,在保證求解速度的同時(shí),還能不斷提高求解質(zhì)量。同時(shí)對(duì)當(dāng)前運(yùn)動(dòng)規(guī)劃算法存在的一些不足提出了建議與展望。
關(guān)鍵詞:

摘要:由于工業(yè)機(jī)器人構(gòu)型空間和工作環(huán)境的復(fù)雜性,傳統(tǒng)運(yùn)動(dòng)規(guī)劃算法難以在有限時(shí)間內(nèi)進(jìn)行路徑求解,如何提高算法的規(guī)劃效率與最優(yōu)性成為研究熱點(diǎn)。本文跟蹤目前工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃算法的發(fā)展現(xiàn)狀,針對(duì)主流隨機(jī)采樣算法的原理與發(fā)展脈絡(luò)進(jìn)行了細(xì)致分析與總結(jié)。在此基礎(chǔ)上,詳細(xì)闡述了基于強(qiáng)化學(xué)習(xí)的隨機(jī)采樣算法,該方法引入了規(guī)劃學(xué)習(xí)機(jī)制,在保證求解速度的同時(shí),還能不斷提高求解質(zhì)量。同時(shí)對(duì)當(dāng)前運(yùn)動(dòng)規(guī)劃算法存在的一些不足提出了建議與展望。

關(guān)鍵詞:快速隨機(jī)搜索樹;運(yùn)動(dòng)規(guī)劃;隨機(jī)采樣;強(qiáng)化學(xué)習(xí)

Abstract: Due to the complexity of configuration space and working environment of industrial robot, traditional motion planning algorithmsaredifficulttoobtainthepath inlimitedtime.Howto improvetheplanningefficiencyandoptimalityofthealgorithms become the current research focus. In view of the current development of industrial robot operation planning algorithms, this papermakesadetailedanalysisand summaryoftheprincipleand developmentofthemainstreamrandomsamplingalgorithm. On this basis, the random sampling algorithmbasedon reinforcement learning is described in detail. This method introduces the planning learning mechanism, which can not only ensure the speed of solution, but also improve the quality of solution. At the same time, somesuggestionsandprospectsareputforwardaccordingtothe shortcomings of the current motion planning algorithms.

Key words: Rapidly-exploringRandomTree; Motionplan; Random sampling; Reinforcement learning

1 引言

工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃是指在無人參與示教的情況下,通過算法搜索出一條符合約束的無碰撞路徑,是實(shí)現(xiàn)工業(yè)機(jī)器人智能化的關(guān)鍵技術(shù)。傳統(tǒng)運(yùn)動(dòng)規(guī)劃方法需要建立機(jī)器人構(gòu)型和障礙物的位姿空間模型,計(jì)算復(fù)雜度隨著機(jī)器人自由度增加成指數(shù)增長,難以解決在復(fù)雜環(huán)境與高維構(gòu)型空間下的運(yùn)動(dòng)規(guī)劃問題[1]。針對(duì)上述問題,研究人員提出了隨機(jī)采樣方法,可避免在位形空間中復(fù)雜的障礙物建模運(yùn)算,能夠快速求解高維度運(yùn)動(dòng)規(guī)劃問題[2]。其中最著名的兩種算法是:隨機(jī)路圖法(PRM)[3]和快速隨機(jī)搜索樹(RRT)[4],兩種算法都能快速獲得可行解,但由于采樣過程引入了隨機(jī)性,使求解結(jié)果極不穩(wěn)定,難以運(yùn)用于實(shí)際場景,因此如何最大程度提高運(yùn)動(dòng)規(guī)劃算法的搜索效率和可行解質(zhì)量成為極具挑戰(zhàn)的任務(wù)。

為了提高可行解質(zhì)量,研究人員嘗試將強(qiáng)化學(xué)習(xí)與隨機(jī)采樣算法相結(jié)合,以保證求解速度并不斷提高求解質(zhì)量,為解決運(yùn)動(dòng)規(guī)劃問題提供了新思路,但該算法的性能取決于策略函數(shù)和獎(jiǎng)勵(lì)函數(shù)的優(yōu)劣。因此,如何利用強(qiáng)化學(xué)習(xí)良好的自適應(yīng)和自學(xué)習(xí)特性,將其與隨機(jī)采樣算法相結(jié)合成為了近年的研究熱點(diǎn)。

本文針對(duì)工業(yè)機(jī)器人高維構(gòu)型空間的運(yùn)動(dòng)規(guī)劃問題,詳細(xì)介紹了快速隨機(jī)搜索樹算法的基本原理,并分析其改進(jìn)方法的特點(diǎn)。在此基礎(chǔ)上,重點(diǎn)闡述了基于強(qiáng)化學(xué)習(xí)的隨機(jī)采樣算法,并對(duì)工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃未來的研究方向進(jìn)行了展望。

2 基于隨機(jī)采樣的運(yùn)動(dòng)規(guī)劃算法

由于工業(yè)機(jī)器人的運(yùn)動(dòng)規(guī)劃所面臨的任務(wù)環(huán)境往往是高維復(fù)雜的,傳統(tǒng)搜索算法計(jì)算復(fù)雜度隨著構(gòu)型空間維度的增加成指數(shù)增長,無法解決高維運(yùn)動(dòng)規(guī)劃問題。而隨機(jī)采樣算法可避免高維空間復(fù)雜環(huán)境的建模運(yùn)算,能夠快速求解高維度、復(fù)雜環(huán)境下的運(yùn)動(dòng)規(guī)劃問題,已成為解決這類規(guī)劃問題的主流算法。

2.1 快速隨機(jī)搜索樹算法及其擴(kuò)展

為解決在復(fù)雜非完整約束與動(dòng)態(tài)系統(tǒng)中的規(guī)劃問題,LaValle[4~6]提出基于隨機(jī)采樣的快速擴(kuò)展隨機(jī)樹(Rapidly-exploringRandomTree,簡稱為RRT)算法,該算法避免了對(duì)空間的建模,不需要任何預(yù)處理,具有高效的搜索特性,為多自由度機(jī)器人復(fù)雜約束下的運(yùn)動(dòng)規(guī)劃問題提供了一種快速求解方法。同時(shí)LaValle也證明了該算法具有概率完備性[5],即只要保證足夠的搜索時(shí)間,就一定能找到可行解。

由于隨機(jī)采樣的RRT算法隨機(jī)性強(qiáng)、盲目性高,為了提高該算法在運(yùn)動(dòng)規(guī)劃上的表現(xiàn),DU Mingbo[7]等人借鑒啟發(fā)式算法的思想,在隨機(jī)擴(kuò)展樹的生長過程中引入一個(gè)目標(biāo)概率偏置參數(shù),使隨機(jī)采樣偏向目標(biāo)節(jié)點(diǎn),減少隨機(jī)性,提高運(yùn)動(dòng)規(guī)劃效率。在無障礙或障礙較少的環(huán)境中,引入目標(biāo)偏置可以使規(guī)劃出來的路徑更接近于理想路徑。但環(huán)境中障礙物較多時(shí),上述方法的避障效果明顯下降。為了解決此問題,王道威[8]等人提出一種動(dòng)態(tài)步長技術(shù),用于平衡目標(biāo)導(dǎo)向性并保證避碰效果。另外,何兆楚[9]等人提出將RRT與人工勢場法結(jié)合,利用人工勢場法進(jìn)行局部規(guī)劃,當(dāng)陷入局部最小點(diǎn)時(shí),使用改進(jìn)的RRT算法自適應(yīng)選擇臨時(shí)目標(biāo)點(diǎn),使搜索過程跳出局部最小值。而康亮[1]等人則將滾動(dòng)規(guī)劃與RRT相結(jié)合,依靠滾動(dòng)規(guī)劃法實(shí)時(shí)探測到的局部信息生成優(yōu)化子目標(biāo)。由于規(guī)劃問題壓縮至滾動(dòng)窗口內(nèi),計(jì)算量與全局規(guī)劃相比大幅下降。

2.2 RRT-Connect算法及其擴(kuò)展

由于單向搜索的RRT算法在擴(kuò)展節(jié)點(diǎn)具有很強(qiáng)的隨機(jī)性,即使在標(biāo)準(zhǔn)RRT基礎(chǔ)上進(jìn)行引導(dǎo)修正,算法的效率依然低下。因此,Kuffner與LaValle[10]提出了RRT-Connect算法,通過增加搜索樹數(shù)目提高路徑生成速度。算法分別以起始節(jié)點(diǎn)x_start和目標(biāo)節(jié)點(diǎn)x_goal作為兩棵隨機(jī)擴(kuò)展樹的根節(jié)點(diǎn),設(shè)計(jì)啟發(fā)函數(shù)引導(dǎo)兩棵樹的搜索。

基于上述思路,王維[11]等人在虛擬人雙臂運(yùn)動(dòng)規(guī)劃問題上使用雙向平衡的RRT規(guī)劃算法,以一種近乎平衡的方式引導(dǎo)兩棵樹交替朝向?qū)Ψ娇焖贁U(kuò)展。而J Michael[12]等人提出的JT-RRT將RRT在位姿空間的探索與工作空間的偏置結(jié)合起來,高效地解決了在復(fù)雜環(huán)境中的規(guī)劃問題。此外,Rosen[13]等人將雙向RRT與JT-RRT結(jié)合,提出一種同時(shí)在位姿空間和工作空間進(jìn)行擴(kuò)展的雙向RRT算法,該算法位于工作空間的擴(kuò)展樹可以給位姿空間的擴(kuò)展樹提供啟發(fā)式信息,避免了整個(gè)位姿空間的搜索,極大提升了規(guī)劃效率。而Chang-bae[14]等人則提出在不考慮機(jī)器人運(yùn)動(dòng)學(xué)的情況下,工作空間樹在目標(biāo)工作空間中尋找最近集合,而狀態(tài)空間樹則在考慮運(yùn)動(dòng)學(xué)和動(dòng)態(tài)約束下生成機(jī)器人路徑的雙樹形結(jié)構(gòu)。

2.3 RRT*算法及其擴(kuò)展

RRT算法雖然具有概率完備性,能處理高維復(fù)雜環(huán)境中的問題,但無法保證算法所得到的可行解質(zhì)量,即由RRT算法所規(guī)劃出來的路徑往往都是非最優(yōu)的。針對(duì)這一問題,一系列基于RRT的最優(yōu)運(yùn)動(dòng)規(guī)劃方法被提出[15]

根據(jù)RRT算法的表現(xiàn)情況,Karaman和 Frazzoli[16]指出,其收斂到最優(yōu)的概率基本為零。同時(shí),他們提出一種基于RRT且具有漸進(jìn)最優(yōu)性的算法:RRT*。該算法在每一次拓展時(shí)都進(jìn)行優(yōu)化處理:取拓展點(diǎn)附近的所有點(diǎn)逐一比較代價(jià)值,從而選取最小代價(jià)值的父節(jié)點(diǎn)。雖然該算法具有漸近最優(yōu)的特性,但每次增加新節(jié)點(diǎn)時(shí)都要進(jìn)行遍歷以達(dá)到優(yōu)化的目的,導(dǎo)致了搜索時(shí)長大幅增加[17]

在此基礎(chǔ)上,Jonathan D[18]等人指出,用于提升解決方案的狀態(tài)子集可以被描述成扁長的超球體,Informed RRT*可以通過直接采樣這個(gè)子集來提升RRT*算法的效率,快速返回鄰近的最優(yōu)方案。而 P-RRT*-connect[19]則是將雙向人工勢場結(jié)合到RRT*中,兩棵樹按照采樣點(diǎn)的人工勢場法生成的引力場和斥力場同時(shí)相互前進(jìn)直到二者相遇,該算法特別適用于窄通道問題。另外,J Wang[20~21]等人提出了一個(gè)基于RRT*的生物啟發(fā)路徑規(guī)劃算法:Tropistic RRT*。該算法使用高斯混合模型來模仿植物的自然生長,減小抽樣空間,提高了運(yùn)動(dòng)規(guī)劃效率,但同時(shí)也導(dǎo)致了采樣分布不均。而Reza[22]等人在雙向RRT和Informed RRT*的基礎(chǔ)上,提出Hybrid RRT,其將規(guī)劃過程分為三個(gè)部分,基于雙樹搜索初始解,并將兩棵樹合并成一棵,再采用Informed RRT*優(yōu)化路徑。該方法用非最優(yōu)搜索來發(fā)現(xiàn)初始解,不僅比最優(yōu)規(guī)劃速度更快,還能返回臨近最優(yōu)解。        

2.4 其他相關(guān)擴(kuò)展算法

為了從各個(gè)方面更好地解決各式各樣的機(jī)器人運(yùn)動(dòng)規(guī)劃問題,研究人員在RRT變體的基礎(chǔ)上做了廣泛的嘗試與結(jié)合。如BIT*通過在RRT中加入表搜索,將圖表法與基于抽樣的規(guī)劃技術(shù)相結(jié)合,提升了返回初始解的速度[23]。為解決低效率和易陷入局部最小的問題,Haojian[24]等人在RRT的基礎(chǔ)上提出使用衰退機(jī)制來避免過度搜索位姿空間,另外,算法通過優(yōu)化關(guān)節(jié)空間的邊界節(jié)點(diǎn)來持續(xù)地提升可到達(dá)的空間信息,避免重復(fù)搜索已擴(kuò)展節(jié)點(diǎn)。而MT-RRT則是利用四個(gè)不同的多線程策略進(jìn)行改進(jìn),減少了計(jì)算時(shí)間[25]。除此之外,Ariyan[26~27]等人則在RRT基礎(chǔ)上提出CODES3算法,用以解決在高度受限的環(huán)境中的規(guī)劃問題,此外,他們還提出了基于雙向樹搜索的6模型結(jié)構(gòu),每個(gè)模型中包含多個(gè)備選策略,根據(jù)環(huán)境背景信息從中尋找到最好的搭配來靈活地解決不同問題。

2.5 總結(jié)

到目前為止,從RRT的總體發(fā)展脈絡(luò)來看,學(xué)者們主要是在規(guī)劃效率與結(jié)果最優(yōu)性兩個(gè)方面對(duì)原始的RRT進(jìn)行改進(jìn)與提高。主要的改進(jìn)手段是利用增加隨機(jī)擴(kuò)展樹數(shù)目提升搜索效率的RRT-Connect和通過改進(jìn)每次拓展方式來達(dá)到算法漸進(jìn)最優(yōu)性的RRT*。因此,如何在此基礎(chǔ)上繼續(xù)提升算法性能也成為研究人員陸續(xù)關(guān)注的熱點(diǎn)。此外,結(jié)合其他技術(shù)或在算法結(jié)構(gòu)上進(jìn)行調(diào)整,也是工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃領(lǐng)域未來的研究方向。

3 基于強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃算法

強(qiáng)化學(xué)習(xí)的基本思想是智能體在與環(huán)境交互的過程中根據(jù)環(huán)境反饋得到獎(jiǎng)勵(lì),并不斷調(diào)整自身的策略以實(shí)現(xiàn)最佳決策,適用于現(xiàn)實(shí)中無法提供大量標(biāo)簽數(shù)據(jù)的決策優(yōu)化類問題[28]。由于其具有自學(xué)習(xí)性與自適應(yīng)性等優(yōu)點(diǎn),受到各領(lǐng)域?qū)<覍W(xué)者們的廣泛關(guān)注,近年來,也有不少學(xué)者們將強(qiáng)化學(xué)習(xí)應(yīng)用在機(jī)器人運(yùn)動(dòng)規(guī)劃問題上,為解決這一類問題提供了新思路。

3.1 基于傳統(tǒng)強(qiáng)化學(xué)習(xí)的方法

提高機(jī)器人的自主決策與學(xué)習(xí)能力,僅依靠設(shè)計(jì)者的經(jīng)驗(yàn)和知識(shí)是很難獲得對(duì)復(fù)雜不確定環(huán)境的良好適應(yīng)性。因此,如何在機(jī)器人的運(yùn)動(dòng)規(guī)劃中引入學(xué)習(xí)機(jī)制,成為研究人員關(guān)注的熱點(diǎn)[29]。如Jan Peters與Stefan Schaal[30]提出將動(dòng)作基本體與隨機(jī)策略梯度學(xué)習(xí)相結(jié)合,并證明了在強(qiáng)化學(xué)習(xí)中用動(dòng)作基本體來生成參數(shù)化控制策略的合理性。而Evangelos Theodorou[31~32]等人提出一種基于具有路徑積分的隨機(jī)優(yōu)化控制結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)參數(shù)化控制策略PI2,該方法中用于學(xué)習(xí)的更新式既不需要矩陣的逆解也不需要梯度學(xué)習(xí)率,因此從數(shù)學(xué)的角度而言其有簡單且穩(wěn)定的特點(diǎn)。在此基礎(chǔ)上,MrinalKalakrishnan[33]等人,使用動(dòng)覺示范初始化機(jī)器人的初始位置控制策略,且利用 PI2算法通過優(yōu)化一個(gè)價(jià)值函數(shù)來學(xué)習(xí)末端感知器所需要的力、轉(zhuǎn)矩等信息,從而在轉(zhuǎn)動(dòng)把手開門和拾取桌上的筆兩個(gè)環(huán)境的實(shí)驗(yàn)中取得了良好的效果。另外,Yanan Li[34]等人則將強(qiáng)化學(xué)習(xí)應(yīng)用在多機(jī)器人協(xié)作的任務(wù)上,解決每個(gè)機(jī)器人與所要操縱的物體之間未知的動(dòng)力學(xué)問題。

3.2 基于深度強(qiáng)化學(xué)習(xí)的方法

雖然傳統(tǒng)的強(qiáng)化學(xué)習(xí)在機(jī)器人運(yùn)動(dòng)規(guī)劃問題上有所應(yīng)用,但大多難以克服高維復(fù)雜環(huán)境,解決的規(guī)劃問題也略為簡單。隨著深度強(qiáng)化學(xué)習(xí)的發(fā)展,通過龐大且深層的神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合,以一種通用的形式將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并通過端對(duì)端的學(xué)習(xí)方式實(shí)現(xiàn)從原始輸入到輸出的直接控制,在眾多需要感知高維度原始輸入數(shù)據(jù)和決策控制任務(wù)中取得實(shí)質(zhì)性的突破[35]

沿著深度網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合的這一研究思路,也有許多經(jīng)典的深度強(qiáng)化學(xué)習(xí)算法被陸續(xù)提出,如 TRPO[36],DDPG[37],NAF[38]等,雖然受現(xiàn)實(shí)系統(tǒng)中的采樣復(fù)雜度影響,其能否靈活適用在現(xiàn)實(shí)環(huán)境中仍不明確,但這些算法的提出使機(jī)器人在人為操作很少的前提下學(xué)習(xí)復(fù)雜的技巧成為可能。在此基礎(chǔ)上,Sergey Levine[39]等人提出利用一個(gè)7層、92,000個(gè)參數(shù)的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行策略學(xué)習(xí)。策略學(xué)習(xí)過程中不再需要全部的狀態(tài)信息即可掌握未知的位姿信息,并可使用隨機(jī)梯度下降等的常規(guī)方法進(jìn)行訓(xùn)練。而ShixiangGu[40]等人指出,由于高采樣復(fù)雜度,深度強(qiáng)化學(xué)習(xí)的應(yīng)用僅限于仿真與簡單的實(shí)際任務(wù)中,因此他們提出一個(gè)適用于復(fù)雜3D機(jī)器人任務(wù)的基于深度Q網(wǎng)絡(luò)的離線策略訓(xùn)練方法。實(shí)驗(yàn)證明該方法可以在不需要先驗(yàn)示范或人為設(shè)計(jì)的情況下學(xué)習(xí)一系列復(fù)雜的3D機(jī)器人運(yùn)動(dòng)技能。李廣創(chuàng)與程良倫[41]則以點(diǎn)焊機(jī)器人為研究對(duì)象,將機(jī)器人在三維空間的自動(dòng)點(diǎn)焊轉(zhuǎn)化為機(jī)器人的避障路徑規(guī)劃問題,使用一個(gè)三層的DNN網(wǎng)絡(luò),經(jīng)過離線訓(xùn)練后,自行訓(xùn)練出一條接近于最優(yōu)的運(yùn)動(dòng)軌跡,成功地避開障礙物到達(dá)目標(biāo)點(diǎn)。

3.3 強(qiáng)化學(xué)習(xí)與基于隨機(jī)采樣的方法結(jié)合

鑒于強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)性與自適應(yīng)性,以及隨機(jī)采樣方法的高效搜索與概率完備等優(yōu)點(diǎn),近年來,將二者結(jié)合應(yīng)用在機(jī)器人運(yùn)動(dòng)規(guī)劃問題上的全新思路開始涌現(xiàn)。

沿著這一研究方向,Kei Ota[42]等人將RRT所生成的路徑作為強(qiáng)化學(xué)習(xí)的范例,指導(dǎo)其快速學(xué)習(xí)及收斂,且引入一個(gè)由淺入深的總課程學(xué)習(xí)模式來解決稀疏回報(bào)下訓(xùn)練困難的問題,該方法在6自由度機(jī)器人裝配電腦部件的復(fù)雜實(shí)驗(yàn)環(huán)境下取得了良好效果。而 Hao-Tien Lewis Chiang[43]等人提出RL-RRT算法,使用深度強(qiáng)化學(xué)習(xí)來學(xué)習(xí)避障策略,將其作為局部優(yōu)化器,再采用可達(dá)性估算器作為距離函數(shù)對(duì)樹的生長方向進(jìn)行偏置。另外,Aleksandra Faust[44]等人提出PRM-RL算法,使用強(qiáng)化學(xué)習(xí)來處理小范圍內(nèi)點(diǎn)到點(diǎn)的規(guī)劃,再用PRM提供連接著機(jī)器人位姿的路標(biāo),成功解決了機(jī)器人遠(yuǎn)距離規(guī)劃導(dǎo)航問題。而Philippe Morere[45]等人則提出先由RRT搜索初始可行解,再利用強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化的R3L算法。該方法減少了算法的收斂時(shí)間,并且克服了稀疏回報(bào)下未獲得第一個(gè)正回報(bào)前的盲目探索問題。除此之外,Binghong Chen[46]等人在處理高維狀態(tài)-動(dòng)作空間問題上,通過學(xué)習(xí)以前的經(jīng)驗(yàn)來解決新的規(guī)劃問題的一種神經(jīng)探索利用樹NEXT。相比起一些已有的基于學(xué)習(xí)的規(guī)劃器,NEXT更加通用,并且可以在探索與利用之間找到平衡。

3.4 總結(jié)

隨著強(qiáng)化學(xué)習(xí)技術(shù)的不斷發(fā)展,專家學(xué)者們利用這個(gè)技術(shù)在工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃領(lǐng)域做了許多有價(jià)值的嘗試。但無論是通過傳統(tǒng)的強(qiáng)化學(xué)習(xí)或是結(jié)合深度網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí),要么難以克服高維復(fù)雜環(huán)境,要么需要利用非常龐大且復(fù)雜的網(wǎng)絡(luò),具有很強(qiáng)的不穩(wěn)定性,難以應(yīng)用在現(xiàn)實(shí)環(huán)境中。于是,研究人員開始把目光轉(zhuǎn)向結(jié)合強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)、自適應(yīng)性與基于隨機(jī)采樣方法的高效搜索性、概率完備性的新思路上。這個(gè)方法不僅可以保證求解的速度,還可以逐步提高規(guī)劃結(jié)果的質(zhì)量,是一個(gè)值得深入發(fā)掘的方向。

4 目前存在問題及研究展望

根據(jù)目前工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃算法存在的不足和目前研究的現(xiàn)狀,本文認(rèn)為未來研究方向主要有:

(1)提高隨機(jī)采樣算法的求解穩(wěn)定性。雖然隨機(jī)采樣算法求解效率高,但引入了隨機(jī)性,導(dǎo)致有限時(shí)間內(nèi)的求解結(jié)果極不穩(wěn)定,這種不確定性使算法難以在實(shí)際中應(yīng)用。因此,提高解的穩(wěn)定性是未來的一個(gè)研究方向;

(2)提高強(qiáng)化學(xué)習(xí)算法訓(xùn)練效率。基于強(qiáng)化學(xué)習(xí)的隨機(jī)采樣算法保證了求解效率和質(zhì)量,但強(qiáng)化學(xué)習(xí)算法本身也具有很強(qiáng)的隨機(jī)性,如何提高探索效率、收斂速度也是未來重點(diǎn)考慮的問題;

(3)考慮實(shí)際場景下的環(huán)境約束、運(yùn)動(dòng)學(xué)約束和動(dòng)力學(xué)約束等。目前工業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃算法主要停留在實(shí)驗(yàn)室研究階段,考慮實(shí)際工況約束的運(yùn)動(dòng)規(guī)劃算法將是未來研究的重點(diǎn)。

參考文獻(xiàn):

[1] 康亮,趙春霞,郭劍輝.未知環(huán)境下改進(jìn)的基于RRT算法的移動(dòng)機(jī)器人路徑規(guī)劃[J].模式識(shí)別與人工智能,2009,22(3):337-343.

[2] 唐華斌,孫增圻.基于隨機(jī)采樣的機(jī)器人雙臂協(xié)調(diào)運(yùn)動(dòng)規(guī)劃[C].中國智能自動(dòng)化會(huì)議論文集.2005.

[3] Amato N M,Wu Y.A Randomized Roadmap Method for Path and Manipulation Planning[C]. IEEE International Conference on Robotics&Automation.IEEE,1993.

[4] S M LaValle,J J Kuffner.Rapidly-exploring random trees:Progress and prospects[C].Proceedings Workshop on the Algorithmic Foundations of Robotics.2000.

[5] S M LaValle,J J Kuffner.Randomized Kinodynamic Planning[C].Proceedings of the 1999 IEEE International Conferenceon Robotics&Automation.USA,1999:473-479.

[6] S M LaValle.Rapidly-exploring random trees:A new tool for path planning[R].Ames,USA:Department of Computer Science,Iowa State University,1998.

[7] DU Mingbo,MEI Tao,CHEN Jiajia,etc.RRT-based Motion Planning Algorithm for Intelligent Vehicle in Complex Environments[J].Robot,2015,37(4):443-450.

[8] 王道威,朱明富,劉慧.動(dòng)態(tài)步長的RRT路徑規(guī)劃算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(3):105-112.

[9] 何兆楚,何元烈,曾碧.RRT與人工勢場法結(jié)合的機(jī)械臂避障規(guī)劃[J].工業(yè)工程,2017,20(2):56-63.

[10] J J Kuffner,S M LaValle.RRT-connect:An efficient approach to single-query path planning[C].Proceedings of the 2000 IEEE International Conference on Robotics and Automation.USA:San Francisco,2000.1-7.

[11] 王維,李焱.基于RRT的虛擬人雙臂操控規(guī)劃方法[J].系統(tǒng)仿真學(xué)報(bào),2009,21(20):6515-6518.

[12] J Michael Vandeweghe,David Ferguson,Siddhartha Srinivasa.Randomized Path Planning for Redundant Manipulators without Inverse Kinematics[C].Proceedings of IEEE-RAS International Conference on Humanoid Robots.USA,2007.

[13] Rosen Diankov,Nathan Ratliff,David Ferguson,etc.Proceedings of Robotics:Science and Systems[C].Proceedings of Robotics:Science and Systems.2008.

[14] Chang-bae Moon,Woojin Chung.Kinodynamic Planner Dual-Tree RRT(DT-RRT) for Two-Wheeled Mobile Robots Using the Rapidly Exploring Random Tree[J].IEEE Transactions on Industrial Electronics,2015,62(2):1080-1090.

[15] Sertac Karaman,Emilio Frazzoli.Sampling-based algorithms for optimal motion planning[J].The International Journal of Robotics Research,2011,30(7):846-894.

[16] Sertac Karaman,Emilio Frazzoli.Incremental Sampling-based Algorithms for Optimal Motion Planning[C].Robotics:Science and Systems 2010.Spain:Zaragoza,2010.

[17] Joshua John Bialkowski,Sertac Karaman,Emilio Frazzoli.Massily parallelizing the RRT and the RRT*[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:San Francisco,2011:3513-3518.

[18] Jonathan D.Gammell,Siddhartha S.Sriivasa,Timothy D.Barfoot.Informed RRT*:Optimal sampling-based path planning focused via direct sampling of an admissible elnlipsoidal heuristic[C].2014 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:Chicago,2014.2997-3004.

[19] Wang Xinyu,Li Xiaojuan,Guan Yong,etc.Bidirectional Potential guided RRT* for motion planning[J].IEEE Access,2019,7:95034-95045.

[20] Jiankun Wang,Wenzheng Chi,Mingjie Shao etc.Finding a High-Quality Initial Solution for the RRTs Algorithms in 2D Environments[J].Robotica,2019,37(10):1677-1694.

[21] Jiankun Wang,Charles X.-T.Li,Wenzheng Chi,etc.Tropistic RRT*:An Efficient Planning Algorithm via Adaptive Restricted Sampling Space[C].2018 IEEE International Conference on Information and Automation.China:Wuyi Mountain,2018.1639-1646.

[22] Reza Mashayekhi,Mohd Yamani Idna Idris,Hossein Anisi,etc.Hybrid RRT:A Semi-dual-tree RRT-based Motion Planner[J].IEEE Access,2020,8:18658-18668.

[23] Jonathan D.Gammell,Siddhartha S.Srinivasa,Timothy D.Barfoot.Batch Informed Trees(BIT*):Sampling-based Optimal Planning via the Heuristilly Guided Search of Implicit Random Geometric Graphs[C].2015 IEEE International Conference on Robotics and Automation (ICcaRA).USA:Seattle,2015.3067–3074.

[24] Haojian Zhang,Yunkuan Wang,Jun Zheng,etc.Path Planning of Industrial Robot Based on Improved RRT Algorithm in Complex Environments[J].IEEE Access,2018,6:53296-53306.

[25] Andrea Casalino,Andrea Maria Zanchettin,Paolo Rocco.MT-RRT:a general purpose multithreading library for path planning[C].IEEE/RSJ IROS.China:Macau,2019.1510-1517.

[26] Ariyan M.Kabir,Brual C.Shah,Satyandra K.Gupta.Trajectory Planning for Manipulators Operating in Confined Workspaces[C].2018 IEEE 14th International Conference on Automation Science and Engineering.Germany:Munich,2018.84-91.

[27] Pradeep Rajendran,Shantanu Thakar,Ariyan M.Kabir,etc.Context-Dependent Search for Generating Paths for Redundant Manipulators in Cluttered Environments[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems.China:Macau,2019.5573-5579.

[28] 馬騁乾,謝偉,孫偉杰.強(qiáng)化學(xué)習(xí)研究綜述[J].指揮控制與仿真,2018,40(6):68-72.

[29] 陳學(xué)松,楊宜民.強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2834-2844.

[30] Jan Peters,Stefan Schaal.Reinforcement learning of motor skills with policy gradients[J].Neural Networks,2008,21(4):682-697.

[31] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.Reinforcement Learning of Motor Skills in High Dimensions:A Path Integral Approach[C].2010 IEEE International Conference on Robotics and Automation.USA:Anchorage,2010.2397-2403.

[32] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.A Generalized Path Integral Control Approach to Reinforcement Learning[J].Journal of Machine Learning Research,2010,11:3137-3181.

[33] Mrinal Kalakrishnan,Ludovic Righetti,Peter Pastor,etc.Learning Force Control Policies for Compliant Manipulation[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. USA:San Francisco,2011.4639-4644.

[34] Yanan Li,Long Chen,Keng Peng Tee,etc.Reinforcement learning control for coordinated manipulation of multi-robots[J].Neurocomputing,2015(170):168-175.

[35] 劉全,翟建偉,章宗長,等.深度強(qiáng)化學(xué)習(xí)綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(1):1-28.

[36] John Schulman,Sergey Levine,Pieter Abbeel,etc.Trust Region Policy Optimization[C].Proceedings of the 32nd International Conference on Machine Learning.France:Lille,2015.1889-1897.

[37] Timothy P.Lillicrap,Jonathan J.Hunt,Alexander Pritzel,etc.Continuous control with deep reinforcement learning[C].4th International Conference on Learning Representations,ICLR 2016-Conference Track Proceedings(2016).Puerto Rico:Caribe Hilton,2016.

[38] Shixiang Gu,Timothy Lillicrap,Ilya Sutskever,etc.Continuous deep Q-learning with model-based acceleration[C].International Conference on Machine Learning.USA:New York,2016.2829-2838.

[39] Sergey Levine,Chelsea Finn,Trevor Darrell,etc.End-to-End Training of Deep Visuomotor Policies[J].Journal of Machine Learning Research,2016(17):1-40.

[40] Shixiang Gu,Ethan Holly,Timothy Lillicrap,etc.Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates[C].2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:Singapore,2017.3389-3396.

[41] 李廣創(chuàng),程良倫.基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂避障路徑規(guī)劃研究[J].軟件工程,2019,22(3):12-15.

[42] Kei Ota,Devesh K.Jha,Tomoaki Oiki,etc. Trajectory Optimization for Unknown Constrained Systems using Reinforcement Learning[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).China:Macau,2019.3487-3494.

[43] Hao-Tien Lewis Chiang,Jasmine Hsu,Marek Fiser,etc.RL-RRT:Kinodynamic Motion Planning via Learning Reachability Estimators from RL Policies[J].Robotics and Automation Letters,2019,4:4298-4305.

[44] Aleksandra Faust,Oscar Ramirez,Marek Fiser,etc.PRM-RL:Long-range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning[C].IEEE International Conference on Robotics and Automation(ICRA).Australia:Brisbane,2018.5113-5120.

[45] Philippe Morere,Gilad Francis,Tom Blau,etc.Reinforcement Learning with Probabilistically Complete Exploration.arXiv:2001.

[46] Binghong Chen,Bo Dai,Qingjie Lin,etc.Learning to Plan via Neural Exploration-Exploitation Trees[C].2020 International Conference on Learning Representations(ICLR).Ethiopia:Addis Ababa,2020.

作者簡介:

劉暾東(1970-),山西原平人,教授,博士生導(dǎo)師,現(xiàn)任教于廈門大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是工業(yè)機(jī)器人與機(jī)器視覺。

陳 馨(1997-),福建福州人,現(xiàn)就讀于廈門大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是工業(yè)機(jī)器人控制與規(guī)劃。

吳曉敏(1992-),福建福州人,現(xiàn)就讀于廈門大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是工業(yè)機(jī)器人控制與強(qiáng)化學(xué)習(xí)。

邵桂芳(1978-),黑龍江阿城人,副教授,碩士生導(dǎo)師,現(xiàn)任教于廈門大學(xué)航空航天學(xué)院自動(dòng)化系,研究方向是機(jī)器視覺與智能優(yōu)化。

摘自《自動(dòng)化博覽》2020年4月刊


熱點(diǎn)新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 视频一本大道香蕉久在线播放 | 狠狠综合视频精品播放 | 久草视频在线免费看 | 特黄a级毛片 | 日韩在线视频免费 | 亚洲国产日韩在线人成蜜芽 | 日韩在线视 | 国产成人免费手机在线观看视频 | 国产三级在线视频观看 | 热99re久久国超精品首页 | 国产成 人 色综合 亚洲 | 免费国产黄网站在线观看视频 | 国产精品不卡无毒在线观看 | 久久这里只有精品首页 | 精品视频入口 | 成人久久网 | 热99re久久精品精品免费 | 国产三级自拍视频 | 香蕉视频色板 | 日本99视频 | 久草手机视频在线观看 | 久热这里只精品99re8久 | 亚洲高清美女一区二区三区 | 久久久久久久国产精品 | 国产福利视精品永久免费 | 精品一区二区日本高清 | 92国产福利午夜757小视频 | 日韩国产欧美一区二区三区 | 欧美高清免费一级在线 | 亚洲国产精品午夜电影 | 有人有片的观看免费视频 | 色综合五月婷婷 | 欧美一区二区三区四区在线观看 | 国产免费怕怕免费视频观看 | 日韩久久网 | 精品视频在线观看你懂的一区 | 黄色片网址在线观看 | 黄网在线看 | 国产精品单位女同事在线 | 一级黄色录像播放 | 免费看黄色的视频 |