四輪三角履帶機(jī)器人設(shè)計-四輪履復(fù)合移動平臺設(shè)計【含20張CAD圖紙+PDF圖】
喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ======================== 喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ========================
畢業(yè)設(shè)計(文獻(xiàn)翻譯) 第 10 頁
畢業(yè)設(shè)計
文獻(xiàn)翻譯
綜合性應(yīng)急機(jī)器人的運(yùn)動模式
M.M. Svinina,*, K. Yamadab, K. Uedab
無機(jī)仿生控制研究中心,理化學(xué)研究所,森山區(qū),名古屋463-0003,日本
機(jī)械工程,神戶大學(xué),納達(dá)區(qū),神戶657-8501,日本
2001年5月7日,2001年9月17日
本文研究的是穩(wěn)定的步態(tài)運(yùn)動機(jī)器人的出現(xiàn)。一個分類器的系統(tǒng),正在加強(qiáng)實施學(xué)習(xí)計劃,步態(tài)機(jī)器人是用于八條腿感官機(jī)器人的電機(jī)控制合成。機(jī)器人沒有對環(huán)境的先驗知識和自己的內(nèi)部模型。這僅僅是個假設(shè),機(jī)器人能夠獲得通過學(xué)習(xí)如何達(dá)到目標(biāo)區(qū)域的穩(wěn)定步態(tài)。在學(xué)習(xí)過程中的控制系統(tǒng)是由鋼筋信號自組織。到達(dá)目標(biāo)區(qū)域。德納一個全球性的獎勵,提出議案得到當(dāng)?shù)氐莫剟?,而退一步失敗的話卻得到當(dāng)?shù)靥幜P。隨著學(xué)習(xí)的進(jìn)展,在分類器系統(tǒng)的操作規(guī)則的數(shù)量穩(wěn)定在一定水平,相應(yīng)的步態(tài)模式。根據(jù)仿真和實驗測試所提出的自組織系統(tǒng)的可行性。最小的模擬模型不需要構(gòu)造復(fù)雜的計算方案只用于模擬。仿真數(shù)據(jù),被下載到真正的機(jī)器人控制系統(tǒng),來發(fā)展最小的機(jī)器人模型??傮w而言,10個模擬數(shù)據(jù)成功
運(yùn)行了7個真正的機(jī)器人。?Elsevier科學(xué)有限公司保留所有權(quán)利。
1. 分類器系統(tǒng)
我們的方法是用機(jī)器人控制系統(tǒng)進(jìn)行建模,由一個分類器系統(tǒng)輸出控制命令回應(yīng)一個感官輸入。在分類器系統(tǒng)中,實際觀測空間和行動傳感器操作規(guī)則確定的狀態(tài)空間映射到確定的行為。
該傳感器狀態(tài)空間的發(fā)展,作為學(xué)習(xí)進(jìn)步,其結(jié)構(gòu)是自組織(圖2)。分類器系統(tǒng)的結(jié)構(gòu)類似于威爾遜提出的最基本的一個系統(tǒng)結(jié)構(gòu)[28]。本質(zhì)上的區(qū)別在于建立它的連續(xù)狀態(tài)與動作空間。
1.1運(yùn)動規(guī)則
讓ns作為傳感器的數(shù)量和x={ x1,…,xn }T作為機(jī)器人的感官輸入。應(yīng)該系統(tǒng)是一套操作準(zhǔn)則,R. 準(zhǔn)則r∈R定義如下:r;=, V={ v1,…, vns }T是狀態(tài)向量與記憶的準(zhǔn)則,W={w1,…, wns}T是權(quán)重向量,u是準(zhǔn)則的效用,a是準(zhǔn)則r相應(yīng)的操作活動。實用u實在學(xué)習(xí)過程中的一個實數(shù)表示的相對值。它沒有任何直接的物理意義,并只可能與相關(guān)準(zhǔn)則的力量和內(nèi)部能量相聯(lián)系。該實用程序可能具有生物學(xué)意義,因為它是從準(zhǔn)則的父繼承和稍后的進(jìn)化過程中改變的。
在某種意義上,如果V匹配當(dāng)前的感管輸入X,準(zhǔn)則r變得活躍,能激發(fā)其作用。權(quán)重向量W是用來比較V和X的。wi∈[0,1]是荷蘭的‘不在意’符號的連續(xù)模擬。當(dāng)wi接近于零是,第i個傳感器測量就不那么重要了。其中W=0是所謂的無限期準(zhǔn)則。在目前的狀態(tài)X下無論任何地方的機(jī)器人都可以被激活。所有其他的準(zhǔn)則都是明確的。他們可以被附近的V激活,使用重量W定義在其附近。準(zhǔn)則的特異性:作為衡量明確的準(zhǔn)則。其中λ是時間依賴的尺度參數(shù)。當(dāng)λ接近1時,準(zhǔn)則規(guī)定的行為會有更多的反應(yīng)。另一方面,隨著λ越接近0,行為便變得更加積極主動(即會有更多不受限制地在探索環(huán)境的方式)。
其實,在我們的實現(xiàn),這是不夠的,僅僅保留一個模糊期準(zhǔn)則。R中的所有其他準(zhǔn)則都是明確的。開始R是由最初實用u0模糊準(zhǔn)則分配的。隨著學(xué)習(xí)的進(jìn)步,R,nr的總數(shù)通過復(fù)制和廢止而變化。
1.2運(yùn)動選擇
在R中與對方進(jìn)行權(quán)利競爭會引發(fā)他們的運(yùn)動。對于所有rj∈R的準(zhǔn)則,目前感官狀態(tài)X和準(zhǔn)則的狀態(tài)向量Vj之間的加權(quán)距離定義為:其中,dk是隨時間變化的縮放參數(shù),它被定義為在學(xué)習(xí)過程中觀察到的第k個傳感器的最高和最低值之間的最大區(qū)別。
接下來,我們定義匹配率:其中,Tm是一個常數(shù)。注意的是即使沒有明確的準(zhǔn)則匹配的感官輸入X,模糊的準(zhǔn)則也總是起作用。事實上,不管是否遇到狀態(tài)X,W=0和m=1總是匹配。這使得模糊準(zhǔn)則可能的候補(bǔ)得以被選擇。這在學(xué)習(xí)過程的開始特別重要,模糊準(zhǔn)則往往認(rèn)為是新準(zhǔn)則的執(zhí)行和新準(zhǔn)則生成的重要因素。
也要注意,當(dāng)模糊準(zhǔn)則被執(zhí)行,與此活動相關(guān)的準(zhǔn)則按照[amin,amax]均勻分布隨機(jī)生成。
成功的準(zhǔn)則是按照概率加權(quán)的方法給出了的玻爾茲曼分布:參數(shù)T的溫度含義是保持設(shè)置的狀態(tài)空間開發(fā)和探索之間的平衡。
1.3信貸分配
公用事業(yè)的準(zhǔn)則是每次更新后,優(yōu)勝者將執(zhí)行其活動。實用調(diào)整機(jī)制包括以下幾個部分。
直接收益分配。直接收益分配P是只在特定狀態(tài)下給予優(yōu)勝者的準(zhǔn)則。其中有兩種類型:回報(P>0)和懲罰(P<0)?;貓笫茄刂?guī)則的順序傳播,從而引發(fā)他們的活動折扣率γ(即當(dāng)前和以前的優(yōu)勝者):其中N是優(yōu)勝者鏈的深度,0<γ<1。這相當(dāng)于分享利潤盈利的策略在隨著時間逐漸貼進(jìn)一步向后倒退。在這里,rw(1)是rw的父類,而rw(2)又是rw(1)的父類,以此類推。
桶橋策略。當(dāng)前的優(yōu)勝者rw交其用途的一部分,Δu,恢復(fù)到以前的優(yōu)勝者,rw:要注意的是準(zhǔn)則rw(1)增加了其效用。然而,我們沒有減少的規(guī)則rw實用性,這是我們的戰(zhàn)略和傳統(tǒng)之間的主要區(qū)別。如果觸發(fā)的動作只由數(shù)量有限的準(zhǔn)則(R的子集)和他們遞交ΔU到另一個準(zhǔn)則決定,那么每個準(zhǔn)則的效用有望逐步收斂到這些規(guī)則之間的最高效用。因此,行動準(zhǔn)則,以這種方式進(jìn)行合作,可以存活一段時間,這期間的回報是很少的。這可以根據(jù)自組織的準(zhǔn)則尋找一個最終的獎賞。
征稅。每當(dāng)一個明確的準(zhǔn)則rw觸發(fā)其活動,其效用被更新為:準(zhǔn)則rw激活率cf比照支付的成本,以防止死鎖或循環(huán)的行為。在某種意義上說,準(zhǔn)則是征稅的執(zhí)行權(quán)。需要注意的是模糊準(zhǔn)則是免稅的,因為它的主要功能是生成新的規(guī)則。
蒸發(fā)。當(dāng)機(jī)器人到達(dá)目標(biāo)狀態(tài)時,所有的規(guī)則都減少他們實用蒸發(fā)率η<1:從某種意義上講,它所對應(yīng)的是‘通貨膨脹’。其效用低于閾值以下的規(guī)則將被刪除。
1.4復(fù)制
在選擇優(yōu)勝者規(guī)則rw的時候,我們執(zhí)行與此規(guī)則相關(guān)的行動aw。接下來的事情就是我們應(yīng)該關(guān)心行動之后的執(zhí)行以及效用的調(diào)整,這個過程就是復(fù)制過程。在我們的系統(tǒng)中,除了rw觸發(fā)的行動導(dǎo)致倒退或者崩潰這種情況,優(yōu)勝者規(guī)則rw總是生成一個新規(guī)則rc(孩子規(guī)則)。復(fù)制過程的詳細(xì)信息形式化如下。
如果優(yōu)勝者是模糊規(guī)則,復(fù)制的規(guī)則參數(shù)就設(shè)置為:vic=xi,wic=1,i=1,…,ns。
我們稱之為‘經(jīng)驗記憶’。效用的新規(guī)則,其作用的代碼是通過父類實現(xiàn)的:ac=aw,uc=uw。
另一方面,如果優(yōu)勝者是一個明確規(guī)則,我們試圖‘推廣經(jīng)驗’,那么新產(chǎn)生的規(guī)則是廣義的。
要注意的是,即使其匹配率mw<1,具有較高的實用uw的規(guī)則rw也可以在競爭中取勝。在我們的系統(tǒng)中,優(yōu)勝者再次提供的一個通用的規(guī)則rc的匹配率mw,是在某一確定的閾值θr,i.e,mw<θr范圍內(nèi)。下面的表達(dá)式是與θr有關(guān)的實用規(guī)則uw的表達(dá)式:θr=exp(-Truw)。其中Tr是個常量。言下之意是,具有較高匹配率但實用性低的規(guī)則,我們允許其通過復(fù)制障礙,反之亦然。
Vc和Wc為廣義新規(guī)則載體的設(shè)置如下:vic=xi,wic=1-|xi-vic|\di,i=1,…,ns.
為新的廣義規(guī)則的代碼實用性和靈活性設(shè)置為:ac=aw,uc=λcuw。
要注意的是,上述形成的新的廣義規(guī)則可以和一個更加寬廣的狀態(tài)空間相匹配,其中包括其父類的狀態(tài)。
2. 模擬實驗與測試結(jié)果
首先,學(xué)習(xí)步驟的可行性需要用模擬實驗來檢驗。如果機(jī)器人到達(dá)目標(biāo)區(qū)域,或者產(chǎn)生的行動步驟超過500,程序就會更新一次。參數(shù)設(shè)置如下:全局獎勵P=5,本地獎勵P=5,對應(yīng)行為的懲罰P=-5%, u0=10, umin=9.5, cf=0.015, γ=0.8, к=0.1, η=0.98, T=3, Tm=100, Tr=0.5。
10次模擬實驗連續(xù)進(jìn)行,每一次的動作都會進(jìn)化。模擬的不同僅在于初始生成的隨機(jī)數(shù)量。圖10中顯示了機(jī)器人第6次和第9次的運(yùn)動軌跡。兩次都到達(dá)了目標(biāo)區(qū)域。注意即使在成功案例中,機(jī)器人也沒有使用最短路徑。實際上,前進(jìn)方向的數(shù)據(jù)并沒有放進(jìn)傳感器的學(xué)習(xí)步驟里。因此,選擇不同的前進(jìn)方向,并沒有對應(yīng)的懲罰或者獎勵操作。另外一點,盡管機(jī)器人并不是直線到達(dá)目標(biāo)區(qū)域,但腿部的運(yùn)動模式一直很穩(wěn)定。
圖11中展示了學(xué)習(xí)過程的動態(tài)曲線。記錄了到達(dá)目標(biāo)區(qū)域,所經(jīng)歷的懲罰,獎勵以及必須步驟的數(shù)目。圖表中,機(jī)器人得到的全局獎勵由向下的箭頭標(biāo)示。很顯然,隨著學(xué)習(xí)過程的進(jìn)展,懲罰的次數(shù)逐漸減少。
圖11. 學(xué)習(xí)記錄
圖12展示了規(guī)則的總數(shù),固定規(guī)則的數(shù)量,以及生成規(guī)則的數(shù)量。分別以點連線,細(xì)線,粗線表示。
圖12. 規(guī)則的生成
學(xué)習(xí)的動態(tài)過程展示了規(guī)則的總數(shù),和到達(dá)目標(biāo)區(qū)域的必須步驟的數(shù)量之間,有相應(yīng)的關(guān)系。也就是說,總數(shù)減少之后,必須步驟也隨即減少。并且,懲罰的數(shù)量和新生成規(guī)則的數(shù)量之間,也有相應(yīng)的聯(lián)系。這就間接說明,不定規(guī)則的探索能力,逐漸可以歸納為有效固定規(guī)則的開發(fā)功能。實際上,僅有少量的固定規(guī)則才能產(chǎn)生“有用”的行為來引發(fā)機(jī)器人的動作,并且增強(qiáng)這些動作的實用性。同時,“不相關(guān)”規(guī)則的實用性逐漸降低,并且最終消失。因此,一段時間過后,剩余的規(guī)則就能發(fā)揮主導(dǎo)作用。
到達(dá)目標(biāo)的必須步驟在第35節(jié)之后,開始變得穩(wěn)定。這是因為機(jī)器人掌握了一定的行為規(guī)則。圖13中展示了機(jī)器人第90次的腿部動作記錄。
圖13. 腿部動作
模擬環(huán)境下,控制裝置生成新行為的能力不斷進(jìn)化,現(xiàn)在也能夠在試驗中得到驗證。模擬數(shù)據(jù)(第90次以后的規(guī)則)被下載到機(jī)器人OCT1-b的控制系統(tǒng)中,會執(zhí)行一次實驗動作。在這次實驗動作中,機(jī)器人被相同的分類系統(tǒng)所控制。
整體來說,控制真實機(jī)器人的10次模擬數(shù)據(jù)中,有7次是成功的。為了說明實驗結(jié)果,我們選擇了一次成功的數(shù)據(jù)和一次不成功的實驗行為數(shù)據(jù)。機(jī)器人在第6次和第9次模擬實驗中的行為見圖14。在模擬試驗中進(jìn)化出的直線前進(jìn)的動作與不完美的模擬數(shù)據(jù)相比,并不健壯。這給了我們引出了另一個問題,就是修正模型中的噪點,并且在存在干擾因素的環(huán)境下,進(jìn)化機(jī)器人的控制系統(tǒng)。
圖14. 真實機(jī)器人行為
圖15展示了實驗階段里機(jī)器人的步伐(腿部動作的角度)。所有的測試中,即使是失敗案例,機(jī)器人都在嘗試跟隨模擬實驗里的運(yùn)動模式。某種意義上來說,動作步驟所組成的行為模式,可以看作是機(jī)器人控制系統(tǒng)中基因的組成“材料”。
圖15. 腿部動作記錄
3 總結(jié)
出現(xiàn)在運(yùn)動機(jī)器人的穩(wěn)定步態(tài)研究在這個文件。一個分類器系統(tǒng),實施實例基于強(qiáng)化學(xué)習(xí)計劃,用于感官八條腿的移動機(jī)器人的電機(jī)控制。機(jī)器人沒有先驗知識的環(huán)境,其自己的內(nèi)部模型,和目標(biāo)坐標(biāo)。這只是假設(shè)機(jī)器人可以通過學(xué)習(xí)獲得穩(wěn)定的步態(tài)如何達(dá)到目標(biāo)區(qū)。在學(xué)習(xí)過程中的加固信號控制系統(tǒng)是自組織。達(dá)到光源德納一個全球性的獎勵。向前議案獲得當(dāng)?shù)氐莫剟?,同時加強(qiáng)和下降沿下得到當(dāng)?shù)氐膽土P??刂菩袆?。如學(xué)習(xí)進(jìn)步,在數(shù)量上的行動規(guī)則分類器系統(tǒng)穩(wěn)定到一定程度。因此,運(yùn)動模式全球行為(穩(wěn)定步態(tài))出現(xiàn),作為規(guī)則分類器系統(tǒng)的自我學(xué)習(xí)期間舉辦的過程。提出系統(tǒng)的可行性進(jìn)行測試下仿真和實驗。虛擬船模型建造和使用不斷變化的機(jī)器人控制器在模擬環(huán)境下。驗證模型。
本文所提出的結(jié)果我們初步運(yùn)動模式的新興合成研究運(yùn)動機(jī)器人。因此,有足夠的空間?在未來應(yīng)解決的關(guān)鍵點?例如,最小的模型似乎工作以及簡單導(dǎo)航任務(wù),但其性能尚未測試更復(fù)雜的行為。接下來,分類器系統(tǒng),我們作為一個學(xué)習(xí).引擎有許多參數(shù)調(diào)整到最佳值。此外,我們并沒有使用正規(guī)系統(tǒng)的程序,以評估性能因為這是一個不平凡的問題。在這方面,工作[31]的結(jié)果可能會提供一些??有價值的見解。
談到的框架,進(jìn)一步發(fā)展最小的仿真模型,我們認(rèn)為計算簡單最小的機(jī)型應(yīng)該是成反比,控制對象的復(fù)雜性成正比??紤]隨著時間的簡單性和復(fù)雜性變化依靠數(shù)量上的學(xué)習(xí)經(jīng)驗,正常模式也可以被視為在一個可進(jìn)化的方式。?“進(jìn)化的組件將允許關(guān)閉控制循環(huán)和減少學(xué)習(xí)控制器之間的差距。正在使用該模型。從這個角度來看,它會有趣的建立和利用之間的二元(行動狀態(tài)的映射)模型和控制器(狀態(tài)到動作映射)在開發(fā)協(xié)同進(jìn)化場景。這里的關(guān)鍵問題是在之間的關(guān)系真實的評價和自我評價。在為了得到一些如何真正評價的頻率基本的了解下,發(fā)展個人計算時間,我們計劃探測相對簡單的一維或二維的問題控制任務(wù)。
收藏
編號:102935150
類型:共享資源
大?。?span id="6z5n5oy" class="font-tahoma">18.49MB
格式:ZIP
上傳時間:2022-06-07
50
積分
- 關(guān) 鍵 詞:
-
含20張CAD圖紙+PDF圖
三角
履帶
機(jī)器人
設(shè)計
四輪履
復(fù)合
移動
平臺
20
CAD
圖紙
PDF
- 資源描述:
-
喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ======================== 喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ========================
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。