您的位置：首頁(yè) > 資訊 > 企業(yè)動(dòng)態(tài) > 正文

麻省理工學(xué)院開(kāi)發(fā)一種有遠(yuǎn)見(jiàn)的機(jī)器學(xué)習(xí)方法

2022-12-02 09:42 性質(zhì)：原創(chuàng) 作者：南山來(lái)源：AGV網(wǎng)

免責(zé)聲明：AGV網(wǎng)（m.xmydyc.com)尊重合法版權(quán)，反對(duì)侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無(wú)關(guān)。如有需要?jiǎng)h除，敬請(qǐng)來(lái)電商榷?。?/div>

該方法可以教一組合作或競(jìng)爭(zhēng)的人工智能代理找到最佳的長(zhǎng)期解決方案。概括：一項(xiàng)新技術(shù)使人工智能代理在考慮它們的行為如何影響其他人工智能代理的行為時(shí)，能夠考慮到更遠(yuǎn)的未來(lái)，以完成一項(xiàng)任務(wù)。...

美國(guó)麻省理工學(xué)院(MIT)Hyperloop項(xiàng)目組

該方法可以教一組合作或競(jìng)爭(zhēng)的人工智能代理找到最佳的長(zhǎng)期解決方案。

概括：

一項(xiàng)新技術(shù)使人工智能代理在考慮它們的行為如何影響其他人工智能代理的行為時(shí)，能夠考慮到更遠(yuǎn)的未來(lái)，以完成一項(xiàng)任務(wù)。這種方法提高了合作或競(jìng)爭(zhēng)性人工智能代理的長(zhǎng)期性能。

想象一下兩支球隊(duì)在足球場(chǎng)上的對(duì)決。球員們可以通過(guò)合作來(lái)實(shí)現(xiàn)一個(gè)目標(biāo)，并與其他有利益沖突的球員競(jìng)爭(zhēng)。這就是游戲的運(yùn)作方式。創(chuàng)建能夠像人類一樣有效學(xué)習(xí)競(jìng)爭(zhēng)和合作的人工智能代理仍然是一個(gè)棘手的問(wèn)題。一個(gè)關(guān)鍵的挑戰(zhàn)是使人工智能代理能夠在其他代理同時(shí)學(xué)習(xí)時(shí)預(yù)測(cè)其未來(lái)行為。

由于這個(gè)問(wèn)題的復(fù)雜性，目前的方法往往是近視的；代理人只能猜測(cè)他們的隊(duì)友或競(jìng)爭(zhēng)對(duì)手的未來(lái)幾步棋，這導(dǎo)致了長(zhǎng)期的不良表現(xiàn)。

來(lái)自美國(guó)麻省理工學(xué)院、麻省理工學(xué)院-IB+M沃森人工智能實(shí)驗(yàn)室和其他地方的研究人員開(kāi)發(fā)了一種新方法，使人工智能代理具有遠(yuǎn)見(jiàn)卓識(shí)。他們的機(jī)器學(xué)習(xí)框架使合作或競(jìng)爭(zhēng)的人工智能代理能夠考慮其他代理在時(shí)間接近無(wú)窮大時(shí)將會(huì)做什么，而不僅僅是在接下來(lái)的幾個(gè)步驟中。然后，代理人相應(yīng)地調(diào)整他們的行為，以影響其他代理人的未來(lái)行為，并達(dá)成一個(gè)最佳的、長(zhǎng)期的解決方案。

這個(gè)框架可以被一群自主的無(wú)人機(jī)用來(lái)在茂密的森林中尋找迷路的徒步者，或者被自駕車使用，通過(guò)預(yù)測(cè)在繁忙的高速公路上行駛的其他車輛的未來(lái)行動(dòng)來(lái)努力保證乘客的安全。

“當(dāng)人工智能代理進(jìn)行合作或競(jìng)爭(zhēng)時(shí)，最重要的是他們的行為在未來(lái)的某個(gè)時(shí)間點(diǎn)上會(huì)聚。一路上有很多短暫的行為，從長(zhǎng)遠(yuǎn)來(lái)看并不十分重要。”麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室（LIDS）的研究生、一篇描述該框架的論文的主要作者Dong-Ki Kim說(shuō)：“達(dá)到這種收斂的行為是我們真正關(guān)心的，我們現(xiàn)在有一種數(shù)學(xué)方法來(lái)實(shí)現(xiàn)這一點(diǎn)。”

高級(jí)作者是Richard C. Maclaurin航空學(xué)和航天學(xué)教授Jonathan P. How，他是麻省理工學(xué)院-IBM Watson人工智能實(shí)驗(yàn)室的成員。共同作者包括麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室、IBM研究院、米拉-魁北克人工智能研究所和牛津大學(xué)的其他人。該研究將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。

更多的代理，更多的問(wèn)題

研究人員專注于一個(gè)被稱為多代理強(qiáng)化學(xué)習(xí)的問(wèn)題。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種形式，其中人工智能代理通過(guò)試驗(yàn)和錯(cuò)誤進(jìn)行學(xué)習(xí)。研究人員對(duì)幫助其實(shí)現(xiàn)目標(biāo)的 "良好 "行為給予代理獎(jiǎng)勵(lì)。代理人調(diào)整其行為以最大化該獎(jiǎng)勵(lì)，直到它最終成為一項(xiàng)任務(wù)的專家。

但當(dāng)許多合作或競(jìng)爭(zhēng)的代理同時(shí)學(xué)習(xí)時(shí)，事情變得越來(lái)越復(fù)雜。隨著代理人考慮到他們同伴的更多未來(lái)步驟，以及他們自己的行為如何影響其他人，這個(gè)問(wèn)題很快就需要太多的計(jì)算能力來(lái)有效解決。這就是為什么其他方法只關(guān)注短期的原因。

“人工智能真的想考慮游戲的結(jié)束，但他們不知道游戲何時(shí)結(jié)束。他們需要思考如何不斷地將自己的行為調(diào)整到無(wú)限大，以便在未來(lái)某個(gè)遙遠(yuǎn)的時(shí)間里獲勝。我們的論文本質(zhì)上提出了一個(gè)新的目標(biāo)，使人工智能能夠考慮到無(wú)限大的問(wèn)題?！盞im說(shuō)。

但是，由于不可能把無(wú)限塞進(jìn)算法中，研究人員設(shè)計(jì)了他們的系統(tǒng)，使代理人專注于他們的行為將與其他代理人的行為趨同的未來(lái)點(diǎn)，即所謂的平衡點(diǎn)。平衡點(diǎn)決定了代理人的長(zhǎng)期表現(xiàn)，而且在多代理人的情況下可能存在多個(gè)平衡點(diǎn)。因此，一個(gè)有效的代理人積極影響其他代理人的未來(lái)行為，使他們從代理人的角度達(dá)到一個(gè)理想的均衡點(diǎn)。如果所有的代理人都相互影響，他們就會(huì)收斂到一個(gè)一般的概念，研究人員稱之為 "主動(dòng)均衡"。

他們開(kāi)發(fā)的機(jī)器學(xué)習(xí)框架被稱為FURTHER（代表FUlly Reinforcing acTive influence with averagE Reward），使代理人能夠?qū)W習(xí)如何在與其他代理人互動(dòng)時(shí)調(diào)整自己的行為，以實(shí)現(xiàn)這種主動(dòng)平衡。

FURTHER使用兩個(gè)機(jī)器學(xué)習(xí)模塊來(lái)實(shí)現(xiàn)這一目標(biāo)。第一個(gè)模塊是推理模塊，它使代理人能夠僅根據(jù)其他代理人的先前行動(dòng)來(lái)猜測(cè)他們的未來(lái)行為和他們使用的學(xué)習(xí)算法。

這些信息被送入強(qiáng)化學(xué)習(xí)模塊，代理人利用這些信息來(lái)調(diào)整自己的行為，并以最大化回報(bào)的方式來(lái)影響其他代理人。

“挑戰(zhàn)是對(duì)無(wú)限的思考。我們不得不使用許多不同的數(shù)學(xué)工具來(lái)實(shí)現(xiàn)這一點(diǎn)，并做出一些假設(shè)，使其在實(shí)踐中發(fā)揮作用?！盞im說(shuō)。

長(zhǎng)遠(yuǎn)的贏家

他們?cè)趲讉€(gè)不同的場(chǎng)景中對(duì)他們的方法與其他多代理強(qiáng)化學(xué)習(xí)框架進(jìn)行了測(cè)試，包括一對(duì)機(jī)器人的相撲式戰(zhàn)斗和兩個(gè)25個(gè)代理團(tuán)隊(duì)的對(duì)戰(zhàn)。在這兩種情況下，使用FURTHER的人工智能代理更經(jīng)常地贏得比賽。

Kim解釋說(shuō)，由于他們的方法是分散的，這意味著代理人獨(dú)立學(xué)習(xí)贏得游戲，它也比其他需要中央計(jì)算機(jī)控制代理人的方法更具可擴(kuò)展性。

研究人員用游戲來(lái)測(cè)試他們的方法，但FURTHER可以用來(lái)解決任何類型的多代理問(wèn)題。例如，在許多相互作用的權(quán)利人的行為和利益隨時(shí)間變化的情況下，經(jīng)濟(jì)學(xué)家可以應(yīng)用它來(lái)制定合理的政策。

經(jīng)濟(jì)學(xué)是Kim對(duì)研究的一個(gè)應(yīng)用特別感興趣。他還想更深入地研究主動(dòng)平衡的概念，并繼續(xù)加強(qiáng)FURTHER框架。

這項(xiàng)研究得到了美國(guó)麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室的部分資助。

關(guān)于美國(guó)麻省理工學(xué)院(MIT)Hyperloop項(xiàng)目組進(jìn)入企業(yè)商鋪

美國(guó)麻省理工學(xué)院(MIT)的Hyperloop II團(tuán)隊(duì)由一組具有航空航天，機(jī)械，電氣和系統(tǒng)工程背景的多學(xué)科研究人員組成。

MIT四十名學(xué)生合作設(shè)計(jì)和制造了Hyperloop II，這是一種高速、無(wú)摩擦的車輛，旨在通過(guò)空氣懸浮技術(shù)來(lái)運(yùn)載人員或貨物。Hyperloop與許多需要軌道或在真空管運(yùn)行軌道列車不同，這款模型僅需要平坦的表面并能在氣墊上行駛。它不依賴昂貴的磁性系統(tǒng)為其懸浮提供動(dòng)力，不需要高昂的真空環(huán)境。

Hyperloop II是2019年在SpaceX Hyperloop Pod競(jìng)賽中唯一以其功能齊全的空氣懸浮吊艙而聞名。這是一項(xiàng)年度的超級(jí)環(huán)形高鐵車廂大賽大賽，SpaceX公司旨在鼓勵(lì)開(kāi)發(fā)新的運(yùn)輸方式。該團(tuán)隊(duì)在去年比賽中排名第5，并獲得了創(chuàng)新獎(jiǎng)。因?yàn)榇蠡鸫輾Я嗽荚秃螅芎笤搱F(tuán)隊(duì)再次對(duì)其軌道車進(jìn)行了大幅度修改。

美國(guó)MIT開(kāi)發(fā)的AirLev是第一款電動(dòng)高速無(wú)摩擦空氣懸浮軌道車，旨在通過(guò)其空氣懸浮技術(shù)來(lái)運(yùn)載人員或貨物。該團(tuán)隊(duì)在2019年的SpaceX-Hyperloop大賽上展示了升級(jí)版-Hyperloop II，該軌道車在20秒內(nèi)，以0到200 mph(時(shí)速200英里/352公里)迅速提升。

0贊 0踩

下一篇 Evar自動(dòng)駕駛機(jī)器人助力電動(dòng)車充電，獲得CES 2023創(chuàng)新獎(jiǎng)

上一篇永恒力緊湊型存儲(chǔ)系統(tǒng) "PowerCube "在瑞士發(fā)布

網(wǎng)友評(píng)論
文明上網(wǎng)，理性發(fā)言，拒絕廣告
0條評(píng)論

相關(guān)資訊
更多>>

靠普屬具創(chuàng)始人奧特馬爾·靠普辭世，96載人生書(shū)寫(xiě)物料搬運(yùn)傳奇

2025年5月18日，德國(guó)知名物料搬運(yùn)設(shè)備制造商靠普有限公司（Kaup GmbH & Co. KG）發(fā)布訃告，公司創(chuàng)始人奧特馬·靠普（Otmar Kaup）在其家鄉(xiāng)德國(guó)阿沙芬堡逝世...

2025-06-03 17:10
HD現(xiàn)代與Persona AI簽署協(xié)議開(kāi)發(fā)并部署類人焊接人型機(jī)器人

2025年5月，韓國(guó)HD現(xiàn)代（HD Hyundai）與美國(guó)人工智能公司Persona AI簽署了一項(xiàng)合作協(xié)議，旨在開(kāi)發(fā)并部署類人焊接機(jī)器人，以推動(dòng)船舶制造過(guò)程的自動(dòng)化。這一合...

2025-06-03 17:09
奇瑞汽車開(kāi)封超級(jí)工廠部署98臺(tái)ForwardX? AMR

在超級(jí)工廠成功合作的基礎(chǔ)上，奇瑞汽車再次與ForwardX Robotics合作，在其開(kāi)封超級(jí)工廠的總裝車間部署98臺(tái)自主移動(dòng)機(jī)器人（AMR），推進(jìn)其全自動(dòng)智能制造的愿景...

2025-06-03 17:09
uminys與Foxlink聯(lián)手打造AI安防機(jī)器人生態(tài)系統(tǒng)

在2025年5月21日于中國(guó)臺(tái)灣省舉行的GTC大會(huì)上，美國(guó)智能安防解決方案提供商Luminys Systems Corp.（以下簡(jiǎn)稱“Luminys”）與其母公司、中國(guó)臺(tái)灣電子制造巨頭Fo...

2025-06-03 17:09
瑞士機(jī)器人公司RIVR與美國(guó)Veho合作推動(dòng)電商“最后100碼”配送自動(dòng)化革命

在電商物流日益追求效率與精度的當(dāng)下，瑞士機(jī)器人公司RIVR與美國(guó)科技驅(qū)動(dòng)的包裹配送平臺(tái)Veho于2025年5月宣布達(dá)成戰(zhàn)略合作，在美國(guó)德克薩斯州奧斯汀市啟動(dòng)試點(diǎn)項(xiàng)...

2025-06-03 17:09
德國(guó)Circus SE收購(gòu)FullyAI推動(dòng)食品服務(wù)行業(yè)的智能化轉(zhuǎn)型

2025年5月，德國(guó)人工智能機(jī)器人公司Circus SE（XETRA: CA1）宣布成功收購(gòu)人工智能公司FullyAI，旨在通過(guò)整合先進(jìn)的Agentic AI技術(shù)，構(gòu)建全球首個(gè)營(yíng)養(yǎng)智能網(wǎng)絡(luò)...

2025-06-03 17:09
Arrive AI獲4000萬(wàn)美元融資用于智能郵箱自動(dòng)投遞

2025年5月22日，美國(guó)智能物流科技公司Arrive AI宣布，已從美國(guó)投資機(jī)構(gòu)Streeterville Capital獲得高達(dá)4000萬(wàn)美元的資金支持。此次融資旨在加速其AI驅(qū)動(dòng)的“Arr...

2025-06-03 17:09
戰(zhàn)略合作！合力叉車與京東集團(tuán)共筑智能物流與綠色供應(yīng)鏈新生態(tài)

共筑智能物流與綠色供應(yīng)鏈新生態(tài)2025年5月28日，安徽合力股份有限公司與京東集團(tuán)戰(zhàn)略合作簽約在京東全球總部舉行，雙方共商發(fā)展、共話未來(lái)，開(kāi)啟全球戰(zhàn)略合作新篇章。未來(lái)，雙方將充分發(fā)揮各自領(lǐng)域...

2025-05-29 23:14
威邁爾閃耀LET2025，3D視覺(jué)語(yǔ)義避障+全域自由導(dǎo)航引關(guān)注

本期正文備受矚目的2025中國(guó)（廣州）國(guó)際物流裝備與技術(shù)展覽會(huì)（簡(jiǎn)稱“LET 2025”）于5月23日在廣州廣交會(huì)展館D區(qū)圓滿落幕。本屆展會(huì)，威邁爾VMR攜多款智能搬運(yùn)機(jī)器人產(chǎn)品亮相，展示3D視覺(jué)語(yǔ)義避...

2025-05-29 23:14
鐳神智能：以科技之光，照亮智慧交通未來(lái)，榮獲深圳市科技進(jìn)步獎(jiǎng)一等獎(jiǎng)

2025年5月27日，深圳市鐳神智能系統(tǒng)有限公司收到由深圳市政府正式頒發(fā)的“2023年深圳市科技進(jìn)步獎(jiǎng)證書(shū)”，憑借《基于高性能激光雷達(dá)的智慧交通多傳感器融合關(guān)鍵技術(shù)研究及應(yīng)用》項(xiàng)目，鐳神智能成功...

2025-05-29 23:13