該方法可以教一組合作或競(jìng)爭(zhēng)的人工智能代理找到最佳的長(zhǎng)期解決方案。
概括:
一項(xiàng)新技術(shù)使人工智能代理在考慮它們的行為如何影響其他人工智能代理的行為時(shí),能夠考慮到更遠(yuǎn)的未來(lái),以完成一項(xiàng)任務(wù)。這種方法提高了合作或競(jìng)爭(zhēng)性人工智能代理的長(zhǎng)期性能。
想象一下兩支球隊(duì)在足球場(chǎng)上的對(duì)決。球員們可以通過(guò)合作來(lái)實(shí)現(xiàn)一個(gè)目標(biāo),并與其他有利益沖突的球員競(jìng)爭(zhēng)。這就是游戲的運(yùn)作方式。創(chuàng)建能夠像人類一樣有效學(xué)習(xí)競(jìng)爭(zhēng)和合作的人工智能代理仍然是一個(gè)棘手的問(wèn)題。一個(gè)關(guān)鍵的挑戰(zhàn)是使人工智能代理能夠在其他代理同時(shí)學(xué)習(xí)時(shí)預(yù)測(cè)其未來(lái)行為。
由于這個(gè)問(wèn)題的復(fù)雜性,目前的方法往往是近視的;代理人只能猜測(cè)他們的隊(duì)友或競(jìng)爭(zhēng)對(duì)手的未來(lái)幾步棋,這導(dǎo)致了長(zhǎng)期的不良表現(xiàn)。
來(lái)自美國(guó)麻省理工學(xué)院、麻省理工學(xué)院-IB+M沃森人工智能實(shí)驗(yàn)室和其他地方的研究人員開(kāi)發(fā)了一種新方法,使人工智能代理具有遠(yuǎn)見(jiàn)卓識(shí)。他們的機(jī)器學(xué)習(xí)框架使合作或競(jìng)爭(zhēng)的人工智能代理能夠考慮其他代理在時(shí)間接近無(wú)窮大時(shí)將會(huì)做什么,而不僅僅是在接下來(lái)的幾個(gè)步驟中。然后,代理人相應(yīng)地調(diào)整他們的行為,以影響其他代理人的未來(lái)行為,并達(dá)成一個(gè)最佳的、長(zhǎng)期的解決方案。
這個(gè)框架可以被一群自主的無(wú)人機(jī)用來(lái)在茂密的森林中尋找迷路的徒步者,或者被自駕車使用,通過(guò)預(yù)測(cè)在繁忙的高速公路上行駛的其他車輛的未來(lái)行動(dòng)來(lái)努力保證乘客的安全。
“當(dāng)人工智能代理進(jìn)行合作或競(jìng)爭(zhēng)時(shí),最重要的是他們的行為在未來(lái)的某個(gè)時(shí)間點(diǎn)上會(huì)聚。一路上有很多短暫的行為,從長(zhǎng)遠(yuǎn)來(lái)看并不十分重要。”麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室(LIDS)的研究生、一篇描述該框架的論文的主要作者Dong-Ki Kim說(shuō):“達(dá)到這種收斂的行為是我們真正關(guān)心的,我們現(xiàn)在有一種數(shù)學(xué)方法來(lái)實(shí)現(xiàn)這一點(diǎn)。”
高級(jí)作者是Richard C. Maclaurin航空學(xué)和航天學(xué)教授Jonathan P. How,他是麻省理工學(xué)院-IBM Watson人工智能實(shí)驗(yàn)室的成員。共同作者包括麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室、IBM研究院、米拉-魁北克人工智能研究所和牛津大學(xué)的其他人。該研究將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。
更多的代理,更多的問(wèn)題
研究人員專注于一個(gè)被稱為多代理強(qiáng)化學(xué)習(xí)的問(wèn)題。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種形式,其中人工智能代理通過(guò)試驗(yàn)和錯(cuò)誤進(jìn)行學(xué)習(xí)。研究人員對(duì)幫助其實(shí)現(xiàn)目標(biāo)的 "良好 "行為給予代理獎(jiǎng)勵(lì)。代理人調(diào)整其行為以最大化該獎(jiǎng)勵(lì),直到它最終成為一項(xiàng)任務(wù)的專家。
但當(dāng)許多合作或競(jìng)爭(zhēng)的代理同時(shí)學(xué)習(xí)時(shí),事情變得越來(lái)越復(fù)雜。隨著代理人考慮到他們同伴的更多未來(lái)步驟,以及他們自己的行為如何影響其他人,這個(gè)問(wèn)題很快就需要太多的計(jì)算能力來(lái)有效解決。這就是為什么其他方法只關(guān)注短期的原因。
“人工智能真的想考慮游戲的結(jié)束,但他們不知道游戲何時(shí)結(jié)束。他們需要思考如何不斷地將自己的行為調(diào)整到無(wú)限大,以便在未來(lái)某個(gè)遙遠(yuǎn)的時(shí)間里獲勝。我們的論文本質(zhì)上提出了一個(gè)新的目標(biāo),使人工智能能夠考慮到無(wú)限大的問(wèn)題?!盞im說(shuō)。
但是,由于不可能把無(wú)限塞進(jìn)算法中,研究人員設(shè)計(jì)了他們的系統(tǒng),使代理人專注于他們的行為將與其他代理人的行為趨同的未來(lái)點(diǎn),即所謂的平衡點(diǎn)。平衡點(diǎn)決定了代理人的長(zhǎng)期表現(xiàn),而且在多代理人的情況下可能存在多個(gè)平衡點(diǎn)。因此,一個(gè)有效的代理人積極影響其他代理人的未來(lái)行為,使他們從代理人的角度達(dá)到一個(gè)理想的均衡點(diǎn)。如果所有的代理人都相互影響,他們就會(huì)收斂到一個(gè)一般的概念,研究人員稱之為 "主動(dòng)均衡"。
他們開(kāi)發(fā)的機(jī)器學(xué)習(xí)框架被稱為FURTHER(代表FUlly Reinforcing acTive influence with averagE Reward),使代理人能夠?qū)W習(xí)如何在與其他代理人互動(dòng)時(shí)調(diào)整自己的行為,以實(shí)現(xiàn)這種主動(dòng)平衡。
FURTHER使用兩個(gè)機(jī)器學(xué)習(xí)模塊來(lái)實(shí)現(xiàn)這一目標(biāo)。第一個(gè)模塊是推理模塊,它使代理人能夠僅根據(jù)其他代理人的先前行動(dòng)來(lái)猜測(cè)他們的未來(lái)行為和他們使用的學(xué)習(xí)算法。
這些信息被送入強(qiáng)化學(xué)習(xí)模塊,代理人利用這些信息來(lái)調(diào)整自己的行為,并以最大化回報(bào)的方式來(lái)影響其他代理人。
“挑戰(zhàn)是對(duì)無(wú)限的思考。我們不得不使用許多不同的數(shù)學(xué)工具來(lái)實(shí)現(xiàn)這一點(diǎn),并做出一些假設(shè),使其在實(shí)踐中發(fā)揮作用?!盞im說(shuō)。
長(zhǎng)遠(yuǎn)的贏家
他們?cè)趲讉€(gè)不同的場(chǎng)景中對(duì)他們的方法與其他多代理強(qiáng)化學(xué)習(xí)框架進(jìn)行了測(cè)試,包括一對(duì)機(jī)器人的相撲式戰(zhàn)斗和兩個(gè)25個(gè)代理團(tuán)隊(duì)的對(duì)戰(zhàn)。在這兩種情況下,使用FURTHER的人工智能代理更經(jīng)常地贏得比賽。
Kim解釋說(shuō),由于他們的方法是分散的,這意味著代理人獨(dú)立學(xué)習(xí)贏得游戲,它也比其他需要中央計(jì)算機(jī)控制代理人的方法更具可擴(kuò)展性。
研究人員用游戲來(lái)測(cè)試他們的方法,但FURTHER可以用來(lái)解決任何類型的多代理問(wèn)題。例如,在許多相互作用的權(quán)利人的行為和利益隨時(shí)間變化的情況下,經(jīng)濟(jì)學(xué)家可以應(yīng)用它來(lái)制定合理的政策。
經(jīng)濟(jì)學(xué)是Kim對(duì)研究的一個(gè)應(yīng)用特別感興趣。他還想更深入地研究主動(dòng)平衡的概念,并繼續(xù)加強(qiáng)FURTHER框架。
這項(xiàng)研究得到了美國(guó)麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室的部分資助。
美國(guó)麻省理工學(xué)院(MIT)的Hyperloop II團(tuán)隊(duì)由一組具有航空航天,機(jī)械,電氣和系統(tǒng)工程背景的多學(xué)科研究人員組成。
MIT四十名學(xué)生合作設(shè)計(jì)和制造了Hyperloop II,這是一種高速、無(wú)摩擦的車輛,旨在通過(guò)空氣懸浮技術(shù)來(lái)運(yùn)載人員或貨物。Hyperloop與許多需要軌道或在真空管運(yùn)行軌道列車不同,這款模型僅需要平坦的表面并能在氣墊上行駛。它不依賴昂貴的磁性系統(tǒng)為其懸浮提供動(dòng)力,不需要高昂的真空環(huán)境。
Hyperloop II是2019年在SpaceX Hyperloop Pod競(jìng)賽中唯一以其功能齊全的空氣懸浮吊艙而聞名。這是一項(xiàng)年度的超級(jí)環(huán)形高鐵車廂大賽大賽,SpaceX公司旨在鼓勵(lì)開(kāi)發(fā)新的運(yùn)輸方式。該團(tuán)隊(duì)在去年比賽中排名第5,并獲得了創(chuàng)新獎(jiǎng)。因?yàn)榇蠡鸫輾Я嗽荚秃螅芎笤搱F(tuán)隊(duì)再次對(duì)其軌道車進(jìn)行了大幅度修改。
美國(guó)MIT開(kāi)發(fā)的AirLev是第一款電動(dòng)高速無(wú)摩擦空氣懸浮軌道車,旨在通過(guò)其空氣懸浮技術(shù)來(lái)運(yùn)載人員或貨物。該團(tuán)隊(duì)在2019年的SpaceX-Hyperloop大賽上展示了升級(jí)版-Hyperloop II,該軌道車在20秒內(nèi),以0到200 mph(時(shí)速200英里/352公里)迅速提升。
2025-06-03 17:10
2025-06-03 17:09
2025-06-03 17:09
2025-06-03 17:09
2025-06-03 17:09
2025-06-03 17:09
2025-06-03 17:09
2025-05-29 23:14
2025-05-29 23:14
2025-05-29 23:13