谷歌和 Waymo 的 4D-Net 旨在解決在遠(yuǎn)處準(zhǔn)確檢測物體(如其他車輛和行人)的問題,提供了一種新穎且可推廣的傳感器融合方法,并取得了一些令人印象深刻的結(jié)果。
4D-Net 旨在找到隨時間捕獲的 2D 圖像和 3D 點(diǎn)云數(shù)據(jù)之間的鏈接,極大地促進(jìn)了遠(yuǎn)程目標(biāo)檢測。
安全、可靠的自動駕駛汽車的關(guān)鍵——甚至高于其車載自動駕駛系統(tǒng)的智能程度——可能在于它處理傳感器數(shù)據(jù)的效率。就像人類駕駛員的視力測試一樣,重要的是要知道自動駕駛汽車系統(tǒng)可以發(fā)現(xiàn)危險并做出相應(yīng)的反應(yīng)——無論問題有多小或多遠(yuǎn)。
傳統(tǒng)的二維攝像頭系統(tǒng)和三維傳感器,如 LiDAR(光檢測和測距),可能不足以實(shí)現(xiàn)完全的可靠性和安全性,谷歌和 Alphabet 的自動駕駛汽車子公司 Waymo 的一個團(tuán)隊研究了第四維: 4D-Net,一種對象檢測方法,將二維和三維數(shù)據(jù)與第四維時間融合在一起,聲稱性能顯著提高。
時間足夠
谷歌研究科學(xué)家和論文合著者 AJ Piergiovanni 和 Anelia Angelova 在一份關(guān)于工作。“我們還引入了一種動態(tài)連接學(xué)習(xí)方法,該方法通過跨兩種特征表示執(zhí)行連接學(xué)習(xí)來整合來自場景的 4D 信息。”
4D-Net 方法源于一個簡單的觀察:大多數(shù)配備傳感器的現(xiàn)代車輛包括二維和三維傳感器,通常采用多個攝像頭模塊和 LiDAR 的形式,數(shù)據(jù)是在一段時間內(nèi)收集的——但是很少有人努力將所有內(nèi)容集中在一個地方并作為一個整體進(jìn)行處理。
4D-Net 系統(tǒng)旨在通過將二維相機(jī)圖像與 3D 點(diǎn)云數(shù)據(jù)相結(jié)合來提高遠(yuǎn)距離物體識別的準(zhǔn)確性——所有這些數(shù)據(jù)都被收集起來以捕捉運(yùn)動。
4D-Net 解決了這一差距,將 3D 點(diǎn)云數(shù)據(jù)與可見光相機(jī)圖像混合,同時通過處理在設(shè)定時間段內(nèi)捕獲的一系列數(shù)據(jù)來混合時間元素。其成功的秘訣:一種新穎的學(xué)習(xí)技術(shù),它可以自主地發(fā)現(xiàn)和建立數(shù)據(jù)之間的聯(lián)系,在不同的層次上動態(tài)地融合它,以便單獨(dú)提高任何數(shù)據(jù)饋送的性能。
“時間圖像信息量很大,并且與靜止圖像和 PCiT [時間點(diǎn)云] 相輔相成,”研究人員解釋了該方法的好處。“事實(shí)上,對于具有挑戰(zhàn)性的檢測案例,運(yùn)動可能是一個非常有力的線索。雖然可以在 3D 中捕獲運(yùn)動,但純粹基于 PC [點(diǎn)云] 的方法可能會因?yàn)閭鞲邢∈栊远e過此類信號'’——順便說一句,同樣的問題意味著 LiDAR 傳感器可能會錯過遠(yuǎn)處或小的物體,但在可見光攝像系統(tǒng)或駕駛員的肉眼上拾取。
機(jī)器學(xué)習(xí)時間
為了處理這兩種類型的數(shù)據(jù),團(tuán)隊轉(zhuǎn)向一系列預(yù)處理步驟。3D 點(diǎn)云數(shù)據(jù)通過 PointPillars 運(yùn)行,PointPillars 是一種用于將數(shù)據(jù)轉(zhuǎn)換為偽圖像的系統(tǒng),可以使用為二維數(shù)據(jù)設(shè)計的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行進(jìn)一步處理,每個點(diǎn)添加一個時間指示器以創(chuàng)建包括運(yùn)動在內(nèi)的更密集的表示。還使用了轉(zhuǎn)換為固定大小的表示,有效地對點(diǎn)云進(jìn)行二次采樣——這種方法在數(shù)據(jù)稀疏的地方使點(diǎn)云變密,在數(shù)據(jù)密集的地方使其稀疏,從而提高遠(yuǎn)距離的性能。
與此同時,二維相機(jī)數(shù)據(jù)通過 Tiny Video Networks 處理成特征圖,然后投影數(shù)據(jù)以將 3D 點(diǎn)與 2D 圖像上的對應(yīng)點(diǎn)對齊——這一過程假設(shè)“校準(zhǔn)和同步傳感器”。對于位于車輛攝像頭視野之外的點(diǎn)云數(shù)據(jù),應(yīng)用零向量。
使用多種分辨率的圖像和視頻饋送的 4D-Net 系統(tǒng)變體被證明是理想的,在基準(zhǔn)測試中比單饋送變體提供額外的精度增益。
然而,4D-Net 系統(tǒng)真正聰明的部分在于其連接架構(gòu)搜索的形式——它能夠從融合數(shù)據(jù)中提取最多、最合適的信息。一次性輕量級可微架構(gòu)搜索可在 3D 和時間中找到相關(guān)信息,并將其連接到兩種不同的傳感模式 - 并學(xué)習(xí)兩個傳感器在不同抽象級別的特征表示組合。
“[This] 非常強(qiáng)大!“該團(tuán)隊解釋說:“因?yàn)樗试S學(xué)習(xí)不同級別的特征抽象和不同特征來源之間的關(guān)系。為了進(jìn)一步調(diào)整自動駕駛汽車的方法,該團(tuán)隊根據(jù)自我注意機(jī)制的概念將連接修改為動態(tài)的,允許網(wǎng)絡(luò)動態(tài)選擇特定的可見光數(shù)據(jù)塊進(jìn)行信息提取——這意味著它可以學(xué)習(xí)如何和在哪里根據(jù)可變輸入選擇特征。
令人印象深刻的結(jié)果
測試系統(tǒng)的單流和多流變體,后者以靜態(tài)圖像和以不同分辨率運(yùn)行的視頻饋送形式引入額外的輸入流,該團(tuán)隊聲稱與競爭對手的狀態(tài)相比取得了一些令人印象深刻的收益-最先進(jìn)的方法。
針對 Waymo 開放數(shù)據(jù)集進(jìn)行測試,4D-Net 提高了所有測試競爭對手方法的平均精度 (AP)。雖然平均而言,它的性能被證明在較短的距離上較弱,但據(jù)報道,它識別更遠(yuǎn)物體的能力——尤其是 50 米以上的范圍——是無與倫比的,尤其是在多流模式下運(yùn)行時。
該團(tuán)隊的實(shí)驗(yàn)表明,4D-Net 在中遠(yuǎn)距離與競爭對手的方法相比有顯著的準(zhǔn)確度提升,盡管在較短的檢測距離下準(zhǔn)確度有所下降。
“我們展示了改進(jìn)的最先進(jìn)性能和具有競爭力的推理運(yùn)行時間。”該團(tuán)隊總結(jié)道:“盡管及時使用了 4D 傳感和兩種模式。在不失一般性的情況下,相同的方法可以擴(kuò)展到其他 RGB 圖像流,例如,為高度遮擋的對象提供關(guān)鍵信息的側(cè)攝像頭,或用于 PC [點(diǎn)云] 或圖像的各種可學(xué)習(xí)特征表示,或其他傳感器。”
研究人員建議,4D-Net 方法也可以用于自動駕駛領(lǐng)域之外,只要需要通過自動對齊音頻、視頻、文本和圖像數(shù)據(jù)來捕獲同一領(lǐng)域的不同方面。
該團(tuán)隊的工作在 2021 年計算機(jī)視覺國際會議 (ICCV) 上進(jìn)行了介紹,并已在開放獲取條款下提供。Google AI 博客上提供了 AJ Piergiovanni 和 Anelia Angelova 的支持性文章。研究人員已承諾在開源許可下提供他們的代碼,但在撰寫本文時尚未發(fā)布。
2025-07-03 23:09
2025-07-03 23:07
2025-07-03 23:06
2025-07-03 23:04
2025-07-03 23:04
2025-07-03 23:03
2025-07-03 23:02
2025-07-03 23:01
2025-07-03 23:01
2025-07-03 22:59