安冉:接下來帶來報告的嘉賓可以說是一位名副其實的小鮮肉在座的女性朋友一會兒可以看一下,他也是我關(guān)系非常好的小兄弟,速感科技的CEO陳震,我知道他今天剛剛滿24周歲,他的報告題目也非常詩意,讓我們看一下這個報告“為機(jī)器賦能‘看得懂’的智慧”,有請速感科技(北京)有限公司陳震。
速感科技CEO陳震在機(jī)器人大會的演講
陳震:謝謝安冉的介紹,謝謝今天大會在創(chuàng)新創(chuàng)業(yè)論壇有機(jī)會可以向大家來介紹一下分享一下過去我們做的事情。我是速感科技的創(chuàng)始人陳震,今天分享的題目“為機(jī)器賦能‘看得懂’的智慧”。我們本身定位而言不是做像智行者還有納恩博做toC級的消費機(jī)器人,我們是做關(guān)鍵的部件,剛才介紹服務(wù)級的機(jī)器人的時候都提到關(guān)于行動移動決策的時候如何為機(jī)器人和無人駕駛汽車做多傳感器融合的定位和導(dǎo)航方案。其實這里面最關(guān)鍵的核心,我們認(rèn)為其實我們在做的事情就是給現(xiàn)在的機(jī)器人加了一雙眼睛,主要用今天的視覺為主的低成本高效的視覺融合方法來幫助這些設(shè)備解決在三維空間當(dāng)中的定位、感知、導(dǎo)航、避障和路徑規(guī)劃,所以起了這樣一個名字。
速感科技2014年10月份成立,主要致力于幫助下游的行業(yè)客戶包括今天的VR/AR設(shè)備公司,包括今天的服務(wù)機(jī)器人公司,還有掃地機(jī)器人、自動化叉車企業(yè)解決它們的智能設(shè)備在實際過程實際作業(yè)當(dāng)中如何去進(jìn)行自主決策、自主移動和自主定位和感知。今天上午有嘉賓提到,在今天的高校而言,我們這場論壇更偏向青年的創(chuàng)新創(chuàng)業(yè)論壇,里面有老師提出,現(xiàn)在很多的高校對于研究生培養(yǎng)計劃,對于博士、碩士培養(yǎng)計劃里面提到雙導(dǎo)師制。很榮幸從2014年慢慢成立公司走到今天,感謝在創(chuàng)新創(chuàng)業(yè)的環(huán)境下高校包括北航、清華給了我們這樣的機(jī)會,我在研究生剛?cè)雽W(xué)有兩位雙導(dǎo)師制,上午老師提到一位導(dǎo)師是學(xué)術(shù)導(dǎo)師,在整個研究生入學(xué)一年到兩年時間里面對我們進(jìn)行學(xué)術(shù)性的指導(dǎo),包括我的主攻方向是關(guān)于機(jī)器人視覺計算機(jī)人機(jī)交互,如何探討機(jī)器和人之間的交互方式和視覺的交互進(jìn)程的演進(jìn)。第二位導(dǎo)師來自微軟亞洲研究院的許老師,主要幫助我們通過在清華、北航、微軟進(jìn)行合作間的項目型的建立,我主要擔(dān)任的課題就是特種飛行器和特種機(jī)器人,包括服務(wù)機(jī)器人、火場救援機(jī)器人、掃地機(jī)器人和清潔家電機(jī)器人,利用整體的視覺感知系統(tǒng)來達(dá)到實時的常規(guī)性作業(yè)?;谶@樣的環(huán)境下,2014年成立速感科技致力于幫助下游的用戶解決相關(guān)問題。
今年的WRC看到工業(yè)、消費兩個大的展區(qū),分別展示了今天的服務(wù)機(jī)器人包括無人機(jī)包括快遞機(jī)器人、掃地機(jī)器人,還有AR/VR設(shè)備。我們看到在過去的三到五年時間已經(jīng)不斷融入我們的生活,通過一代兩代三代不斷迭代,讓它們更好滿足我們之間的用戶體驗。在這些體驗過程當(dāng)中,大家可能沒有意識到在整個體驗過程當(dāng)中視覺技術(shù)在里面起到非常關(guān)鍵和決定性的作用,它決定了在整個用戶體驗當(dāng)中包括我們的掃地機(jī)器人產(chǎn)品,包括AR/VR設(shè)備如何更好地滿足用戶端在使用防暈眩、更智能的行走這樣一些相關(guān)問題。
提到視覺技術(shù)不得不說在過去的30多年將近40年時間里面,視覺技術(shù)的起源和發(fā)展的關(guān)系。30多年時間機(jī)器人行業(yè)一個重要性的里程碑事件,美國斯坦福機(jī)器人研究嚴(yán)在1980年提出來智能移動機(jī)器人shakey,當(dāng)時搭載了幾乎所有市面上電子行業(yè)能看到的傳感器,包括電子攝像頭、微博測距、接近傳感器,整個完成了自底向上的頂層設(shè)計分層設(shè)計的智能機(jī)器人。這套機(jī)器人在當(dāng)時可以完成局部的環(huán)境數(shù)據(jù)采集,達(dá)到局部的路徑規(guī)劃,在當(dāng)時應(yīng)該是這樣一套自底層向頂層。我們分析底層有機(jī)器人的移動層、決策控制層,中間層有系統(tǒng)中間件,頂層有機(jī)器人的交互系統(tǒng),基本這套系統(tǒng)在今天所有的智能設(shè)備里面一直是在沿用。1980年shakey機(jī)器人的發(fā)明自此拉開智能移動機(jī)器人研究的大幕。
2004年美國發(fā)射了兩顆火星探測車,機(jī)遇號、勇氣號,當(dāng)時應(yīng)該是全球最早搭載多目立體視覺傳感器的探測車,視覺領(lǐng)域應(yīng)用的這些設(shè)備都是最典型的軍轉(zhuǎn)民甚至是航空器轉(zhuǎn)民的過程。最早搭載的好奇號的火星探測車上通過雙目電子攝像機(jī)模擬人眼拿到深度信息,就是今天的距離信息,更好地幫助它在未知的環(huán)境下進(jìn)行移動和決策。在這個時間點2004年提出了一套視覺的同步定位與地圖構(gòu)建算法VSLAM,今天被應(yīng)用到各種各樣的智能設(shè)備里面。2013年中國的第一臺月球探測車玉兔號發(fā)射升空,搭載了更為先進(jìn)的技術(shù),2013年在軍方包括航空器里面已經(jīng)開始應(yīng)用結(jié)構(gòu)光技術(shù)的傳感器,利用雙目立體視覺特別是主動光源的結(jié)構(gòu)光和TOF光源進(jìn)行未知環(huán)境下的探測。在2013年之后的2015年、2016年明星創(chuàng)業(yè)公司深圳大疆發(fā)布SLAM雙目立體視覺定位導(dǎo)航系統(tǒng),可以實時提取出前端人的信息、環(huán)境信息,讓環(huán)境和前景進(jìn)行分離。我們大家都玩過大疆最新的精靈4,上面有自動跟隨的系統(tǒng),主要應(yīng)用這樣一套立體視覺的成像方法,幫助鎖定移動物體進(jìn)行跟蹤。
2015年GOOGLE發(fā)布了Tango手機(jī),美國的創(chuàng)新公司發(fā)布了結(jié)構(gòu)光傳感器,2016年微軟發(fā)布了HoloLens傳感器,在今天的VR/AR設(shè)備,結(jié)合最先進(jìn)的視覺傳感器以及視覺傳感器背后的溶融合視覺方法,解決地圖構(gòu)建和環(huán)境自身定位的相關(guān)問題。整個發(fā)展過程當(dāng)中可以看到,傳統(tǒng)的計算機(jī)視覺領(lǐng)域CV領(lǐng)域在幾何學(xué)上一直分有兩個重要的研究方向,就是今天的學(xué)習(xí)幾何和非學(xué)習(xí)幾何。學(xué)習(xí)幾何過去五年為機(jī)器學(xué)習(xí)深度學(xué)習(xí)為代表的,包括今天的卷積神經(jīng)網(wǎng)絡(luò),還有搭載的淺層和深層的深度學(xué)習(xí),可以幫助我們解決識別感知、場景語義相關(guān)的方式。今天可以看到的最早把字符通過16線的分割來進(jìn)行模式識別,通過搭載一個淺層的深度學(xué)習(xí)網(wǎng)絡(luò),可以幫助它進(jìn)行更好提取到高層的語義特征,進(jìn)行整個特征識別。在今天人臉識別物體識別做得非常好了,特別是人臉識別前段時間Image.Net宣布結(jié)束它的時代任務(wù)已經(jīng)完成。今天大的明星創(chuàng)業(yè)公司包括商湯、曠視做的事情已經(jīng)把人臉識別包括今天的學(xué)習(xí)和感知的算法提升到一個堪比人甚至超過人的高度。
過去三年時間里面ICCV包括CVPR大會上更關(guān)注的一點和更新的起點,在非學(xué)習(xí)多面幾何里面的實時性的SLAM,同步定位與地圖構(gòu)建的算法原理。今年國際的計算機(jī)視覺大會上,我們看到戴文森教授提出深度學(xué)習(xí)和實時SLAM結(jié)合幫助我們進(jìn)行整體的場景語義和同步定位的理解。SLAM系統(tǒng)究竟是什么?為什么過去五年當(dāng)中可以說是一夜爆火,幾乎看到的所有智能硬件里面都應(yīng)用到這樣一個SLAM算法技術(shù)。簡單來說,同步定位和地圖構(gòu)建智行者剛剛提到,很長一段時間里面被人們認(rèn)為是一個雞生蛋和蛋生雞的問題,達(dá)到一個精度的實時定位需要高精度的地圖,依據(jù)地圖能夠知道在環(huán)境當(dāng)中的具體位置。第二,我只有知道了具體位置才能對一個未知的環(huán)境地圖進(jìn)行更好的拼接地圖構(gòu)件,需要同步地位和地圖構(gòu)建不斷相互補(bǔ)充融合迭代,達(dá)到非常理想的實時定位效果。舉個簡單的例子,讓一個機(jī)器人在執(zhí)行任務(wù)的過程當(dāng)中讓它看到冰箱并且去抓取冰箱里面的牛奶,這時候用的是學(xué)習(xí)幾何里面的識別和感知。第二點,我如何讓機(jī)器人從我現(xiàn)在的位置到達(dá)冰箱的位置,在到達(dá)過程當(dāng)中選取最簡單最直接的路徑,并且在過程當(dāng)中如果有人阻擋有障礙物要學(xué)會躲避障礙物躲開人。在這個過程當(dāng)中應(yīng)用的是SLAM技術(shù)。
在SLAM技術(shù)里面,我們認(rèn)為它有三個關(guān)鍵式的里程碑,最為關(guān)鍵的里程碑2003年英國帝國理工學(xué)院的安卓戴維森教授是當(dāng)時最早提出來MonoSLAM系統(tǒng),它的誕生到今天影響了很多服務(wù)機(jī)器人廠商。全球的家電領(lǐng)導(dǎo)者戴森推出的唯一一款掃地機(jī)器人應(yīng)用的就是戴維森教授在2003年提出的MonoSLAM系統(tǒng)。軟銀最近一段時間增持了IROBOT5%的股份,IROBOT最近五年股價從30塊錢到110塊錢/股,整個過程當(dāng)中體現(xiàn)出SLAM系統(tǒng)朝著實時性、低成本、高效的視覺融合的方案演進(jìn)。基于SLAM系統(tǒng)和基于圖形圖象的視覺VSLAM當(dāng)中可以延伸出來不同跟機(jī)器人的決策相關(guān)算法,包括融合定位、路徑規(guī)劃、檢測跟蹤和自主導(dǎo)航,速感科技在過去三年多的時間里面,基于核心的VSLAM系統(tǒng)四個不同方向進(jìn)行更深一步的研究,為下游的工業(yè)和消費類的客戶體了四個方向上的算法和相關(guān)解決方案。
在2012年,我在實驗室跟著師兄師姐一起做項目,用當(dāng)時2010年以色列的PrimeSense和微軟發(fā)布了第一代Kinect傳感器,我們在實驗室進(jìn)行系統(tǒng)性搭建用了這樣一套傳感器結(jié)合英特爾的嵌入式計算機(jī)。當(dāng)時搭載這樣一套視覺系統(tǒng)整個的功耗還有當(dāng)時的實時運算處理效果,在機(jī)器人無人機(jī)上考慮它的有效載荷,整個成本報價,在去年年底把整個前端的視覺采集裝置和后面的嵌入式計算融合到一起推出了傳感器M32,今年推出M01,可以達(dá)到1瓦以內(nèi)的實時功耗,整個定位采集的數(shù)據(jù)可以達(dá)到90赫茲,整個傳感器的重量只有20克。現(xiàn)在面向下游的企業(yè)推出來的這款傳感器的價格是200塊錢左右。在2012、2013年國內(nèi)也好包括國際市場也好,在各個大會上已經(jīng)看到,所有的算法所有的圖形圖樣的算法一直朝著小型化、模塊化和前端化的趨勢上走,
2025-06-03 18:34
2025-06-03 18:33
2025-06-03 18:30
2025-05-28 21:29
2025-05-28 21:24
2025-05-28 21:20
2025-05-26 18:37
2025-05-26 18:35
2025-05-22 13:30
2025-05-19 17:48