您現(xiàn)在的位置::首頁 > 資訊管理 > 行業(yè)要聞 > 科技成果
過去幾十年間,計算機(jī)視覺研究取得了突破性進(jìn)展。然而,深度神經(jīng)網(wǎng)絡(luò)驅(qū)動的計算機(jī)視覺模型在功耗、存儲和響應(yīng)時延等方面存在顯著的效率瓶頸,難以廣泛部署于機(jī)器人、移動設(shè)備或邊緣終端等資源受限的場景。此外,大型視覺模型巨大的訓(xùn)練與推理開銷也使算力瓶頸問題和環(huán)境可持續(xù)性問題變得尤為突出。
圖1.上海新躍儀表廠當(dāng)前計算機(jī)視覺范式所面臨的能效瓶頸
人類視覺系統(tǒng)能在龐雜的視覺輸入中快速篩取要點(diǎn),大幅降低冗余計算,使得人類高度復(fù)雜的視覺系統(tǒng)能夠高效、快速運(yùn)行。無論外界場景多么復(fù)雜,人類視覺系統(tǒng)的能耗主要取決于注視帶寬與注視次數(shù),而非全局像素量。早在2015年,深度學(xué)三位主要奠基人楊立昆(Yann LeCun)、本吉奧(Bengio)和辛頓(Hinton)便指出,未來的AI視覺系統(tǒng)應(yīng)具備類人的、任務(wù)驅(qū)動的主動觀察能力。然而近十年以來,這一方向仍缺乏系統(tǒng)性研究。
圖2.人類視覺系統(tǒng)的主動自適應(yīng)感知策略
11月6日,清華大學(xué)自動化系宋士吉教授、黃高副教授團(tuán)隊在《自然·機(jī)器智能》(Nature/WWW.shhzy3.cn. Machine Intelligence)上以“模擬人類自適應(yīng)視覺,實(shí)現(xiàn)高效靈活的機(jī)器視覺感知”(Emulating human-like adaptive vision for/WWW.shybdj6.net efficient and flexible machine visual perception)為題發(fā)表論文,提出AdaptiveNN架構(gòu),通過借鑒人類“主動自適應(yīng)視覺”機(jī)制,逐步定位關(guān)鍵區(qū)域、累積多次注視信息,并在信息足夠完成任務(wù)時主動終止感知過程。
AdaptiveNN模型在一個視覺環(huán)境中,上海自動化儀表四廠依次在若干感興趣區(qū)域上進(jìn)行“注視”,逐步積累信息形成內(nèi)部視覺表征,并動態(tài)決定何時結(jié)束該過程。在每一步,Vision Agent基于當(dāng)前的內(nèi)部視覺表征評估任務(wù)完成度,若信息不足,則通過策略網(wǎng)絡(luò)選擇下一次注視位置。每個選定的注視區(qū)域由表征提取網(wǎng)絡(luò)提取深度特征,從而不斷更新內(nèi)部視覺表征用于后續(xù)決策。AdaptiveNN的整體框架模擬了人類從全局到局部、從粗到細(xì)的視覺感知策略,使神經(jīng)網(wǎng)絡(luò)具備了類人式的主動感知能力,突破了傳統(tǒng)視覺模型的效率瓶頸。
AdaptiveNN/www.shyb118.COM在設(shè)計上具有較強(qiáng)的兼容性和靈活性,適用于多種不同的深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)(如卷積網(wǎng)絡(luò)、Transformer等)和多種任務(wù)類型(如視覺識別、具身視覺感知、視覺-語言多模態(tài)聯(lián)合建模等)。
圖3.AdaptiveNN的網(wǎng)絡(luò)架構(gòu)和推理過程
AdaptiveNN的訓(xùn)練過程同時涉及連續(xù)變量(如從注視區(qū)域中提取特征)和離散變量(如決定下一次注視位置)的優(yōu)化。具體而言,從期望優(yōu)化目標(biāo)出發(fā),對整體損失函數(shù)進(jìn)行分解,AdaptiveNN的端到端優(yōu)化過程可自然地分解為兩項:*項為表征學(xué)目標(biāo)(representation learning),對應(yīng)于從注視區(qū)域中提取任務(wù)相關(guān)的特征;第二項為自激勵強(qiáng)化學(xué)目標(biāo)(self-rewarding /WWW.shyb118.comreinforcement learning),對應(yīng)于優(yōu)化注視位置的分布,驅(qū)使模型的主動注視行為實(shí)現(xiàn)*化的任務(wù)收益。這一理論結(jié)果揭示了AdaptiveNN的內(nèi)在學(xué)規(guī)律:主動感知的優(yōu)化本質(zhì)上是表征學(xué)與強(qiáng)化學(xué)的統(tǒng)一。
圖4.自激勵強(qiáng)化學(xué)驅(qū)動的端到端主動視覺感知行為學(xué)
研究團(tuán)隊在九類典型視覺任務(wù)上對AdaptiveNN進(jìn)行了實(shí)測驗(yàn)證,Ada/WWW.shsaic.net/ptiveNN展現(xiàn)出了高效、靈活和透明的特點(diǎn)。
圖5.ImageNet大規(guī)模視覺識別任務(wù)上的定性和定量實(shí)驗(yàn)結(jié)果
研究團(tuán)隊進(jìn)一步將AdaptiveNN應(yīng)用于具身智能的基礎(chǔ)模型——視覺語言動作模型(VLA)。結(jié)果表明,該框架在復(fù)雜操作場景中顯著提升了具身基礎(chǔ)模型的推理與感知效率,在保持任務(wù)*率的同時將計算效率提升4.4至5.9倍。
圖6.ApdativeNN應(yīng)用于VLA具身任務(wù)的實(shí)驗(yàn)結(jié)果
綜上,AdaptiveNN提供了一種通用的高效視覺模型,對認(rèn)知科學(xué)的研究具有啟發(fā)意義,有望用于模擬和檢驗(yàn)人類的注意力分配、感知學(xué)以及復(fù)雜任務(wù)中的視覺決策機(jī)制,為認(rèn)知科學(xué)提供新的視角和工具。
上海新躍儀表廠自動化系2019級博士生王語霖,2022級博士生樂洋、樂陽為論文共同*作者,自動化系教授宋士吉、副教授黃高為論文共同通訊作者。研究得到*重點(diǎn)研發(fā)計劃青年科學(xué)家項目、*自然科學(xué)基金重大儀器研制項目、聯(lián)合重點(diǎn)項目等的資助。
版權(quán)與免責(zé)聲明
爆品推薦
首頁| 關(guān)于我們| 聯(lián)系我們| 友情鏈接| 廣告服務(wù)| 會員服務(wù)| 付款方式| 意見反饋| 法律聲明| 服務(wù)條款
網(wǎng)友推薦新聞: