在CCF GAIR 2019(全球人工智能與機(jī)器人峰會(huì))上,騰訊AI Lab Robotics X實(shí)驗(yàn)室主任張正友博士以其深厚的學(xué)術(shù)積淀與前沿的產(chǎn)業(yè)視角,發(fā)表了題為“計(jì)算機(jī)視覺(jué)的三生三世”的精彩演講。本次演講不僅系統(tǒng)梳理了計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展脈絡(luò),更結(jié)合騰訊在AI與機(jī)器人領(lǐng)域的探索,揭示了該技術(shù)從感知到認(rèn)知、再到行動(dòng)的演進(jìn)軌跡,以及對(duì)未來(lái)技術(shù)開(kāi)發(fā)和產(chǎn)業(yè)應(yīng)用的深遠(yuǎn)影響。
第一生:從“看見(jiàn)”到“看懂”——感知智能的崛起
張正友博士首先回顧了計(jì)算機(jī)視覺(jué)的“第一生”,即從圖像處理到模式識(shí)別的經(jīng)典時(shí)期。這一階段的核心目標(biāo)是讓機(jī)器“看見(jiàn)”,即從像素中提取邊緣、角點(diǎn)、紋理等特征,進(jìn)而完成物體識(shí)別、目標(biāo)檢測(cè)等基礎(chǔ)任務(wù)。算法從傳統(tǒng)的SIFT、HOG特征描述子,發(fā)展到基于統(tǒng)計(jì)學(xué)習(xí)的模型。這一時(shí)期的技術(shù)突破,為安防、醫(yī)療影像等領(lǐng)域的初步自動(dòng)化奠定了基礎(chǔ),但機(jī)器的“理解”仍停留在表層特征匹配,缺乏對(duì)場(chǎng)景的深度語(yǔ)義解析。
第二世:深度學(xué)習(xí)的革命——認(rèn)知智能的飛躍
演講的重點(diǎn)落在了計(jì)算機(jī)視覺(jué)的“第二世”,即深度學(xué)習(xí)驅(qū)動(dòng)下的爆發(fā)式增長(zhǎng)。張博士指出,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的復(fù)興,尤其是AlexNet在2012年ImageNet競(jìng)賽中的突破性表現(xiàn),徹底改變了領(lǐng)域格局。機(jī)器不再僅僅“看見(jiàn)”輪廓,而是開(kāi)始“看懂”內(nèi)容——識(shí)別千類(lèi)萬(wàn)物、理解復(fù)雜場(chǎng)景、甚至生成逼真圖像。這一階段,計(jì)算機(jī)視覺(jué)技術(shù)與自然語(yǔ)言處理、語(yǔ)音識(shí)別深度融合,催生了跨模態(tài)理解能力,例如圖像描述、視覺(jué)問(wèn)答等。張博士分享了騰訊AI Lab在視頻理解、人臉識(shí)別、醫(yī)療影像分析等方面的前沿成果,體現(xiàn)了認(rèn)知智能在產(chǎn)業(yè)落地中的巨大價(jià)值。
第三世:從認(rèn)知到行動(dòng)——具身智能的未來(lái)
最為前瞻的部分,張正友博士闡述了正在開(kāi)啟的“第三世”:計(jì)算機(jī)視覺(jué)與機(jī)器人學(xué)的深度融合,即“具身視覺(jué)”或“機(jī)器人視覺(jué)”。這標(biāo)志著技術(shù)從被動(dòng)“看懂”世界,邁向主動(dòng)“交互”與“改變”世界。在這一階段,視覺(jué)系統(tǒng)不僅是感知器官,更是機(jī)器人決策與行動(dòng)的核心導(dǎo)航與反饋系統(tǒng)。它需要解決動(dòng)態(tài)環(huán)境中的實(shí)時(shí)定位與地圖構(gòu)建(SLAM)、手眼協(xié)調(diào)、復(fù)雜操作等挑戰(zhàn)。作為騰訊Robotics X實(shí)驗(yàn)室的負(fù)責(zé)人,張博士特別強(qiáng)調(diào)了其在機(jī)器人感知、決策與控制一體化方面的探索,例如靈巧操作、移動(dòng)導(dǎo)航等,目標(biāo)是打造能夠適應(yīng)復(fù)雜物理世界的智能體。這不僅是技術(shù)的演進(jìn),更是計(jì)算機(jī)視覺(jué)從虛擬信息處理走向?qū)嶓w世界交互的關(guān)鍵一躍,將為智能制造、無(wú)人駕駛、家庭服務(wù)機(jī)器人等帶來(lái)革命性變化。
計(jì)算機(jī)技術(shù)開(kāi)發(fā)的啟示與展望
貫穿整個(gè)演講,張正友博士結(jié)合其領(lǐng)導(dǎo)騰訊AI Lab Robotics X的實(shí)踐經(jīng)驗(yàn),對(duì)計(jì)算機(jī)技術(shù)開(kāi)發(fā)提出了深刻見(jiàn)解。他認(rèn)為,未來(lái)技術(shù)的發(fā)展必然是跨學(xué)科的融合,計(jì)算機(jī)視覺(jué)需要與強(qiáng)化學(xué)習(xí)、機(jī)器人學(xué)、認(rèn)知科學(xué)更緊密結(jié)合。技術(shù)的落地必須緊密結(jié)合真實(shí)場(chǎng)景的需求,解決數(shù)據(jù)稀缺、模型可解釋性、安全倫理等核心挑戰(zhàn)。騰訊正通過(guò)“AI in All”的戰(zhàn)略,將包括視覺(jué)在內(nèi)的AI能力賦能于游戲、內(nèi)容、社交、醫(yī)療等廣泛領(lǐng)域,而Robotics X則聚焦于前沿的通用人工智能與實(shí)體智能研究。
張正友博士在CCF GAIR 2019的演講,以“三生三世”為喻,清晰勾勒出計(jì)算機(jī)視覺(jué)從感知、認(rèn)知到行動(dòng)的宏大技術(shù)史詩(shī)。這既是對(duì)過(guò)往成就的,更是對(duì)尤其是視覺(jué)與機(jī)器人結(jié)合所開(kāi)啟的“第三世”的激昂展望。它為全球的計(jì)算機(jī)技術(shù)開(kāi)發(fā)者與研究者指明了一個(gè)方向:人工智能的終極使命,或許是創(chuàng)造出能夠像人一樣,通過(guò)視覺(jué)感知世界、理解世界并最終靈巧作用于世界的智能機(jī)器。騰訊在此征程中的布局與實(shí)踐,無(wú)疑將成為推動(dòng)這一未來(lái)加速到來(lái)的重要力量。