国产亚洲综合专区在线播放_91久久精品无码一毛片_香蕉精品亚洲二区在线观看视频在线_(愛妃)欧美精品亚洲精品日韩专区_曰本黄色网站大全_污软件不用充值免费看_日韩欧美一级在线视频免费_思思青青无码在线播放_99热点高清无码中文字幕_中文国产综合免费

首頁> 社群> 機(jī)械工程師@機(jī)器人> 算法專家趙京雷:人人都應(yīng)該懂一點(diǎn)計算機(jī)視覺

算法專家趙京雷:人人都應(yīng)該懂一點(diǎn)計算機(jī)視覺

瀏覽(1969) 評論(0) 贊(4) 收藏(1)
來自: 楊娟 發(fā)布于: 2016-08-08 10:22:17


雷鋒網(wǎng)注:作者趙京雷,閱面科技CEO,上海交通大學(xué)人工智能博士,前阿里巴巴北京算法研究中心負(fù)責(zé)人,專注人工智能算法研究超過15年。本文系雷鋒網(wǎng)獨(dú)家文章。


2016年是人工智能發(fā)展的第60周年,人工智能已經(jīng)走了很長一段路,隨著AlphaGo的輝煌戰(zhàn)績的出現(xiàn),又再次引爆了人工智能在各個領(lǐng)域的發(fā)展。回顧計算機(jī)視覺發(fā)展之路,才能讓我們踩著歷史的積淀,順應(yīng)發(fā)展的大潮,去探索未來。

| 一、計算機(jī)視覺的認(rèn)知依據(jù)

人類對世界的認(rèn)知非常簡單,我們可以一眼看出一個水果是蘋果還是橘子。但是對于機(jī)器來說,我們怎么寫個程序讓機(jī)器來分辨蘋果和橘子呢。


(人類的識別) 

如果讓大家思考,我們會給出各種答案,比如是不是可以讓機(jī)器通過水果的顏色來區(qū)分,或者通過形狀和紋理來區(qū)分等等。                      


(基于顏色、形狀、紋理的識別)

在深度學(xué)習(xí)出現(xiàn)之前,這種基于尋找合適的特征去讓機(jī)器辨識物品的狀態(tài),基本上代表了計算機(jī)視覺的全部。

以顏色特征為例,它是一種在現(xiàn)在依然被廣泛應(yīng)用的特征,我們稱之為顏色直方圖特征。它是一種最簡單、最直觀,對實(shí)際圖片的顏色進(jìn)行數(shù)字化表達(dá)的方式。機(jī)器識別圖片只能用二維的向量來表示。我們都知道顏色的值可以用RGB三原色來表示,顏色直方圖的橫軸代表顏色的RGB數(shù)值,表示一個物品所有顏色的可能性,縱軸則代表了整個圖像具有某個顏色值的像素數(shù)量,其實(shí),通過這樣一種非常直觀的方法,機(jī)器就可以對看到的圖片進(jìn)行顏色表征。在過去的二三十年里,關(guān)于顏色特征的表示有很多探索和研究,比如:各種各樣顏色直方圖的變種,使得計算機(jī)能夠通過二維數(shù)字串的形式,更好地表示圖像的顏色特征,使得其能夠區(qū)分看到的不同物品。

左:(顏色直方圖striker 1995)  右:(顏色距 striker 1995)

以紋理特征為例,桔子會有坑坑洼洼的紋理,而蘋果的紋理則非常光滑。這種局部的紋理刻畫,如何通過數(shù)字串的形式抽象表示出來,和顏色特征一樣,這是過去很多年計算機(jī)視覺一直在探求和優(yōu)化的問題。下圖是計算機(jī)視覺中在各個領(lǐng)域使用較多的紋理特征表示方法示例。


(紋理直方圖)



(SDM)

形狀特征也是一樣,以下兩圖可以直觀的示例計算機(jī)視覺通過形狀特征來進(jìn)行識別。

(Hog:Dalal,2005)

通過這些例子可以看出,計算機(jī)視覺在過去很多年,處理問題的方法很簡單,就是找到一種合適的特征抽象方法,對一個待識別或者待分類問題進(jìn)行特征表達(dá),然后進(jìn)行計算的過程。

如果要做人臉識別,需要尋找到底是顏色特征還是紋理特征或者形狀特征更適于表達(dá),怎么樣能把目標(biāo)問題區(qū)分開來。對人臉來說,顏色的作用不會很大,因?yàn)槿四樀念伾L得都差不多。但是人臉的褶皺、紋理,兩眼之間的距離等可能代表了不同人之間的區(qū)別,可能紋理和結(jié)構(gòu)特征相比更加有效。而如果我們要檢測識別人體,可能紋理特征就不是那么重要,因?yàn)槿藭└鞣N各樣的衣服,但形狀特征就會很重要。所以,過去的計算機(jī)視覺是針對不同的問題,選擇不同的特征表征方法。

二、計算機(jī)視覺的發(fā)展過程

從2006年開始,在將近10年的時間里,計算機(jī)視覺的方法發(fā)生了一個比較本質(zhì)的變化,就是深度學(xué)習(xí)的出現(xiàn),在某種程度上改變了我們前面對計算機(jī)視覺的定義。我們先了解一下計算機(jī)視覺發(fā)展的歷程,看看是基于什么契機(jī)和積累,讓計算機(jī)視覺發(fā)生了這樣的變化。

計算機(jī)視覺的發(fā)展史可以追溯到1966年,著名的人工智能學(xué)家馬文·明斯基給他的本科學(xué)生布置了一道非常有趣的暑假作業(yè),就是讓學(xué)生在電腦前面連一個攝像頭,然后寫一個程序,讓計算機(jī)告訴我們攝像頭看到了什么。大師就是大師,這道題實(shí)在是太有挑戰(zhàn)了,在某種意義上它代表了全部計算機(jī)視覺要做的事情,因此我們認(rèn)為這是一個起點(diǎn)。

上世紀(jì)70年代,研究者開始去試圖解決讓計算機(jī)告知他到底看到了什么東西這個問題。研究者認(rèn)為要讓計算機(jī)認(rèn)知到底看到了什么,可能首先要了解人是怎樣去理解這個世界的。因?yàn)槟菚r有一種普遍的認(rèn)知,認(rèn)為人之所以理解這個世界,是因?yàn)槿耸怯袃芍谎劬,他看到的世界是立體的,他能夠從這個立體的形狀里面理解這個世界。在這種認(rèn)知情況下,研究者希望先把三維結(jié)構(gòu)從圖像里面恢復(fù)出來,在此基礎(chǔ)上再去做理解和判斷。


(David Marr,1970s)

上世紀(jì)80年代,是人工智能發(fā)展的一個非常重要的階段。人工智能界的邏輯學(xué)和知識庫推理大行其道,研究者開始做很多專家推理系統(tǒng),計算機(jī)視覺的方法論也開始在這個階段產(chǎn)生一些改變。人們發(fā)現(xiàn)要讓計算機(jī)理解圖像,不一定先要恢復(fù)物體的三維結(jié)構(gòu)。例如:讓計算機(jī)識別一個蘋果,假設(shè)計算機(jī)事先知道蘋果的形狀或其他特征,并且建立了這樣一個先驗(yàn)知識庫,那么計算機(jī)就可以將這樣的先驗(yàn)知識和看到物體表征進(jìn)行匹配。如果能夠匹配,計算機(jī)就算識別或者理解了看到的物體。所以,80年代出現(xiàn)了很多方法,包括幾何以及代數(shù)的方法,將我們已知的物品轉(zhuǎn)化成一些先驗(yàn)表征,然后和計算機(jī)看到的物品圖像進(jìn)行匹配。


(David Lowe, 1987)

上世紀(jì)90年代,人工智能界又出現(xiàn)了一次比較大的變革,也就是統(tǒng)計方法的出現(xiàn)和流行。在這個階段,經(jīng)歷了一些比較大的發(fā)展點(diǎn),比如現(xiàn)在還廣泛使用的局部特征。前面介紹的形狀、顏色、紋理這些表征,其實(shí)會受到視角的影響,一個人從不同的角度去看物品,它的形狀、顏色、紋理可能都不太一樣。隨著90年代統(tǒng)計方法的流行,研究者找到了一種統(tǒng)計手段,能夠刻畫物品最本質(zhì)的一些局部特征,比如:要識別一輛卡車,通過形狀、顏色、紋理,可能并不穩(wěn)定,如果通過局部特征,即使視角變化了,也會準(zhǔn)確對其進(jìn)行辨識。局部特征的發(fā)展,其實(shí)也導(dǎo)致了后來很多應(yīng)用的出現(xiàn)。比如:圖像搜索技術(shù)真正的實(shí)用,也是由于局部特征的出現(xiàn)。研究者可以對物品建立一個局部特征索引,通過局部特征可以找到相似的物品。其實(shí),通過這樣一些局部點(diǎn),可以讓匹配更加精準(zhǔn)。


(David Lowe, 1999)

到2000年左右,機(jī)器學(xué)習(xí)方法開始盛行。以前需要通過一些規(guī)則、知識或者統(tǒng)計模型去識別圖像所代表的物品是什么,但是機(jī)器學(xué)習(xí)的方法和以前完全不一樣。機(jī)器學(xué)習(xí)能夠從海量數(shù)據(jù)里面去自動歸納物品的特征,然后去識別它。在這樣一個時間點(diǎn),計算機(jī)視覺界有幾個非常有代表性的工作,比如:人臉識別。

要識別一個人臉,第一步需要從圖片里面把待識別的人臉區(qū)域給提取出來,這叫人臉檢測。像在拍照的時候,會看到相機(jī)上有個小方框在閃,那其實(shí)是人臉識別必要的第一步工作,也就是人臉框的檢測。在以前,這是非常困難的工作,但是在2000年左右,出現(xiàn)了一種非常好的算法,它能夠基于機(jī)器學(xué)習(xí),非常快速的去檢測人臉,稱之為Viola&Jones人臉檢測器,這奠定了當(dāng)代計算機(jī)視覺的一個基礎(chǔ)。


(Viola&Jones, 2001)

機(jī)器學(xué)習(xí)的盛行其實(shí)是伴隨著一個必要條件出現(xiàn)的,就是在2000年左右,整個互聯(lián)網(wǎng)的出現(xiàn)和爆發(fā),產(chǎn)生了海量的數(shù)據(jù),大規(guī)模數(shù)據(jù)集也相伴而生,這為通過機(jī)器學(xué)習(xí)的方法來做計算機(jī)視覺提供了很好的土壤。在這期間,出現(xiàn)了大量學(xué)術(shù)官方的,針對不同領(lǐng)域評測的數(shù)據(jù)集。人臉檢測最具有代表性是一個叫FDDB的數(shù)據(jù)集。這個數(shù)據(jù)集包含了超過5000多張人臉數(shù)據(jù),每一張人臉,都人為的用框給框出來,機(jī)器就可以從這些框好的數(shù)據(jù)里面,通過一些機(jī)器學(xué)習(xí)的手段去學(xué)習(xí)從任何一張圖片中找到人臉區(qū)域。


(FDDB,5171 faces, 2845 images)

另外,我們耳熟能詳?shù)囊粋數(shù)據(jù)集是人臉識別數(shù)據(jù)集LFW。提到人臉識別,可能我們聽過“計算機(jī)做人臉識別比人更準(zhǔn)”。其實(shí)這句話是有一定問題,在很多實(shí)際場景里,計算機(jī)做人臉識別連人的70%可能都達(dá)不到。那么在什么情況下,它比人準(zhǔn)呢。有一種情況就是在LFW上。LFW數(shù)據(jù)集里面有1萬多張人臉和5000多個人的數(shù)據(jù),每個人都有在不同情況下拍攝的真實(shí)場景的多張人臉;谶@樣的一個數(shù)據(jù)集,研究者可以在上面評估人臉識別的精度。人臉識別領(lǐng)域發(fā)展非?,尤其是最近幾年深度學(xué)習(xí)的興起后,這個數(shù)據(jù)集變得非;鸨。人在LFW上面的識別正確率大概是97.75%,而機(jī)器已經(jīng)在LFW上可以做到99.75%甚至更要高。


(13233 faces, 5749 people)

在這期間,還出現(xiàn)了其他非常有影響力的數(shù)據(jù)集,其中比較有代表性的就是由李飛飛教授發(fā)起的一個項(xiàng)目IMAGEMET。他通過眾包的方式,標(biāo)注1400萬張圖片,分了大概2萬多個類別,這些類別包羅萬物,比如像動物,里邊可能分為鳥類、魚類等;植物,里面可能會分為樹和花。她的理想很宏大,就是希望提供這樣一個數(shù)據(jù)集,為計算機(jī)視覺算法提供一個數(shù)據(jù)土壤,讓未來的機(jī)器能夠認(rèn)識世界上的一切物品。

在2000年代,人工智能經(jīng)歷了一個快速發(fā)展期以后,整個人工智能在很多行業(yè)取得了非常好的應(yīng)用,比如:視覺之外有搜索引擎排序和計算廣告等等,視覺領(lǐng)域人臉檢測器也被用在了各種各樣的相機(jī)里面。

到2010年代,人工智能進(jìn)入了一個最激動人心的年代,它就是深度學(xué)習(xí)的年代。深度學(xué)習(xí)從本質(zhì)上給整個人工智能帶來了一次革命。在上世紀(jì),有人做了一個貓的實(shí)驗(yàn)。在貓腦袋上開了一個洞,然后在貓的前面放各種各樣的物品,觀察貓在不同物品下的反應(yīng)。通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)我們放一些形狀非常類似的物品時,貓的后腦皮層的相同區(qū)域會表現(xiàn)出同樣的刺激反應(yīng),這一實(shí)驗(yàn)了說明人的視覺系統(tǒng)認(rèn)知是分層的。在早期模擬人腦認(rèn)知的多層神經(jīng)網(wǎng)絡(luò)模型經(jīng)歷2000年左右的一個低谷后,2006年Hinton教授在《科學(xué)》發(fā)表了對于深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法,帶來了深度學(xué)習(xí)的蓬勃發(fā)展。


(LeNet-5, 1998)
上圖左側(cè)是一個普通的三層神經(jīng)網(wǎng)絡(luò)算法,是一種淺層的學(xué)習(xí)方法。在這種淺層神經(jīng)網(wǎng)絡(luò)中,輸入的數(shù)據(jù)依然是人工抽象出來的特征表達(dá),比如顏色、形狀、紋理或者局部特征等。而右邊的則是現(xiàn)在最常使用的一種深度學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò)。從外面來看,最大的改變是其輸入是原始圖像的像素,不再用人工進(jìn)行特征表達(dá)和抽象,而改用神經(jīng)網(wǎng)絡(luò)本身在淺層自動進(jìn)行特征抽象。這是淺層機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型的根本區(qū)別之一。


(Hinton, 2006)


(Li, Tang etl, 2014-2015)

自2006年開始,在接近10年的時間里,整個計算機(jī)視覺界產(chǎn)生了質(zhì)的變化,深度學(xué)習(xí)的出現(xiàn)真正改變了計算機(jī)視覺之前的定義。

| 三、計算機(jī)視覺的應(yīng)用領(lǐng)域

深度學(xué)習(xí)出現(xiàn)以后,對各種各樣的視覺識別任務(wù)的精度都進(jìn)行了大幅度的提升,拿人臉來說,在深度學(xué)習(xí)出現(xiàn)之前,一個普通的識別算法,比如使用顏色、紋理、形狀或者局部特征,可以將各種特征糅合在一起,人臉識別率一般只能做到94%~95%。在很多的實(shí)際系統(tǒng),比如以前用的人臉考勤,可能當(dāng)時的系統(tǒng)只能做到90%~92%的識別率。深度學(xué)習(xí)出現(xiàn)以后,直接將這個精度提高到了99.5%以上,將錯誤率降低了10倍。

這種量級的錯誤率降低意義非凡。比如:把人體識別的精度用到汽車的輔助駕駛系統(tǒng)里邊,如果出現(xiàn)了漏報或錯包,這是非常頭大的事。如果是95%的精度,有100個人經(jīng)過,在一定距離范圍內(nèi),他可能就有五次錯報或者漏報,這肯定是無法接受的。但如果精度再提升10倍或者100倍,比如1萬個人只有5次漏報的話,那這件事可能就是可行了。所以,深度學(xué)習(xí)的出現(xiàn)使得以前視覺方法不太實(shí)用的一些應(yīng)用領(lǐng)域,基本上都可以通過深度學(xué)習(xí)的方法來獲得一個良好的應(yīng)用。

目前計算機(jī)視覺的熱點(diǎn)應(yīng)用在目標(biāo)檢測、目標(biāo)識別、目標(biāo)跟蹤、場景理解、立體視覺等一些領(lǐng)域,人臉識別用的比較多的領(lǐng)域是金融行業(yè),像人臉識別身份驗(yàn)證等;圖像搜索比較直觀的應(yīng)用,如拍一張鞋的照片,在淘寶進(jìn)行搜索,就可以找到類似的鞋。再比如像安防,也是計算機(jī)視覺的一個典型應(yīng)用領(lǐng)域;還有一個非常大的應(yīng)用,就是在機(jī)器人領(lǐng)域,包括整個的智能設(shè)備領(lǐng)域,深度學(xué)習(xí)的出現(xiàn),使得機(jī)器人在視覺能力或者語音能力上,去模仿人的能力成為可能。

隨著深度學(xué)習(xí)的發(fā)展,國內(nèi)也出現(xiàn)了一些專注于深度學(xué)習(xí)的視覺企業(yè),比如專注于金融和安防監(jiān)控的Face++、SenseTime,專注于圖片審核的圖普科技、專注于圖像搜索的衣+,而我們閱面科技則專注于嵌入式視覺和機(jī)器視覺領(lǐng)域。

| 四、我的探索

回顧了計算機(jī)視覺的發(fā)展之路,很多公司在深度學(xué)習(xí)的大潮中順勢而生,包括我們閱面。

深度學(xué)習(xí)的出現(xiàn)使得人工智能的應(yīng)用上產(chǎn)生很多創(chuàng)業(yè)和創(chuàng)新機(jī)會。

比如在和垂直行業(yè)結(jié)合方面,像金融、醫(yī)療行業(yè),這方面應(yīng)用的特點(diǎn)是計算發(fā)生在服務(wù)器端或者云端。

另外一方面的機(jī)會來自于各種各樣的硬件設(shè)備的智能化升級,這方面應(yīng)用的特點(diǎn)是計算的前端化和實(shí)時化。我們都知道以前的智能硬件都很不智能,用戶體驗(yàn)不好。人工智能算法的發(fā)展,會把一系列的硬件設(shè)備變得智能起來,成為真正的智能機(jī)器。

嵌入式視覺,就是幫助各種各樣的智能機(jī)器,通過嵌入視覺算法,讓它擁有一雙像人類一樣的眼睛,能夠去認(rèn)知周邊的人或者場景,該研究應(yīng)用于包括機(jī)器人、智能家居、車載設(shè)備等領(lǐng)域,主要解決人機(jī)交互及場景的感知兩大問題,這兩方面的能力是未來的智能機(jī)器必須具備的核心能力。這也是我們在做的事情。

以智能機(jī)器來舉例,它需要理解人,知道這個人是誰,并且理解人的表情變化以及交互的手勢和人體動作,這其實(shí)就是人機(jī)交互層。智能機(jī)器的場景感知層,就是將智能機(jī)器放在一個陌生環(huán)境里,能夠讓它知道處于什么樣的環(huán)境,能夠讓它識別物品和場景,能夠進(jìn)行自主導(dǎo)航定位,自由行走。計算機(jī)視覺是整個人機(jī)交互和場景感知的未來。

如何為智能機(jī)器提供軟硬件一體的視覺認(rèn)知解決方案?以我們?yōu)槔?/span>

首先在底層構(gòu)建了核心的算法引擎,如人臉識別、手勢識別、人體識別和場景識別等。其次在算法層上,我們做了兩件事:一方面做硬件模組,另一方面做芯片。所有硬件層的努力,都是為了讓底層的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法能夠在嵌入式設(shè)備上能以快速度、低功耗跑起來。通過軟硬件一體化的解決方案,希望能真正幫助未來的智能機(jī)器方便地接入視覺認(rèn)知服務(wù),去認(rèn)知這個世界。

| 五、由深度學(xué)習(xí)的發(fā)展看未來的挑戰(zhàn)

計算機(jī)視覺的發(fā)展當(dāng)然不可能一帆風(fēng)順。

對任何一個視覺識別任務(wù)而言,它的自然條件的變化,比如像姿態(tài)、遮擋,包括光照等各種條件的變化,都會極大的影響它的識別精度和正確率。怎樣去解決這個問題,其實(shí)是整個計算機(jī)視覺面臨的最大挑戰(zhàn)。

深度學(xué)習(xí)擅長的是分類問題,而對于上下文語義的理解,它是非常不擅長的。比如讓它理解人類說的話,在這方面的應(yīng)用這幾年并沒有太多實(shí)質(zhì)性進(jìn)展,這也是我專注做計算機(jī)視覺這件事的原因之一,如果去做自然語言理解,深度學(xué)習(xí)目前的幫助不大,但連續(xù)語義以及上下文的理解是近年深度學(xué)習(xí)模型研究的重點(diǎn),相信未來會有所突破。

深度學(xué)習(xí)確實(shí)帶來了實(shí)質(zhì)性的一個突破,但是針對很多任務(wù),離我們真正想達(dá)到的精度還有不小差距,比如:人體檢測、物品識別的的精度,在真實(shí)場景中比起我們?nèi)祟悾遠(yuǎn)遠(yuǎn)不夠。整個學(xué)術(shù)界對于新一代深度學(xué)習(xí)模式的研究還一直在繼續(xù)。比如:人在認(rèn)識世界的時候,它不僅僅把信息從大腦的初級皮層向深處的神經(jīng)元傳遞。人在理解的時候,心理學(xué)家發(fā)現(xiàn)人腦深層的神經(jīng)元可以反過來指導(dǎo)最開始輸入層的認(rèn)知。所以,我相信深度學(xué)習(xí),在這些年還會從理論模型上帶來比較大的突破,這種突破可能會使得這種模型越來越逼近我們?nèi)藢π畔⒌奶幚怼?/span>

計算機(jī)視覺之路,路漫漫,其修遠(yuǎn),吾將上下而求索。


雷鋒網(wǎng)注:轉(zhuǎn)載請聯(lián)系我們授權(quán),并保留出處和作者,不得刪減內(nèi)容。

他們都在說 (共0 條評論)

我要說

你好,請 登錄 注冊 后再進(jìn)行評論!

請先登錄

客戶端

客戶端

觸屏版

觸屏版

網(wǎng)頁版

網(wǎng)頁版

分享到: