北理工賈云德《計(jì)算機(jī)視覺》chapter01引論
《北理工賈云德《計(jì)算機(jī)視覺》chapter01引論》由會員分享,可在線閱讀,更多相關(guān)《北理工賈云德《計(jì)算機(jī)視覺》chapter01引論(12頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-----傾情為你奉上 第一章 引論 人類在征服自然、改造自然和推動社會進(jìn)步的過程中,面臨著自身能力、能量的局限性,因而發(fā)明和創(chuàng)造了許多機(jī)器來輔助或代替人類完成任務(wù).智能機(jī)器,包括智能機(jī)器人,是這種機(jī)器最理想的形式,也是人類科學(xué)研究中所面臨的最大挑戰(zhàn)之一.智能機(jī)器是指這樣一種系統(tǒng),它能模擬人類的功能,能感知外部世界并有效地解決人所能解決問題.人類感知外部世界主要是通過視覺、觸覺、聽覺和嗅覺等感覺器官,其中約80%的信息是由視覺獲取的.因此,對于智能機(jī)器來說,賦予機(jī)器以人類視覺功能對發(fā)展智能機(jī)器是及其重要的,也由此形成了一門新的學(xué)科—機(jī)器視覺(也稱計(jì)算機(jī)視覺或圖像分
2、析與理解等).機(jī)器視覺的發(fā)展不僅將大大推動智能系統(tǒng)的發(fā)展,也將拓寬計(jì)算機(jī)與各種智能機(jī)器的研究范圍和應(yīng)用領(lǐng)域. 機(jī)器視覺是研究用計(jì)算機(jī)來模擬生物外顯或宏觀視覺功能的科學(xué)和技術(shù).機(jī)器視覺系統(tǒng)的首要目標(biāo)是用圖像創(chuàng)建或恢復(fù)現(xiàn)實(shí)世界模型,然后認(rèn)知現(xiàn)實(shí)世界.機(jī)器視覺系統(tǒng)獲取的場景圖像一般是灰度圖像,即三維場景在二維平面上的投影.因此,場景三維信息只能通過灰度圖像或灰度圖像序列來恢復(fù)處理,這種恢復(fù)需要進(jìn)行多點(diǎn)對一點(diǎn)的映射逆變換.在信息恢復(fù)過程中,還需要有關(guān)場景知識和投影幾何知識. 機(jī)器視覺是一個相當(dāng)新且發(fā)展十分迅速的研究領(lǐng)域,并成為計(jì)算機(jī)科學(xué)的重要研究領(lǐng)域之一.機(jī)器視覺是在20世紀(jì)50年代從統(tǒng)計(jì)模
3、式識別開始的[1],當(dāng)時(shí)的工作主要集中在二維圖像分析和識別上,如光學(xué)字符識別,工件表面、顯微圖片和航空圖片的分析和解釋等.60年代,Roberts(1965)通過計(jì)算機(jī)程序從數(shù)字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結(jié)構(gòu),并對物體形狀及物體的空間關(guān)系進(jìn)行描述[Roberts 1965].Roberts 的研究工作開創(chuàng)了以理解三維場景為目的的三維機(jī)器視覺的研究.Roberts對積木世界的創(chuàng)造性研究給人們以極大的啟發(fā),許多人相信,一旦由白色積木玩具組成的三維世界可以被理解,則可以推廣到理解更復(fù)雜的三維場景.于是,人們對積木世界進(jìn)行了深入的研究,研究的范圍從邊緣、角點(diǎn)等特征提取,到線條
4、、平面、曲面等幾何要素分析,一直到圖像明暗、紋理、運(yùn)動以及成像幾何等,并建立了各種數(shù)據(jù)結(jié)構(gòu)和推理規(guī)則.到了70年代,已經(jīng)出現(xiàn)了一些視覺應(yīng)用系統(tǒng)[Guzman 1969, Mackworth 1973,]. 70年代中期,麻省理工學(xué)院(MIT)人工智能(AI)實(shí)驗(yàn)室正式開設(shè)“機(jī)器視覺”(?Machine Vision)課程,由國際著名學(xué)者B.K.P.Horn教授講授.同時(shí),MIT AI 實(shí)驗(yàn)室吸引了國際上許多知名學(xué)者參與機(jī)器視覺的理論、算法、系統(tǒng)設(shè)計(jì)的研究,David Marr教授就是其中的一位.他于1973年應(yīng)邀在MIT AI 實(shí)驗(yàn)室領(lǐng)導(dǎo)一個以博士生為主體的研究小組,1977年提出了不同于"
5、積木世界"分析方法的計(jì)算視覺理論(computational vision),該理論在80年代成為機(jī)器視覺研究領(lǐng)域中的一個十分重要的理論框架. 可以說,對機(jī)器視覺的全球性研究熱潮是從 20世紀(jì)80年代開始的,到了80年代中期,機(jī)器視覺獲得了蓬勃發(fā)展,新概念、新方法、新理論不斷涌現(xiàn),比如,基于感知特征群的物體識別理論框架,主動視覺理論框架,視覺集成理論框架等. 到目前為止,機(jī)器視覺仍然是一個非常活躍的研究領(lǐng)域.許多會議論文集都反應(yīng)了該領(lǐng)域的最新進(jìn)展,比如,International Conference on Computer Vision and Pattern Recognition(C
6、VPR); International Conference on Computer Vision(ICCV); International Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE.還有許多學(xué)術(shù)期刊也包含了這一領(lǐng)域的最新研究成果, 如,IEEE Transaction on Pattern Analysis and
7、 Machine Intelligence(PAMI); Computer Vision, Graphics, and Image Processing(CVGIP); IEEE Transaction on Image Processing; IEEE Transaction on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern
8、Recognition.每年還出版許多研究專集、學(xué)術(shù)著作、技術(shù)報(bào)告,舉行專題討論會等.所有這些都是研究機(jī)器視覺及其應(yīng)用的很好信息來源. 1.2 Marr的視覺計(jì)算理論 Marr的視覺計(jì)算理論[Marr1982]立足于計(jì)算機(jī)科學(xué),系統(tǒng)地概括了心理生理學(xué)、神經(jīng)生理學(xué)等方面業(yè)已取得的所有重要成果,是視覺研究中迄今為止最為完善的視覺理論.Marr建立的視覺計(jì)算理論,使計(jì)算機(jī)視覺研究有了一個比較明確的體系,并大大推動了計(jì)算機(jī)視覺研究的發(fā)展.人們普遍認(rèn)為,計(jì)算機(jī)視覺這門學(xué)科的形成與Marr的視覺理論有著密切的關(guān)系.事實(shí)上,盡管20世紀(jì)70年代初期就有人使用計(jì)算機(jī)視覺這個名詞[Binford,1971
9、],但正是Marr 70年代末建立的視覺理論促使計(jì)算機(jī)視覺這一名詞的流行.下面簡要地介紹Marr的視覺理論的基本思想及其理論框架. 1.2.1 三個層次 Marr認(rèn)為, 視覺是一個信息處理系統(tǒng),對此系統(tǒng)研究應(yīng)分為三個層次:計(jì)算理論層次,表示(representation)與算法層次,硬件實(shí)現(xiàn)層次,如表1-1所示. 表1-1 計(jì)算理論 表示和算法 硬件實(shí)現(xiàn) 計(jì)算的目的是什么? 如何實(shí)現(xiàn)這個計(jì)算理論? 在物理上如何實(shí)現(xiàn) 為什么這一計(jì)算是合適的? 輸入、輸出的表示是什么?
10、 這些表示和算法? 執(zhí)行計(jì)算的策略是什么? 表示與表示之間的變換是什么? 按照Marr的理論,計(jì)算視覺理論要回答視覺系統(tǒng)的計(jì)算目的和策略是什么,或視覺系統(tǒng)的輸入和輸出是什么,如何由系統(tǒng)的輸入求出系統(tǒng)的輸出.在這個層次上,信息系統(tǒng)的特征是將一種信息(輸入)映射為另一種信息(輸出).比如,系統(tǒng)輸入是二維灰度圖像,輸出則是三維物體的形狀、位置和姿態(tài),視覺系統(tǒng)的任務(wù)就是如何建立輸入輸出之間的關(guān)系和約束,如何由二維灰度圖像恢復(fù)物體的三維信息.表示與算法層次是要進(jìn)一步回答如何表示輸入和輸出信息,如何實(shí)現(xiàn)計(jì)算理論所對應(yīng)的功能的算法,以及如何由一種表示變換成
11、另一種表示,比如創(chuàng)建數(shù)據(jù)結(jié)構(gòu)和符號.一般來說,不同的輸入、輸出和計(jì)算理論,對應(yīng)不同的表示,而同一種輸入、輸出或計(jì)算理論可能對應(yīng)若干種表示.在解決了理論問題和表示問題后,最后一個層次是解決用硬件實(shí)現(xiàn)上述表示和算法的問題,比如計(jì)算機(jī)體系結(jié)構(gòu)及具體的計(jì)算裝置及其細(xì)節(jié).從信息處理的觀點(diǎn)來看,至關(guān)重要的乃是最高層次,即計(jì)算理論層次.這是因?yàn)闃?gòu)成知覺的計(jì)算本質(zhì),取決于解決計(jì)算問題本身,而不取決于用來解決計(jì)算問題的特殊硬件.換句話說,通過正確理解待解決問題的本質(zhì),將有助于理解并創(chuàng)造算法. 如果考慮解決問題的機(jī)制和物理實(shí)現(xiàn),則對理解算法往往無濟(jì)于事. 上述三個層次之間存在著邏輯的因果關(guān)系,但它們之間的聯(lián)系不
12、是十分緊密,因此,某些現(xiàn)象只能在其中一個或兩個層次上進(jìn)行解釋.比如神經(jīng)解剖學(xué)原則上與第三層次即物理實(shí)現(xiàn)聯(lián)系在一起.突觸機(jī)制、動作電位、抑制性相互作用都在第三個層次上.心理物理學(xué)與第二層次(即表示與算法)有著更直接的聯(lián)系.更一般地說,不同的現(xiàn)象必須在不同的層次上進(jìn)行解釋,這會有助于人們把握正確的研究方向.例如,人們常說,人腦完全不同于計(jì)算機(jī),因?yàn)榍罢呤遣⑿屑庸さ?,后者是串行的.對于這個問題,應(yīng)該這樣回答:并行加工和串行加工是在算法這個層次上的區(qū)別,而不是根本性的區(qū)別, 因?yàn)槿魏我粋€并行的計(jì)算程序都可以寫成串行的程序.因此,這種并行與串行的區(qū)別并不支持這種觀點(diǎn),即人腦的運(yùn)行與計(jì)算機(jī)的運(yùn)算是不同的,
13、因而人腦所完成的任務(wù)是不可能通過編制程序用計(jì)算機(jī)來完成. 1.2.2 視覺表示框架 視覺過程劃分為三個階段, 如表1-2所示.第一階段(也稱為早期階段)是將輸入的原始圖像進(jìn)行處理,抽取圖像中諸如角點(diǎn)、邊緣、紋理、線條、邊界等基本特征,這些特征的集合稱為基元圖(primitive sketch);第二階段(中期階段)是指在以觀測者為中心的坐標(biāo)系中,由輸入圖像和基元圖恢復(fù)場景可見部分的深度、法線方向、輪廓等,這些信息的包含了深度信息,但不是真正的物體三維表示,因此,稱為二維半圖(2.5 dimensional sketch);在以物體為中心的坐標(biāo)系中,由輸入圖像、基元圖、二維半圖來恢復(fù)、表示
14、和識別三維物體的過程稱為視覺的第三階段(后期階段). 表1-2 由圖像恢復(fù)形狀信息的表示框架 名 稱 目 的 基 元 圖像 光強(qiáng)表示 圖像中每一點(diǎn)的強(qiáng)度值 基元圖 表示二維圖像中的重要信息,主要是圖像中的強(qiáng)度變化位置及其幾何分布和組織結(jié)構(gòu) 零交叉,斑點(diǎn),端點(diǎn)和不連續(xù)點(diǎn),邊緣片斷,有效線段,組合群,曲線組織,邊界 2.5維圖 在以觀測者為中心的坐標(biāo)系中,表示可見表面的方向、深度值和不連續(xù)的輪廓 局部表面朝向(“針”基元) 離觀測者的距離 深度上的不連續(xù)點(diǎn) 表面朝向的不連續(xù)點(diǎn) 3維模型表示 在以物體為中心的坐標(biāo)系中,用由體積基元和面積
15、基元構(gòu)成的模塊化多層次表示,描述形狀及其空間組織形式. 分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎(chǔ)上構(gòu)成的,所有體積基元或面積形狀基元都附著在軸線上. Marr理論是計(jì)算機(jī)視覺研究領(lǐng)域的劃時(shí)代成就,但該理論不是十分完善的,許多方面還有爭議.比如, 該理論所建立的視覺處理框架基本上是自下而上,沒有反饋. 還有,該理論沒有足夠地重視知識的應(yīng)用.盡管如此,Marr理論給了我們研究計(jì)算機(jī)視覺許多珍貴的哲學(xué)思想和研究方法,同時(shí)也給計(jì)算機(jī)視覺研究領(lǐng)域創(chuàng)造了許多研究起點(diǎn). 1.3 機(jī)器視覺的應(yīng)用 機(jī)器視覺技術(shù)正廣泛地應(yīng)用于各個方面,從醫(yī)學(xué)圖象到遙感圖像,從工業(yè)檢測到文
16、件處理,從毫微米技術(shù)到多媒體數(shù)據(jù)庫,不一而足.可以說,需要人類視覺的場合幾乎都需要機(jī)器視覺.應(yīng)該指出的是,許多人類視覺無法感知的場合,如精確定量感知、危險(xiǎn)場景感知、不可見物體感知等,機(jī)器視覺更突顯其優(yōu)越性.下面是一些機(jī)器視覺的典型應(yīng)用. (1)零件識別與定位 由于工業(yè)環(huán)境的結(jié)構(gòu)、照明等因素可以得到嚴(yán)格的控制,因此,機(jī)器視覺在工業(yè)生產(chǎn)和裝配中得到了成功的應(yīng)用.圖1.1 是一個具有簡單視覺的工業(yè)機(jī)器人系統(tǒng)示意圖,其視覺系統(tǒng)由一個攝象機(jī)和相關(guān)的視覺信息處理系統(tǒng)組成.?dāng)z象機(jī)位于零件傳輸帶上方,對于不同的零件,可以選擇不同顏色的傳輸帶,比如,明亮的物體,選擇黑色傳輸帶,暗色的零件,選擇白色的背
17、景,這樣有利于視覺系統(tǒng)將零件從傳輸帶上分離出來,并進(jìn)行識別和定位,識別的目的是為機(jī)器人提供是否操作或進(jìn)行何種操作的信息,定位的目的是導(dǎo)引機(jī)器人手爪實(shí)時(shí)準(zhǔn)確地夾取零件. 圖1.1 用于生產(chǎn)線上具有簡單視覺系統(tǒng)的工業(yè)機(jī)器人系統(tǒng)示意圖 (2)產(chǎn)品檢驗(yàn) 機(jī)器視覺在工業(yè)領(lǐng)域中另一個成功的應(yīng)用是產(chǎn)品檢驗(yàn).目前已經(jīng)用于產(chǎn)品外形檢驗(yàn)、表面缺陷檢驗(yàn),比如, 滑塊及滑槽的外形檢驗(yàn)以及裝配后的位置檢驗(yàn),以決定它們能否裝配在一起,并且準(zhǔn)確無誤地完成裝配任務(wù);發(fā)動機(jī)內(nèi)壁麻點(diǎn)、刻痕等缺陷檢查,以決定產(chǎn)品的質(zhì)量.通過X射線照相或超聲探測獲取物體內(nèi)部的圖像,可以實(shí)現(xiàn)內(nèi)部缺陷檢驗(yàn),如鋼梁內(nèi)部裂紋和氣孔等缺陷檢驗(yàn).
18、 (3) 移動機(jī)器人導(dǎo)航 我們來看一下圖1.2所示的兩組圖像,每一組圖像稱為一個立體對(stereo pair),是由移動機(jī)器人上的兩個攝象機(jī)同步獲取的,表示某一時(shí)刻關(guān)于場景的不同視點(diǎn)的兩幅圖像.機(jī)器人利用立體對可以恢復(fù)周圍環(huán)境的三維信息.移動機(jī)器人可以利用場景的三維信息識別目標(biāo)、識別道路、判斷障礙物等,實(shí)現(xiàn)道路規(guī)劃、自主導(dǎo)航,與周圍環(huán)境自主交互作用等.將立體圖像對和運(yùn)動信息組合起來,可以構(gòu)成滿足特定任務(wù)分辨率要求的場景深度圖.這種技術(shù)對無人汽車、無人飛機(jī)、無人戰(zhàn)車等自主系統(tǒng)的自動導(dǎo)航十分有用.比如,著名的美國Sojourner和Rocky7等系列火星探測移動機(jī)器人都使用了立體視覺導(dǎo)航系統(tǒng)
19、. 圖1.2 由移動機(jī)器人立體視覺系統(tǒng)獲取的立體圖像對,可用來重建場景三維信息 (4)遙感圖像分析 目前的遙感圖像包括三種:航空攝影圖像、氣象衛(wèi)星圖像、資源衛(wèi)星圖像.這些圖像的共同特點(diǎn)是在高空對地表或地層進(jìn)行遠(yuǎn)距離成像,但三種圖像的成像機(jī)理完全不同.航空圖像可以用普通的視頻攝象機(jī)來獲取,分析方法也同普通的圖像分析一樣.衛(wèi)星圖像的獲取和應(yīng)用隨著成像機(jī)理不同而變化很大,氣象衛(wèi)星使用紅外成像傳感系統(tǒng)可以獲取不同云層的圖像,即云圖,由此分析某一地區(qū)的氣象狀況;海洋衛(wèi)星使用合成孔徑雷達(dá)獲取海洋、淺灘圖像,由此重構(gòu)海洋波浪三維表面圖;資源衛(wèi)星裝備有多光譜探測器(multip
20、le spectral sensor, MSS),可以獲取地表相應(yīng)點(diǎn)的多個光譜段的反射特性,如紅外、可見光、紫外等,多光譜圖像被廣泛地用于找礦、森林、農(nóng)作物調(diào)查、自然災(zāi)害測報(bào)、資源和生態(tài)環(huán)境檢測等. (5)醫(yī)學(xué)圖像分析 目前醫(yī)學(xué)圖像已經(jīng)廣泛用于醫(yī)學(xué)診斷,成像方法包括傳統(tǒng)的X射線成像、計(jì)算機(jī)層析(computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI)、超聲成像等.機(jī)器視覺在醫(yī)學(xué)圖像診斷方面有兩方面的應(yīng)用,一是對圖像進(jìn)行增強(qiáng)、標(biāo)記、染色等處理來幫助醫(yī)生診斷疾病,并協(xié)助醫(yī)生對感興趣的區(qū)域進(jìn)行定量測量和比較;二是
21、利用專家知識系統(tǒng)對圖像(或是一段時(shí)期內(nèi)的一系列圖像)進(jìn)行自動分析和解釋,給出診斷結(jié)果. (6)安全鑒別、監(jiān)視與跟蹤 用機(jī)器視覺系統(tǒng)可以實(shí)現(xiàn)停車場監(jiān)視、車輛識別、車牌號識別、探測并跟蹤“可疑”目標(biāo);根據(jù)面孔、眼底、指紋等特征識別特定人。目前人們正在研究一種面部運(yùn)動參數(shù)的提取和描述,以分析人的表情及內(nèi)心活動. (7)國防系統(tǒng) 機(jī)器視覺在國防系統(tǒng)中的作用越來越重要,一個理由是滿足自主操作的需要,另一個理由是分析大量先進(jìn)成像傳感器的輸出.顯而易見,在國防系統(tǒng)中迅速作出反應(yīng)是極其重要的,這就需要在人工盡可能少的干預(yù)下作出各種決策,尤其是與圖像和視覺方法有關(guān)的各種技術(shù),比如,圖像制導(dǎo)與目標(biāo)
22、識別等. (8)其它 機(jī)器視覺已經(jīng)用于各種球類運(yùn)動分析、人體測量,食品,農(nóng)業(yè)、心理學(xué)、電視電影制作、美術(shù)模型、遠(yuǎn)程教育,多媒體教學(xué)等場合. 1.4 機(jī)器視覺研究內(nèi)容與面臨的困難 機(jī)器視覺研究可以分為如下五大研究內(nèi)容: i 輸入設(shè)備 i 低層視覺 i 中層視覺 i 高層視覺 i 體系結(jié)構(gòu) 輸入設(shè)備(input device)包括成像設(shè)備和數(shù)字化設(shè)備.成象設(shè)備是指通過光學(xué)攝像機(jī)或紅外、激光、超聲、X射線對周圍場景或物體進(jìn)行探測成象,得到關(guān)于場景或物體的二維或三維數(shù)字化圖像.獲取數(shù)字化圖像是機(jī)器視覺系統(tǒng)的最基本的功能.目前用于視覺研究的大多數(shù)輸入設(shè)備是商品化的產(chǎn)品
23、,如,CCD黑白或彩色攝像機(jī),數(shù)字掃描儀,超聲成象探測儀,CT成象設(shè)備等.但這些商品化的輸入設(shè)備遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要,因此,仍有許多研究人員在研究各種性能先進(jìn)的成象系統(tǒng),如,紅外成象系統(tǒng),激光成象系統(tǒng),還有所謂的計(jì)算成象系統(tǒng)(computational imaging),即每一個像素元(或若干像素元)對應(yīng)一個簡單的處理器,這樣可以適應(yīng)復(fù)雜場景動態(tài)變化的場合[Brajovic 1996]. 低層視覺(low level)主要是對輸入的原始圖像進(jìn)行處理.這一過程借用了大量的圖像處理技術(shù)和算法,如圖像濾波、圖像增強(qiáng)、邊緣檢測等,以便從圖像中抽取諸如角點(diǎn)、邊緣、線條、邊界以及色彩等關(guān)于場景的基本特
24、征;這一過程還包含了各種圖像變換(如校正)、圖像紋理檢測、圖像運(yùn)動檢測等. 中層視覺(middle level)的主要任務(wù)是恢復(fù)場景的深度、表面法線方向、輪廓等有關(guān)場景的2.5維信息,實(shí)現(xiàn)的途徑有立體視覺(stereo vision)、測距成像(rangefinder)運(yùn)動估計(jì)(motion estimation)、明暗特征、紋理特征等所謂的從X恢復(fù)形狀的估計(jì)方法.系統(tǒng)標(biāo)定、系統(tǒng)成像模型等研究內(nèi)容一般也是在這個層次上進(jìn)行的. 高層視覺(high level)的任務(wù)是在以物體為中心的坐標(biāo)系中,在原始輸入圖像、圖像基本特征、2.5維圖的基礎(chǔ)上,恢復(fù)物體的完整三維圖,建立物體三維描述,識別三維物
25、體并確定物體的位置和方向.另外,主動視覺(active vision)涵蓋了上述各個層次的研究內(nèi)容. 值得指出,低層、中層和高層機(jī)器視覺基本上與Marr視覺的三個階段相對應(yīng). 體系結(jié)構(gòu)(system architecture)這一術(shù)語最通常的含義系指在高度抽象的層次上,根據(jù)系統(tǒng)模型而不是根據(jù)實(shí)現(xiàn)設(shè)計(jì)的具體例子來研究系統(tǒng)的結(jié)構(gòu).為了說明這一點(diǎn),可以考慮建筑設(shè)計(jì)中某一時(shí)期的建筑風(fēng)格(如清朝時(shí)期)和根據(jù)這一風(fēng)格設(shè)計(jì)出來的具體建筑之間的區(qū)別.體系結(jié)構(gòu)研究涉及一系列相關(guān)的課題:并行結(jié)構(gòu)、分層結(jié)構(gòu)、信息流結(jié)構(gòu)、拓?fù)浣Y(jié)構(gòu)以及從設(shè)計(jì)到實(shí)現(xiàn)的途徑. 人們對上述幾個研究內(nèi)容進(jìn)行了卓有成效的研究,研究出大量的
26、技術(shù)和算法,并且在各個領(lǐng)域中得到廣泛的應(yīng)用.不過,機(jī)器視覺技術(shù)仍處于十分不成熟的的階段,其發(fā)展遠(yuǎn)遠(yuǎn)落后于人們所寄予的發(fā)展水平. 對于人類視覺來說,識別和理解周圍場景是一件非常容易的事,但對于機(jī)器來說,卻是一件很困難的事.主要困難體現(xiàn)在如下幾方面: (1) 圖像多義性: 三維場景被投影為二維圖像,深度和不可見部分的信息被丟失,因而會出現(xiàn)不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像的問題,如圖1.3所示.另外,在不同角度獲取同一物體的圖像會有很大的差異. (2) 環(huán)境因素影響:場景中的諸多因素,包括照明、物體形狀、表面顏色、攝像機(jī)以及空間關(guān)系變化都會對投影的圖像有影響,因此,當(dāng)任何
27、一個因素發(fā)生變化時(shí),都會對圖像產(chǎn)生影響. (3) 知識導(dǎo)引: 同樣的圖像在不同的知識導(dǎo)引下,將會產(chǎn)生不同的識別結(jié)果.圖1.4-1.5所示的圖像,在不同的約束或知識導(dǎo)引下,具有不同的識別結(jié)果.圖1.4(b)可能表示一個少女前視遠(yuǎn)方的側(cè)面圖像,也可能表示一個老婦人凝視下前方的正側(cè)面圖像.圖1.5包含有幾個的立方體,不同的知識導(dǎo)引可能產(chǎn)生不同的空間關(guān)系,也就具有不同意義. (4) 大量數(shù)據(jù): 灰度圖像,彩色圖像,深度圖像的信息量十分巨大,比如分辨率為的灰度圖像的數(shù)據(jù)量為256K,同樣分辨率的彩色圖像的數(shù)據(jù)量是768K.如果處理的是圖像序列,則數(shù)據(jù)量更大.巨大的數(shù)據(jù)量需要很大的存貯空間,同時(shí)不易實(shí)
28、現(xiàn)快速處理. 為了解決視覺所面臨的問題,研究人員不斷尋求新的途徑和手段,比如,主動視覺(active vision),面向任務(wù)的視覺(task-oriented vision),基于知識、基于模型的視覺,以及多傳感融合和集成視覺等方法,其中人們越來越重視對知識的應(yīng)用.我們會看到,機(jī)器視覺系統(tǒng)的最大特征是,在視覺的各個階段,系統(tǒng)盡可能地進(jìn)行自動運(yùn)算.為此,系統(tǒng)需要使用各種知識,包括特征模型、成像過程、物體模型和物體間的關(guān)系.如果機(jī)器視覺系統(tǒng)不用這些知識,則其應(yīng)用的范圍及其功能將十分有限.因此,視覺系統(tǒng)應(yīng)該使用那些可以被明確表示的知識,以使系統(tǒng)具有更高的適應(yīng)性和魯棒性.合理地使用知識不僅可以
29、有效地提高系統(tǒng)的適應(yīng)性和魯棒性,而且可以求解機(jī)器視覺中較難的問題. 圖1.3 不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像 圖1.4一組人臉側(cè)面圖像.注意,中間圖像既與左邊 圖像相似,又與右邊圖像相似[Hochberg 1964]. 圖1.5 幾個立方體構(gòu)成的多義性圖像[選自Combs的作品] 1.5 機(jī)器視覺與其它學(xué)科領(lǐng)域的關(guān)系 與機(jī)器視覺有關(guān)的學(xué)科有許多.本節(jié)主要討論一些與機(jī)器視覺密切相關(guān)的領(lǐng)域.關(guān)于機(jī)器視覺與其它學(xué)科的關(guān)系,我們不作詳盡的討論. 圖像處理是一個發(fā)展比較成熟的領(lǐng)域.圖像處理技術(shù)通常是把一幅圖像變換成另外一幅圖像,也就是
30、說,圖像處理系統(tǒng)的輸入是圖像,輸出仍然是圖像,信息恢復(fù)任務(wù)則留給人來完成.圖像處理包括圖像增強(qiáng)、圖像壓縮和模糊校正與非聚焦圖像等課題.機(jī)器視覺系統(tǒng)把圖像作為輸入,產(chǎn)生的輸出為另一種形式,比如圖像中物體輪廓的表示.因此,機(jī)器視覺的重點(diǎn)是在人的最小干預(yù)下,由計(jì)算機(jī)自動恢復(fù)場景信息.圖像處理算法在機(jī)器視覺系統(tǒng)的早期階段起著很大的作用,它們通常被用來增強(qiáng)特定信息并抑制噪聲. 計(jì)算機(jī)圖形學(xué)是通過幾何基元,如線、圓和自由曲面,來生成圖像,它在可視化(Visualization)和虛擬現(xiàn)實(shí)(Virtual Reality)中起著很重要的作用.機(jī)器視覺正好是解決相反的問題,即從圖像中估計(jì)幾何基元和其
31、它特征.因此,計(jì)算機(jī)圖形學(xué)屬于圖像綜合,機(jī)器視覺屬于圖像分析.這兩個領(lǐng)域在其發(fā)展的早期階段是沒有什么聯(lián)系的,但是近十幾年來發(fā)展的越來越相近了.機(jī)器視覺使用了計(jì)算機(jī)圖形學(xué)中的曲線和曲面表示方法以及其它的一些技術(shù),而計(jì)算機(jī)圖形學(xué)也使用機(jī)器視覺技術(shù),以便在計(jì)算機(jī)中建立逼真的圖像模型.可視化和虛擬現(xiàn)實(shí)把這兩個領(lǐng)域緊密地聯(lián)系在一起. 模式識別主要用于識別各種符號、圖畫等平面圖形.模式一般指一類事物區(qū)別于其它事物所具有的共同特征。模式識別方法主要有統(tǒng)計(jì)方法和句法方法兩種,統(tǒng)計(jì)方法是指從模式抽取一組特征值,并以劃分特征空間的方法來識別每一個模式。句法方法是指利用一組簡單的子模式(模式基元)通過文法
32、規(guī)則來描述復(fù)雜的模式。模式識別方法是機(jī)器視覺識別物體的重要基礎(chǔ)之一.機(jī)器視覺識別物體還經(jīng)常需要其它的技術(shù).我們將在物體識別部分簡要地討論統(tǒng)計(jì)模式識別的主要內(nèi)容. 人工智能(artificial intelligent, AI)涉及到智能系統(tǒng)的設(shè)計(jì)和智能計(jì)算的研究.在經(jīng)過圖像處理和圖像特征提取過程后,接下來要用人工智能方法對場景特征進(jìn)行表示,并分析和理解場景.人工智能有三個過程:感知、認(rèn)知和行動.感知把反應(yīng)現(xiàn)實(shí)世界的信息轉(zhuǎn)換成信號,并表示成符號,認(rèn)知是對符號進(jìn)行各種操作,行動則把符號轉(zhuǎn)換成影響周圍環(huán)境的信號.人工智能的許多技術(shù)在機(jī)器視覺的各個方面起著重要作用.事實(shí)上,機(jī)器視覺通常被視為
33、人工智能的一個分支. 人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks, ANNs)是一種信息處理系統(tǒng),它是由大量簡單的處理單元(稱為神經(jīng)元)通過具有強(qiáng)度的連接(connection)相互聯(lián)系起來,實(shí)現(xiàn)并行分布式處理(parallel distribution processing, PDP).人工神經(jīng)網(wǎng)絡(luò)的最大特點(diǎn)是可以通過改變連接強(qiáng)度來調(diào)整系統(tǒng),使之適應(yīng)復(fù)雜的環(huán)境,實(shí)現(xiàn)類似人的學(xué)習(xí)、歸納和分類等功能.人工神經(jīng)網(wǎng)絡(luò)已經(jīng)在許多工程技術(shù)領(lǐng)域得到了廣泛的應(yīng)用.神經(jīng)網(wǎng)絡(luò)作為一種方法和機(jī)制將用于解決機(jī)器視覺中的許多問題. 神經(jīng)物理學(xué)與認(rèn)知科學(xué)長期將人類視覺作為主要的研究對象.機(jī)器
34、視覺中已有的許多方法與人類視覺極為相似.目前,許多機(jī)器視覺研究者對研究人類視覺計(jì)算模型比研究機(jī)器視覺系統(tǒng)更感興趣,希望機(jī)器視覺更加自然化,更加接近生物視覺。我們在第二章介紹人類視覺的一些研究成果,使讀者在研究機(jī)器視覺時(shí)或多或少能從生物視覺機(jī)理中得到啟發(fā).不過,我們的重點(diǎn)在于研究機(jī)器視覺系統(tǒng),因此,不討論機(jī)器視覺與神經(jīng)物理學(xué)或認(rèn)知科學(xué)的聯(lián)系. 1.6 成象幾何基礎(chǔ) 一般的成象系統(tǒng)通常將三維場景變換成二維灰度或彩色圖像,這種變換可以用一個從三維空間到二維空間的映射來表示: (1.1) 如果考慮時(shí)變?nèi)S場景,則上述變換是四維空
35、間到三維空間的變換,如果再考慮某一波段或某幾個波段的光譜,則上式的維數(shù)將增加到五維或更高維.這里我們只考慮三維空間到二維空間的兩種常用映射:透視投影變換和正交投影變換. 1.6.1 透視投影 透視投影(perspective projection)是最常用的成像模型,可以用針孔(pinhole)成像模型來近似表示.透視投影成像模型的特點(diǎn)是所有來自場景的光線均通過一個投影中心,它對應(yīng)于透鏡的中心,經(jīng)過投影中心且垂直于圖像平面(成像平面)的直線稱為投影軸或光軸,如圖1.6所示.其中是固定在攝象機(jī)上的直角坐標(biāo)系,遵循右手法則,其原點(diǎn)位于投影中心,軸與投影軸重合并指向場景,軸、軸與圖像平面
36、的坐標(biāo)軸和平行,平面與圖像平面的距離為,一般稱為攝象機(jī)的焦距.在實(shí)際攝像機(jī)中,圖像平面位于投影中心后面距離為的位置(圖1.6),其投影圖像是倒立的.為了避免這種倒立圖像,假定圖像平面位于投影中心的前面,如圖1.7所示.場景中一點(diǎn)在圖像平面上的投影位置可以通過計(jì)算點(diǎn)的視線(空間點(diǎn)與投影中心的連線)與圖像平面的相交位置得到. 點(diǎn)的視線、點(diǎn)到軸的垂直線段以及軸形成了一個三角形.圖像平面上點(diǎn)的視線、點(diǎn)到軸垂直線段以及軸形成了另一個三角形.這兩個三角形是相似三角形,因此得到透視投影方程:
37、 (1.2) 點(diǎn)在圖像平面中的位置由下式給出: (1.3) ( 圖1.6 透視投影倒立成像幾何示意圖 圖1.7 透視投影幾何示意圖 1.6.2 正交投影 正交投影(orthogonal projection)指用平行于光軸的光將場景投射到圖像平面上,
38、 因此也稱為平行投影(parallel projection),如圖1.8所示.正交投影是透視投影的一個特例,當(dāng)透視投影模型的焦距很大且物體距投影中心很遠(yuǎn)時(shí),透視投影就可以用正交投影來近似.此時(shí),投影方程為: (1.4) 圖 1.8 正交投影幾何示意圖 1.6.3 視覺系統(tǒng)坐標(biāo)系 在計(jì)算機(jī)視覺系統(tǒng)中涉及到以下幾種坐標(biāo): l 像素坐標(biāo):表示圖像陣列中圖像像素的位置; l 圖像平面坐標(biāo):表示場景點(diǎn)在圖像平面上的投影; l 攝象機(jī)坐標(biāo):即以觀察者為中心的坐標(biāo),將場景點(diǎn)表示成以觀察者為中心的數(shù)據(jù)形式.
39、 l 場景坐標(biāo):也稱作絕對坐標(biāo)(或世界坐標(biāo)),用于表示場景點(diǎn)的絕對坐標(biāo); 像素坐標(biāo)也稱為圖像陣列坐標(biāo)或網(wǎng)格坐標(biāo).圖像處理通常是在圖像陣列的像素坐標(biāo)系中進(jìn)行,其中圖像的行數(shù)和列數(shù)對應(yīng)于圖像網(wǎng)格的整數(shù)坐標(biāo),即像素的坐標(biāo)是整數(shù)值,像素位于圖像的左上角,指向下方,指向右方.這種圖像像素坐標(biāo)系,正好對應(yīng)計(jì)算機(jī)程序里的陣列語法.為了提高圖像處理的精度,需要引入子像素(sub-pixel)概念.所謂子像素是指像素與像素之間的點(diǎn),其坐標(biāo)用小數(shù)表示.使用攝象機(jī)幾何假設(shè)條件可以將像素點(diǎn)坐標(biāo)轉(zhuǎn)化成圖像平面坐標(biāo). 圖像平面坐標(biāo)定義如下:假定攝像機(jī)主點(diǎn),即光軸與圖像平面的交點(diǎn),位于圖像的中心點(diǎn),若圖像陣列為,則
40、圖像平面坐標(biāo)的中心坐標(biāo)為: (1.5) 其中表示中心坐標(biāo)的估計(jì)值;圖像平面坐標(biāo)軸方向是列數(shù)標(biāo)號增加的方向,但軸方向指向行數(shù)標(biāo)號增加方向的反向.假定圖像陣列的行列間距是相等的,則像素坐標(biāo)到圖像坐標(biāo)的變換公式為: (1.6) 如果圖像陣列的行列間距不相等,并設(shè)列間距為,行間距為,則像素坐標(biāo)到圖像坐標(biāo)的變換式為: (1.7) 為了簡化
41、運(yùn)算,在機(jī)器視覺應(yīng)用中普遍要求攝象機(jī)的像素為正方形像素.如果使用了非正方形像素?cái)z象機(jī),則必須考慮非正方形像素對測量的影響.若有影響,則必須在測量之前將其坐標(biāo)轉(zhuǎn)化為標(biāo)準(zhǔn)的圖像平面坐標(biāo).圖像坐標(biāo)可以是攝象機(jī)誤差(如透鏡畸變)修正之后或未修正的真實(shí)圖像坐標(biāo)。 在本書中,場景坐標(biāo)或絕對坐標(biāo)用表示,攝象機(jī)坐標(biāo)用表示。攝象機(jī)坐標(biāo)系也稱為以觀察者為中心的坐標(biāo)系.在場景中也許有多個攝象機(jī),每個攝象機(jī)都有其自己的坐標(biāo)系.例如,在雙目立體系統(tǒng)中,就有左攝象機(jī)坐標(biāo)和右攝象機(jī)坐標(biāo),以及表示深度測量的立體坐標(biāo).這里請讀者注意,由于在許多情況下,圖像平面坐標(biāo)系是攝象機(jī)坐標(biāo)系的一部分,因此,為了書寫簡單,在不混淆
42、的情況下,通常使用攝象機(jī)平面坐標(biāo)代替圖像平面坐標(biāo)。 1.7本書內(nèi)容向?qū)? 本書各章內(nèi)容基本上是按照由低級到高級,由灰度到彩色,由二維到三維, 由分析到表示和理解這種順序安排的.大致說來,除了第二章是有關(guān)生理視覺的介紹外,本書的前半部分基本上是限于二維空間,后半部分把范圍則擴(kuò)展到了三維空間.關(guān)于二值圖像的第三章介紹了機(jī)器視覺領(lǐng)域所用的基本術(shù)語和概念,那里所討論的技術(shù)可用于視覺系統(tǒng)的所有方面.第四章介紹了圖像區(qū)域檢測技術(shù),同時(shí)也討論了區(qū)域表示方法.所有的視覺系統(tǒng)都離不開區(qū)域檢測或分析技術(shù),,因此這一章討論的內(nèi)容是視覺的基本內(nèi)容.第五章介紹了圖像濾波方法,論述了圖像增強(qiáng)技術(shù)和一些其它的濾波
43、技術(shù).圖像濾波的主要目的是突顯用于視覺識別的特征,去除噪聲等,因此是實(shí)現(xiàn)機(jī)器視覺的基礎(chǔ)。邊緣檢測技術(shù)也是許多機(jī)器視覺系統(tǒng)中最重要、最基本的步驟,第六章介紹了幾種邊緣檢測技術(shù)并比較了它們的性能以及在應(yīng)用中注意的問題。接下來一章介紹了輪廓表示方法,邊緣是局部的,只有把它們組成有意義的物體并表示出來才能使用它們.紋理在諸如表面檢測、場景分類、表面姿態(tài)和形狀分類等許多機(jī)器視覺的任務(wù)中起著重要作用,這些內(nèi)容將在第八章討論.輻射測量學(xué)將在第九章討論.在許多應(yīng)用中,色彩是圖像的重要組成部分,我們將在第十章討論.第十一章介紹主動方法和被動方法恢復(fù)圖像深度信息的技術(shù).這種技術(shù)把我們從二維圖像帶到了三維圖像.第十
44、二章討論了攝像機(jī)標(biāo)定技術(shù), 為了從圖像中獲取三維信息,必須知道攝像機(jī)的位置和姿態(tài)及其自身的一些參數(shù).這一章討論了各種用于攝像機(jī)標(biāo)定的技術(shù). 第十三章討論了空間中曲線和曲面的表示和它們的一些性質(zhì),并討論了內(nèi)插和逼近技術(shù).第十四章介紹了圖像二維運(yùn)動估計(jì),包括圖像變化檢測、基于運(yùn)動特性的圖像分割和物體跟蹤技術(shù)。關(guān)于從運(yùn)動恢復(fù)結(jié)構(gòu)的方法等有關(guān)三維運(yùn)動分析和估計(jì)是最近幾年的研究熱點(diǎn),這一部分內(nèi)容在第十五章討論.物體識別是視覺系統(tǒng)的一個最普遍的應(yīng)用.我們將在第十六章討論一些物體識別的基本方面.還有一些最新的信息處理方法,如神經(jīng)元網(wǎng)絡(luò)、分?jǐn)?shù)維方法、子波方法,主要從應(yīng)用的角度進(jìn)行了討論,這些內(nèi)容分布在有關(guān)章節(jié)中。 我們認(rèn)為練習(xí)是課程中一個十分重要的環(huán)節(jié).本書各章都給出了一些概念題和計(jì)算題來檢驗(yàn)讀者對書中內(nèi)容的理解,另外還有一定數(shù)量的計(jì)算機(jī)練習(xí)題,以增加讀者的實(shí)際.我們把這門課看成是一門理論與實(shí)驗(yàn)相結(jié)合的課程.請讀者注意,完成一個簡單的視覺系統(tǒng)設(shè)計(jì)練習(xí)題對于真正理解機(jī)器視覺系統(tǒng)非常重要. 專心---專注---專業(yè)
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 指向核心素養(yǎng)發(fā)展的高中生物學(xué)1輪復(fù)習(xí)備考建議
- 新課程新評價(jià)新高考導(dǎo)向下高三化學(xué)備考的新思考
- 新時(shí)代背景下化學(xué)高考備考策略及新課程標(biāo)準(zhǔn)的高中化學(xué)教學(xué)思考
- 2025屆江西省高考政治二輪復(fù)習(xí)備考建議
- 新教材新高考背景下的化學(xué)科學(xué)備考策略
- 新高考背景下的2024年高考化學(xué)二輪復(fù)習(xí)備考策略
- 2025屆高三數(shù)學(xué)二輪復(fù)習(xí)備考交流會課件
- 2025年高考化學(xué)復(fù)習(xí)研究與展望
- 2024年高考化學(xué)復(fù)習(xí)備考講座
- 2025屆高考數(shù)學(xué)二輪復(fù)習(xí)備考策略和方向
- 2024年感動中國十大人物事跡及頒獎詞
- XX教育系統(tǒng)單位述職報(bào)告教育工作概述教育成果展示面臨的挑戰(zhàn)未來規(guī)劃
- 2025《增值稅法》全文解讀學(xué)習(xí)高質(zhì)量發(fā)展的增值稅制度規(guī)范增值稅的征收和繳納
- 初中資料:400個語文優(yōu)秀作文標(biāo)題
- 初中語文考試專項(xiàng)練習(xí)題(含答案)