北理工賈云德《計算機視覺》chapter01引論
《北理工賈云德《計算機視覺》chapter01引論》由會員分享,可在線閱讀,更多相關(guān)《北理工賈云德《計算機視覺》chapter01引論(12頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-----傾情為你奉上 第一章 引論 人類在征服自然、改造自然和推動社會進步的過程中,面臨著自身能力、能量的局限性,因而發(fā)明和創(chuàng)造了許多機器來輔助或代替人類完成任務.智能機器,包括智能機器人,是這種機器最理想的形式,也是人類科學研究中所面臨的最大挑戰(zhàn)之一.智能機器是指這樣一種系統(tǒng),它能模擬人類的功能,能感知外部世界并有效地解決人所能解決問題.人類感知外部世界主要是通過視覺、觸覺、聽覺和嗅覺等感覺器官,其中約80%的信息是由視覺獲取的.因此,對于智能機器來說,賦予機器以人類視覺功能對發(fā)展智能機器是及其重要的,也由此形成了一門新的學科—機器視覺(也稱計算機視覺或圖像分
2、析與理解等).機器視覺的發(fā)展不僅將大大推動智能系統(tǒng)的發(fā)展,也將拓寬計算機與各種智能機器的研究范圍和應用領(lǐng)域. 機器視覺是研究用計算機來模擬生物外顯或宏觀視覺功能的科學和技術(shù).機器視覺系統(tǒng)的首要目標是用圖像創(chuàng)建或恢復現(xiàn)實世界模型,然后認知現(xiàn)實世界.機器視覺系統(tǒng)獲取的場景圖像一般是灰度圖像,即三維場景在二維平面上的投影.因此,場景三維信息只能通過灰度圖像或灰度圖像序列來恢復處理,這種恢復需要進行多點對一點的映射逆變換.在信息恢復過程中,還需要有關(guān)場景知識和投影幾何知識. 機器視覺是一個相當新且發(fā)展十分迅速的研究領(lǐng)域,并成為計算機科學的重要研究領(lǐng)域之一.機器視覺是在20世紀50年代從統(tǒng)計模
3、式識別開始的[1],當時的工作主要集中在二維圖像分析和識別上,如光學字符識別,工件表面、顯微圖片和航空圖片的分析和解釋等.60年代,Roberts(1965)通過計算機程序從數(shù)字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結(jié)構(gòu),并對物體形狀及物體的空間關(guān)系進行描述[Roberts 1965].Roberts 的研究工作開創(chuàng)了以理解三維場景為目的的三維機器視覺的研究.Roberts對積木世界的創(chuàng)造性研究給人們以極大的啟發(fā),許多人相信,一旦由白色積木玩具組成的三維世界可以被理解,則可以推廣到理解更復雜的三維場景.于是,人們對積木世界進行了深入的研究,研究的范圍從邊緣、角點等特征提取,到線條
4、、平面、曲面等幾何要素分析,一直到圖像明暗、紋理、運動以及成像幾何等,并建立了各種數(shù)據(jù)結(jié)構(gòu)和推理規(guī)則.到了70年代,已經(jīng)出現(xiàn)了一些視覺應用系統(tǒng)[Guzman 1969, Mackworth 1973,]. 70年代中期,麻省理工學院(MIT)人工智能(AI)實驗室正式開設(shè)“機器視覺”(?Machine Vision)課程,由國際著名學者B.K.P.Horn教授講授.同時,MIT AI 實驗室吸引了國際上許多知名學者參與機器視覺的理論、算法、系統(tǒng)設(shè)計的研究,David Marr教授就是其中的一位.他于1973年應邀在MIT AI 實驗室領(lǐng)導一個以博士生為主體的研究小組,1977年提出了不同于"
5、積木世界"分析方法的計算視覺理論(computational vision),該理論在80年代成為機器視覺研究領(lǐng)域中的一個十分重要的理論框架. 可以說,對機器視覺的全球性研究熱潮是從 20世紀80年代開始的,到了80年代中期,機器視覺獲得了蓬勃發(fā)展,新概念、新方法、新理論不斷涌現(xiàn),比如,基于感知特征群的物體識別理論框架,主動視覺理論框架,視覺集成理論框架等. 到目前為止,機器視覺仍然是一個非常活躍的研究領(lǐng)域.許多會議論文集都反應了該領(lǐng)域的最新進展,比如,International Conference on Computer Vision and Pattern Recognition(C
6、VPR); International Conference on Computer Vision(ICCV); International Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE.還有許多學術(shù)期刊也包含了這一領(lǐng)域的最新研究成果, 如,IEEE Transaction on Pattern Analysis and
7、 Machine Intelligence(PAMI); Computer Vision, Graphics, and Image Processing(CVGIP); IEEE Transaction on Image Processing; IEEE Transaction on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern
8、Recognition.每年還出版許多研究專集、學術(shù)著作、技術(shù)報告,舉行專題討論會等.所有這些都是研究機器視覺及其應用的很好信息來源. 1.2 Marr的視覺計算理論 Marr的視覺計算理論[Marr1982]立足于計算機科學,系統(tǒng)地概括了心理生理學、神經(jīng)生理學等方面業(yè)已取得的所有重要成果,是視覺研究中迄今為止最為完善的視覺理論.Marr建立的視覺計算理論,使計算機視覺研究有了一個比較明確的體系,并大大推動了計算機視覺研究的發(fā)展.人們普遍認為,計算機視覺這門學科的形成與Marr的視覺理論有著密切的關(guān)系.事實上,盡管20世紀70年代初期就有人使用計算機視覺這個名詞[Binford,1971
9、],但正是Marr 70年代末建立的視覺理論促使計算機視覺這一名詞的流行.下面簡要地介紹Marr的視覺理論的基本思想及其理論框架. 1.2.1 三個層次 Marr認為, 視覺是一個信息處理系統(tǒng),對此系統(tǒng)研究應分為三個層次:計算理論層次,表示(representation)與算法層次,硬件實現(xiàn)層次,如表1-1所示. 表1-1 計算理論 表示和算法 硬件實現(xiàn) 計算的目的是什么? 如何實現(xiàn)這個計算理論? 在物理上如何實現(xiàn) 為什么這一計算是合適的? 輸入、輸出的表示是什么?
10、 這些表示和算法? 執(zhí)行計算的策略是什么? 表示與表示之間的變換是什么? 按照Marr的理論,計算視覺理論要回答視覺系統(tǒng)的計算目的和策略是什么,或視覺系統(tǒng)的輸入和輸出是什么,如何由系統(tǒng)的輸入求出系統(tǒng)的輸出.在這個層次上,信息系統(tǒng)的特征是將一種信息(輸入)映射為另一種信息(輸出).比如,系統(tǒng)輸入是二維灰度圖像,輸出則是三維物體的形狀、位置和姿態(tài),視覺系統(tǒng)的任務就是如何建立輸入輸出之間的關(guān)系和約束,如何由二維灰度圖像恢復物體的三維信息.表示與算法層次是要進一步回答如何表示輸入和輸出信息,如何實現(xiàn)計算理論所對應的功能的算法,以及如何由一種表示變換成
11、另一種表示,比如創(chuàng)建數(shù)據(jù)結(jié)構(gòu)和符號.一般來說,不同的輸入、輸出和計算理論,對應不同的表示,而同一種輸入、輸出或計算理論可能對應若干種表示.在解決了理論問題和表示問題后,最后一個層次是解決用硬件實現(xiàn)上述表示和算法的問題,比如計算機體系結(jié)構(gòu)及具體的計算裝置及其細節(jié).從信息處理的觀點來看,至關(guān)重要的乃是最高層次,即計算理論層次.這是因為構(gòu)成知覺的計算本質(zhì),取決于解決計算問題本身,而不取決于用來解決計算問題的特殊硬件.換句話說,通過正確理解待解決問題的本質(zhì),將有助于理解并創(chuàng)造算法. 如果考慮解決問題的機制和物理實現(xiàn),則對理解算法往往無濟于事. 上述三個層次之間存在著邏輯的因果關(guān)系,但它們之間的聯(lián)系不
12、是十分緊密,因此,某些現(xiàn)象只能在其中一個或兩個層次上進行解釋.比如神經(jīng)解剖學原則上與第三層次即物理實現(xiàn)聯(lián)系在一起.突觸機制、動作電位、抑制性相互作用都在第三個層次上.心理物理學與第二層次(即表示與算法)有著更直接的聯(lián)系.更一般地說,不同的現(xiàn)象必須在不同的層次上進行解釋,這會有助于人們把握正確的研究方向.例如,人們常說,人腦完全不同于計算機,因為前者是并行加工的,后者是串行的.對于這個問題,應該這樣回答:并行加工和串行加工是在算法這個層次上的區(qū)別,而不是根本性的區(qū)別, 因為任何一個并行的計算程序都可以寫成串行的程序.因此,這種并行與串行的區(qū)別并不支持這種觀點,即人腦的運行與計算機的運算是不同的,
13、因而人腦所完成的任務是不可能通過編制程序用計算機來完成. 1.2.2 視覺表示框架 視覺過程劃分為三個階段, 如表1-2所示.第一階段(也稱為早期階段)是將輸入的原始圖像進行處理,抽取圖像中諸如角點、邊緣、紋理、線條、邊界等基本特征,這些特征的集合稱為基元圖(primitive sketch);第二階段(中期階段)是指在以觀測者為中心的坐標系中,由輸入圖像和基元圖恢復場景可見部分的深度、法線方向、輪廓等,這些信息的包含了深度信息,但不是真正的物體三維表示,因此,稱為二維半圖(2.5 dimensional sketch);在以物體為中心的坐標系中,由輸入圖像、基元圖、二維半圖來恢復、表示
14、和識別三維物體的過程稱為視覺的第三階段(后期階段). 表1-2 由圖像恢復形狀信息的表示框架 名 稱 目 的 基 元 圖像 光強表示 圖像中每一點的強度值 基元圖 表示二維圖像中的重要信息,主要是圖像中的強度變化位置及其幾何分布和組織結(jié)構(gòu) 零交叉,斑點,端點和不連續(xù)點,邊緣片斷,有效線段,組合群,曲線組織,邊界 2.5維圖 在以觀測者為中心的坐標系中,表示可見表面的方向、深度值和不連續(xù)的輪廓 局部表面朝向(“針”基元) 離觀測者的距離 深度上的不連續(xù)點 表面朝向的不連續(xù)點 3維模型表示 在以物體為中心的坐標系中,用由體積基元和面積
15、基元構(gòu)成的模塊化多層次表示,描述形狀及其空間組織形式. 分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎(chǔ)上構(gòu)成的,所有體積基元或面積形狀基元都附著在軸線上. Marr理論是計算機視覺研究領(lǐng)域的劃時代成就,但該理論不是十分完善的,許多方面還有爭議.比如, 該理論所建立的視覺處理框架基本上是自下而上,沒有反饋. 還有,該理論沒有足夠地重視知識的應用.盡管如此,Marr理論給了我們研究計算機視覺許多珍貴的哲學思想和研究方法,同時也給計算機視覺研究領(lǐng)域創(chuàng)造了許多研究起點. 1.3 機器視覺的應用 機器視覺技術(shù)正廣泛地應用于各個方面,從醫(yī)學圖象到遙感圖像,從工業(yè)檢測到文
16、件處理,從毫微米技術(shù)到多媒體數(shù)據(jù)庫,不一而足.可以說,需要人類視覺的場合幾乎都需要機器視覺.應該指出的是,許多人類視覺無法感知的場合,如精確定量感知、危險場景感知、不可見物體感知等,機器視覺更突顯其優(yōu)越性.下面是一些機器視覺的典型應用. (1)零件識別與定位 由于工業(yè)環(huán)境的結(jié)構(gòu)、照明等因素可以得到嚴格的控制,因此,機器視覺在工業(yè)生產(chǎn)和裝配中得到了成功的應用.圖1.1 是一個具有簡單視覺的工業(yè)機器人系統(tǒng)示意圖,其視覺系統(tǒng)由一個攝象機和相關(guān)的視覺信息處理系統(tǒng)組成.攝象機位于零件傳輸帶上方,對于不同的零件,可以選擇不同顏色的傳輸帶,比如,明亮的物體,選擇黑色傳輸帶,暗色的零件,選擇白色的背
17、景,這樣有利于視覺系統(tǒng)將零件從傳輸帶上分離出來,并進行識別和定位,識別的目的是為機器人提供是否操作或進行何種操作的信息,定位的目的是導引機器人手爪實時準確地夾取零件. 圖1.1 用于生產(chǎn)線上具有簡單視覺系統(tǒng)的工業(yè)機器人系統(tǒng)示意圖 (2)產(chǎn)品檢驗 機器視覺在工業(yè)領(lǐng)域中另一個成功的應用是產(chǎn)品檢驗.目前已經(jīng)用于產(chǎn)品外形檢驗、表面缺陷檢驗,比如, 滑塊及滑槽的外形檢驗以及裝配后的位置檢驗,以決定它們能否裝配在一起,并且準確無誤地完成裝配任務;發(fā)動機內(nèi)壁麻點、刻痕等缺陷檢查,以決定產(chǎn)品的質(zhì)量.通過X射線照相或超聲探測獲取物體內(nèi)部的圖像,可以實現(xiàn)內(nèi)部缺陷檢驗,如鋼梁內(nèi)部裂紋和氣孔等缺陷檢驗.
18、 (3) 移動機器人導航 我們來看一下圖1.2所示的兩組圖像,每一組圖像稱為一個立體對(stereo pair),是由移動機器人上的兩個攝象機同步獲取的,表示某一時刻關(guān)于場景的不同視點的兩幅圖像.機器人利用立體對可以恢復周圍環(huán)境的三維信息.移動機器人可以利用場景的三維信息識別目標、識別道路、判斷障礙物等,實現(xiàn)道路規(guī)劃、自主導航,與周圍環(huán)境自主交互作用等.將立體圖像對和運動信息組合起來,可以構(gòu)成滿足特定任務分辨率要求的場景深度圖.這種技術(shù)對無人汽車、無人飛機、無人戰(zhàn)車等自主系統(tǒng)的自動導航十分有用.比如,著名的美國Sojourner和Rocky7等系列火星探測移動機器人都使用了立體視覺導航系統(tǒng)
19、. 圖1.2 由移動機器人立體視覺系統(tǒng)獲取的立體圖像對,可用來重建場景三維信息 (4)遙感圖像分析 目前的遙感圖像包括三種:航空攝影圖像、氣象衛(wèi)星圖像、資源衛(wèi)星圖像.這些圖像的共同特點是在高空對地表或地層進行遠距離成像,但三種圖像的成像機理完全不同.航空圖像可以用普通的視頻攝象機來獲取,分析方法也同普通的圖像分析一樣.衛(wèi)星圖像的獲取和應用隨著成像機理不同而變化很大,氣象衛(wèi)星使用紅外成像傳感系統(tǒng)可以獲取不同云層的圖像,即云圖,由此分析某一地區(qū)的氣象狀況;海洋衛(wèi)星使用合成孔徑雷達獲取海洋、淺灘圖像,由此重構(gòu)海洋波浪三維表面圖;資源衛(wèi)星裝備有多光譜探測器(multip
20、le spectral sensor, MSS),可以獲取地表相應點的多個光譜段的反射特性,如紅外、可見光、紫外等,多光譜圖像被廣泛地用于找礦、森林、農(nóng)作物調(diào)查、自然災害測報、資源和生態(tài)環(huán)境檢測等. (5)醫(yī)學圖像分析 目前醫(yī)學圖像已經(jīng)廣泛用于醫(yī)學診斷,成像方法包括傳統(tǒng)的X射線成像、計算機層析(computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI)、超聲成像等.機器視覺在醫(yī)學圖像診斷方面有兩方面的應用,一是對圖像進行增強、標記、染色等處理來幫助醫(yī)生診斷疾病,并協(xié)助醫(yī)生對感興趣的區(qū)域進行定量測量和比較;二是
21、利用專家知識系統(tǒng)對圖像(或是一段時期內(nèi)的一系列圖像)進行自動分析和解釋,給出診斷結(jié)果. (6)安全鑒別、監(jiān)視與跟蹤 用機器視覺系統(tǒng)可以實現(xiàn)停車場監(jiān)視、車輛識別、車牌號識別、探測并跟蹤“可疑”目標;根據(jù)面孔、眼底、指紋等特征識別特定人。目前人們正在研究一種面部運動參數(shù)的提取和描述,以分析人的表情及內(nèi)心活動. (7)國防系統(tǒng) 機器視覺在國防系統(tǒng)中的作用越來越重要,一個理由是滿足自主操作的需要,另一個理由是分析大量先進成像傳感器的輸出.顯而易見,在國防系統(tǒng)中迅速作出反應是極其重要的,這就需要在人工盡可能少的干預下作出各種決策,尤其是與圖像和視覺方法有關(guān)的各種技術(shù),比如,圖像制導與目標
22、識別等. (8)其它 機器視覺已經(jīng)用于各種球類運動分析、人體測量,食品,農(nóng)業(yè)、心理學、電視電影制作、美術(shù)模型、遠程教育,多媒體教學等場合. 1.4 機器視覺研究內(nèi)容與面臨的困難 機器視覺研究可以分為如下五大研究內(nèi)容: i 輸入設(shè)備 i 低層視覺 i 中層視覺 i 高層視覺 i 體系結(jié)構(gòu) 輸入設(shè)備(input device)包括成像設(shè)備和數(shù)字化設(shè)備.成象設(shè)備是指通過光學攝像機或紅外、激光、超聲、X射線對周圍場景或物體進行探測成象,得到關(guān)于場景或物體的二維或三維數(shù)字化圖像.獲取數(shù)字化圖像是機器視覺系統(tǒng)的最基本的功能.目前用于視覺研究的大多數(shù)輸入設(shè)備是商品化的產(chǎn)品
23、,如,CCD黑白或彩色攝像機,數(shù)字掃描儀,超聲成象探測儀,CT成象設(shè)備等.但這些商品化的輸入設(shè)備遠遠不能滿足實際的需要,因此,仍有許多研究人員在研究各種性能先進的成象系統(tǒng),如,紅外成象系統(tǒng),激光成象系統(tǒng),還有所謂的計算成象系統(tǒng)(computational imaging),即每一個像素元(或若干像素元)對應一個簡單的處理器,這樣可以適應復雜場景動態(tài)變化的場合[Brajovic 1996]. 低層視覺(low level)主要是對輸入的原始圖像進行處理.這一過程借用了大量的圖像處理技術(shù)和算法,如圖像濾波、圖像增強、邊緣檢測等,以便從圖像中抽取諸如角點、邊緣、線條、邊界以及色彩等關(guān)于場景的基本特
24、征;這一過程還包含了各種圖像變換(如校正)、圖像紋理檢測、圖像運動檢測等. 中層視覺(middle level)的主要任務是恢復場景的深度、表面法線方向、輪廓等有關(guān)場景的2.5維信息,實現(xiàn)的途徑有立體視覺(stereo vision)、測距成像(rangefinder)運動估計(motion estimation)、明暗特征、紋理特征等所謂的從X恢復形狀的估計方法.系統(tǒng)標定、系統(tǒng)成像模型等研究內(nèi)容一般也是在這個層次上進行的. 高層視覺(high level)的任務是在以物體為中心的坐標系中,在原始輸入圖像、圖像基本特征、2.5維圖的基礎(chǔ)上,恢復物體的完整三維圖,建立物體三維描述,識別三維物
25、體并確定物體的位置和方向.另外,主動視覺(active vision)涵蓋了上述各個層次的研究內(nèi)容. 值得指出,低層、中層和高層機器視覺基本上與Marr視覺的三個階段相對應. 體系結(jié)構(gòu)(system architecture)這一術(shù)語最通常的含義系指在高度抽象的層次上,根據(jù)系統(tǒng)模型而不是根據(jù)實現(xiàn)設(shè)計的具體例子來研究系統(tǒng)的結(jié)構(gòu).為了說明這一點,可以考慮建筑設(shè)計中某一時期的建筑風格(如清朝時期)和根據(jù)這一風格設(shè)計出來的具體建筑之間的區(qū)別.體系結(jié)構(gòu)研究涉及一系列相關(guān)的課題:并行結(jié)構(gòu)、分層結(jié)構(gòu)、信息流結(jié)構(gòu)、拓撲結(jié)構(gòu)以及從設(shè)計到實現(xiàn)的途徑. 人們對上述幾個研究內(nèi)容進行了卓有成效的研究,研究出大量的
26、技術(shù)和算法,并且在各個領(lǐng)域中得到廣泛的應用.不過,機器視覺技術(shù)仍處于十分不成熟的的階段,其發(fā)展遠遠落后于人們所寄予的發(fā)展水平. 對于人類視覺來說,識別和理解周圍場景是一件非常容易的事,但對于機器來說,卻是一件很困難的事.主要困難體現(xiàn)在如下幾方面: (1) 圖像多義性: 三維場景被投影為二維圖像,深度和不可見部分的信息被丟失,因而會出現(xiàn)不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像的問題,如圖1.3所示.另外,在不同角度獲取同一物體的圖像會有很大的差異. (2) 環(huán)境因素影響:場景中的諸多因素,包括照明、物體形狀、表面顏色、攝像機以及空間關(guān)系變化都會對投影的圖像有影響,因此,當任何
27、一個因素發(fā)生變化時,都會對圖像產(chǎn)生影響. (3) 知識導引: 同樣的圖像在不同的知識導引下,將會產(chǎn)生不同的識別結(jié)果.圖1.4-1.5所示的圖像,在不同的約束或知識導引下,具有不同的識別結(jié)果.圖1.4(b)可能表示一個少女前視遠方的側(cè)面圖像,也可能表示一個老婦人凝視下前方的正側(cè)面圖像.圖1.5包含有幾個的立方體,不同的知識導引可能產(chǎn)生不同的空間關(guān)系,也就具有不同意義. (4) 大量數(shù)據(jù): 灰度圖像,彩色圖像,深度圖像的信息量十分巨大,比如分辨率為的灰度圖像的數(shù)據(jù)量為256K,同樣分辨率的彩色圖像的數(shù)據(jù)量是768K.如果處理的是圖像序列,則數(shù)據(jù)量更大.巨大的數(shù)據(jù)量需要很大的存貯空間,同時不易實
28、現(xiàn)快速處理. 為了解決視覺所面臨的問題,研究人員不斷尋求新的途徑和手段,比如,主動視覺(active vision),面向任務的視覺(task-oriented vision),基于知識、基于模型的視覺,以及多傳感融合和集成視覺等方法,其中人們越來越重視對知識的應用.我們會看到,機器視覺系統(tǒng)的最大特征是,在視覺的各個階段,系統(tǒng)盡可能地進行自動運算.為此,系統(tǒng)需要使用各種知識,包括特征模型、成像過程、物體模型和物體間的關(guān)系.如果機器視覺系統(tǒng)不用這些知識,則其應用的范圍及其功能將十分有限.因此,視覺系統(tǒng)應該使用那些可以被明確表示的知識,以使系統(tǒng)具有更高的適應性和魯棒性.合理地使用知識不僅可以
29、有效地提高系統(tǒng)的適應性和魯棒性,而且可以求解機器視覺中較難的問題. 圖1.3 不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像 圖1.4一組人臉側(cè)面圖像.注意,中間圖像既與左邊 圖像相似,又與右邊圖像相似[Hochberg 1964]. 圖1.5 幾個立方體構(gòu)成的多義性圖像[選自Combs的作品] 1.5 機器視覺與其它學科領(lǐng)域的關(guān)系 與機器視覺有關(guān)的學科有許多.本節(jié)主要討論一些與機器視覺密切相關(guān)的領(lǐng)域.關(guān)于機器視覺與其它學科的關(guān)系,我們不作詳盡的討論. 圖像處理是一個發(fā)展比較成熟的領(lǐng)域.圖像處理技術(shù)通常是把一幅圖像變換成另外一幅圖像,也就是
30、說,圖像處理系統(tǒng)的輸入是圖像,輸出仍然是圖像,信息恢復任務則留給人來完成.圖像處理包括圖像增強、圖像壓縮和模糊校正與非聚焦圖像等課題.機器視覺系統(tǒng)把圖像作為輸入,產(chǎn)生的輸出為另一種形式,比如圖像中物體輪廓的表示.因此,機器視覺的重點是在人的最小干預下,由計算機自動恢復場景信息.圖像處理算法在機器視覺系統(tǒng)的早期階段起著很大的作用,它們通常被用來增強特定信息并抑制噪聲. 計算機圖形學是通過幾何基元,如線、圓和自由曲面,來生成圖像,它在可視化(Visualization)和虛擬現(xiàn)實(Virtual Reality)中起著很重要的作用.機器視覺正好是解決相反的問題,即從圖像中估計幾何基元和其
31、它特征.因此,計算機圖形學屬于圖像綜合,機器視覺屬于圖像分析.這兩個領(lǐng)域在其發(fā)展的早期階段是沒有什么聯(lián)系的,但是近十幾年來發(fā)展的越來越相近了.機器視覺使用了計算機圖形學中的曲線和曲面表示方法以及其它的一些技術(shù),而計算機圖形學也使用機器視覺技術(shù),以便在計算機中建立逼真的圖像模型.可視化和虛擬現(xiàn)實把這兩個領(lǐng)域緊密地聯(lián)系在一起. 模式識別主要用于識別各種符號、圖畫等平面圖形.模式一般指一類事物區(qū)別于其它事物所具有的共同特征。模式識別方法主要有統(tǒng)計方法和句法方法兩種,統(tǒng)計方法是指從模式抽取一組特征值,并以劃分特征空間的方法來識別每一個模式。句法方法是指利用一組簡單的子模式(模式基元)通過文法
32、規(guī)則來描述復雜的模式。模式識別方法是機器視覺識別物體的重要基礎(chǔ)之一.機器視覺識別物體還經(jīng)常需要其它的技術(shù).我們將在物體識別部分簡要地討論統(tǒng)計模式識別的主要內(nèi)容. 人工智能(artificial intelligent, AI)涉及到智能系統(tǒng)的設(shè)計和智能計算的研究.在經(jīng)過圖像處理和圖像特征提取過程后,接下來要用人工智能方法對場景特征進行表示,并分析和理解場景.人工智能有三個過程:感知、認知和行動.感知把反應現(xiàn)實世界的信息轉(zhuǎn)換成信號,并表示成符號,認知是對符號進行各種操作,行動則把符號轉(zhuǎn)換成影響周圍環(huán)境的信號.人工智能的許多技術(shù)在機器視覺的各個方面起著重要作用.事實上,機器視覺通常被視為
33、人工智能的一個分支. 人工神經(jīng)網(wǎng)絡(artificial neural networks, ANNs)是一種信息處理系統(tǒng),它是由大量簡單的處理單元(稱為神經(jīng)元)通過具有強度的連接(connection)相互聯(lián)系起來,實現(xiàn)并行分布式處理(parallel distribution processing, PDP).人工神經(jīng)網(wǎng)絡的最大特點是可以通過改變連接強度來調(diào)整系統(tǒng),使之適應復雜的環(huán)境,實現(xiàn)類似人的學習、歸納和分類等功能.人工神經(jīng)網(wǎng)絡已經(jīng)在許多工程技術(shù)領(lǐng)域得到了廣泛的應用.神經(jīng)網(wǎng)絡作為一種方法和機制將用于解決機器視覺中的許多問題. 神經(jīng)物理學與認知科學長期將人類視覺作為主要的研究對象.機器
34、視覺中已有的許多方法與人類視覺極為相似.目前,許多機器視覺研究者對研究人類視覺計算模型比研究機器視覺系統(tǒng)更感興趣,希望機器視覺更加自然化,更加接近生物視覺。我們在第二章介紹人類視覺的一些研究成果,使讀者在研究機器視覺時或多或少能從生物視覺機理中得到啟發(fā).不過,我們的重點在于研究機器視覺系統(tǒng),因此,不討論機器視覺與神經(jīng)物理學或認知科學的聯(lián)系. 1.6 成象幾何基礎(chǔ) 一般的成象系統(tǒng)通常將三維場景變換成二維灰度或彩色圖像,這種變換可以用一個從三維空間到二維空間的映射來表示: (1.1) 如果考慮時變?nèi)S場景,則上述變換是四維空
35、間到三維空間的變換,如果再考慮某一波段或某幾個波段的光譜,則上式的維數(shù)將增加到五維或更高維.這里我們只考慮三維空間到二維空間的兩種常用映射:透視投影變換和正交投影變換. 1.6.1 透視投影 透視投影(perspective projection)是最常用的成像模型,可以用針孔(pinhole)成像模型來近似表示.透視投影成像模型的特點是所有來自場景的光線均通過一個投影中心,它對應于透鏡的中心,經(jīng)過投影中心且垂直于圖像平面(成像平面)的直線稱為投影軸或光軸,如圖1.6所示.其中是固定在攝象機上的直角坐標系,遵循右手法則,其原點位于投影中心,軸與投影軸重合并指向場景,軸、軸與圖像平面
36、的坐標軸和平行,平面與圖像平面的距離為,一般稱為攝象機的焦距.在實際攝像機中,圖像平面位于投影中心后面距離為的位置(圖1.6),其投影圖像是倒立的.為了避免這種倒立圖像,假定圖像平面位于投影中心的前面,如圖1.7所示.場景中一點在圖像平面上的投影位置可以通過計算點的視線(空間點與投影中心的連線)與圖像平面的相交位置得到. 點的視線、點到軸的垂直線段以及軸形成了一個三角形.圖像平面上點的視線、點到軸垂直線段以及軸形成了另一個三角形.這兩個三角形是相似三角形,因此得到透視投影方程:
37、 (1.2) 點在圖像平面中的位置由下式給出: (1.3) ( 圖1.6 透視投影倒立成像幾何示意圖 圖1.7 透視投影幾何示意圖 1.6.2 正交投影 正交投影(orthogonal projection)指用平行于光軸的光將場景投射到圖像平面上,
38、 因此也稱為平行投影(parallel projection),如圖1.8所示.正交投影是透視投影的一個特例,當透視投影模型的焦距很大且物體距投影中心很遠時,透視投影就可以用正交投影來近似.此時,投影方程為: (1.4) 圖 1.8 正交投影幾何示意圖 1.6.3 視覺系統(tǒng)坐標系 在計算機視覺系統(tǒng)中涉及到以下幾種坐標: l 像素坐標:表示圖像陣列中圖像像素的位置; l 圖像平面坐標:表示場景點在圖像平面上的投影; l 攝象機坐標:即以觀察者為中心的坐標,將場景點表示成以觀察者為中心的數(shù)據(jù)形式.
39、 l 場景坐標:也稱作絕對坐標(或世界坐標),用于表示場景點的絕對坐標; 像素坐標也稱為圖像陣列坐標或網(wǎng)格坐標.圖像處理通常是在圖像陣列的像素坐標系中進行,其中圖像的行數(shù)和列數(shù)對應于圖像網(wǎng)格的整數(shù)坐標,即像素的坐標是整數(shù)值,像素位于圖像的左上角,指向下方,指向右方.這種圖像像素坐標系,正好對應計算機程序里的陣列語法.為了提高圖像處理的精度,需要引入子像素(sub-pixel)概念.所謂子像素是指像素與像素之間的點,其坐標用小數(shù)表示.使用攝象機幾何假設(shè)條件可以將像素點坐標轉(zhuǎn)化成圖像平面坐標. 圖像平面坐標定義如下:假定攝像機主點,即光軸與圖像平面的交點,位于圖像的中心點,若圖像陣列為,則
40、圖像平面坐標的中心坐標為: (1.5) 其中表示中心坐標的估計值;圖像平面坐標軸方向是列數(shù)標號增加的方向,但軸方向指向行數(shù)標號增加方向的反向.假定圖像陣列的行列間距是相等的,則像素坐標到圖像坐標的變換公式為: (1.6) 如果圖像陣列的行列間距不相等,并設(shè)列間距為,行間距為,則像素坐標到圖像坐標的變換式為: (1.7) 為了簡化
41、運算,在機器視覺應用中普遍要求攝象機的像素為正方形像素.如果使用了非正方形像素攝象機,則必須考慮非正方形像素對測量的影響.若有影響,則必須在測量之前將其坐標轉(zhuǎn)化為標準的圖像平面坐標.圖像坐標可以是攝象機誤差(如透鏡畸變)修正之后或未修正的真實圖像坐標。 在本書中,場景坐標或絕對坐標用表示,攝象機坐標用表示。攝象機坐標系也稱為以觀察者為中心的坐標系.在場景中也許有多個攝象機,每個攝象機都有其自己的坐標系.例如,在雙目立體系統(tǒng)中,就有左攝象機坐標和右攝象機坐標,以及表示深度測量的立體坐標.這里請讀者注意,由于在許多情況下,圖像平面坐標系是攝象機坐標系的一部分,因此,為了書寫簡單,在不混淆
42、的情況下,通常使用攝象機平面坐標代替圖像平面坐標。 1.7本書內(nèi)容向?qū)? 本書各章內(nèi)容基本上是按照由低級到高級,由灰度到彩色,由二維到三維, 由分析到表示和理解這種順序安排的.大致說來,除了第二章是有關(guān)生理視覺的介紹外,本書的前半部分基本上是限于二維空間,后半部分把范圍則擴展到了三維空間.關(guān)于二值圖像的第三章介紹了機器視覺領(lǐng)域所用的基本術(shù)語和概念,那里所討論的技術(shù)可用于視覺系統(tǒng)的所有方面.第四章介紹了圖像區(qū)域檢測技術(shù),同時也討論了區(qū)域表示方法.所有的視覺系統(tǒng)都離不開區(qū)域檢測或分析技術(shù),,因此這一章討論的內(nèi)容是視覺的基本內(nèi)容.第五章介紹了圖像濾波方法,論述了圖像增強技術(shù)和一些其它的濾波
43、技術(shù).圖像濾波的主要目的是突顯用于視覺識別的特征,去除噪聲等,因此是實現(xiàn)機器視覺的基礎(chǔ)。邊緣檢測技術(shù)也是許多機器視覺系統(tǒng)中最重要、最基本的步驟,第六章介紹了幾種邊緣檢測技術(shù)并比較了它們的性能以及在應用中注意的問題。接下來一章介紹了輪廓表示方法,邊緣是局部的,只有把它們組成有意義的物體并表示出來才能使用它們.紋理在諸如表面檢測、場景分類、表面姿態(tài)和形狀分類等許多機器視覺的任務中起著重要作用,這些內(nèi)容將在第八章討論.輻射測量學將在第九章討論.在許多應用中,色彩是圖像的重要組成部分,我們將在第十章討論.第十一章介紹主動方法和被動方法恢復圖像深度信息的技術(shù).這種技術(shù)把我們從二維圖像帶到了三維圖像.第十
44、二章討論了攝像機標定技術(shù), 為了從圖像中獲取三維信息,必須知道攝像機的位置和姿態(tài)及其自身的一些參數(shù).這一章討論了各種用于攝像機標定的技術(shù). 第十三章討論了空間中曲線和曲面的表示和它們的一些性質(zhì),并討論了內(nèi)插和逼近技術(shù).第十四章介紹了圖像二維運動估計,包括圖像變化檢測、基于運動特性的圖像分割和物體跟蹤技術(shù)。關(guān)于從運動恢復結(jié)構(gòu)的方法等有關(guān)三維運動分析和估計是最近幾年的研究熱點,這一部分內(nèi)容在第十五章討論.物體識別是視覺系統(tǒng)的一個最普遍的應用.我們將在第十六章討論一些物體識別的基本方面.還有一些最新的信息處理方法,如神經(jīng)元網(wǎng)絡、分數(shù)維方法、子波方法,主要從應用的角度進行了討論,這些內(nèi)容分布在有關(guān)章節(jié)中。 我們認為練習是課程中一個十分重要的環(huán)節(jié).本書各章都給出了一些概念題和計算題來檢驗讀者對書中內(nèi)容的理解,另外還有一定數(shù)量的計算機練習題,以增加讀者的實際.我們把這門課看成是一門理論與實驗相結(jié)合的課程.請讀者注意,完成一個簡單的視覺系統(tǒng)設(shè)計練習題對于真正理解機器視覺系統(tǒng)非常重要. 專心---專注---專業(yè)
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 指向核心素養(yǎng)發(fā)展的高中生物學1輪復習備考建議
- 新課程新評價新高考導向下高三化學備考的新思考
- 新時代背景下化學高考備考策略及新課程標準的高中化學教學思考
- 2025屆江西省高考政治二輪復習備考建議
- 新教材新高考背景下的化學科學備考策略
- 新高考背景下的2024年高考化學二輪復習備考策略
- 2025屆高三數(shù)學二輪復習備考交流會課件
- 2025年高考化學復習研究與展望
- 2024年高考化學復習備考講座
- 2025屆高考數(shù)學二輪復習備考策略和方向
- 2024年感動中國十大人物事跡及頒獎詞
- XX教育系統(tǒng)單位述職報告教育工作概述教育成果展示面臨的挑戰(zhàn)未來規(guī)劃
- 2025《增值稅法》全文解讀學習高質(zhì)量發(fā)展的增值稅制度規(guī)范增值稅的征收和繳納
- 初中資料:400個語文優(yōu)秀作文標題
- 初中語文考試專項練習題(含答案)