手寫數(shù)字識(shí)別[共29頁]

上傳人:gfy****yf 文檔編號(hào):44969787 上傳時(shí)間:2021-12-06 格式:DOC 頁數(shù):29 大?。?49KB
收藏 版權(quán)申訴 舉報(bào) 下載
手寫數(shù)字識(shí)別[共29頁]_第1頁
第1頁 / 共29頁
手寫數(shù)字識(shí)別[共29頁]_第2頁
第2頁 / 共29頁
手寫數(shù)字識(shí)別[共29頁]_第3頁
第3頁 / 共29頁

下載文檔到電腦,查找使用更方便

12 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《手寫數(shù)字識(shí)別[共29頁]》由會(huì)員分享,可在線閱讀,更多相關(guān)《手寫數(shù)字識(shí)別[共29頁](29頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、 1.1 字符識(shí)別概述 OCR(Optical Character Recognition)即光學(xué)字符識(shí)別技術(shù),是通過掃描儀把印刷體或手寫體文稿掃描成圖像,然后識(shí)別成相應(yīng)的計(jì)算機(jī)可直接處理的字符。OCR是模式識(shí)別的一個(gè)分支,按字體分類主要分為印刷體識(shí)別和手寫體識(shí)別兩大類。對(duì)于印刷體識(shí)別又可以分成單一字體單一字號(hào)和多種字體多種字號(hào)幾類。而手寫體識(shí)別又可分為受限手寫體和不受限手寫體兩類;按識(shí)別方式可分為在線識(shí)別和脫機(jī)識(shí)別兩類。 字符識(shí)別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機(jī)手寫方面技術(shù)已趨向

2、成熟,并推出了很多應(yīng)用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯?dāng)?shù)字及少量特殊符號(hào)組成的各種編號(hào)和統(tǒng)計(jì)數(shù)據(jù),如:郵政編碼、統(tǒng)計(jì)報(bào)表、財(cái)務(wù)報(bào)表、銀行票據(jù)等等,處理這類信息的核心技術(shù)是手寫數(shù)字識(shí)別。 在整個(gè)OCR領(lǐng)域中,最為困難的就是脫機(jī)自由手寫字符的識(shí)別。到目前為止,盡管人們?cè)诿摍C(jī)手寫英文、漢字識(shí)別的研究中已取得很多可喜成就,但距離實(shí)用還有一定距離。而在手寫數(shù)字識(shí)別這個(gè)方向上,經(jīng)過多年研究,研究工作者已經(jīng)開始把它向各種實(shí)際應(yīng)用推廣,為手寫數(shù)據(jù)的高速自動(dòng)輸入提供了一種解決方案。 1.2 數(shù)字識(shí)別研究的目的及意義 人類社會(huì)己開始進(jìn)入信息時(shí)代,信息產(chǎn)業(yè)的發(fā)展將對(duì)國家的發(fā)達(dá)和民族的興旺產(chǎn)生重大的影響

3、。因此,世界各國對(duì)信息產(chǎn)業(yè)的發(fā)展都給予了極大的關(guān)注和重視。人類社會(huì)的不斷進(jìn)步帶來了信息空間的增長和積累,而計(jì)算機(jī)的出現(xiàn)為現(xiàn)代化信息處理提供了有效的手段。但是,在信息技術(shù)高速發(fā)展的同時(shí),一個(gè)難題也擺在我們面前,那就是計(jì)算機(jī)數(shù)據(jù)處理和網(wǎng)絡(luò)傳輸?shù)母咚俣扰c數(shù)據(jù)輸入的低速度之間的矛盾。目前,人類的許多信息是記錄在紙上的文字圖像,將這些信息輸入計(jì)算機(jī)是非常繁瑣而低效率的工作,這在一定的程度上減緩了社會(huì)信息化的進(jìn)程。因而,作為信息化基礎(chǔ)的數(shù)據(jù)輸入成了計(jì)算機(jī)應(yīng)用中的瓶頸問題。人們接受信息最頻繁的是視覺通道.在日常學(xué)習(xí)和生活中,所處理的信息有75%—85%是視覺信息,其中文字信息愈來愈占重要地位.比如對(duì)各種期刊

4、文獻(xiàn)的閱讀、查找、翻譯:對(duì)各種統(tǒng)計(jì)報(bào)表的匯總、計(jì)算、分析;對(duì)各種函件票證的分揀、傳送、驗(yàn)核等。要實(shí)現(xiàn)對(duì)這些文字信息處理過程的機(jī)械化、自動(dòng)化,其先決條件就是利用計(jì)算機(jī)對(duì)這些文字信息進(jìn)行識(shí)別。 字符識(shí)別是利用計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上或人寫在紙上的漢字,是模式識(shí)別的一個(gè)重要分支,也是文字識(shí)別領(lǐng)域較為困難的問題之一。本技術(shù)涉及模式識(shí)別、圖像處理、數(shù)字信號(hào)處理、自然語言理解、人工智能、模糊數(shù)學(xué)、信息論、計(jì)算機(jī)、中文信息處理等學(xué)科,是一門綜合性技術(shù),在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域,都有著重要的實(shí)用價(jià)值和理論意義。 因此,手寫數(shù)字的識(shí)別研究有著重大的現(xiàn)實(shí)意義,一旦研究成功并

5、投入應(yīng)用,將產(chǎn)生巨大的社會(huì)和經(jīng)濟(jì)效益。 1.3 手寫數(shù)字識(shí)別的典型應(yīng)用 手寫數(shù)字識(shí)別有著極為廣泛的應(yīng)用前景,這也正是它受到世界各國的研究工作者重視的一個(gè)主要原因。下面將介紹一些以手寫數(shù)字識(shí)別技術(shù)為基礎(chǔ)的典型應(yīng)用。 (一)手寫數(shù)字識(shí)別在大規(guī)模數(shù)據(jù)統(tǒng)計(jì)中的應(yīng)用 在大規(guī)模的數(shù)據(jù)統(tǒng)計(jì)[12](如:行業(yè)年鑒、人口普查等)中,需要輸入大量的數(shù)據(jù),以前需要手工輸入,需要耗費(fèi)大量的人力和物力。近年來在這類工作中采用OCR技術(shù)已成為一種趨勢。因?yàn)樵谶@種應(yīng)用中,數(shù)據(jù)的錄入是集中組織的,所以往往可以通過專門設(shè)計(jì)表格和對(duì)書寫施加限制以便于機(jī)器的自動(dòng)識(shí)別。 目前國內(nèi)的大多數(shù)實(shí)用系統(tǒng)都要求用戶按指定規(guī)范在方格

6、內(nèi)填寫。另外,這些系統(tǒng)往往采用合適的用戶界面對(duì)識(shí)別結(jié)果做全面的檢查,最終保證結(jié)果正確無誤[4]??梢钥闯?,這是一類相對(duì)容易的應(yīng)用,對(duì)識(shí)別核心算法的要求比較低,是目前國內(nèi)很多單位應(yīng)用開發(fā)的熱點(diǎn)。 (二)手寫數(shù)字識(shí)別在財(cái)務(wù)、稅務(wù)、金融領(lǐng)域中的應(yīng)用 財(cái)務(wù)、稅務(wù)、金融是手寫數(shù)字識(shí)別大有可為的又一領(lǐng)域。隨著我國經(jīng)濟(jì)的迅速發(fā)展,每天等待處理的財(cái)務(wù)、稅務(wù)報(bào)表、支票、付款單等越來越多。如果能把它們用計(jì)算機(jī)自動(dòng)處理,無疑可以節(jié)約大量的時(shí)間、金錢和勞力。與上面提到的大規(guī)模數(shù)據(jù)統(tǒng)計(jì)處理相比,在這個(gè)領(lǐng)域的應(yīng)用難度更大,原因有: 1、對(duì)識(shí)別的精度要求更高; 2、處理的表格通常不止一種,所以一個(gè)系統(tǒng)應(yīng)具有智能地同

7、時(shí)處理若干種表格的能力; 3、由于處理貫穿于整個(gè)日常工作之中,書寫應(yīng)盡量按一般習(xí)慣(如:不對(duì)書寫者的寫法做限定,書寫時(shí)允許寫連續(xù)的字串,而不是在固定的方格內(nèi)書寫),這樣對(duì)識(shí)別及預(yù)處理的核心算法要求也提高了。 1.4 國內(nèi)外研究現(xiàn)狀 手寫體數(shù)字識(shí)別在學(xué)科上屬于模式識(shí)別和人工智能的范疇。在過去的數(shù)十年中,研究者提出了許多識(shí)別方法,目前手寫體數(shù)字識(shí)別方法可以分為兩類:基于結(jié)構(gòu)特征的方法和基于統(tǒng)計(jì)特征的方法。通過幾十年來各國研究學(xué)者得對(duì)數(shù)字識(shí)別的研究,國內(nèi)外在手寫識(shí)別上也取得了一定的成就。在我國郵電部第三研究所,以信函分揀為目的,識(shí)別書寫在信封上的郵政編碼。其它用傳統(tǒng)方法進(jìn)行識(shí)別研究的有中國科

8、學(xué)院自動(dòng)化研究所,該所對(duì)手寫體數(shù)字識(shí)別的研究歷史幾乎有20年了,在他們新近的報(bào)告中,利用以有限狀態(tài)自動(dòng)機(jī)為主的識(shí)別途徑識(shí)別1100個(gè)手寫體數(shù)字,識(shí)別率達(dá)95.2%,拒識(shí)4%,誤識(shí)0.2%,上海交通大學(xué)基于壓縮字結(jié)構(gòu)特征的手寫體數(shù)字識(shí)別算法選取了12600個(gè)樣本組成訓(xùn)練集,6000個(gè)樣本組成測試集,用BP網(wǎng)絡(luò)進(jìn)行分類,識(shí)別正確率為97.58%,誤識(shí)率為1.04%,拒識(shí)率為1.38%。 德國E9的Friedhelm Schwenker采用SV-RBF40對(duì)手寫體數(shù)字進(jìn)行識(shí)別,測試樣本10000個(gè),識(shí)別正確率為98.56%。清華大學(xué)采用SVM對(duì)金融票據(jù)中的手寫體數(shù)字進(jìn)行識(shí)別,測試樣本20000個(gè),識(shí)

9、別率約為92%。然而以上提到的系統(tǒng),要么對(duì)書寫的正規(guī)程度有要求,要么其測試樣本和訓(xùn)練樣本出于同一批人之手??傊?,一般的系統(tǒng)對(duì)書寫人員限制較多,或者對(duì)書寫的正規(guī)程度有要求,或者對(duì)書寫位置有要求,或者對(duì)所用筆、紙有要求,例如對(duì)稅務(wù)報(bào)表的識(shí)別就要求用規(guī)定的字型書寫數(shù)字,并且對(duì)書寫的位置有要求,而真正的無限制手寫體數(shù)字的識(shí)別的研究還有待進(jìn)一步提高。 1.5 手寫體數(shù)字識(shí)別系統(tǒng)概述 本文的手寫體數(shù)字識(shí)別系統(tǒng)總體流程可分為兩大步驟。(見圖1.1)。 圖像預(yù)處理 神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)字識(shí)別 圖1.1系統(tǒng)總流程圖 其中圖像預(yù)處理的流程如圖1.2 所示。 讀

10、取圖片 灰度化 二值化 歸一化調(diào)整 數(shù)字分割 去噪聲 圖像細(xì)化 圖1.2 圖像預(yù)處理流程圖 神經(jīng)網(wǎng)絡(luò)數(shù)字識(shí)別的具體流程如圖1.3 所示。 樣本訓(xùn)練 識(shí)別 字符特征提取 圖1.3 神經(jīng)網(wǎng)絡(luò)數(shù)字識(shí)別流程圖 1) 圖像預(yù)處理階段 在獲取原始數(shù)字圖像過程中,由于光照、背景紋理、鏡頭分辨率、拍攝角度等原因,難免會(huì)造成圖像失真并帶有噪聲。由于這些噪聲的影響,如果對(duì)獲取得到的數(shù)字圖像進(jìn)行直接處理的話通常不能得到滿意的結(jié)果,因此在獲取原始數(shù)字圖像后,需要對(duì)圖像進(jìn)行預(yù)處理。對(duì)于字符識(shí)別的預(yù)處理過程一般包括:二值化、去噪聲、數(shù)字分割、歸一化處理、圖像細(xì)化。經(jīng)過預(yù)處理后的

11、圖片不僅能夠有效濾除噪聲,并且能夠?qū)⒉煌拇笮∽址M(jìn)行歸一化到一個(gè)固定大小,對(duì)大量數(shù)據(jù)進(jìn)行壓縮處理。預(yù)處理階段在該系統(tǒng)中是一個(gè)很重要的階段。預(yù)處理效果的好壞會(huì)直接影響到整個(gè)系統(tǒng)的性能。具體方法可以詳見第二章。 2) 特征提取階段 由于原始數(shù)字圖像數(shù)據(jù)量大,冗余信息較多,一般不進(jìn)行直接識(shí)別,而是進(jìn)行提取有效特征數(shù)據(jù)、壓縮數(shù)據(jù),然后再進(jìn)行識(shí)別。換句話說特征提取是為了去除圖像信息中對(duì)分類沒有幫助的部分,將圖像信息集中到幾個(gè)有代表性的特征上來的過程。 3) 數(shù)字識(shí)別階段 我們將提取到的特征值輸入到已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類識(shí)別。 1.6 本文內(nèi)容安排 本文內(nèi)容上總體安排為六章。

12、 第一章主要是對(duì)OCR和手寫體數(shù)字識(shí)別作簡單的介紹。介紹內(nèi)容有:OCR及手寫體數(shù)字識(shí)別的歷史及現(xiàn)狀;手寫體數(shù)字識(shí)別的典型應(yīng)用;國內(nèi)外的研究現(xiàn)狀;數(shù)字識(shí)別系統(tǒng)的整體描述以及本文的研究內(nèi)容。 第二章:主要是研究手寫體數(shù)字識(shí)別中的預(yù)處理技術(shù)。本文采用預(yù)處理有灰度化,二值化,去噪聲,歸一化,細(xì)化等技術(shù),該章節(jié)對(duì)其進(jìn)行詳細(xì)分析。同時(shí)本章針對(duì)幾種閾值分割進(jìn)行比較,分析其各自的優(yōu)缺點(diǎn)。 第三章:主要研究的是手寫體數(shù)字識(shí)別中的特征值提取技術(shù)。在特征值提取模塊中,需要根據(jù)特征表達(dá)方式或者特征提取技術(shù)的不同,選用不同的預(yù)處理技術(shù)。 第四章:主要簡單介紹神經(jīng)網(wǎng)絡(luò)分類識(shí)別器實(shí)現(xiàn)原理。初步介紹本文采用的BP神經(jīng)網(wǎng)

13、絡(luò),并給出本文采用的學(xué)習(xí)算法和訓(xùn)練算法。 第五章:介紹了本文實(shí)現(xiàn)的系統(tǒng)的開發(fā)和運(yùn)行環(huán)境,以及系統(tǒng)的處理過程圖,系統(tǒng)界面。給出實(shí)驗(yàn)結(jié)果分析。 第六章:對(duì)整個(gè)論文的研究和工作進(jìn)行了總結(jié)并指出了進(jìn)一步的研究方向。 2 手寫體數(shù)字識(shí)別中預(yù)處理技術(shù) 預(yù)處理對(duì)于一個(gè)良好的識(shí)別系統(tǒng)不僅是一個(gè)必不可少的環(huán)節(jié),而且是至關(guān)重要的。如果預(yù)處理處理得不夠理想,會(huì)從很大程度上降低整個(gè)系統(tǒng)的識(shí)別率。一般手寫體數(shù)字識(shí)別而言,預(yù)處理包括很多部分,如去噪聲、灰度化、二值化、歸一化、細(xì)化等等。 2.1 圖像灰度化 所謂灰度圖像就是圖像的每一個(gè)象素的R、G、B分量的值是相等的。彩色圖像的每個(gè)象素的R、G、B

14、值是不相同的,所以顯示出紅綠藍(lán)等各種顏色?;叶葓D像沒有這些顏色差異,有的只是亮度上的不同?;叶戎荡蟮南笏攸c(diǎn)比較亮(象素值最大為255,為白色),反之比較暗(象素值最小為0,為黑色)。對(duì)讀取到的圖片進(jìn)行灰度處理,為下一步二值化做好準(zhǔn)備工作。圖像灰度化有各種不同的算法,比較直接的一種就是給象素的rgb 值各自一個(gè)加權(quán)系數(shù),然后求和。 圖2.1測試圖像原圖 圖2.2灰度化效果圖 2.2 圖像二值化 在進(jìn)行了灰度化處理之后,圖像中的每個(gè)象素只有一個(gè)值,那就是象素的灰度值。它的大小決定了象素的亮暗程度。為了更加便利的開展下面的圖像處理操作,還需要對(duì)已經(jīng)得到的灰度圖像做一個(gè)二值化處理。圖

15、像的二值化就是把圖像中的象素根據(jù)一定的標(biāo)準(zhǔn)分化成兩種顏色。 在數(shù)字圖像處理中,二值化占有非常重要的地位。這是因?yàn)?,一方面類似于字符、指紋、工程圖等圖像本身就是二值的。另一方面,在某些情況下即使圖像本身是有灰度的,也將其轉(zhuǎn)換成二值圖像再處理。這樣在圖像處理系統(tǒng)中,可以減少圖像信息并提高處理速度。 圖像的二值化有幾種類型,其中主要的有基于灰度分布的二值化,也有基于梯度信息的二值化?;诨叶确植嫉亩祷幚硪话闶峭ㄟ^設(shè)定閾值,把它變?yōu)閮H用二值表示前景和背景顏色的圖像。圖像的二值化可以根據(jù)下面的閾值來處理:假設(shè)一幅原始圖像的象素值p(i,j)的取值范圍為[0,m],那么設(shè)有其閾值為T=t,0

16、m,則映射成新的二值圖像的象素值p’(i,j)為: (式2.1) 對(duì)于基于灰度分布的二值化就是一個(gè)帶閾值T的二值映射過程,其分割效果的關(guān)鍵在于閾值T的選取。有的應(yīng)用可以由計(jì)算機(jī)自動(dòng)選取,有的則需要人工干預(yù),所以閾值T的選取視應(yīng)用范圍而有所不同。對(duì)于字符識(shí)別來說,只需要保留文字特征的二值信息即可。目前,眾多學(xué)者對(duì)此已經(jīng)進(jìn)行了比較詳細(xì)的研究,并提出了許多閾值選取的算法,這些算法大體上可以劃分為三類:整體閾值法,局部閾值法和動(dòng)態(tài)閾值法。 1) 整體閾值法(又稱全局閾值法) 僅由象素點(diǎn)(i,j)的灰度值p(i,j)確定閾值的方法稱為整體閾值選擇法。典型的閾

17、值選取算法有直方圖法,熵閾值法等等,一般地,如果圖像灰度直方圖呈現(xiàn)雙峰,或者圖像中背景灰度與目標(biāo)灰度呈明顯分離狀,整體閾值法分割圖像效果良好且速度快。 2) 局部閾值法 由象素(i,j)的灰度值p(i,j)和象素周圍點(diǎn)的局部灰度特性確定閾值的方法稱為局部閾值法。不同的閾值法源于N(i,j)的不同選擇。對(duì)于書寫質(zhì)量差,干擾較嚴(yán)重的字符,采用整體閾值法二值化,效果不太理想,局部閾值法有可能得到較為滿意的二值化結(jié)果。 3) 動(dòng)態(tài)閾值法 當(dāng)閾值選擇不僅取決于該象素閾值及其周圍各象素的灰度值,而且還和象素坐標(biāo)位置相關(guān)時(shí),稱之為動(dòng)態(tài)閾值法。這種方法可以處理低質(zhì)量甚至單峰直方圖圖像。對(duì)文字圖像而言,

18、由于筆畫和背景的區(qū)分比較明顯,并且動(dòng)態(tài)閾值法的實(shí)現(xiàn)較為復(fù)雜、計(jì)算時(shí)間相對(duì)長,因此在文字識(shí)別中很少采用。 對(duì)于以上三種二值化算法中,由于動(dòng)態(tài)閾值法實(shí)現(xiàn)較為復(fù)雜而且用時(shí)較長,很難滿足文字識(shí)別中的實(shí)時(shí)性要求,因此該算法在字符識(shí)別系統(tǒng)中很少被采用。采用整體閾值法和局部閾值法能很好的將背景和目標(biāo)進(jìn)行分割。本系統(tǒng)采用整體閾值法。 鑒于在實(shí)際中,考慮到所要進(jìn)行處理的圖像大多是從印刷出版物上掃描得來的底色大多為白色所以我們將這個(gè)閾值固定為230。二值化后效果如圖2.3。 圖2.3二值化效果圖 2.3 圖像反色 圖像的反色工作只是為了后期處理識(shí)別圖像方便,并不是必須的過程。反色只是對(duì)二值化后的

19、圖像象素值取反。即黑色(象素值為0)轉(zhuǎn)變?yōu)榘咨ㄏ笏刂禐?),白色(象素值為1轉(zhuǎn)變?yōu)楹谏ㄏ笏刂禐?)。 圖2.4反色效果圖 2.4 圖像去噪聲 噪聲對(duì)于圖像的預(yù)處理非常重要,它會(huì)影響圖像處理的輸入、采集、處理各個(gè)環(huán)節(jié)和識(shí)別結(jié)果的全過程。特別是圖像的輸入、采集的噪聲是十分關(guān)鍵的問題。如果輸入不良伴有較大的噪聲,濾波去噪后不能達(dá)到理想效果,將必然的嚴(yán)重影響處理的全過程以至最后的識(shí)別結(jié)果。噪聲去除已經(jīng)成為圖像處理極其重要的步驟,然而現(xiàn)在還沒有一個(gè)通用的濾波去噪方法對(duì)所有的圖片適用,一般的圖像預(yù)處理必須根據(jù)實(shí)際情況選擇不同濾波去噪方

20、法進(jìn)行比較,最后得出最佳的濾波去噪方法。 通常去噪聲用濾波的方法,比如中值濾波、均值濾波。但是那樣的算法不適合用在處理字符這樣目標(biāo)狹長的圖像中,因?yàn)樵跒V波的過程中很有可能會(huì)去掉字符本身的象素。系統(tǒng)采用的是去除雜點(diǎn)的方法來進(jìn)行去噪聲處理的。 具體算法描述如下: 1)掃描整個(gè)圖像的每個(gè)象素并取得此象素9領(lǐng)域的象素值(如圖2.5)。 2)分別計(jì)算0和1的總數(shù)S0 ,S1 。 3)if S0 5 x=0; if S1 5 x=1; 4)重復(fù)步驟1)直至不再改變。 0 1 1 0 x 0 0 1 0 圖2.5 領(lǐng)域示意圖 經(jīng)過上述算法去離散噪聲

21、后,很好的排除了離散噪聲點(diǎn)的干擾。效果如圖2.6所示。 圖2.6 去離散噪聲效果圖 2.5 數(shù)字分割 系統(tǒng)在讀進(jìn)來的圖像中一般會(huì)含有多個(gè)數(shù)字,識(shí)別的時(shí)候只能根據(jù)每個(gè)字符的特征來進(jìn)行判斷,所以還要進(jìn)行字符分割的工作。這一步工作就是把圖像中的字符獨(dú)立的分割出來。 具體的算法如下: 第一步,先自下向上對(duì)圖像進(jìn)行逐行掃描直至遇到第一個(gè)白色的象素點(diǎn)。記錄下來。然后再由上向下對(duì)圖像進(jìn)行逐行掃描直至找到第一個(gè)白色象素,這樣就找到圖像大致的高度范圍。 第二步,在這個(gè)高度范圍之內(nèi)在自左向右逐列進(jìn)行掃描,遇到第一個(gè)白色象素時(shí)認(rèn)為是字符分割

22、的起始位置,然后繼續(xù)掃描,直至遇到有一列中沒有白色象素,則認(rèn)為這個(gè)字符分割結(jié)束,然后繼續(xù)掃描,按照上述的方法一直掃描直至圖像的最右端。這樣就得到了每個(gè)字符的比較精確寬度范圍。 第三步,在已知的每個(gè)字符比較精確的寬度范圍內(nèi),按照第一步的方法,分別進(jìn)行自上而下和自下而上的逐行掃描來獲取每個(gè)字符精確的高度范圍。 圖2.7數(shù)字分割效果圖 2.5 數(shù)字歸一化 對(duì)于字符識(shí)別來說,歸一化是一個(gè)很重要的預(yù)處理因素。由于人們?cè)跁鴮?、設(shè)備使用焦距不同等原因可以導(dǎo)致獲取后的數(shù)字圖像字符的大小不一。對(duì)于大小不一的字符圖像,處理起來很不方便,因此在通常情況下,在對(duì)字符進(jìn)行預(yù)處理的時(shí)候,我們必須將單個(gè)字符進(jìn)

23、行歸一化處理。歸一化處理一般的是將單字符圖像進(jìn)行歸一化到固定的大小的數(shù)字圖像,例如本文采用的歸一化后的數(shù)字圖像大小為1616。進(jìn)過歸一化處理后,一般的能夠?qū)⒋蟮淖址麍D像信息進(jìn)行縮小到固定大小的數(shù)字圖像,這樣在提高識(shí)別率的同時(shí)也能提高處理的效率。 歸一化包括位置歸一化,大小歸一化及筆畫粗細(xì)歸一化。這里主要進(jìn)行位置和大小的歸一化,而筆畫粗細(xì)的歸一化可以看做是數(shù)字的細(xì)化。 (1)位置歸一化 為了消除數(shù)字點(diǎn)陣位置上的偏差,需要把整個(gè)數(shù)字點(diǎn)陣圖形移動(dòng)到規(guī)定的位置上,這個(gè)過程稱作位置歸一化。 有兩種簡單的位置歸一化方法。一種是基于質(zhì)心的位置歸一化方法;另一種是基于文字外邊框的位置歸一化?;谫|(zhì)心的

24、位置歸一化方法首先計(jì)算數(shù)字的質(zhì)心,然后在把質(zhì)心移動(dòng)到指定的位置上來?;跀?shù)字外邊框的位置歸一化需要首先計(jì)算文字的外邊框,并找出中心,然后把數(shù)字中心一道指定的位置上來。相對(duì)而言,質(zhì)心的計(jì)算是全局性的,基于質(zhì)心的歸一化方法抗干擾能力更強(qiáng)。 (2)大小歸一化 對(duì)不同的數(shù)字做變換,使之成為尺寸大小的數(shù)字,這個(gè)過程被稱做大小歸一化。 因?yàn)閽呙柽M(jìn)來的圖像中字符大小存在較大的差異,而相對(duì)來說,統(tǒng)一尺寸的字符識(shí)別的標(biāo)準(zhǔn)性更強(qiáng),準(zhǔn)確率自然也更高,標(biāo)準(zhǔn)化圖像就是要把原來各不相同的字符統(tǒng)一到同一尺寸,在系統(tǒng)實(shí)現(xiàn)中是統(tǒng)一到同一高度,然后根據(jù)高度來調(diào)整字符的寬度。主要是通過將字符的外邊框按比例線性放大或者壓縮為規(guī)

25、定尺寸的字符來實(shí)現(xiàn)。 本文主要是對(duì)圖像進(jìn)行大小的歸一化,將字符圖像歸一化為標(biāo)準(zhǔn)尺度,便于處理與識(shí)別。 具體算法如下:先得到原來字符的高度,跟系統(tǒng)要求的高度做比較,得出要變換的系數(shù),然后根據(jù)得到的系數(shù)求得變換后應(yīng)有得寬度。再得到寬度高度之后,把新圖像里面的點(diǎn)按照插值的方法映射到原圖像中。 比例縮放所產(chǎn)生的圖像中的像素可能在原圖像中找不到相應(yīng)的像素點(diǎn),這樣必須進(jìn)行插值處理。插值處理常用的方法有兩種,一種是最鄰近插值法,即直接賦值為和它最相近的像素值,這種方法計(jì)算簡單,但有時(shí)會(huì)出現(xiàn)馬賽克現(xiàn)象。另一種是通過一些插值算法來計(jì)算相應(yīng)的像素值,常采用線性插值法,原理是,當(dāng)求出的分?jǐn)?shù)地址與像素點(diǎn)不一致時(shí)

26、,求出周圍四個(gè)像素點(diǎn)的距離比,根據(jù)該比率,由四個(gè)鄰域的像素灰度值進(jìn)行線性插值。該算法處理效果要好些,但是運(yùn)算量比較大。在本次設(shè)計(jì)中,主要是對(duì)數(shù)字圖像進(jìn)行壓縮,直接采用了最鄰近插值法,處理后的效果比較好。歸一化算法流程如圖2.8。 二值去噪后的圖像 計(jì)算字符圖像 的高度和寬度 根據(jù)規(guī)定的標(biāo)準(zhǔn)高寬計(jì)算縮放因子 計(jì)算新圖像的像素點(diǎn) 映射到原圖像的坐標(biāo) 利用臨近插值法計(jì)算新圖像像素點(diǎn)的值 圖2.8 歸一化算法流程圖 圖2.9 歸一化效果圖 2.5 數(shù)字細(xì)化 字符細(xì)化是通過一定的處理算法將字符重要的像素點(diǎn)

27、保留下來,去除無關(guān)緊要的點(diǎn),得到字符筆劃骨架的技術(shù)。對(duì)字符識(shí)別而言,字符圖像上的各個(gè)像素點(diǎn)對(duì)識(shí)別率的貢獻(xiàn)并不一樣,細(xì)化處理能極大的消除字符圖像中的冗余點(diǎn),使計(jì)算機(jī)在分析處理、識(shí)別時(shí)不受筆劃粗細(xì)的影響,快速的接觸到本質(zhì)內(nèi)容,減少運(yùn)算量,從而縮短識(shí)別的時(shí)間。字符圖像細(xì)化結(jié)果的好壞將直接影響到字符特征提取的準(zhǔn)確與否(尤其是一些結(jié)構(gòu)特征的提?。?,最終影響到整個(gè)字符識(shí)別系統(tǒng)的識(shí)別率,因而字符細(xì)化已成為字符識(shí)別系統(tǒng)中極為重要的環(huán)節(jié)之一。 在圖像分析中,形狀信息是十分重要的。為了便于描述形狀信息和提取特征,對(duì)那些細(xì)長的區(qū)域常用它的“類似骨架”的細(xì)線來表示(如字符筆劃),這些細(xì)線處于圖形的中軸附近,而且從視

28、覺上來說仍然保持原來的形狀。這種處理就是所謂的細(xì)化。經(jīng)過細(xì)化的文字圖像既保留了原文字絕大部分特征,又利于特征提取,而且圖像字符點(diǎn)陣比原圖像的要少,降低了處理工作量。但是由于細(xì)化骨架有可能會(huì)造成新的畸變,增加對(duì)識(shí)別的干擾和困難,所以文字細(xì)化的基本要求如下: 1) 要保持原有筆劃的連續(xù)性,不能由于細(xì)化造成筆劃斷開。 2) 要細(xì)化為單線,即筆劃寬度只有一個(gè)像素。 3) 細(xì)化后的骨架應(yīng)盡量是原來筆劃的中心線。 4) 要保持原有的拓?fù)洹缀翁卣?,特別是一些明顯的拐角不應(yīng)被平滑掉。 按照上面的要求,一副圖像的細(xì)化骨架就可以表示原始圖像中物體的結(jié)構(gòu),所以在物體識(shí)別和物體定位中,常常使用物體的細(xì)化骨

29、架信息。 由于細(xì)化骨架具有良好的結(jié)構(gòu)描述特性,所以近幾十年來,許多學(xué)者已經(jīng)提出了很多相關(guān)的細(xì)化算法,并將其用在不同的字符識(shí)別中。細(xì)化算法的大體分類如下: 1) 按細(xì)化后圖形的連續(xù)性分,有四鄰域連接算法,八鄰域連接算法。四鄰域連接算法是在水平垂直四個(gè)方向的連接,八鄰域連接則是在四鄰域的基礎(chǔ)上加上正反45o對(duì)角線方向,總共八個(gè)方向。 2) 按細(xì)化處理過程分,有串行、并行和串并行處理法。用MN(一般采用33或者55)的窗口對(duì)某一像素進(jìn)行檢測時(shí),如該點(diǎn)是可刪除點(diǎn),立即刪除,則為串行細(xì)化處理,它的刪除要影響到后續(xù)點(diǎn)的檢測;如對(duì)邊緣點(diǎn)全部檢測完畢后,再同時(shí)更新所有可刪除點(diǎn)的值,則為并行細(xì)化處理;串行

30、、并行處理混合處理則屬于串并行處理。 3) 按細(xì)化的運(yùn)算方式分為兩種,即邊緣點(diǎn)刪除和內(nèi)點(diǎn)保留。傳統(tǒng)的基于邊緣點(diǎn)刪除的細(xì)化算法,在細(xì)化過程中只對(duì)邊緣點(diǎn)的可刪除進(jìn)行判斷并做相應(yīng)的處理,由于受跟蹤順序及所考察領(lǐng)域的影響,容易產(chǎn)生骨架的非對(duì)稱性;基于內(nèi)點(diǎn)保留的細(xì)化算法,容易使所得的骨架大于一個(gè)像素。 本文采用了像素領(lǐng)域分析法的細(xì)化算法,在速度和保留結(jié)構(gòu)信息的準(zhǔn)確性上較佳。其算法如下: 1) 對(duì)圖像以每33大小劃分子網(wǎng)格,對(duì)每個(gè)子網(wǎng)格進(jìn)行兩次操作,其中每個(gè)33子網(wǎng)格滿足如下矩陣形式: 2) 在第一次操作時(shí),當(dāng)且僅當(dāng)條件G1,G2和G3被全部滿足時(shí),則刪除中心像素p(即讓p = 0)

31、。 3) 在第二次操作時(shí),當(dāng)且僅當(dāng)條件G1,G2和G4被全部滿足時(shí),則刪除中心像素p(即讓p=0)。 條件G1為:,其中, 其中,為圍繞p點(diǎn)的8領(lǐng)域的映射值。 條件G2為:,其中, 條件G3為: 條件G4為 對(duì)圖像每個(gè)像素都進(jìn)一次上述運(yùn)算,視為完成一次細(xì)化運(yùn)算,然后重復(fù)迭代這個(gè)細(xì)化運(yùn)算,直到圖像不再變化為止,這時(shí)得到的圖像中字符筆畫均為單像素點(diǎn),并良好保留了字符的結(jié)構(gòu)信息。效果如圖2.10所示。 圖2.10細(xì)化效果圖 為了更好的顯示細(xì)化效果,見放大效果圖2.11。 圖2.11 細(xì)化效果放大圖 如圖所示,數(shù)字

32、‘8’經(jīng)細(xì)化后很好的得到了‘8’的骨架。 3 手寫體數(shù)字識(shí)別中特征值提取技術(shù) 3.1 特征提取概述 模式識(shí)別使用特征來區(qū)分不同的種類,因此,特征提取是一個(gè)模式識(shí)別系統(tǒng)的關(guān)鍵部分。特征提取的目標(biāo)是找到某種變換,將n維或nn維的模式類別空間轉(zhuǎn)換到維數(shù)更小的特征空間,并同時(shí)保留識(shí)別所需要的大部分信息。通過特征提取,模式分類可以在維數(shù)低得多的空間上進(jìn)行,從而降低了計(jì)算的復(fù)雜度。而且,對(duì)給定的訓(xùn)練樣本進(jìn)行特征提取可以獲得更精確的分類函數(shù)的描述,以構(gòu)造更可靠的分類規(guī)則。 模式特征對(duì)于分類是十分重要的,數(shù)字識(shí)別的關(guān)鍵在于能否找出有效的特征,選取的特征是否具有可辨性、可靠性、獨(dú)立性和特

33、征數(shù)量少。具體來說,特征的可辨性是指屬于不同類別的樣本,特征應(yīng)該有相對(duì)差別較大的值,這樣不同類別的樣本才能區(qū)分的開;特征的可靠性是指對(duì)與屬于同一類別的樣本,而其應(yīng)具有穩(wěn)定性,這樣同一類別的樣本才可以判別為同一類別而不至于誤判;特征的獨(dú)立性是指選擇出來的不同特征之間應(yīng)該互不相關(guān),這樣才能減少信息的冗余性;特征的數(shù)量要少是指特征量越少越容易滿足前面的三個(gè)原則,處理速度也會(huì)相應(yīng)提高。模式識(shí)別系統(tǒng)的復(fù)雜度會(huì)隨著特征量的增加而迅速增大。更重要的是,訓(xùn)練分類器和判別一個(gè)分類器的好壞所需要的數(shù)量也會(huì)隨著所用的特征量的數(shù)目呈指數(shù)增長。 在一個(gè)完善的模式識(shí)別系統(tǒng)中,特征提取與選擇技術(shù)通常介于對(duì)象特征數(shù)據(jù)采集和

34、分類識(shí)別兩個(gè)環(huán)節(jié)中間,所抽取與選擇特征的優(yōu)劣,嚴(yán)重的影響著分類器的設(shè)計(jì)和性能。在樣本數(shù)目不是很多的情況下,用很多特征進(jìn)行分類器設(shè)計(jì),無論從計(jì)算復(fù)雜程度還是分類器性能來看都是不合適的,因此研究如何把高維特征空間壓縮到低維特征空間,以便有效的設(shè)計(jì)分類器就成為一個(gè)重要的問題,這也是模式識(shí)別中的一個(gè)關(guān)鍵問題。 特征提取方法的選擇是影響識(shí)別率的一個(gè)至關(guān)重要的因素,必須指出的是,對(duì)于不同的識(shí)別問題和不同樣本數(shù)據(jù),使用不同的特征提取方法的適應(yīng)性差別是很大的,也就是說,一種特征提取方法對(duì)一個(gè)問題和數(shù)據(jù)很奏效對(duì)另一個(gè)問題或數(shù)據(jù)可能失效。一個(gè)解決的辦法是尋找不同的數(shù)據(jù)的共同特征,或稱不變量。另一方面,對(duì)于一個(gè)有

35、限的訓(xùn)練數(shù)據(jù)集,如果使用的是統(tǒng)計(jì)分類器,特征集必須保持在一個(gè)合理小的數(shù)量內(nèi)。就數(shù)字識(shí)別來說,在實(shí)際過程中,如何選擇若干種特征提取的方法取決于識(shí)別的用途。我們必須考慮到待識(shí)別的數(shù)字是否有固定的方向和大小,是印刷體還是手寫體,是否存在不同的書寫風(fēng)格,是否有缺損,程度如何。這些有利于縮小特征提取選擇的難度和提高識(shí)別率。此外,雖然特征提取是一個(gè)好的字符識(shí)別系統(tǒng)的重要組成部分,但是對(duì)于一個(gè)識(shí)別系統(tǒng),為了達(dá)到較佳的結(jié)果,其它的步驟,如二值化,歸一化等也需要優(yōu)化處理,并且這些處理不是前后互相獨(dú)立的。特征提取的選擇取決于這些預(yù)處理的結(jié)果。 雖然,在一定意義上特征提取和特征選擇都是要達(dá)到降維的目的,只是所實(shí)現(xiàn)

36、的途徑不同,特征提取是通過某種變換的方法組合原始高維特征,獲得一組低維的新特征,而特征選擇是根據(jù)專家的經(jīng)驗(yàn)知識(shí)或根據(jù)某種評(píng)價(jià)準(zhǔn)則來挑選出那些對(duì)分類最優(yōu)影響力的特征,并生成新的特征。有時(shí)這兩者并不是截然分開的。例如可以先將原始特征空間映射到維數(shù)較低的空間,在這個(gè)空間中再進(jìn)行選擇以進(jìn)一步降低維數(shù)。當(dāng)然也可以先經(jīng)過選擇,去掉那些明顯沒有分類信息的特征,再進(jìn)行映射,以降低維數(shù)。 同樣對(duì)于手寫體字符的識(shí)別,特征提取可以降低字符信息量。去除無用的冗余信息、提高識(shí)別系統(tǒng)性能。手寫體字符的識(shí)別,常用的特征有結(jié)構(gòu)特征和統(tǒng)計(jì)特征。結(jié)構(gòu)特征和統(tǒng)計(jì)特征各有優(yōu)點(diǎn):結(jié)構(gòu)特征對(duì)細(xì)節(jié)變化比較敏感,對(duì)噪聲干擾較大的圖像,識(shí)別

37、率不高。統(tǒng)計(jì)特征對(duì)噪聲不敏感,具有較好的穩(wěn)定性,但對(duì)圖像細(xì)節(jié)上的細(xì)微差異不敏感,在待識(shí)別字符形狀較相似時(shí)易發(fā)生錯(cuò)誤。所以,統(tǒng)計(jì)特征和結(jié)構(gòu)特征相互之間具有一定的互補(bǔ)性。 3.2 手寫體字符特征提取方法概述 特征提取是整個(gè)字符識(shí)別系統(tǒng)的關(guān)鍵,識(shí)別算法是根據(jù)選取特征的種類來進(jìn)行選擇的。所選取的特征是否是穩(wěn)定,是否代表一類字符的特點(diǎn),是系統(tǒng)識(shí)別率的高低關(guān)鍵。 由上節(jié)可知手寫體字符特征提取的方法可分為結(jié)構(gòu)特征和統(tǒng)計(jì)特征兩種,下面就分別簡單介紹這兩種特征提取方法的特點(diǎn)與一般方法。 1) 結(jié)構(gòu)特征提取方法 采用結(jié)構(gòu)特征提取字符進(jìn)行結(jié)構(gòu)分析從而達(dá)到識(shí)別的目的,是一種非常直觀的方法,其思想與人認(rèn)字的

38、原理有點(diǎn)相像,但又有所不同。其基本思想是:字符可以逐級(jí)分解成部件、筆劃乃至筆段,識(shí)別時(shí)可以自底向上,由像素得到筆段,由筆段結(jié)合成筆劃,由筆劃構(gòu)成部件,由部件組成字符,逐級(jí)分析字符圖像的結(jié)構(gòu),根據(jù)各元素的屬性、數(shù)量及其互相關(guān)系,便可以判定待識(shí)字符。目前研究比較成熟,效果較好的是基于筆劃和基于筆段分析的手寫體字符識(shí)別。 對(duì)不同的字符手寫樣本,盡管人書寫風(fēng)格千變?nèi)f化,然而筆劃與筆劃之間的位置關(guān)系,以筆劃為基元的字符的整體拓?fù)浣Y(jié)構(gòu)是不變的。人認(rèn)字就是抓住了這些本質(zhì)不變的特征,因此能適應(yīng)不同的書寫風(fēng)格的文字。所以,基于筆劃來自動(dòng)識(shí)別字符一直是手寫體字符識(shí)別研究的一類主要研究方法。 雖然字符的筆劃特征

39、受字體、字形大小等影響較小,是識(shí)別字符的良好特征,但可惜筆劃特征對(duì)實(shí)際的書寫文本來說比較難穩(wěn)定的提取。通常,用基于筆劃段作為特征能較好的解決這一困難。采用結(jié)構(gòu)特征提取方法的難點(diǎn)在于筆劃或筆段等基元的準(zhǔn)確提取。雖然提取筆劃或筆段的方法已有多種,但他們都是基于圖像處理的方法,截然不同于人根據(jù)知識(shí)和經(jīng)驗(yàn)而做出的視覺處理。單純建立在圖像處理方法上的筆段分析只能十分機(jī)械的按圖像就事論事,結(jié)果提取到的筆段難免與人的判別不完全一致。這種情況在存在連筆、斷筆、模糊等場合尤為不可避免。所以,書寫畸變對(duì)結(jié)構(gòu)特征分析法有著不可忽視的影響。因此,尋求穩(wěn)定可靠的筆段提取方法仍然是當(dāng)前有待進(jìn)一步研究的課題。 2) 統(tǒng)計(jì)

40、特征提取方法 從統(tǒng)計(jì)模式識(shí)別的觀點(diǎn)來看,字符識(shí)別實(shí)際上是一個(gè)模式分類問題,人對(duì)自然物體的識(shí)別,是建立在對(duì)該物體進(jìn)行學(xué)習(xí)、特征分析的基礎(chǔ)上的,計(jì)算機(jī)模式識(shí)別的過程與人的識(shí)別過程有著相似的地方。實(shí)際上就是一種通過學(xué)習(xí)或者其它方法,形成一個(gè)記憶知識(shí)庫,進(jìn)行模式識(shí)別時(shí),清晰地表達(dá)出一種從物體到記憶知識(shí)庫的映像,從而得到識(shí)別的結(jié)果。人在進(jìn)行物體識(shí)別時(shí),是利用大腦中通過學(xué)形成的記憶庫,對(duì)識(shí)別的物體進(jìn)行一種黑箱式的映像,從記憶庫中找出相匹配的類別。計(jì)算機(jī)要把人類識(shí)別物體時(shí)的這種黑箱式的映像表達(dá)出來,一般式有兩個(gè)步驟完成的:第一步,以適當(dāng)?shù)奶卣鱽砻枋鑫矬w,第二步,計(jì)算機(jī)執(zhí)行某種運(yùn)算完成的映像。此過程實(shí)際上就

41、是傳統(tǒng)的統(tǒng)計(jì)模式識(shí)別進(jìn)行物體識(shí)別時(shí)所采用的一般方法,具體來說就是特征提取和分類函數(shù)的設(shè)計(jì)的問題,而特征提取是問題難點(diǎn)和關(guān)鍵所在。因此如果特征已知,就可以利用現(xiàn)有的數(shù)學(xué)理論來指導(dǎo)設(shè)計(jì)映像函數(shù)。然而,對(duì)于特征的選擇和提取,卻沒有可遵循的理論來指導(dǎo),我們很難比較一個(gè)物體中哪些特征是實(shí)質(zhì)性,哪些特征是代表性的,哪些特征可能是不重要或與識(shí)別無關(guān)緊要的,這些都需要大量的實(shí)驗(yàn)和理論指導(dǎo)。經(jīng)過人們?cè)谶@方面的大量研究工作,提出了一些統(tǒng)計(jì)特征提取方法。 由此可見,對(duì)手寫體數(shù)字圖像進(jìn)行特征值的提取,特征值的選擇不僅能濃縮信息、降低維數(shù)、提高處理效率的同時(shí),其對(duì)系統(tǒng)的識(shí)別性能也有很重要的影響。在3.3和3.4小節(jié)中

42、,我們將詳細(xì)描述本文所采用的2種特征值(共8+16=24種特征值)的提取方法。 3.3 手寫體數(shù)字識(shí)別中的結(jié)構(gòu)特征提取 采用結(jié)構(gòu)特征對(duì)字符進(jìn)行結(jié)構(gòu)分析以達(dá)到識(shí)別目的是一種非常直觀的方法。字符由各個(gè)子部件構(gòu)成,逐級(jí)分析字符圖像的結(jié)構(gòu),根據(jù)元素的屬性、數(shù)量及其相互關(guān)系,便可判定待識(shí)字符。 與統(tǒng)計(jì)方法相比,結(jié)構(gòu)分析不注重特征的絕對(duì)位置,只考慮特征的相對(duì)關(guān)系,因而對(duì)書寫風(fēng)格的變化不敏感,其缺點(diǎn)在于特征提取的算法都相對(duì)復(fù)雜。下面將介紹本文采用的穿越密度結(jié)構(gòu)特征向量的提取方法。 穿越密度(次數(shù))特征已被廣泛的應(yīng)用于字符識(shí)別的研究中。穿線法是取得筆劃密度的一個(gè)通用算法,其基本思想是用一組或幾組與水

43、平成0度、30度、45度或者60度等的平行線,貫穿字符,提取字符與平行線的交點(diǎn)信息作為識(shí)別的依據(jù)。該算法由于涉及字符拓?fù)浣Y(jié)構(gòu)方面的信息,所以對(duì)字符旋轉(zhuǎn)縮放和變形有較強(qiáng)的容忍度。文獻(xiàn)[20]提出的一種徑向貫穿字符的穿線法,該方法以字符重心為坐標(biāo)原點(diǎn),分別從坐標(biāo)原點(diǎn)以0、45、90、135、180、-135、-90、-45度方向引出8條線穿越字符,以各個(gè)方向穿越字符的次數(shù)組成向量作為該字符的徑向筆劃密度特征。但是,當(dāng)書寫風(fēng)格引起統(tǒng)一字符的之心位置不同時(shí),該方法提取的特征準(zhǔn)確性差。 本文采用的是整體貫穿法,該方法就是間隔一定距離從垂直和水平方向上進(jìn)行整體穿越,由于本文通過歸一化處理后的圖像的大小是

44、1616的,因此本文采用方法是間隔4個(gè)像素進(jìn)行從水平和垂直方向進(jìn)行穿越,從而得到3行、3列上(共6個(gè))的穿越次數(shù)統(tǒng)計(jì)。與水平成45、135度角的兩條穿越線,將這八個(gè)數(shù)據(jù)作為特征向量。如圖3.1的第17—24這八個(gè)特征所示。 圖3.1特征向量的提取 3.4 手寫體數(shù)字識(shí)別中的統(tǒng)計(jì)特征提取 統(tǒng)計(jì)特征中最主要的特征為粗網(wǎng)格特征。粗網(wǎng)格特征是一組注重字符圖像的整體的分布特征,此種特征對(duì)噪聲具有極強(qiáng)的抑制能力。一般來說,雖然手寫體數(shù)字的書寫風(fēng)格千變?nèi)f化,但是數(shù)字筆劃的分布是有一定的規(guī)律的。由于10個(gè)字符的筆劃具有比較固定的總體分布狀況,從特征選擇的質(zhì)量來講,不同數(shù)字的特征向量在特征空間中的分

45、布是比較分散的,即特征空間中不同類的類間距離是比較大的。 如圖3.1中1—16這16個(gè)特征所示,本文采用的粗網(wǎng)格特征提取的方法是:把數(shù)字點(diǎn)陣分成幾個(gè)局部小區(qū)域,并把每個(gè)小區(qū)域上的點(diǎn)陣密度作為描述特征,即統(tǒng)計(jì)每個(gè)小區(qū)域中圖像的像素的個(gè)數(shù)作為特征數(shù)據(jù)。本文對(duì)原始圖像進(jìn)行歸一化處理后的圖像是1616的點(diǎn)陣,將之劃分為大小44的小區(qū)域,共計(jì)16個(gè)。 4 人工神經(jīng)網(wǎng)絡(luò)分類器 4.1 人工神經(jīng)網(wǎng)絡(luò)概述 人工神經(jīng)網(wǎng)絡(luò)( Artificial Neural Networks, 簡寫為ANNs)也簡稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(Connectionist Model) ,是對(duì)人腦或自然神

46、經(jīng)網(wǎng)絡(luò)(Natural Neural Network)若干基本特性的抽象和模擬。人工神經(jīng)網(wǎng)絡(luò)以對(duì)大腦的生理研究成果為基礎(chǔ)的,其目的在于模擬大腦的某些機(jī)理與機(jī)制,實(shí)現(xiàn)某個(gè)方面的功能。國際著名的神經(jīng)網(wǎng)絡(luò)研究專家,第一家神經(jīng)計(jì)算機(jī)公司的創(chuàng)立者與領(lǐng)導(dǎo)人Hecht Nielsen給人工神經(jīng)網(wǎng)絡(luò)下的定義就是:“人工神經(jīng)網(wǎng)絡(luò)是由人工建立的以有向圖為拓?fù)浣Y(jié)構(gòu)的動(dòng)態(tài)系統(tǒng),它通過對(duì)連續(xù)或斷續(xù)的輸入作狀態(tài)相應(yīng)而進(jìn)行信息處理。” 這一定義是恰當(dāng)?shù)摹?人工神經(jīng)網(wǎng)絡(luò)的研究,可以追溯到 1957年Rosenblatt提出的感知器模型(Perceptron) 。它幾乎與人工智能——AI(Artificial Intellig

47、ence)同時(shí)起步,但30余年來卻并未取得人工智能那樣巨大的成功,中間經(jīng)歷了一段長時(shí)間的蕭條。直到80年代,獲得了關(guān)于人工神經(jīng)網(wǎng)絡(luò)切實(shí)可行的算法,以及以Von Neumann體系為依托的傳統(tǒng)算法在知識(shí)處理方面日益顯露出其力不從心后,人們才重新對(duì)人工神經(jīng)網(wǎng)絡(luò)發(fā)生了興趣,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的復(fù)興。 目前在神經(jīng)網(wǎng)絡(luò)研究方法上已形成多個(gè)流派,最富有成果的研究工作包括:多層網(wǎng)絡(luò)BP算法,Hopfield網(wǎng)絡(luò)模型,自適應(yīng)共振理論,自組織特征映射理論等。人工神經(jīng)網(wǎng)絡(luò)是在現(xiàn)代神經(jīng)科學(xué)的基礎(chǔ)上提出來的。它雖然反映了人腦功能的基本特征,但遠(yuǎn)不是自然神經(jīng)網(wǎng)絡(luò)的逼真描寫,而只是它的某種簡化抽象和模擬。 神經(jīng)網(wǎng)絡(luò)的研究可以

48、分為理論研究和應(yīng)用研究兩大方面。 理論研究可分為以下兩類: 1).利用神經(jīng)生理與認(rèn)知科學(xué)研究人類思維以及智能機(jī)理。 2).利用神經(jīng)基礎(chǔ)理論的研究成果,用數(shù)理方法探索功能更加完善、性能更加優(yōu)越的神經(jīng)網(wǎng)絡(luò)模型,深入研究網(wǎng)絡(luò)算法和性能, 如:穩(wěn)定性、收斂性、容錯(cuò)性、魯棒性等;開發(fā)新的網(wǎng)絡(luò)數(shù)理理論,如:神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)、非線性神經(jīng)場等。 應(yīng)用研究可分為以下兩類: 1).神經(jīng)網(wǎng)絡(luò)的軟件模擬和硬件實(shí)現(xiàn)的研究。  2).神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域中應(yīng)用的研究。這些領(lǐng)域主要包括:模式識(shí)別、信號(hào)處理、知識(shí)工程、專家系統(tǒng)、優(yōu)化組合、機(jī)器人控制等。 隨著神經(jīng)網(wǎng)絡(luò)理論本身以及相關(guān)理論、相關(guān)技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)

49、絡(luò)的應(yīng)用定將更加深入。 4.2 BP神經(jīng)網(wǎng)絡(luò)概述 在人工神經(jīng)網(wǎng)絡(luò)發(fā)展歷史中,很長一段時(shí)間里沒有找到隱層的連接權(quán)值調(diào)整問題的有效算法。直到誤差反向傳播算法(BP算法)的提出,成功地解決了求解非線性連續(xù)函數(shù)的多層前饋神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整問題。 BP (Back Propagation)神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過程,由信息的正向傳播和誤差的反向傳播兩個(gè)過程組成。輸入層各神經(jīng)元負(fù)責(zé)接收來自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進(jìn)一步處理后

50、,完成一次學(xué)習(xí)的正向傳播處理過程,由輸出層向外界輸出信息處理結(jié)果。當(dāng)實(shí)際輸出與期望輸出不符時(shí),進(jìn)入誤差的反向傳播階段。誤差通過輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱層、輸入層逐層反傳。周而復(fù)始的信息正向傳播和誤差反向傳播過程,是各層權(quán)值不斷調(diào)整的過程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過程,此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。 圖4.1 三層前饋神經(jīng)網(wǎng)絡(luò)示意圖 4.3 本文的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì) 1) 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)模型 針對(duì)當(dāng)前的脫機(jī)手寫識(shí)別,選擇bp神經(jīng)網(wǎng)絡(luò)。 2) 神經(jīng)網(wǎng)絡(luò)的層數(shù)、以及各層的

51、節(jié)點(diǎn)數(shù) 一般的選擇隱含層的層數(shù)要從網(wǎng)絡(luò)精度和訓(xùn)練時(shí)間上考慮,對(duì)于比較簡單的映射關(guān)系,在網(wǎng)絡(luò)精度達(dá)到要求的情況下,應(yīng)該盡量選擇較少的隱含層層數(shù),對(duì)于較復(fù)雜的映射關(guān)系,可以通過增加隱含層層數(shù),保證映射關(guān)系的正確實(shí)現(xiàn)。其實(shí)兩個(gè)隱含層就能解決任何形式的分類的問題,事實(shí)上任何一個(gè)連續(xù)的函數(shù),都可以用三層BP神經(jīng)網(wǎng)絡(luò)映射來逼近。因此本文選擇三層BP神經(jīng)網(wǎng)絡(luò)(輸入層、1個(gè)隱含層、輸出層)。 對(duì)于輸入層的節(jié)點(diǎn)數(shù),一般與輸入的特征向量的個(gè)數(shù)相同,由于本文提取的字符的特征向量有24個(gè),因此采用的神經(jīng)網(wǎng)絡(luò)的輸入層的節(jié)點(diǎn)數(shù)也為24。對(duì)于輸出層的節(jié)點(diǎn)數(shù),由于數(shù)字識(shí)別只有10類,2的4次方就可以表示10類,因此本文采

52、用的神經(jīng)網(wǎng)絡(luò)的輸出層的節(jié)點(diǎn)數(shù)為4。對(duì)于隱含層的節(jié)點(diǎn)的個(gè)數(shù)沒有一個(gè)理論基于指導(dǎo),但是根據(jù)前人經(jīng)驗(yàn),一般參照下列公式進(jìn)行設(shè)計(jì): (式4.1) 其中為隱含層的節(jié)點(diǎn)數(shù),為輸入節(jié)點(diǎn)的個(gè)數(shù),為輸出節(jié)點(diǎn)的個(gè)數(shù),一般取1~10之間的常數(shù)。 因此由式5.1(選擇α=9),則可計(jì)算得本文采用的隱含層的節(jié)點(diǎn)個(gè)數(shù)為14個(gè)。 3) 輸出層的值確定 在2)中已經(jīng)指出,本文采用的輸出層的節(jié)點(diǎn)數(shù)為4。由于目標(biāo)向量如果采取大于1以上的值,可能會(huì)導(dǎo)致算法不收斂,因此本文使用目標(biāo)向量0.01來代表0,0.99表示1。所以,數(shù)字0~9的目標(biāo)向量見表4.1。

53、 表4.1數(shù)字0~9的目標(biāo)向量 數(shù)字0 0.01 0.01 0.01 0.01 數(shù)字1 0.01 0.01 0.01 0.99 數(shù)字2 0.01 0.01 0.99 0.01 數(shù)字3 0.01 0.01 0.99 0.99 數(shù)字4 0.01 0.99 0.01 0.01 數(shù)字5 0.01 0.99 0.01 0.99 數(shù)字6 0.01 0.99 0.99 0.01 數(shù)字7 0.01 0.99 0.99 0.99 數(shù)字8 0.99 0.01 0.01 0.01 數(shù)字9 0.99

54、0.01 0.01 0.99 4) 傳遞函數(shù)確定 傳遞函數(shù)的選擇直接影響到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的性能,因此各層之間選擇一個(gè)合適的傳遞函數(shù)也是很重要的。本文通過對(duì)多種傳遞函數(shù)進(jìn)行測試,最終確定各層的傳遞函數(shù)為: 第二層:采用logsin傳遞函數(shù),即對(duì)數(shù)S型傳遞函數(shù)。 第三層:采用purelin傳遞函數(shù),即線性傳遞函數(shù)。 5) 訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)選擇 訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)的選擇對(duì)訓(xùn)練的時(shí)間起著至關(guān)重要的作用,一個(gè)好的訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)能夠較好避免神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)解,同時(shí)也能夠提升訓(xùn)練的效率。本文采用的訓(xùn)練函數(shù)采用traingdx函數(shù),學(xué)習(xí)函數(shù)采用learngdm函數(shù)。 6) 網(wǎng)絡(luò)訓(xùn)練參

55、數(shù)確定 在網(wǎng)絡(luò)訓(xùn)練過程中應(yīng)根據(jù)實(shí)際情況預(yù)先確定誤差界值。誤差界值的選擇完全根據(jù)網(wǎng)絡(luò)模型的收斂的速度大小和具體樣本的學(xué)習(xí)精度來確定。當(dāng)Emin值選擇較小時(shí),學(xué)習(xí)效果好,但收斂速度慢,訓(xùn)練次數(shù)增加。如果Emin值選擇較大時(shí)訓(xùn)練不充分。通常選定神經(jīng)網(wǎng)絡(luò)的誤差界值Emin在0.0001~0.01之間,即在迭代計(jì)算誤差值e < Emin時(shí),則認(rèn)為學(xué)習(xí)完成,停止計(jì)算,輸出結(jié)果。有些時(shí)候,訓(xùn)練次數(shù)往往很大,甚至不能收斂。此時(shí)應(yīng)該設(shè)置一個(gè)訓(xùn)練次數(shù)的限制NTmin,在達(dá)到該訓(xùn)練次數(shù)NTmin還沒有收斂到Emin時(shí),可以作放棄或停止處理,本文訓(xùn)練BP網(wǎng)絡(luò)分類器時(shí)設(shè)定Emin=0.001,最大訓(xùn)練次數(shù)為NTmin

56、=5000。 上面的就是本文神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì),圖4.2所示的是本文的神經(jīng)網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練的訓(xùn)練曲線。 圖4.2本文神經(jīng)網(wǎng)絡(luò)訓(xùn)練曲線 5 系統(tǒng)實(shí)現(xiàn)與結(jié)果分析 5.1 系統(tǒng)實(shí)現(xiàn) 5.1.1 系統(tǒng)實(shí)現(xiàn)環(huán)境 Windows98/2000/XP是當(dāng)前最流行的操作系統(tǒng),現(xiàn)在大部分應(yīng)用系統(tǒng)都是建立在這些平臺(tái)上,同時(shí)考慮到軟件系統(tǒng)的應(yīng)用領(lǐng)域和可推廣性,我們的系統(tǒng)也是基于Windows XP平臺(tái)的。編程軟件采用Matlab。 5.1.2 系統(tǒng)處理流程圖及主要工作 讀取圖片 灰度化 二值化 歸一化調(diào)整 數(shù)字分割 去噪聲 圖像細(xì)化 特征提取 識(shí)別 圖5

57、.1系統(tǒng)處理流程圖 在整個(gè)課題中,主要完成以下工作:1) 通過畫圖軟件獲得訓(xùn)練和測試樣本(也可以直接選擇經(jīng)過數(shù)碼相機(jī)怕照獲得的圖像)。2) 使用前文所述方法對(duì)圖像進(jìn)行預(yù)處理。3) 建立一套完整的手寫體數(shù)字識(shí)別測試系統(tǒng)。 5.1.3 系統(tǒng)界面 圖5.2系統(tǒng)主要界面 5.2 結(jié)果分析 在實(shí)驗(yàn)過程中我們分別對(duì)10個(gè)數(shù)字10個(gè)樣本進(jìn)行測試。 數(shù)字 類別 正識(shí)樣本數(shù) 誤識(shí)樣本數(shù) 識(shí)別率 0 10 0 100% 1 10 0 100% 2 9 1 90% 3 9 1 90% 4 9 1 9

58、0% 5 8 2 80% 6 9 1 90% 7 10 0 100% 8 9 0 90% 9 9 1 90% 合計(jì) 93 7 93% 圖5.3 試驗(yàn)結(jié)果分析 從檢測結(jié)果來看,雖然用于訓(xùn)練的數(shù)據(jù)集并不是很多,但誤差率并不是很高,這也體現(xiàn)了BP算法的優(yōu)越性,相信如果用更多的數(shù)據(jù)進(jìn)行訓(xùn)練會(huì)使得正確的檢測率提高而錯(cuò)誤的檢測率降低,從而使網(wǎng)絡(luò)趨于收斂。 6 結(jié)束語 本文對(duì)自由手寫體數(shù)字識(shí)別的基本原理及方法作了介紹,并用MATLAB工具實(shí)現(xiàn)了自由手寫體數(shù)字識(shí)別系統(tǒng)。在實(shí)際生活中,手寫體數(shù)字識(shí)別

59、尤其脫機(jī)手寫體數(shù)字識(shí)別的應(yīng)用比較廣泛,例如銀行票據(jù)認(rèn)證、成績自動(dòng)錄入等等。 本文從建立一個(gè)完整的脫機(jī)手寫體數(shù)字識(shí)別系統(tǒng)的目的出發(fā),對(duì)識(shí)別系統(tǒng)的重要幾個(gè)環(huán)節(jié):預(yù)處理,二值化,分割,分類器進(jìn)行了研究。本文的選取了合適的特征值,進(jìn)行整體識(shí)別。 通過實(shí)驗(yàn)測試,本文設(shè)計(jì)的系統(tǒng)取得了較好的識(shí)別效果并具有良好的抗噪能力。但是還需要從預(yù)處理和特征選擇方面做更深入研究,有待進(jìn)一步提高系統(tǒng)的識(shí)別率。 在課題研究過程中,由于時(shí)間、精力和條件等因素的限制,對(duì)一些問題的研究深度不夠,在以下幾個(gè)方面還需要做進(jìn)一步研究工作: (l)為了獲得更好的識(shí)別效率,從特征向量入手,應(yīng)想辦法提取更精確的特征向量,比如投影特征、環(huán)凸凹特征等。 (2)如何簡化圖像預(yù)處理,以及針對(duì)某些步驟尋找更簡單有效的方法,完善某些不甚成熟的地方,從而更好的提高識(shí)別率。

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!