文本分類綜述王斌

上傳人：仙*** 文檔編號：245346978 上傳時間：2024-10-08 格式：PPT 頁數(shù)：38 大?。?40.50KB

收藏版權(quán)申訴舉報下載

第1頁 / 共38頁

第2頁 / 共38頁

第3頁 / 共38頁

下載文檔到電腦，查找使用更方便

10 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《文本分類綜述王斌》由會員分享，可在線閱讀，更多相關(guān)《文本分類綜述王斌（38頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、,單擊此處編輯母版標(biāo)題樣式,*,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,文本分類綜述,王斌,中國科學(xué)院計算技術(shù)研究所,2013,年,10,月,報告內(nèi)容,文本分類的定義和應(yīng)用,文本分類的方法,文本分類的評估指標(biāo),參考文獻(xiàn)和資源,文本分類的定義和應(yīng)用,定義,給定分類體系，將文本分到某個或者某幾個類別中。,分類體系一般人工構(gòu)造,政治、體育、軍事,中美關(guān)系、恐怖事件,分類系統(tǒng)可以是層次結(jié)構(gòu)，如,yahoo!,分類模式,2,類問題，屬于或不屬于,(binary),多類問題，多個類別,(multi-

2、class),，可拆分成,2,類問題,一個文本可以屬于多類,(multi-label),這里講的分類主要基于內(nèi)容,很多分類體系,:Reuters,分類體系、中圖分類,應(yīng)用,垃圾郵件的判定,(spam or not spam),類別,spam,not-spam,新聞出版按照欄目分類,類別,政治,體育,軍事,詞性標(biāo)注,類別,名詞,動詞,形容詞,詞義排歧,類別,詞義,1,詞義,2,計算機(jī)論文的領(lǐng)域,類別,ACM system,H:information systems,H.3:information retrieval and storage,文本分類的方法,人工方法和自動方法,人工方法,結(jié)果容易理

3、解,足球,and,聯(lián)賽,體育類,費(fèi)時費(fèi)力,難以保證一致性和準(zhǔn)確性,(40%,左右的準(zhǔn)確率,),專家有時候憑空想象,知識工程的方法建立專家系統(tǒng),(80,年代末期,),自動的方法,(,學(xué)習(xí),),結(jié)果可能不易理解,快速,準(zhǔn)確率相對高,(,準(zhǔn)確率可達(dá),60%,或者更高,),來源于真實文本，可信度高,文本分類的過程,文本表示,訓(xùn)練過程,分類過程,訓(xùn)練文本,統(tǒng)計,統(tǒng)計量,特征表示,學(xué)習(xí),分類器,新文本,特征表示,類別,特征抽取,(feature extraction),預(yù)處理,去掉,html,一些,tag,標(biāo)記,禁用詞,(stop words),去除、詞根還原,(stemming),(,中文,),分詞、詞

4、性標(biāo)注、短語識別、,詞頻統(tǒng)計,TF,i,j,:,特征,i,在文檔,j,中出現(xiàn)次數(shù)，詞頻,(Term Frequency),DF,i,:,所有文檔集合中出現(xiàn)特征,i,的文檔數(shù)目，文檔頻率,(Document Frequency),數(shù)據(jù)清洗：去掉不合適的噪聲文檔或文檔內(nèi)垃圾數(shù)據(jù),文本表示,向量空間模型,降維技術(shù),特征選擇,(Feature Selection),特征重構(gòu),(Re-parameterisation,，如,LSI),文本表示,向量空間模型,(Vector Space Model),M,個無序標(biāo)引項,t,i,(,特征,),，詞根,/,詞,/,短語,/,其他,每個文檔,d,j,可以用標(biāo)引項

5、向量來表示,(a,1j,a,2j,a,Mj,),權(quán)重計算，,N,個訓(xùn)練文檔,A,M*N,=(a,ij,),相似度比較,Cosine,計算,內(nèi)積計算,Term,的粒度,Character,，字：中,Word,，詞：中國,Phrase,，短語：中國人民銀行,Concept,，概念,同義詞：開心高興興奮,相關(guān)詞,cluster,，,word cluster,：葛非,/,顧俊,N-gram,，,N,元組：中國國人人民民銀銀行,某種規(guī)律性模式：比如某個,window,中出現(xiàn)的固定模式,David Lewis,等一致地認(rèn)為,：,(,英文分類中,),使用優(yōu)化合并后的,Words,比較合適,權(quán)重計

6、算方法,布爾權(quán)重,(boolean weighting),a,ij,=1(TF,ij,0)or(TF,ij,=0)0,TFIDF,型權(quán)重,TF:a,ij,=TF,ij,TF*IDF:a,ij,=TF,ij,*log(N/DF,i,),TFC:,對上面進(jìn)行歸一化,LTC:,降低,TF,的作用,基于熵概念的權(quán)重,(Entropy weighting),稱為,term i,的某種熵,如果,term,分布極度均勻：熵等于,-1,只在一個文檔中出現(xiàn)：熵等于,0,特征選擇,(1),基于,DF,Term,的,DF,小于某個閾值去掉,(,太少，沒有代表性,),Term,的,DF,大于某個閾值也去掉,(,太多，

7、沒有區(qū)分度,),信息增益,(Information Gain,IG),：該,term,為整個分類所能提供的信息量,(,不考慮任何特征的熵,和,考慮該特征后的熵,的差值,),特征選擇,(2),term,的某種熵：該值越大，說明分布越均勻，越有可能出現(xiàn)在較多的類別中；該值越小，說明分布越傾斜，詞可能出現(xiàn)在較少的類別中,相對熵,(not,交叉熵,),：也稱為,KL,距離,(Kullback-Leibler divergence),，反映了文本類別的概率分布和在出現(xiàn)了某個特定詞匯條件下的文本類別的概率分布之間的距離，該值越大，詞對文本類別分布的影響也大。,特征選擇,(3),2,統(tǒng)計量,(,念,xi),

8、：度量兩者,(term,和類別,),獨(dú)立性的缺乏程度，,2,越大，獨(dú)立性越小，相關(guān)性越大,(,若,ADBC,則類和詞獨(dú)立,N=A+B+C+D),互信息,(Mutual Information),：,MI,越大,t,和,c,共現(xiàn)程度越大,A,B,C,D,t,t,c,c,特征選擇,(4),Robertson&Sparck Jones,公式,其他,Odds:,Term Strength:,特征選擇方法的性能比較,(1),特征選擇方法的性能比較,(2),特征選擇方法的性能比較,(3),YangYi-ming,特征重構(gòu),隱性語義索引,(LSI),奇異值分解,(SVD),：,A=(a,ij,)=U,V,T

9、,A,M*N,U,M*R,R*R,(,對角陣,),V,N*R,R=MIN(M,N),取,對角上的前,k,個元素，得,k,A,k,=,U,k,k,V,k,T,U,k,由,U,的前,k,列組成，,V,k,由,V,的前,k,列組成,文檔,d,在,LSI,對應(yīng)的向量,d=d,T,U,k,-1,在已有的,LSI,中增加新的,word,或者,document,，不需要重新計算,Folding-in,方法,SVD-updating,方法,自動文本分類方法,Rocchio,方法,Nave Bayes,kNN,方法,決策樹方法,decision tree,Decision Rule Classifier,The

10、 Widrow-Hoff Classifier,神經(jīng)網(wǎng)絡(luò)方法,Neural Networks,支持向量機(jī),SVM,基于投票的方法,(voting method),Rocchio,方法,可以認(rèn)為類中心向量法是它的特例,Rocchio,公式,分類,類,C,中心向量的權(quán)重,訓(xùn)練樣本中正例個數(shù),文檔向量的權(quán)重,Nave Bayes,參數(shù)計算,Bayes,公式,kNN,方法,一種,Lazy Learning,Example-based Learning,新文本,k=1,A,類,k=4,，,B,類,k=10,，,B,類,帶權(quán)重計算，計算權(quán)重和最大的類。,k,常取,3,或者,5,。,決策樹方法,構(gòu)造決策樹,

11、CART,C4.5(,由,ID3,發(fā)展而來,),CHAID,決策樹的剪枝,(pruning),Decision Rule Learning,wheat&form,WHEAT,wheat&commodity WHEAT,bushels&export WHEAT,wheat&agriculture WHEAT,wheat&tonnes WHEAT,wheat&winter&soft WHEAT,(,粗糙集,)RoughSet,邏輯表達(dá)式,(AQ11,算法,),學(xué)習(xí)到如下規(guī)則,The Widrow-Hoff Classifier,Online Learning,類,c,向量的第,j,個分量,x,i,

12、的第,j,個分量,Learning Rate,Target Value(0 or 1),Neural Network,.,.,.,.,.,c,1,c,2,c,n,Input Layer,Hidden Layer,Output Layer,Backpropagation,支持向量機(jī),Support Vector Machine,Support Vector,Optimal,Separating,Hyperplane,基于投票的方法,Bagging,方法,訓(xùn)練,R,個分類器,f,i,，分類器之間其他相同就是參數(shù)不同。其中,f,i,是通過從訓(xùn)練集合中,(N,篇文檔,),隨機(jī)取,(,取后放回,)N,次

13、文檔構(gòu)成的訓(xùn)練集合訓(xùn)練得到的。,對于新文檔,d,，用這,R,個分類器去分類，得到的最多的那個類別作為,d,的最終類別,Boosting,方法,類似,Bagging,方法，但是訓(xùn)練是串行進(jìn)行的，第,k,個分類器訓(xùn)練時關(guān)注對前,k-1,分類器中錯分的文檔，即不是隨機(jī)取，而是加大取這些文檔的概率,AdaBoost,AdaBoost MH,文本分類的評估指標(biāo),分類方法的評估,鄰接表,每個類,Precision=a/(a+b),Recall=a/(a+c),fallout=b/(b+d)=false alarm rate,accuracy=(a+d)/(a+b+c+d),error=(b+c)/(a+b

14、+c+d)=1-accuracy,miss rate=1-recall,F=(,2,+1)p.r/(,2,p+r),Break Even Point,BEP,p=r,的點(diǎn),如果多類排序輸出，采用,interpolated 11 point average precision,所有類：,宏平均,:,對每個類求值，然后平均,微平均,:,將所有文檔一塊兒計算，求值,真正對的,錯誤,標(biāo),YES,a,b,標(biāo),NO,c,d,效果評估方法,N,交叉測試：,將訓(xùn)練集合分成,N,份，其中,N-1,份作為訓(xùn)練集，其余,1,份作為測試集。循環(huán),N,次，將,N,次的結(jié)果平均。,開放測試,訓(xùn)練在某個集合中進(jìn)行，而測試集

15、采用另外事先未知的集合。,其他分類方法,Regression based on Least Squares Fit(1991),Nearest Neighbor Classification(1992)*,Bayesian Probabilistic Models(1992)*,Symbolic Rule Induction(1994),Decision Tree(1994)*,Neural Networks(1995),Rocchio approach(traditional IR,1996)*,Support Vector Machines(1997),Boosting or Baggin

16、g(1997)*,Hierarchical Language Modeling(1998),First-Order-Logic Rule Induction(1999),Maximum Entropy(1999),Hidden Markov Models(1999),Error-Correcting Output Coding(1999),.,小結(jié),訓(xùn)練,對訓(xùn)練文檔進(jìn)行處理，得到每篇文檔的原始空間表示,采用特征選擇方法,(DF/IG/MI,等,),選擇好的特征，將原始空間轉(zhuǎn)換到特征空間,采用某個分類器進(jìn)行學(xué)習(xí)，得到分類器的參數(shù),分類,/,測試,對新文本進(jìn)行相同的特征表示過程,輸入上述分類器得到分類結(jié)果,采用,N,交叉測試或者其他方式得到分類器的效果,參考文獻(xiàn),文獻(xiàn)及其他資源,Papers,K.Aas and L.Eikvil.,Text categorisation:A survey,.Technical report,Norwegian Computing Center,June 1999,Xiaomeng Su,，“,Text categorization”,，,Lesson Pr

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

文本分類綜述王斌

最新文檔

相關(guān)資源

相關(guān)搜索