亚洲国产成人久久77-亚洲国产成人久久99精品-亚洲国产成人久久精品hezyo-亚洲国产成人久久精品动漫-人妖hd-人妖ts在线,一本道高清DVD在线视频,2020亚洲永久精品导航,国产久久视频在线视频观看

當(dāng)前位置: 首頁 精選范文 神經(jīng)網(wǎng)絡(luò)文本分類范文

神經(jīng)網(wǎng)絡(luò)文本分類精選(五篇)

發(fā)布時間:2023-09-25 11:24:39

序言:作為思想的載體和知識的探索者,寫作是一種獨特的藝術(shù),我們?yōu)槟鷾?zhǔn)備了不同風(fēng)格的5篇神經(jīng)網(wǎng)絡(luò)文本分類,期待它們能激發(fā)您的靈感。

神經(jīng)網(wǎng)絡(luò)文本分類

篇1

關(guān)鍵詞:Web文本分類;RBF網(wǎng)絡(luò);高斯函數(shù);梯度下降法

中圖分類號:TP18文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2011)13-3107-02

The Researching of Web Text Classification Based on RBF Neural Network

XU Chun-yu

(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)

Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.

Key words: web text classification; RBF network; gauss Function; gradient descent algorithm

近年來,web已經(jīng)成為擁有數(shù)十億個異構(gòu)的、半結(jié)構(gòu)化的、動態(tài)的分布式信息空間,這些web信息源中有80%以上的信息是以web文本的形式出現(xiàn)的,如何從這些海量的web信息資源中尋找并獲取有價值的信息和知識模式,已經(jīng)成為信息處理的一個關(guān)鍵問題,web文本分類有助于人們完成這個目標(biāo)[1]。

1 web文本分類

文本分類就是先根據(jù)已有的樣例文本找出能描述并區(qū)分文本類別的分類器,然后利用該分類器對新的未分類的文本進(jìn)行分類。根據(jù)機(jī)器學(xué)習(xí)的觀點,文本自動分類問題可以歸結(jié)為一個機(jī)器學(xué)習(xí)任務(wù):假定全體文本空間為D,預(yù)定義的文本類別集合為C{c1,c2,…,c3}。待學(xué)習(xí)分類法稱為目標(biāo)分類器,記作y,一般來說,y是從文本集到類別集的一個映射,即y:DC,通常情況下該映射存在,但沒有解析表達(dá)式。文本分類中機(jī)器學(xué)習(xí)的目的就是找到映射y的一個近似表達(dá)式或估計:y:DC,使對于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h為分類器[3]。

隨著web上海量文本信息的增加,文本分類技術(shù)的處理對象從普通的文檔擴(kuò)展到了web文本,即形成了web文本分類技術(shù),顯然,文本分類技術(shù)是web文本分類技術(shù)的基礎(chǔ)。

2 RBF神經(jīng)網(wǎng)絡(luò)

徑向基函數(shù)(Radial Basis Function,簡稱RBF)神經(jīng)元網(wǎng)絡(luò)是在借鑒生物局部調(diào)節(jié)和交疊接受區(qū)域知識的基礎(chǔ)上提出的一種采用局部接受域來執(zhí)行函數(shù)影射的人工神經(jīng)元網(wǎng)絡(luò)。在人的大腦皮層區(qū)域中,局部調(diào)節(jié)及交疊的感受是人腦反映的特點。RBF網(wǎng)絡(luò)同BP網(wǎng)絡(luò)類似,也是一種三層前饋式神經(jīng)網(wǎng)絡(luò),輸入層節(jié)點傳遞輸入信號到隱含層,隱含層節(jié)點由像高斯函數(shù)那樣的輻射狀作用函數(shù)構(gòu)成,而輸出層節(jié)點通常是簡單的線性函數(shù)。網(wǎng)絡(luò)模型如圖1所示。

從RBF的網(wǎng)絡(luò)模型圖可以看出,RBF網(wǎng)絡(luò)由兩部分組成,第一部分為非線性變換層,它的輸出公式如公式(1)所示:

(1)

其中X={x1,x2,…xn}為輸入向量,Ci={Ci(1),Ci(2),…Ci(N)}為第i個非線性變換單元的中心向量,Ct(q)表示第t個中心的第q個分量,σi為第i個非線性變換單元的寬度,||?||表示的是范數(shù),通常情況下取2范數(shù),g(?)表示的是非線性函數(shù)關(guān)系,一般取Gauss函數(shù),Gauss函數(shù)的函數(shù)關(guān)系如公式(2)所示:

(2)

第二部分:線性合并層,它的作用是將變換層的輸出線性加權(quán)合并,公式如(3)所示,其中l(wèi)為隱含層神經(jīng)元的個數(shù),m為輸出層神經(jīng)元的個數(shù)。

(3)

RBF網(wǎng)絡(luò)通過徑向基函數(shù)能夠更確切的描述人類神經(jīng)元的活動特性。在中心附近的區(qū)域內(nèi)網(wǎng)絡(luò)的輸出最大,網(wǎng)絡(luò)的輸出隨著中心距離的增大,逐漸減小,而這個過程的快慢則是由σ參數(shù)來決定的,σ越大則函數(shù)輸出曲線越平緩,對輸入的變化就越不敏感,因此,可以通過調(diào)節(jié)σ來進(jìn)一步模擬人類的神經(jīng)元。RBF網(wǎng)絡(luò)最常用的算法是梯度下降法,常用的訓(xùn)練就是選定某種性能指標(biāo),然后采用梯度下降的方法來校正網(wǎng)絡(luò)參數(shù),使該網(wǎng)絡(luò)性能指標(biāo)取得最優(yōu)值,因此RBF網(wǎng)絡(luò)的學(xué)習(xí)實質(zhì)上就是一個最優(yōu)化問題。具體的訓(xùn)練算法為:對于一般的RBF網(wǎng)絡(luò)結(jié)構(gòu),取性能指標(biāo)如公式(4)所示。

(4)

其中,i為網(wǎng)絡(luò)的輸出,具體關(guān)系式如下面的(5)式、(6)式和(7)式所示:

(5)

(6)

(7)

由上面的三個公式可以看出, J是關(guān)于Cj,wjt和σj的函數(shù)。網(wǎng)絡(luò)的訓(xùn)練過程就是調(diào)整以上三組參數(shù),使J趨于最小。求取J對各網(wǎng)絡(luò)參數(shù)wts,ct(q),σt的偏導(dǎo)數(shù),其中1≤t≤P(P是隱含層單元的個數(shù)),1≤s≤M(M是輸出層單元的個數(shù)),1≤q≤N(N是輸出層單元的個數(shù)),得到參數(shù)的校正方法。具體的校正方法為:權(quán)值wts的校正方向如公式(8)所示:

(8)

中心ct(q)的校正方向如公式(9)所示:

(9)

寬度σt的校正方向如公式(10)所示:

(10)

由此,可以得到RBF網(wǎng)絡(luò)的梯度下降法校正公式如(11)所示:

(11)

其中,1≤t≤P,1≤s≤M,1≤q≤N,P為隱含層單元個數(shù),N為輸入層單元個數(shù),M為輸出層單元個數(shù),λ為步長,通常λ=0.05左右。

隱含層到輸出層之間的變換是線性變換,所以采用的是比較成熟的RLS算法。給定樣本輸入,則在當(dāng)前的網(wǎng)絡(luò)隱含層單元中心Cj及寬度σj(1≤j≤P)參數(shù)下,隱含層單元輸出向量為HT=[h1,h2,…,hP],P為隱含層單元個數(shù)。

Y=HTW (12)

其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],這樣,根據(jù)RLS算法有權(quán)值的修正遞推公式如公式(13)所示:

(13)

這樣,按照上面的公式對網(wǎng)絡(luò)參數(shù)不斷地進(jìn)行循環(huán)校正,最終網(wǎng)絡(luò)性能將達(dá)到所要求的性能指標(biāo)[5]。

3 實驗

實驗過程中,首先設(shè)計網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),確定RBF網(wǎng)絡(luò)輸出層神經(jīng)元個數(shù),根據(jù)類別的個數(shù)來確定輸出層神經(jīng)元的個數(shù),實驗數(shù)據(jù)分別屬于10個類別,因此網(wǎng)絡(luò)輸出層神經(jīng)元個數(shù)為10。輸入層神經(jīng)元的個數(shù)為文檔在進(jìn)行特征提取之后向量的維數(shù),實驗中,經(jīng)過降維以后的每篇文檔特征向量的維數(shù)為30,所以將網(wǎng)絡(luò)的輸入層神經(jīng)元的個數(shù)選取為30。由于輸入樣本空間是確定的,可以預(yù)先給定一個隱含層節(jié)點數(shù),只要與輸入樣本的實際類別數(shù)相差不是很大時,就可以使用梯度下降法來不斷修正網(wǎng)絡(luò)的中心值,使網(wǎng)絡(luò)的特性逼近于實際系統(tǒng),這種方法比較簡單,也是一種比較常用的方法,因此,實驗中隱含層神經(jīng)元的個數(shù)取值為9。

RBF網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計完成之后就可以對網(wǎng)絡(luò)進(jìn)行訓(xùn)練了,實驗數(shù)據(jù)來自中國期刊網(wǎng)上下載的600篇文檔,涵蓋了政治、經(jīng)濟(jì)、教育、娛樂等10個類別,每個類別包含60篇文檔,選取其中的500篇文檔作為樣本訓(xùn)練集,每個類別選擇50篇,另外100篇文檔作為網(wǎng)絡(luò)的測試集。首先需要對實驗數(shù)據(jù)進(jìn)行文本特征提取、降維等過程。其次采用的是Matlab軟件進(jìn)行編程以實現(xiàn)網(wǎng)絡(luò)的訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練完成以后,輸入測試集中的數(shù)據(jù),測試網(wǎng)絡(luò)能否正確地將相關(guān)的文檔區(qū)分到各個類別中。表1是RBF網(wǎng)絡(luò)的分類結(jié)果。

4 結(jié)論

從上面的訓(xùn)練結(jié)果分析,RBF網(wǎng)絡(luò)能夠?qū)⒋蟛糠值奈谋菊_地劃分到所屬類別,對于體育、娛樂、外語方面的文檔能夠取得較高的識別率,對于政治、經(jīng)濟(jì)、軍事等方面的文檔的識別率較低,主要原因是這些類別的文檔中互相包含著相關(guān)的特征信息,這種類型的文檔在進(jìn)行文本分類的時候,需要在文本特征提取的時候進(jìn)行相應(yīng)的處理,以使得在輸入神經(jīng)網(wǎng)絡(luò)的時候能夠得到正確的分類結(jié)果。從實驗結(jié)果可以看出,RBF網(wǎng)絡(luò)完全可以應(yīng)用到文本分類中來,并且能夠取得較好的分類效果。

參考文獻(xiàn):

[1] 蒲筱哥.Web自動文本分類技術(shù)研究綜述[J].情報科學(xué),2009:233.

[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.

[3] 王曉慶. 基于RBF網(wǎng)絡(luò)的文本自動分類的研究[D].南昌:江西師范大學(xué),2003:9.

[4] Abhijit S, Rober B. 神經(jīng)網(wǎng)絡(luò)模式識別及其實現(xiàn)[M].徐勇,荊濤,譯.北京:電子工業(yè)出版社,1999:30-32,57-114.

[5] 柯慧燕. Web文本分類研究及應(yīng)用[D].武漢:武漢理工大學(xué),2006:14-15,16-17.

[6] 飛思科技產(chǎn)品研發(fā)中心. 神經(jīng)網(wǎng)絡(luò)理論與MATLAB7實現(xiàn)[M].北京:電子工業(yè)出版社,2005:17.

篇2

關(guān)鍵詞:個性化;信息檢索;文本分類

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2008)29-0265-02

Method of Text Categorization in Personalized Retrieval

PENG Ye-ping, XIAO Da-guang

(Information science and Engineering college,Central South University,Changsha 416000,China)

Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.

Key words: personalized; retrieval; text categorization

1 引言

搜索引擎在信息檢索中起了重要作用,但是由于引擎的通用性,使其不能滿足不同目的,背景,時期的用戶查詢需求,因此需要針對擁護(hù)特征向用戶提供個性化服務(wù)。文本分類方法通過構(gòu)造某種分類模型,并以此判斷樣本所屬的類別。文本分類對合理組織,存儲文本信息,提高信息檢索速度,提高個性化信息檢索效率的基礎(chǔ)。

2 分類方法

2.1 樸素貝葉斯方法

樸素貝葉斯方法是一種在已知先驗概率與條件的情況下的模式識別方法,假設(shè)詞條之間是相互獨立的。設(shè)d為一任意文本,它屬于文檔類C{c1,c2,…,ck}中的一類Cj,引用詞條和分類的聯(lián)合概率來計算給定文檔的分類概率的公式如下:

計算所有文本類在給定d情況下的概率,概率值最大的那個類就是文本d所屬的類,既:

2.2 貝葉斯網(wǎng)絡(luò)分類法

貝葉斯網(wǎng)絡(luò)分類法考慮了特征之間的依賴關(guān)系,該方法更能真實反映文本的情況,但是計算復(fù)雜度比樸素貝葉斯高的多。

2.3 決策樹方法

決策樹極強(qiáng)的學(xué)習(xí)反義表達(dá)能力使得其適合于文本分類,它是通過一組無序,無規(guī)則的實例推理出樹型的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點進(jìn)行屬性值的比較并根據(jù)不同的屬性值進(jìn)行判斷從該結(jié)點向下的分支,在決策樹的葉結(jié)點得到結(jié)論,決策樹的建立算法有很多,文獻(xiàn)[5]其中包括基于信息增益的啟發(fā)式計算ID3;基于信息增益率的解決聯(lián)系屬性的算法C4.5;基于Gini系數(shù)的算法CART和可并行性算法SPRINT算法。決策樹方法特點是使用者只要將訓(xùn)練樣例能夠使用屬性-結(jié)合式的方法表達(dá)出來,就能夠用該方法來學(xué)習(xí),但是這種算法生成的仍是多叉樹。

2.4 K-鄰近方法

K-鄰近方法,根據(jù)測試文本在訓(xùn)練文本中與之最相近的K篇文本的類別來判定它的類別,其中,K是一個重要的參數(shù),文獻(xiàn)[4]K值過大,則與待分類文本實際上并不相似的一些文本也被包含,造成噪音增加;K值太小,則不能充分體現(xiàn)待分類文本的特點.一般對K會選定一個初值,相似值的判定可取歐拉距離或余旋相似度等,若分類系統(tǒng)中相似值的計算采用余旋相似度,則公式如下:

Sim(x,di)為相似度公式,X為新文本的向量,y(di,cj)為類別屬性函數(shù),若d∈cj,則y(di,cj)=1;否則y(di,cj)=0;將新文本分到權(quán)重最大的類別中去。

2.5 支持向量機(jī)

Vapnik提出在結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則理論上的支持向量機(jī)方法,能有效解決小樣本集的機(jī)器學(xué)習(xí)問題,向量機(jī)主要是針對兩類分類問題,在高維空間尋找一個滿足分類要求的最優(yōu)超平作為兩類的分割,既保證分類精確度,又要使超平面兩側(cè)的空白區(qū)域最大化,以保證最小的分類錯誤率,文獻(xiàn)[1]對于大于兩類的多類文本分類,就對每個類構(gòu)造一個超平面,將這一類與其余的類分開,有多個類就構(gòu)造多個超平面,測試時就看哪個超平面最適合測試樣本。支持向量機(jī)方法避免了局部性問題,樣本中的支持向量數(shù),能夠有效地用于解決高緯問題。

2.6 神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)是模仿人腦神經(jīng)網(wǎng)絡(luò)的基本組織特性構(gòu)成的新型信息處理系統(tǒng),其性質(zhì)取決于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),網(wǎng)絡(luò)的權(quán)值和工作規(guī)則.通常由等于樣本特征數(shù)的輸入層,輸出層,等于樣本類數(shù)的神經(jīng)元組成。其中,每一個連接都有一定的權(quán)值,通過訓(xùn)練類來訓(xùn)練的過程就是調(diào)整這些權(quán)值的過程,從而使神經(jīng)網(wǎng)絡(luò)與可以正確地預(yù)測類別。

3 幾種方法的比較

3.1 樸素貝葉斯與網(wǎng)絡(luò)貝葉斯

樸素貝葉斯方法使用概率去表示所有形式的不確定性,學(xué)習(xí)或其他形式的推理都用概率規(guī)則來實現(xiàn),但是大部分情況是文本特征之間的依賴關(guān)系是相互存在的,所以特征獨立性會影響樸素貝葉斯分類的結(jié)果;網(wǎng)絡(luò)貝葉斯能夠考慮特征之間的依賴關(guān)系,但是計算復(fù)雜度比樸素貝葉斯高得多;

3.2 支持向量機(jī)方法

支持向量機(jī)方法的優(yōu)點:首先,該方法是針對有限樣本情況的分類方法,其算法最終將轉(zhuǎn)化為一個二次型尋優(yōu)萬惡提,理論上得到的將是全局最優(yōu)點,避免了局部極值問題;其次,該方法計算的復(fù)雜度不再取決于空間維度,而是取決于樣本數(shù),這可能有效地用于解決高維度問題;再次,該方法對稀疏數(shù)據(jù)不敏感,能更好地捕捉數(shù)據(jù)的內(nèi)在特征。缺點是:該方法參數(shù)的調(diào)整比較困難,分類比較費(fèi)時。

3.3 神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點:首先,具有自適應(yīng)功能,它能根據(jù)所提供的數(shù)據(jù),通過學(xué)習(xí)找出輸出結(jié)果之間的內(nèi)在聯(lián)系,從而球的問題的解答;其次,神經(jīng)網(wǎng)絡(luò)善于聯(lián)想、概括、類比和推廣,任何局部的操作都不會影響整體效果;再次,具有高速尋找優(yōu)化解的能力。缺點:該方法根據(jù)輸入輸出的關(guān)系訓(xùn)練網(wǎng)絡(luò),缺少解釋能力,受訓(xùn)練樣本影響大,訓(xùn)練過程較慢,不適應(yīng)大量數(shù)據(jù)的學(xué)習(xí)。

3.4 決策樹方法

決策樹方法的優(yōu)點是它在學(xué)習(xí)過程中不需要使用者了解很多背景知識,只要訓(xùn)練樣例能夠使用屬性-結(jié)論式的方法表示出來,就能使用該方法。缺點是測試屬性的選擇對該方法影響較大。

3.5 K-鄰近方法

K-鄰近方法的優(yōu)點是該方法訓(xùn)練過程較快,且可隨時添加或更新訓(xùn)練文本來調(diào)整;缺點是因為需要很大的空間來保存文本,所以它分類的開銷很大,K值確定較慢,分類效果較差.

4 文本分類方法效果評價

1) 精確度(查全率):是指通過分類系統(tǒng)正確分類的文本數(shù)與實際分類的文本數(shù)的比值,其公式如下:

精確度:=

2) 召回率(查全率):是指通過分類系統(tǒng)正確分類的文本數(shù)與人工分類中應(yīng)有的文本數(shù)的比值,公式如下:

召回率:=

3) F1測試值:對查權(quán)率和查準(zhǔn)綠的綜合測試

F1測試值:=

參考文獻(xiàn):

[1] 史忠植.知識發(fā)現(xiàn)[M].北京:清華大學(xué)出版,2002.

[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科技大學(xué)出版社,2002.

[3] 王繼成,潘金貴,張福炎.web文本挖掘技術(shù)研究[J].計算機(jī)研究與發(fā)展,2000,37(5):513-520.

篇3

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語言模型;分析

1 卷積神經(jīng)網(wǎng)絡(luò)語言模型

CNN語言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進(jìn)行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。

然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進(jìn)行降維并且減少了待估計參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關(guān)系。

最后,將得到的高級特征輸入softmax分類層進(jìn)行分類操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機(jī)地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過該值時,將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類的交叉熵?fù)p失,要估計的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項以及softmax函數(shù)的權(quán)重向量。

2 卷積神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)用分析

CNN語言模型已經(jīng)廣泛應(yīng)用于諸如文本分類,關(guān)系挖掘以及個性化推薦等NLP任務(wù),下面將對這些應(yīng)用進(jìn)行具體的介紹與分析。

2.1 CNN在文本分類中的應(yīng)用分析

kim提出了利用CNN進(jìn)行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實現(xiàn)了效果很優(yōu)異的句子分類方法。通過對輸入向量的調(diào)整,進(jìn)一步提高了性能實現(xiàn)了包括情感極性分析以及話題分類的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計了兩種通道,一種是靜態(tài)通道,另一種是動態(tài)通道。在卷積層每一個濾波器都通過靜態(tài)與動態(tài)兩種通道進(jìn)行計算,然后將計算結(jié)果進(jìn)行拼接。在池化層采用dropout正則化策略,并對權(quán)值向量進(jìn)行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評論數(shù)據(jù)集,內(nèi)容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫是MR數(shù)據(jù)集的擴(kuò)展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗證集及測試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務(wù)是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務(wù)是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評論數(shù)據(jù)集,包括客戶對MP3、照相機(jī)等數(shù)碼產(chǎn)品的評論,其分類任務(wù)是將其分為積極評價與消極評價兩類。MPQA數(shù)據(jù)集是意見極性檢測任務(wù)數(shù)據(jù)集。通過實驗證明,該方法在這幾個典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。

2.2 CNN在關(guān)系挖掘中的應(yīng)用分析

Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學(xué)習(xí)低維語義向量表示。為了在網(wǎng)絡(luò)查詢或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應(yīng)用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。

2.3 CNN在個性化推薦中的應(yīng)用分析

Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預(yù)標(biāo)注的100,000標(biāo)簽進(jìn)行訓(xùn)練。該方法除了標(biāo)簽預(yù)測任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標(biāo)簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現(xiàn)的標(biāo)簽通過評分函數(shù)對任何給定的主題標(biāo)簽進(jìn)行排序。

其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過對分?jǐn)?shù)f(w,t)進(jìn)行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進(jìn)行推薦。實驗數(shù)據(jù)集采用了兩個大規(guī)模語料集,均來自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬條文本,共含有55億單詞。第二個數(shù)據(jù)集被稱作pages,包括3530萬條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。

3 結(jié)束語

卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語言模型已經(jīng)取得了非常大的發(fā)展,對于自然語言處理中的各項任務(wù)均取得了優(yōu)異的結(jié)果。本文通過對幾項典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。

篇4

——基于深度神經(jīng)網(wǎng)絡(luò)的標(biāo)題分類研究

班級:XX

學(xué)號:XX

姓名:XX

2020年10月25號

基于深度神經(jīng)網(wǎng)絡(luò)的標(biāo)題分類研究

XX

摘要:新聞是人們對時事、最新行業(yè)相關(guān)消息了解的重要途徑,本文將新聞標(biāo)題作為新聞分類的切入點,由于新聞標(biāo)題屬于文本中的短文本類別,所以本文主要通過利用深度學(xué)習(xí)相關(guān)方法對新聞標(biāo)題短文本進(jìn)行分類,針對前期分類出現(xiàn)過的問題,結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)并引入的SVM 模型,解決新聞分類以及短文本分類過程中的常見困難問題。

關(guān)鍵詞:深度學(xué)習(xí);SVM;標(biāo)題分類

1 引言

隨著大數(shù)據(jù)時代的來臨,我們?nèi)粘5男畔⒁?guī)模呈現(xiàn)出爆炸式增長的趨勢。數(shù)據(jù)挖掘和人工智能逐漸成為時代的主題。縮小信息規(guī)模的方法有很多種,而分類就是其中一種極其有效的方式,所以它當(dāng)前仍是吸引國內(nèi)外學(xué)者研究的重點問題和熱點問題。文本分類是在自然語言處理領(lǐng)域廣泛研究的問題,在工業(yè)領(lǐng)域內(nèi),現(xiàn)在已經(jīng)有著較為成熟的應(yīng)用,無論是樸素貝葉斯還是決策樹又或是最大熵以及神經(jīng)網(wǎng)絡(luò)都在工業(yè)領(lǐng)域有著相關(guān)應(yīng)用。而文本分類技術(shù)在新聞分類領(lǐng)域的應(yīng)用仍然有限,當(dāng)前的文本分類系統(tǒng)大多基于統(tǒng)計學(xué)原理再結(jié)合相關(guān)機(jī)器學(xué)習(xí)方法訓(xùn)練相關(guān)數(shù)據(jù)集,從而得到所需的分類器并使用其達(dá)成對無標(biāo)簽數(shù)據(jù)進(jìn)行分類的目的。在2017 年自然語言處理及中文計算會(NLPCC)也曾對新聞分類相關(guān)問題設(shè)立相關(guān)課題,這也間接表現(xiàn)出了其可能為文本分類領(lǐng)域的發(fā)展研究做出較大的貢獻(xiàn)。

由于中文新聞文本分類起步較晚,再加以復(fù)雜精深的漢語語法的影響,使得之前關(guān)于中文新聞文本分類的研究相比于英文顯得稍微落后,但現(xiàn)在伴隨各種中文新聞?wù)Z料庫的出現(xiàn)和完善,中文新聞文本分類漸漸走上正軌。以往對新聞進(jìn)行分類時通常是解析新聞的正文,由于部分新聞的篇幅較長,往往導(dǎo)致了新聞分類時的效率低下。而通過中文新聞標(biāo)題對中文新聞文本進(jìn)行分類,相比與傳統(tǒng)的新聞分類來說在分類效率上可以得到很大的優(yōu)化。除此之外,新聞標(biāo)題往往是對新聞主題的高度概括,以有限的字?jǐn)?shù)對全文內(nèi)容進(jìn)行凝煉,所以這屬于一個短文本分類領(lǐng)域的相關(guān)問題。通過對中文新聞標(biāo)題分類的研究,對短文本分類領(lǐng)域的部分問題有著借鑒意義。

2 算法原理與系統(tǒng)設(shè)計

2.1 算法原理

支持向量機(jī)(Support Vector Machine ,SVM)的主要思想是:建立一個最優(yōu)決策超平面,使得該平面兩側(cè)距離該平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力。對于一個多維的樣本集,系統(tǒng)隨機(jī)產(chǎn)生一個超平面并不斷移動,對樣本進(jìn)行分類,直到訓(xùn)練樣本中屬于不同類別的樣本點正好位于該超平面的兩側(cè),滿足該條件的超平面可能有很多個,SVM正式在保證分類精度的同時,尋找到這樣一個超平面,使得超平面兩側(cè)的空白區(qū)域最大化,從而實現(xiàn)對線性可分樣本的最優(yōu)分類。支持向量機(jī)中的支持向量(Support Vector)是指訓(xùn)練樣本集中的某些訓(xùn)練點,這些點最靠近分類決策面,是最難分類的數(shù)據(jù)點。SVM中最優(yōu)分類標(biāo)準(zhǔn)就是這些點距離分類超平面的距離達(dá)到最大值;“機(jī)”(Machine)是機(jī)器學(xué)習(xí)領(lǐng)域?qū)σ恍┧惴ǖ慕y(tǒng)稱,常把算法看做一個機(jī)器,或者學(xué)習(xí)函數(shù)。SVM是一種有監(jiān)督的學(xué)習(xí)方法,主要針對小樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)、分類和預(yù)測,類似的根據(jù)樣本進(jìn)行學(xué)習(xí)的方法還有決策樹歸納算法等。

2.2 詳細(xì)設(shè)計

簡單的Python機(jī)器學(xué)習(xí)實現(xiàn)新聞標(biāo)題自動分類,爬蟲獲取的新浪新聞的分類,先對新聞進(jìn)行分詞,手動分類一些分詞后的標(biāo)題,然后以它為輸入做SVM模型訓(xùn)練,然后用訓(xùn)練好的SVM模型對其他標(biāo)題做預(yù)測。

3 系統(tǒng)實現(xiàn)

#news_classify.py

import xlrd

import xlwt

import jieba

import numpy as np

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.svm import SVC

def read_data(file, sheet_index=0):

"""讀取文件內(nèi)容"""

workbook = xlrd.open_workbook(file)

sheet = workbook.sheet_by_index(sheet_index)

data = []

for i in range(0, sheet.nrows):

data.append([x for x in sheet.row_values(i) if x.strip()])

return data

def get_classified_sample():

"""返回手動分類的新聞"""

data = read_data('test.xls')

return {

'經(jīng)濟(jì)': data[1] + data[14] + data[20],

'社會': data[2] + data[3] + data[4] + data[9] + data[17] + data[18],

'政法': data[5] + data[6] + data[7] + data[8] + data[11] + data[13] + data[15] + data[16] + data[19],

'軍事': data[10],

'娛樂': data[12],

}

def classify():

"""進(jìn)行分類"""

# 一共分成5類,并且類別的標(biāo)識定為0,1,2,3,4

category_ids = range(0, 5)

category = {}

category[0] = '經(jīng)濟(jì)'

category[1] = '社會'

category[2] = '政法'

category[3] = '軍事'

category[4] = '娛樂'

corpus = []# 語料庫

classified_sample = get_classified_sample()

for k, v in classified_sample.items():

line = ' '.join(classified_sample[k])

corpus.append(line)

data = read_data('test.xls')

# 把未分類的文章追加到語料庫末尾行

# 21開始是因為我手動分類了前20條

for lst in data[21:]:

line = ' '.join(lst)

corpus.append(line)

# 計算tf-idf

vectorizer = CountVectorizer()

csr_mat = vectorizer.fit_transform(corpus)

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(csr_mat)

y = np.array(category_ids)

# 用前5行已標(biāo)分類的數(shù)據(jù)做模型訓(xùn)練

model = SVC()

model.fit(tfidf[0:5], y)

# 對5行以后未標(biāo)注分類的數(shù)據(jù)做分類預(yù)測

predicted = model.predict(tfidf[5:])

# 結(jié)果

# print(len(predicted))

for i in range(len(predicted) - 1):

print(corpus[i + 5], '============》', category[predicted[i]])

if __name__ == '__main__':

classify()

4 實驗或測試結(jié)果

程序運(yùn)行后出現(xiàn)如下界面(一部分):

中巴經(jīng)濟(jì)走廊“圍堵”印度?新華社: 印度想太多了============》娛樂

央行報告:上海已經(jīng)基本確立國內(nèi)金融中心地位============》社會

國網(wǎng)北京電力: 北京地區(qū)煤改電今年累計破100 萬戶============》娛樂

湖南沅江原市長肖勝利犯三罪判5 年: 為升遷送13 萬============》娛樂

顏寧為何從清華跳槽去普林斯頓?她終于說出原因============》娛樂

國家文物局公布346 萬件全國館藏文物信息供監(jiān)督============》娛樂

里皮首次對續(xù)約中國男足表態(tài):我說了我愿意( 圖) ============》經(jīng)濟(jì)

5 結(jié)論

本項目實現(xiàn)的是以標(biāo)題分類為核心的Python程序的一個簡單嘗試,本項目采用爬蟲獲取的新浪新聞的分類,利用機(jī)器學(xué)習(xí),深度學(xué)習(xí)的方法完成了標(biāo)題分類任務(wù),但模型還有待改進(jìn)。

參考文獻(xiàn)

[1]楊崧. 基于LSTM-Attention的中文新聞標(biāo)題分類研究[D].中南財經(jīng)政法大學(xué),2019.

篇5

關(guān)鍵詞:數(shù)據(jù)挖掘;貝葉斯;分類

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)23-1024-02

The Application of Bayesian Classification

ZHONG Dai-jun

(Chongqing University of Arts and Sciences, Chongqing 402160, China)

Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.

Key words: data mining; bayes; classification

1 引言

數(shù)據(jù)的豐富帶來了對強(qiáng)有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富,但信息貧乏”。快速增長的海量數(shù)據(jù)收集、存放在大型和大量的數(shù)據(jù)庫中,沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。

分類作為數(shù)據(jù)挖掘的一種模式,可以用于提取描述重要數(shù)據(jù)的模型,通常是預(yù)測分類標(biāo)號(或離散值)。例如,可以建立一個分類模型,對銀行貸款的安全或風(fēng)險進(jìn)行分類。許多分類的方法已被機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計學(xué)和神經(jīng)生物學(xué)方面的研究者提出。

貝葉斯分類是數(shù)據(jù)分類中的一個基本技術(shù)。在大型數(shù)據(jù)庫,貝葉斯分類已表現(xiàn)出高準(zhǔn)確率和高速度。貝葉斯分類中又有樸素貝葉斯分類和貝葉斯信念網(wǎng)絡(luò)。

2 什么是分類

數(shù)據(jù)分類(data classification)是一個兩步過程。第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類集。通過分析有屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。假定每個元組屬于一個預(yù)定義的類,由一個稱作類標(biāo)號屬性(class label attribute)的屬性確定。對于分類,數(shù)據(jù)元組也稱作樣本、實例或?qū)ο蟆榻⒛P投环治龅臄?shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個元組稱作訓(xùn)練樣本,并隨機(jī)地由樣本群選取。由于提供了每個訓(xùn)練樣本的類標(biāo)號,該步也稱作有指導(dǎo)的學(xué)習(xí)(即模型的學(xué)習(xí)在被告知每個訓(xùn)練樣本屬于哪個類的“指導(dǎo)”下進(jìn)行)。它不同于無指導(dǎo)的學(xué)習(xí)(或聚類),那里每個訓(xùn)練樣本的類標(biāo)號是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能事先不知道。

通常,學(xué)習(xí)模型用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供。例如,給定一個顧客信用信息的數(shù)據(jù)庫,可以學(xué)習(xí)分類規(guī)則,根據(jù)他們的信譽(yù)度優(yōu)良或相當(dāng)好來識別顧客。這些規(guī)則可以用來為以后的數(shù)據(jù)樣本分類,也能對數(shù)據(jù)庫的內(nèi)容提供更好的理解。

第二步,使用模型進(jìn)行分類。首先評估模型(分類法)的預(yù)測準(zhǔn)確率。模型在給定測試集上準(zhǔn)確率是正確被模型分類的測試樣本的百分比。對于每個測試樣本,將已知的類標(biāo)號與該樣本的學(xué)習(xí)模型類預(yù)測比較。如果模型的準(zhǔn)確率根據(jù)訓(xùn)練集評估,評估可能是樂觀的,因為學(xué)習(xí)模型傾向于過分適合數(shù)據(jù)。

如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對類標(biāo)號未知的數(shù)據(jù)元組或?qū)ο筮M(jìn)行分類。(這種數(shù)據(jù)在機(jī)器學(xué)習(xí)文獻(xiàn)中也稱為“未知的”或“先前未見到的”數(shù)據(jù))。

分類具有廣泛的應(yīng)用,包括信譽(yù)證實、醫(yī)療診斷、性能預(yù)測和選擇購物。

3 Bayesian 分類技術(shù)介紹

3.1 Bayesian分類與其他分類技術(shù)的比較

基于統(tǒng)計的分類算法主要包括:相似度模型(Rocchio,K一近鄰)、概率模型(貝葉斯)、線性模型(LLSF,SVM)、非線性模型(決策樹、神經(jīng)網(wǎng)絡(luò))和組合模型.對于這些分類算法,國內(nèi)外很多研究者進(jìn)行了客觀評測。

分類方法可以根據(jù)下列標(biāo)準(zhǔn)進(jìn)行比較和評估:

預(yù)測的準(zhǔn)確率:這涉及模型正確地預(yù)測新的或先前未見過的數(shù)據(jù)的類標(biāo)號的能力。

速度:這涉及產(chǎn)生和使用模型的計算花費(fèi)。

強(qiáng)壯性:這涉及給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù),模型真切預(yù)測的能力。

可伸縮性:這涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力。

可解釋性:上涉及學(xué)習(xí)模型提供的理解和洞察的層次。

數(shù)據(jù)庫研究界對數(shù)據(jù)挖掘的分類一直強(qiáng)調(diào)可伸縮性。

“貝葉斯分類的效率如何?”理論上講,與其他所有分類算法相比,貝葉斯分類具有最小的出錯率。然而,實踐中并非總是如此。這是由于對其應(yīng)用的假定(如類條件獨立性)的不準(zhǔn)確性,以及缺乏可用的概率數(shù)據(jù)造成的。然而,種種實驗研究表明,與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相比,在某些領(lǐng)域,該分類算法可以與之媲美。

貝葉斯分類還可用用來為不直接使用貝葉斯定理的其他分類算法提供理論判定。例如,在某種假定下,可用證明正如樸素貝葉斯分類一樣,許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法輸出最大的后驗假定。

3.2 貝葉斯分類

3.2.1 貝葉斯定理

設(shè)X為一個類別未知的數(shù)據(jù)樣本,H為某個假設(shè),若數(shù)據(jù)樣本X屬于一個特定的類別C,那么分類問題就是決定P(H/X),即在獲得數(shù)據(jù)樣本X時,H假設(shè)成立的概率P(X)是建立在H基礎(chǔ)之上的x成立的概率。具體公式描述如下:

3.2.2樸素貝葉斯分類(簡單貝葉斯分類)

樸素貝葉斯分類方法[3]是機(jī)器學(xué)習(xí)中常用的方法之一。樸素貝葉斯分類法將訓(xùn)練實例I分解成特征向量W和決策類別變量C。樸素貝葉斯分類法假定特征向量的各分向量間相對于決策變量是相對獨立的。對文本分類來說,假設(shè)各個單詞wi和wj之間兩兩獨立。

設(shè)訓(xùn)練樣本集分為k類,記為C={C1,C2,…,Ck},則每個類Ci的先驗概率為P(Ci), I=1,2, …,k,其值為Ci類的樣本數(shù)除以訓(xùn)練集總樣本數(shù)N。對于樣本d,其屬于Ci類的條件概率是P(d|Ci)。文本d有其包含的特征詞表示,即d= (w1, …,wi, …,wm),m是d的特征詞個數(shù)|d|,wj是第j個特征詞。根據(jù)貝葉斯定理,Ci類的后驗概率為P(Ci|d)

因為P(d)對于所以類均為常數(shù),樸素貝葉斯分類器將未知樣本歸于類的依據(jù),如下

文檔d由其包含的特征詞表示,即d=(w1, …,wi, …,wm) ,m是d的特征詞個數(shù)|d|,wj是第j個特征詞,由特征獨立性假設(shè),則得

式中P(wj|Ci)表示分類器預(yù)測單詞wj在類Ci的文檔中發(fā)生的概率。

3.3 改進(jìn)的貝葉斯分類在文本分類中的應(yīng)用

關(guān)鍵的一個技術(shù)是特征提取。文本分類征提取的步驟包括:詞語切分,詞頻統(tǒng)計,加權(quán)計算和特征選擇(二者通常結(jié)合在一起進(jìn)行)。

在文本分類中有很多權(quán)重計算和特征選擇的公式,如信息增益、期望交叉嫡、文本證據(jù)權(quán)、zx統(tǒng)計量等,其中最著名的是TFIDF公式.那么,權(quán)重計算和特征選擇的公式究竟哪個為優(yōu)呢?其實在這些公式中,關(guān)鍵在于特征選擇時的傾向:高頻詞或稀有詞,也就是公式中的P(w)因子起很大作用。因此,在特征選擇時,理想的做法應(yīng)該是充分考慮P(w)因子的作用,最好能兼顧到高權(quán)高頻詞和低頻高權(quán)詞。

有學(xué)者對TF*F和TF*IWF*IWFF公式進(jìn)行了分析并作了一些改進(jìn),認(rèn)為關(guān)鍵詞在某類的權(quán)重受3個因素的影響:該詞在當(dāng)前類中的出現(xiàn)頻率;該詞在總語料中的出現(xiàn)頻率;該詞在不同類別之間出現(xiàn)頻率的差異。最終得到關(guān)鍵詞在類中的權(quán)重計算公式:

類別區(qū)別度用來表示某一個詞語對于文本分類的貢獻(xiàn)程度,即詞語的領(lǐng)域區(qū)別程度。直觀地看,如果一個詞語在每一類中都比較均勻地出現(xiàn),那么它對于分類的貢獻(xiàn)幾乎為零,類別區(qū)別度很低;如果某一詞語只在某一類中出現(xiàn),那么它對于分類的貢獻(xiàn)很高,有的幾乎可以一詞定類,類別區(qū)別度也就很高了。比如,虛詞“的、我、在”的類別區(qū)別度很低,而“魔獸爭霸、重倉股、手機(jī)操作系統(tǒng)”這樣的詞語其類別區(qū)別度就很高。

3.4 貝葉斯信念網(wǎng)絡(luò)

樸素貝葉斯分類假定類條件獨立,即給定樣本的類標(biāo)號,屬性的值相互條件獨立。這一假定簡化了計算。當(dāng)假定成立時,與其他所有分類算法相比,樸素貝葉斯分類是最精確的。然而,在實踐中,變量之間的依賴可能存在。貝葉斯信念網(wǎng)絡(luò)(Bayesian belief network)說明聯(lián)合條件概率分布。它允許在變量的子集間定義類條件獨立性。它提供一種因果關(guān)系的圖形,可用在其上進(jìn)行學(xué)習(xí)。這種網(wǎng)絡(luò)也被稱為信念網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和概率網(wǎng)絡(luò)。

信念網(wǎng)絡(luò)有兩部分定義。第一部分是有向無環(huán)圖,其每個節(jié)點代表一個隨機(jī)變量,而每條弧代表一個概率依賴。如果一條弧有節(jié)點Y到Z,則Y是Z的雙親或直接前驅(qū),而Z是Y的后繼。給定雙親,每個變量條件獨立于圖中的非后繼。變量可以是離散的或連續(xù)值的。它們可以對應(yīng)于數(shù)據(jù)中給定的實際屬性,或?qū)?yīng)于一個相信形成聯(lián)系的“隱藏變量”。

“貝葉斯信念網(wǎng)絡(luò)如何學(xué)習(xí)?”在學(xué)習(xí)或訓(xùn)練信念網(wǎng)絡(luò)時,許多情況都是可能的。網(wǎng)絡(luò)結(jié)構(gòu)可能預(yù)先給定,或由數(shù)據(jù)導(dǎo)出。網(wǎng)絡(luò)變量可能是可見的,或隱藏在所有或某些訓(xùn)練樣本中。隱藏素凈的情況也稱為空缺值或不完全數(shù)據(jù)。

如果網(wǎng)絡(luò)結(jié)構(gòu)已知并且變量是可見的,訓(xùn)練網(wǎng)絡(luò)是直截了當(dāng)?shù)摹T撨^程由計算CPT(條件概率表)組成,與樸素貝葉斯分類涉及的計算概率類似。

當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)給定,而某些變量是隱藏的時,則可使用梯度下降方法訓(xùn)練信念網(wǎng)絡(luò)。目標(biāo)是學(xué)習(xí)CPT項的值。設(shè)S是s個訓(xùn)練樣本X1,X2,…,Xs的集合,Wijk是具有雙親Ui=uik的變量Y=yij的CPT項。Wijk可以看作權(quán),類似于神經(jīng)網(wǎng)絡(luò)中隱藏單元的權(quán)。權(quán)的集合總稱為w。這些權(quán)被初始化為隨機(jī)概率值。梯度下降策略采用貪心爬山法。在每次迭代中,修改這些權(quán),并最終收斂到一個局部最優(yōu)解。

4 結(jié)束語

簡要闡述了分類在數(shù)據(jù)挖掘中的位置,著重介紹了貝葉斯分類的基本技術(shù)和它的相關(guān)應(yīng)用。

參考文獻(xiàn)

[1] 史忠植.知識發(fā)現(xiàn)[M].北京:清華大學(xué)出版社,2002.