來源︰ www.sblunwen.com 作者︰vicky 發布時間︰2019-08-28 論文字數︰30236字
論文編號︰ sb2019071416341627316 論文語言︰中文 論文類型︰碩士畢業論文
本文是一篇計算機論文,筆者認為文本分類是文本數據挖掘技術的一個重要組成部分,是處理和組織大量錯綜復雜的文本數據的重要技術,可以在一定程度上解決信息數據雜亂無章的問題,實現

本文是一篇計算機論文,筆者認為文本分類是文本數據挖掘技術的一個重要組成部分,是處理和組織大量錯綜復雜的文本數據的重要技術,可以在一定程度上解決信息數據雜亂無章的問題,實現信息分流,幫助用戶快速準確地定位到有效信息的所在。

1  緒論

1.1  研究背景與意義
如今,數據信息總量呈指數增長,大量信息以數字文本的形式呈現,倘若僅憑借傳統人工方法對這些文本數據進行組織和管理,不但需要耗費大量的物力和人力,而且也難以實現。這迫使人們尋找一種新的技術,能夠高效、精準地組織和管理這些冗雜的信息,使真正有效的信息數據清晰明了地呈現出來,文本挖掘技術便是解決這一問題的有效途徑。文本分類是文本信息挖掘的基本功能,也是處理和組織文本數據的核心技術,能夠有效地輔助人們組織和分類信息數據,使信息雜亂的問題在較大程度上得到解決,對于信息的高效管理及有效利用都具有很強的現實的意義,以致文本分類技術成為了數據挖掘領域的重要研究方向之一。文本分類如今已經應用到多個領域中,如話題檢測、垃圾郵件過濾、短信過濾、作者識別、網頁分類和情感分析等。越來越多的學者都投入到了文本分類的研究之中,出現了許多新的或改進的文本分類方法和技術。與此同時,文本分類技術的飛速發展也帶來了前所未遇的困難和挑戰,在理論和實踐上文本分類技術的研究仍存在很大的發展空間。
文本分類技術主要涉及有文本預處理、降維、特征加權、構造分類器、分類性能評價等多個過程。由于文本數據信息的非結構化的特性,在操作這類數據信息之前需要對其進行預處理工作。文本預處理可以把非結構化的文本數據信息轉化成結構化的形式,同時在一定程度上減少特征詞數量。但文本在經過預處理之後,特征詞的數量依舊很多,特征空間的維數仍然過于龐大,即便是規模很小的語料庫,其特征詞數量也會很輕易的達到幾萬甚至幾十萬。這不僅會耗費巨大的存儲空間和運行時間,而且一些噪聲特征會對文本分類造成一定的干擾,最終影響分類的準確度和效率。因此,還需要更進一步地減少特征詞的數量,降低特征空間的維數。如何從原始特征空間中選擇出具有較強類別區分能力的特征詞就是特征選擇的目的。特征選擇是文本分類中的一個重要問題,能夠不犧牲分類性能的情況下縮減特征空間大小,同時避免過度擬合現象的產生。其主要思想是按照某種規則從原本的高維特征集合空間中將對文本分類沒有多大貢獻的特征詞刪除,選取出一部分最為有效的、最具有代表性的特征詞構成新的特征子集。通過特征選擇這一步驟,一些和需求無關的特征詞會被剔除,使文本特征集合空間的維數得到大幅度降低,進而提高文本分類的效率和精度。
......................

1.2  研究現狀
1.2.1  文本分類研究現狀
文本分類在國際上的研究開始的較早,可以追溯到 20 世紀 50 年代。1957 年,美國IBM 公司的 H.P.Luhn 首次提出將詞頻統計的思想用于文本分類研究,這使自動文本分類領域有了里程碑式地突破。隨後 M.E.Maron 于 1960 年在 Journal of ACM 上發表了有關于自動文本分類的第一篇文章,即“On  relevance,probabilistic indexing and information retrieval”。論文中探討了關鍵詞自動分類技術,該論文的發表預示著自動文本分類時代的到來。在文本表示方面,G.Salton 等人提出了空間向量模型(vector space model,VSM),將文本特征抽象為特征空間向量,如今該模型因其簡潔有效性而被廣泛運用于文本的表示當中。此後,眾多學者如 K.sparch 和  R.M.Needham 等都在該領域進行了大量研究且卓有成效。
總體來說,國外對文本分類的研究大致分為三個階段︰
(1)20 世紀 80 年代之前︰基于知識工程的文本自動分類系統。該階段主要是對文本自動分類的可行性進行探究。
(2)20 世紀 80 年代到 90 年代︰基于統計的機器學習文本自動分類系統。在這一階段,對文本分類技術的研究主要集中于理論研究同時進行實驗分析。根據領域專家人工建立的知識形成規則產生分類器,結合傳統知識工程技術對文本進行分類成為主流。
(3)20 世紀 90 年代以後︰基于語義的文本自動分類系統。這一階段文本自動分類技術已經較為成熟,人們開始將分類的理論與實際相結合,進入自動分類的實用性階段。
.........................

2 相關理論

2.1  基礎理論
文本分類(Text Categorization,也作 Text Classification,縮寫為 TC)是指根據大量已標注類別屬性的文本集合,將待分類的未知類別的文本自動地劃分到某一類或某幾類的過程。

文本表示︰文本數據的結構通常具有復雜、多元化的特點,然而計算機無法像人類一樣可以直接對文本的內容產生感性認知,因此,需要采用某種規則來量化這些文本數據,使機器能夠直接處理它們。選擇怎樣的語言元素作為特征詞,以及選擇哪種模型來結構化表征文本對象是文本表示模塊需要解決的問題。
降維︰經過預處理和文本表示等操作後,特征數量規模依舊十分龐大。為了實現有效的文本分類,需要從特征集合中選取出對類別最具有區分能力的特征詞,達到縮減特征維度的目的,以降低文本分類過程中的時空復雜度,提高分類器的分類性能。降維通常包括特征提取和特征選擇兩種方法。
特征加權︰在降維後需要對特征詞進行加權處理,依據不同的權重計算規則得到的權值不同,一個合理有效的加權算法可以對不同質量的特征詞賦予不同的權重值,從而提高分類的準確率。
構造分類器︰如何構造出一個合適且高效文本分類器是文本分類方法中一個重要的研究內容。在設計分類器時,首先需要足夠數量的已知類別屬性的樣本集合作為訓練集,通過對訓練集的分析學習訓練出分類器,然後用訓練得到的分類器實現對待分類對象的分類工作。
.......................

2.2  文本預處理
文本預處理是文本分類的基礎工作,有效的文本預處理可以減少原始數據集合中的噪聲,使文本分類快速高效地執行。文本預處理通常包括去除格式標記、分詞、詞干提取、去停用詞等步驟,下面將對這些方法進行簡要介紹。
(1)去除格式標記
通常情況下,不同語料庫有著自己特定的存儲格式,文本中除了有用的文本信息以外,還會存在一些與分類無關的標記,例如標點符號、數字、圖片、動畫、甚至亂碼等。對于一些由超文本標記語言(HTML)構成的語料庫,除了標題正文等有效內容外,還存在著大量格式標簽等無用標記。這些冗余的標記與文本內容無關,對文本的分類沒有任何幫助,應當去除。
(2)分詞
與英文等類似語種清晰明了的單詞分割相比,中文、日文等東方語種沒有空格這一天然的切分標志,多以“字”為基本構造單位,而“詞”作為文本信息的最小載體單元,具有更明顯、更充足的語義信息。因此,在中文文本分類中,更傾向于以“詞”作為分類的特征詞。分詞就是為了將文本正確地劃分成“詞”單元。分詞質量的好壞會直接影響到文本分類的最終結果。
......................
3  基于分詞頻文檔頻率的特征選擇算法 ........................ 17
3.1  相關特征選擇算法 ....................... 17
3.2 STF-DF 算法 ...................... 19
4  基于分詞頻逆類頻率的特征選擇算法 ................. 33
4.1  相關特征選擇算法 ................... 33
4.2 STF-ICF 算法 .............. 33
5  總結與展望.......................... 45
5.1  工作總結 ............................... 45
5.2  工作展望 ............................ 45

4  基于分詞頻逆類頻率的特征選擇算法

4.1  STF-ICF 算法
4.1.1算法研究動機
在 2.5.2 節中介紹到,逆文檔頻率 IDF 常用于表示特征詞對文檔的區分能力,如果特征詞在語料庫中的眾多文檔中都出現,即文檔頻率很高,那麼就說明該特征詞對于文檔的區分能力很弱。IDF 在區分特征詞所在文檔與其他文檔的能力方面具有較好的效果,被廣泛應用于文本分類領域,但是該方法存在一定缺陷,即忽略了對于文本分類來說十分重要的類別信息。逆類頻率 ICF很好的彌補了這個缺陷,類似于逆文檔頻率,逆類頻率常用來表示特征詞對類別的區分能力,如果特征詞在語料庫中的大多數類別中都出現,即類別頻率很高,那麼就說明該特征詞對于類別的區分能力很差。逆類頻率計算公式如下︰

...........................

5  總結與展望

5.1  工作總結
隨著互聯網技術的迅猛普及,大量的電子文本信息涌現在網上,這些文本數據雖然豐富了人們的生活,但是也產生了許多無用信息,導致了數據規模龐大但實際有效信息卻十分匾乏的現象。在這種情況下,用戶想要在海量的數據中找尋到真正有效的信息,猶如大海撈針,困難重重。因此,文本數據的合理有效應用是當前信息科學技術領域面臨的一大挑戰。文本分類是文本數據挖掘技術的一個重要組成部分,是處理和組織大量錯綜復雜的文本數據的重要技術,可以在一定程度上解決信息數據雜亂無章的問題,實現信息分流,幫助用戶快速準確地定位到有效信息的所在。
論文主要工作有以下幾個方面︰
(1)分析了文本分類的研究背景和意義,對文本分類及特征選擇技術的國內外研究現狀做了詳細闡述,並以提高分類的性能為主線對文本分類過程中的各項相關技術,包括文本預處理、降維、特征加權、構造分類器和分類性能評估等做了較完整的介紹。
(2)提出了分詞頻和分詞頻文檔頻率兩個全新的概念,設計並實現了一種基于分詞頻文檔頻率的特征選擇算法(STF-DF)。該算法在進行特征選擇時,充分考慮了不同詞頻的同一個特征詞對分類的影響。實驗階段,選擇樸素貝葉斯和 KNN 兩種分類算法在20NewsGroups,Classic3 和 WebKB 三種常見數據集上進行實驗驗證。采用1micro− F 和精確率兩種評價指標,與 DF、IG、CHI、t-test、CMFS 和 NDM 六種特征選擇算法進行對比。實驗結果顯示,STF-DF 算法具有良好的分類性能。
(3)設計並實現了一種基于分詞頻逆類頻率的特征選擇算法(STF-ICF),該算法在分詞頻的理論基礎上,提出分詞頻類別頻率和加權平均類別頻率兩個全新的概念。在進行特征選擇時,該算法彌補了逆類頻率 ICF 方法的不足之處,更準確得對特征詞的重要程度進行衡量。實驗階段,采用樸素貝葉斯分類器在 WAP、K1a、K1b、RE0 和 RE1 五種數據集上將 STF-ICF 算法與 DF、CMFS、DFS 以及 OCFS 進行對比。實驗結果表明,STF-ICF 算法在1micro− F 及精確率兩方面表現優秀,是一種有效的特征選擇方法。
參考文獻(略)


原文地址︰http://www.pkyoule1010.com/jsjlw/27316.html,如有轉載請標明出處,謝謝。

您可能在尋找計算機論文方面的範文,您可以移步到計算機論文頻道(http://www.pkyoule1010.com/jsjlw/)查找


上一篇︰基于嵌入式中間件的家居遠程監控計算機系統的研究與應用
下一篇︰沒有了