中文檢索與多詞匹配演算法研究;Onthe Study of Algorithms for Chinese Text Retriebal and Multi-Word Matchings

NCU Institutional Repository > 資訊電機學院 > 資訊工程學系 > 研究計畫 > Item 987654321/57097

請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/57097

題名:	中文檢索與多詞匹配演算法研究;Onthe Study of Algorithms for Chinese Text Retriebal and Multi-Word Matchings
作者:	何錦文
貢獻者:	中央大學資訊工程學系
關鍵詞:	資訊工程--硬體工程;中文全文檢索;自由文檢索;多詞匹配演算法;Chinese text retrieval;Free text search;Multi-word string matchingalgorithm
日期:	1993-09-01
上傳時間:	2012-10-01 15:14:01 (UTC+8)
出版者:	行政院國家科學委員會
摘要:	書籍,報紙,公文等非格式化資料稱為全文(Iext). 全文檢索的領域在探討如何自全文尋找資料.在全文中檢索任意的字串,稱為自由文檢索(Free Iext Search).本計畫即探討如何能在大量中文全文資料中快速的做自由文檢索.鑑於所處理的全文資料可能相當龐大,我們所提出的方法將依兩個步驟來進行.第一個步驟先將全文中可能含所要檢索的段落全部找出,第二個步驟是在這些段落中用多詞匹配演算法找出所要檢索詞句的真正位置. 針對第一個步驟及中文特性,我們提出一個檢索法叫雙字檢索法,在此計畫中,我們將研究此檢索法的可行性.至於第二個步驟,我們發覺因應實際的需要,中文檢索的能力不得僅局限於單一的詞句,必須能用更多的檢索詞,連接以適當的邏輯運算元,形成較複雜的檢索條件,並且容許其中的某些檢索詞為其他檢索詞的子字串.除此之外,鑑於中文字具有多重含義,每個檢索詞的前後均可附加排除字集,以排除不合查詢目的的字串,提升精確度,這包含快速匹配多個檢索詞,尋找最長匹配, 處理排除字集,以及解決中文適用性等問題,現有的多詞匹配演算法(如Aho與Corasick的多詞匹配演算法)均不適用,須經過相當的修改,本計畫將研究如何設計出一個新的多詞匹配演算法以解決上述問題. ; 研究期間 8108 ~ 8207
關聯:	財團法人國家實驗研究院科技政策研究與資訊中心
顯示於類別:	[資訊工程學系] 研究計畫

文件中的檔案:

檔案	描述	大小	格式	瀏覽次數
index.html		0Kb	HTML	430	檢視/開啟

在NCUIR中所有的資料項目都受到原著作權保護.

社群 sharing

資料載入中.....