摘要: | 書籍,報紙,公文等非格式化資料稱為全文(Iext). 全文檢索的領域在探討如何自全文尋找資料.在 全文中檢索任意的字串,稱為自由文檢索(Free Iext Search).本計畫即探討如何能在大量中文全文資料 中快速的做自由文檢索.鑑於所處理的全文資料 可能相當龐大,我們所提出的方法將依兩個步驟 來進行.第一個步驟先將全文中可能含所要檢索 的段落全部找出,第二個步驟是在這些段落中用 多詞匹配演算法找出所要檢索詞句的真正位置. 針對第一個步驟及中文特性,我們提出一個檢索 法叫雙字檢索法,在此計畫中,我們將研究此檢索 法的可行性.至於第二個步驟,我們發覺因應實際 的需要,中文檢索的能力不得僅局限於單一的詞 句,必須能用更多的檢索詞,連接以適當的邏輯運 算元,形成較複雜的檢索條件,並且容許其中的某 些檢索詞為其他檢索詞的子字串.除此之外,鑑於中文字具有多重含義,每個檢索詞的前後均可附 加排除字集,以排除不合查詢目的的字串,提升精 確度,這包含快速匹配多個檢索詞,尋找最長匹配, 處理排除字集,以及解決中文適用性等問題,現有 的多詞匹配演算法(如Aho與Corasick的多詞匹配演算 法)均不適用,須經過相當的修改,本計畫將研究如 何設計出一個新的多詞匹配演算法以解決上述問 題. ; 研究期間 8108 ~ 8207 |