中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/44573
English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 80990/80990 (100%)
造访人次 : 42709594      在线人数 : 1464
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/44573


    题名: 機器學習應用於樣版網頁擷取之研究;A Machine Learning Based Approach to Web Extraction from Template Pages
    作者: 張志豪;Chih-Hao Chang
    贡献者: 資訊工程學系碩士在職專班
    关键词: 機器學習;machine learning
    日期: 2010-07-26
    上传时间: 2010-12-09 13:49:25 (UTC+8)
    出版者: 國立中央大學
    摘要: 網際網路包含大量的資料,其中深網(Deep Web)所提供的大量結構性資料, 相較於表層網路(Surface Web)所提供的資訊有更高的價值。然而深網藉由共同 閘道介面(CGI)所提供給人們查詢的方式並不適合程式的讀取,因此對於資訊的 整合來說,如何從查詢所得的網頁中擷取所要的資料,是存在十多年的挑戰。其 中的技術發展也從監督式的資料擷取方法到非監督式的資料擷取方法,並從主要 資料擷取(Data Rich Section Data Extraction) 進化到全頁式的資料擷取 (Page-level Data Extraction)。非監督式的資料擷取方法主要透過相似的網頁 結構反向推導其產生模型使用的HTML 樣板以及資料模型,由於同樣的HTML 標籤 可能用以呈現不同的資訊,因此自動推論最大的困難點便在於如何辨識相同 HTML 標籤是否代表不同的意義。本篇論文應用機器學習方法來判斷網文件物件 模型樹(DOM Tree)中的兩個HTML 標籤是否為同儕節點(Peer Node),藉以改善 非監督式的資料擷取方法FiVaTech 推論網頁樣板(Template)及資料結構 (Schema)的準確度。此分類器採用HTML 標籤資訊、視覺化資訊、文字內容資訊 等三類做為分類器的特性。另外我們同時也利用比對顯示在瀏覽器上HTML 標籤 的影像來輔助樣版的判斷。實驗結果顯示,採用J48 分類器對於Peer Node 的辨 識可以逹到90%左右的準確率,同時對於資料結構的準確度也有20%的改善,顯 示此方法的可行之處。A huge amount of information on the World Wide Web has a structured HTML form as they are generated dynamically from databases and have the same template. This paper proposes a page-level web data extraction system FiVaTech2 that extracts schema and templates from these template-based web pages automatically. The proposed system, FiVaTech2, is an extension to our previously page-level web data extraction system FiVaTech. FiVaTech2 uses a machine learning (ML) based method which compares HTML tag pairs to estimate how likely they present in the web pages. We use one of the ML techniques called J48 decision tree classifier and also use image comparison to assist templates detection. Each HTML tag in the web page has several features that can be divided into the three types: visual information, DOM tree information, and HTML tag contents. Our experiments show an encouraging result for the test pages when combinations of the three types of tag features are used. Also, our experiments show that FiVaTech2 performs better and has higher efficiency than FiVaTech.
    显示于类别:[資訊工程學系碩士在職專班 ] 博碩士論文

    文件中的档案:

    档案 描述 大小格式浏览次数
    index.html0KbHTML790检视/开启


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明