English
| 正體中文 |
简体中文
|
全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 42756980 線上人數 : 2077
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by
NTU Library IR team.
搜尋範圍
全部NCUIR
資訊電機學院
資訊工程研究所
--博碩士論文
查詢小技巧:
您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
進階搜尋
主頁
‧
登入
‧
上傳
‧
說明
‧
關於NCUIR
‧
管理
NCU Institutional Repository
>
資訊電機學院
>
資訊工程研究所
>
博碩士論文
>
Item 987654321/9031
資料載入中.....
書目資料匯出
Endnote RIS 格式資料匯出
Bibtex 格式資料匯出
引文資訊
資料載入中.....
資料載入中.....
請使用永久網址來引用或連結此文件:
http://ir.lib.ncu.edu.tw/handle/987654321/9031
題名:
由瀏覽歷程自動產生網頁抓取程式之研究
;
Generation of Web page Fetchers from Navigation Records
作者:
張立帆
;
Li-fang Chang
貢獻者:
資訊工程研究所
關鍵詞:
瀏覽歷程
;
網頁抓取
;
Web page Fetcher
;
Navigation Record
日期:
2005-07-07
上傳時間:
2009-09-22 11:39:48 (UTC+8)
出版者:
國立中央大學圖書館
摘要:
全球資訊網(World Wide Web)在資訊爆炸的今天,充斥著各式各樣數量難以估算的資料,能夠快速有效的擷取與整合這些資料成為有用的資訊或知識,是近年來很熱門的課題,由於目前全球資訊網上流通的多為HTML文件,為提供使用者瀏覽而設計的半結構化語言,不利於分析和比較的應用,若能將HTML的網頁資料透過資訊整合,由資訊擷取技術將網頁轉為結構化的資料,以統一的資料庫或XML文件型式儲存,對於資訊的應用有很大的幫助,例如購物網站的比價分析、新聞資料的收集…等,而如何將全球資訊網上的HTML網頁文件加以過濾、收集、擷取與整合是近年來相當重要的研究。 本篇論文將資訊擷取技術的研究,區分為網頁抓取與資料擷取兩種技術,而資料擷取技術,已經進行相當長的一段時間,而監督式與非監督式資料擷取系統,對網頁資料的擷取都有很大的貢獻,然而,大多數的研究重視如何從網頁中擷取出資料,缺少了抓取需要擷取網頁的研究。因為需要進行擷取的網頁是相當多的,一頁一頁的手動抓取是沒有效率的,而且大多數的網頁都是以相同網頁樣板所產生,在瀏覽或抓取這些網頁時,都會進行相同的重覆動作,因此,有一些研究讓使用者自行建立抓取網頁的瀏覽模型,幫助使用者抓取網頁,但是需要使用者先學習系統所定義的瀏覽模型,對使用者而言是較不自然的作法。 本篇論文所提出的網頁抓取系統,系統是以IE瀏覽器提供瀏覽網頁的環境,讓使用者以平時瀏覽網頁的方式,瀏覽過部分需要抓取的網頁,系統則記錄瀏覽過的網頁和瀏覽動作,透過瀏覽的歷程,建立使用者瀏覽網頁的模型,並以執行器抓取所需的網頁。此外,由於網頁中可能存有Client-side程式,執行器在抓取網頁時,也是以IE瀏覽器模擬使用者瀏覽網頁的過程來抓取網頁,讓抓取網頁時,同時執行網頁中的Client-side程式。
顯示於類別:
[資訊工程研究所] 博碩士論文
文件中的檔案:
檔案
大小
格式
瀏覽次數
在NCUIR中所有的資料項目都受到原著作權保護.
社群 sharing
::: Copyright National Central University. | 國立中央大學圖書館版權所有 |
收藏本站
|
設為首頁
| 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
DSpace Software
Copyright © 2002-2004
MIT
&
Hewlett-Packard
/
Enhanced by
NTU Library IR team
Copyright ©
-
隱私權政策聲明