中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/86422
English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 80990/80990 (100%)
造访人次 : 42728385      在线人数 : 1391
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/86422


    题名: Data Exploration on Climate Text Records through Natural Language Processing and Statistical Analysis–An attempt to experiment on temperature and locusts relative events during Ming and Qing Dynasty
    作者: 黃詩芸;Huang, Shi-Yun
    贡献者: 資訊工程學系
    关键词: 歷史氣候文獻;資料探索;文字探勘;多標籤分類;關鍵字擷取;BERT;Historical Climate Research;Data Exploration;Text Mining;Multi-label Classification;Keyword Extraction;BERT
    日期: 2021-04-06
    上传时间: 2021-12-07 12:49:05 (UTC+8)
    出版者: 國立中央大學
    摘要: 氣候變遷一直是國際關注的議題,其中歷史氣候研究也是探討氣 候問題過程中重要的一環。因為歷史氣候研究的定義可能依據不同的 資料來源和研究方法有所不同,本研究主要針對歷史文獻的分析方法 進行探討。本研究報告的主體是一個資料探索 (Data Exploration) 的過 程,分析對象為《中國三千年氣象記錄總集》中明、清時期氣候事件 相關的文字記錄,並嘗試在分析過程中導入文字探勘 (Text Mining) 技 術以及氣候模式模擬出的數據資料。 研究內容主要可拆分為兩大部分:第一部分為文字探勘,目標 從非結構化的文本資料中抽取出對後續分析有用的資訊。氣候類型 的分類標準和訓練資料均參考自 REACHES 的研究;分類模型則參考 BERT 所提出的深度學習架構,調整訓練下游分類任務 (Fine-tuning) 的 方法後,運用架構中的自注意力機制 (self-attention mechanism) 設計出 一套多標籤分類方法,同時能夠利用多標籤分類的結果萃取每個類別 各自所對應到的關鍵字。運用自動化蒐集而來的關鍵字列表,可再經 人工過適度的檢查和調整,再依據關鍵字之間的特性附加關鍵字屬性 生成關聯式資料表 (庫),後續即可根據不同研究目標彈性地運用「類 別標籤」、「關鍵字」以及「關鍵字屬性」抽取相關資料。第二部分則 是透過上述方法抽取資料後,運用敘述統計和視覺化方法呈現資料的 時空分佈及整體趨勢,初步選定氣溫異常及蝗蟲 (災) 相關的紀錄整理 出觀察結果,同時探討紀錄資料的特性與限制,以及進一步搭配氣候 模式模擬資料研究的可能性。;This study reports a data exploration process of experiments with historical records that record climate-relevant events. Data exploration techniques can help data analysts efficiently figure out the contour of data through visual exploration. Before exploration, our goal was to extract useful information from the unstructured text data, using the Compendium of Meteorological Records of China in the Last 3000 Years, during the Ming and Qing dynasties, as our text resource.
    The research consists of two main parts. The first part is text mining. We proposed a method to extract label-specific keywords by a multi-label classification model, which refers to BERT’s deep learning architecture. We can utilize each class’s keywords and attach some predefined attributes to keywords as our metadata information. In the second part, we conducted a spatial-temporal statistical analysis, combined with visualization methods, to observe the records’ overall pattern and characteristics about temperature anomalies and locusts events.
    显示于类别:[資訊工程研究所] 博碩士論文

    文件中的档案:

    档案 描述 大小格式浏览次数
    index.html0KbHTML82检视/开启


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明