English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 78852/78852 (100%)
造访人次 : 35315591      在线人数 : 420
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/57129


    题名: 文件之圖文分離及排版讀序之分析與發展;Page Segmentation and Reading Order Analysis and Development
    作者: 范國清;范子儀
    贡献者: 中央大學資訊工程學系
    关键词: 資訊科學--軟體;文件分析;圖文分離;讀序分析;Document analysis;Page segmentation;Order analysis
    日期: 1995-09-01
    上传时间: 2012-10-01 15:14:44 (UTC+8)
    出版者: 交通部
    摘要: 本研究計畫主要提出一個文件圖文分離及 文件排版讀序分析系統,計畫要點有二大部分: 一為文件之圖文分離,二為文件排版讀序分析. 一般文件基本上包含有文字、影像、圖形等各 種不同性質的區塊.文件經過掃描器輸入電腦 後,轉換成二位元、灰階、或彩色影像.文件分 析的第一個工作便是將文件內的文字、影像、 圖形等部分割成各個不同屬性的區塊.進而去 判斷每一個分離出來之區塊的屬性,判斷它究竟是屬於文字、影像或圖形.判斷後的結果,不 同屬性的區塊作不同的處理,以得到最佳化的 處理結果.文字區塊使用文字識別(OCR)作辨識處 理,將其由影像資料轉換為辨識結果的ASCII碼資 料.影像區塊則作壓縮處理,去除其重複多餘的 資料,以降低資料量.至於圖形部分則作向量化( Vectorization)處理,目的也是降低資料量,除此之 外;向量化結果還具有容易修改、儲存、展示 等優點.文字區塊在作文字識別辨識處理前,首 先必須作切字的動作,將整段文字切成行再將 行切分成字元.切字時不同性質的文字(比如中 文、英文、數字、符號)有不同的切割方法,因 此中文、英文、數字、符號的區分是在作切字 時之重要研究課題.以上部分乃文件圖文分離 之主要研究要點.至於文件之讀序分析,由於文 件在美工以及排版上的考量,其文字區塊之讀 序並不一定是電腦處理所採用的由左而右由上 而下之順序,因此文件經過文字識別辨識處理 後,其辨識結果常會發生文字段落錯縱複雜牛 頭不對馬嘴不知所云的現象.為了避免此現象, 經過文字識別辨識後的文件,其文字段落必須 要做讀序的分析,以產生正確的讀序.總合以上二大部分,乃本研究計畫所欲進行之要點. ; 研究期間 8307 ~ 8607
    關聯: 財團法人國家實驗研究院科技政策研究與資訊中心
    显示于类别:[資訊工程學系] 研究計畫

    文件中的档案:

    档案 描述 大小格式浏览次数
    index.html0KbHTML452检视/开启


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明