中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/88309
English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 42724271      線上人數 : 1274
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/88309


    題名: 語碼轉換文本資料增強於中英混合語音辨識;Code-Switching Data Augmentation For Chinese-English Speech Recognition
    作者: 王騰輝;Tenghui, Wang
    貢獻者: 資訊工程學系
    關鍵詞: 語碼轉換;語音辨識;基於變換器的雙向編碼器表示技術;自然語言處理;Code-Switching;Speech Recognition;BERT;NLP
    日期: 2022-01-25
    上傳時間: 2022-07-13 22:46:11 (UTC+8)
    出版者: 國立中央大學
    摘要: 語碼轉換是一種常見的語言表達模式,即對話中出現兩種以上的語言交錯使用。中文和英語作為世界上的主流語言,中英混合的語言表達方式更是日常的對話交流中不可或缺的,然而不同的族群、環境、說話習慣都會影響語碼轉換的組成特性。
    目前語音辨識研究中對此類語碼轉換文本的訓練語料依舊稀缺,因此本論文將利用類神經網路訓練出一個生成器生成語碼轉換文本,並作為kaldi toolkit語言模型的資料增強語料以達到改善中英混合辨識率的目的。
    本論文使用的方法是基於SEAME語料庫中的中英文本,訓練 BERT-BiLSTM-CRF模型以得知語碼轉換位置,再將純中文文本應該被進行語碼轉化的位置翻譯成英文,藉此產生符合此語料庫特性的句子。
    ;Code-switching is a common mode of language expression, that is, the interleaved use of more than two languages in a conversation. Chinese and English are the mainstream languages in the world, and Chinese-English mixed language expressions are indispensable in daily dialogue and communication. However, different ethnic groups, environments, and speaking habits will affect the composition of code-switching characteristics.
    At present, the training corpus of such code-switched texts in speech recognition research is still scarce. Therefore, this paper will use a neural network to train a generator to generate code-switched texts, and use them as the training data of the kaldi toolkit language model .To achieve the purpose of better accuracy of Chinese-English.speech recognition.
    The method used in this paper is based on the Chinese-English Code-switching corpus in the SEAME dataset. We training the BERT-BiLSTM-CRF model to know the Code-switching position, and then translate the Chinese words into English words, thereby generating Sentences that match the characteristics of this corpus.
    顯示於類別:[資訊工程研究所] 博碩士論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML70檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明