中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/88514
English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 78852/78852 (100%)
造访人次 : 35332384      在线人数 : 1324
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/88514


    题名: 基於時序卷積網路與注意力增強之目標語者語音萃取系統;Target Speaker Extraction System based on Temporal Convolutional Network with Attention Enhancement
    作者: 賴彥廷;Lai, Yen-Ting
    贡献者: 通訊工程學系
    关键词: 深度學習;目標語者語音萃取;時序卷積網路;deep learning;target speaker extraction;Temporal Convolutional Network
    日期: 2022-01-19
    上传时间: 2022-07-14 13:51:47 (UTC+8)
    出版者: 國立中央大學
    摘要: 談話的交流是一項人類的重要溝通與社交方式,因此當我們利用錄音設備記錄這些聲音時,不免會常常遇到多人在交談的情境或是背景音中有其他人的聲音。對於人類聽覺系統來說,我們尚能從中辨別出我們想聽取的聲音,並不會因他人干擾而受到阻礙;但對於自動語音辨識系統來說,有多人談話與干擾的情境便會使辨識率大幅下降。因此需要搭配一些前處理,像是語音分離或是目標語音萃取的方式來將單人的聲音劃分出來,以便後續進行辨識。且受益於深度學習的發展,劃分聲音的品質有顯著的提升。
    本篇論文的目的為目標語者的語音萃取。要完成此目的,需一主要萃取聲音的系統與輔助提供主系統目標訊息的子系統。我們提出的方法為以時序卷積網路 (Temporal Convolutional Network, TCN) 為主體之模型用以萃取聲音。時序卷積網路使卷積神經網路 (Convolutional Neural Network, CNN) 也能具有時序序列建模的能力以及其架構能調整成任何長度,具備高自由度。搭配具有注意力增強功能的子系統,提供充足有效的目標訊息,能使模型更有效地估測遮罩,從而提升語音品質,以實現有效的目標語者之語音萃取。;Talking with other people is a kind of important human communication and social method. When we record the sounds of conversation, we may face multi-talker situation. For human hearing system, we human have ability to distinguish out the sound we want to focus on, but for Automatic Speech Recognition (ASR) system, the interference may reduce the accuracy seriously. It is necessary to apply preprocessing mechanism (e.g., speech separation, target speaker extraction) before ASR system, in order to separate each talker’s speech. In recent, the quality of separated speech quality is benefit from the development of deep learning.
    In this paper, our goal is target speaker extraction. We need a main system for speech extraction and an auxiliary subsystem for providing target information. We adopt a Temporal Convolutional Network (TCN) architecture as speech extraction model. TCN make Convolutional Neural Network (CNN) can deal with time series modeling, and can be constructed in different model length. We import attention enhancement to auxiliary subsystem. This let subsystem provide rich and efficient target information to speech extraction model and make the model estimate mask better. With the better mask, the quality of the target speaker extraction can be improve.
    显示于类别:[通訊工程研究所] 博碩士論文

    文件中的档案:

    档案 描述 大小格式浏览次数
    index.html0KbHTML78检视/开启


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明