実環境における頑健な音声認識のための音韻モデルの教師なし話者適応

山出 慎吾; 馬場 朗; 芳澤 伸一; 李 晃伸; 猿渡 洋; 鹿野 清宏

タイトル	ja 実環境における頑健な音声認識のための音韻モデルの教師なし話者適応
その他のタイトル	en Unsupervised Speaker Adaptation for Robust Speech Recognition in Real Environments
作成者	ja 山出, 慎吾 ja 馬場, 朗 ja 芳澤, 伸一 ja 李, 晃伸 ja 猿渡, 洋 ja 鹿野, 清宏
アクセス権	open access
権利情報	ja Copyright (C) 2004 電子情報通信学会.
主題	Other ja 耐雑音音声認識 Other ja 話者適応 Other ja 十分統計量 Other ja 教師なし適応 Other en Spectral Subtraction
内容注記	Abstract ja 実環境のための高精度な音声認識システムを実現するためには,様々な話者や雑音環境に応じて,高精度にかつ素早く音韻モデルを適応できることが要求される.本研究ではHMM十分統計量を用いた教師なし環境・話者適応法を拡張した,Spectral Subtractionと既知雑音の付加に基づく教師なし話者適応法を提案する.従来手法は対象とする背景雑音の種別ごとにマッチドモデルを学習することを前提としており,入力ごとのSNRの変動や背景雑音の変化を考慮していなかった.これに対して本手法では,推定された雑音スペクトルを用いて入力の雑音を抑制し,更に消し残った雑音に対して既知の定常雑音を加えることで,背景雑音ごとの差異を平たん化し,単一の音韻モデルで認識を行う.また話者性については,任意の一発声文からデータベースの特徴の近い話者を選択し,その十分統計量からモデルの再学習を行う.これらを統合することにより,教師なしで高速かつ高精度に話者に適応する.認識実験の結果,提案手法は20dB SNRの様々な雑音環境下において,各環境の不特定話者環境Matchedモデルに比べて2%高い,平均85.1%の認識性能を達成した.また,代表的な教師あり適応法であるMLLRとの比較も行った.
出版者	ja 電子情報通信学会
日付	Issued2004-04
言語	jpn
資源タイプ	journal article
出版タイプ	VoR
資源識別子	HDL http://hdl.handle.net/10061/7796 , URI https://naist.repo.nii.ac.jp/records/3804
関連	isIdenticalTo URI http://ci.nii.ac.jp/naid/110003171082
収録誌情報	ISSN 0915-1923 NCID AN1007132X ja 電子情報通信学会論文誌D-II 巻J87-D-II 号4 開始ページ933 終了ページ941
ファイル	fulltext fulltext 6.4 MB (application/pdf) Available2023-03-02
コンテンツ更新日時	2025-11-13