一覧に戻る

タイトル
  • ja 『日本語日常会話コーパス』に対する短単位情報付与:作業工程と評価
その他のタイトル
  • en Short Unit Word Annotation for the Corpus of Everyday Japanese Conversation : Procedures and Evaluation
作成者
    • ja 西川, 賢哉
    • ja 渡邊, 友香
    • en Ken'ya, Nishikawa
    • en Yuka, Watanabe
主題
  • Other 日本語日常会話コーパス(CEJC)
  • Other Corpus of Everyday Japanese Conversation (CEJC)
内容注記
  • Other National Institute for Japanese Language and Linguistics
  • Other National Institute for Japanese Language and Linguistics
  • Other 会議名: 言語資源活用ワークショップ2020, 開催地: オンライン, 会期: 2020年9月8日−9日, 主催: 国立国語研究所 コーパス開発センター
  • Other 『日本語日常会話コーパス』(CEJC)の短単位情報付与作業では、以下のような作業工程を踏んでいる:(i) 転記をMeCab(解析器)+ UniDic(解析辞書)で自動解析、(ii) 音声を聴取しながら、付加情報の一つである「発音形」のみを人手修正、(iii) 人手修正された発音形を尊重しつつ再び自動解析、(iv) 短単位情報(境界情報、発音形以外の付加情報)を人手修正。この作業工程の妥当性を検証するため、人手修正済みデータを対象に、複数の版の現代話し言葉UniDic(Ver2.2.0, 2.3.0, 3.0.1)で自動解析をしなおし、出力を比較した。その結果、どの版のUniDicを使っても、人手修正された発音形の情報を用いる方が、そうでない場合に比べ、短単位情報の精度向上を見込めることがわかった。特に、古い版のUniDic (Ver2.2.0)ではそれが顕著であった(境界+品詞+語彙素(F値):0.944→0.962)。一方で、最新版のUniDic (Ver3.0.1)では効果は限定的である(同:0.976→0.979)。
  • Other source:https://pj.ninjal.ac.jp/corpus_center/lrw2020.html
  • Other identifier:国立国語研究所
  • Other identifier:国立国語研究所
出版者 国立国語研究所
日付
    Created2021-03-02 , Issued2020
言語
  • jpn
資源タイプ conference paper
出版タイプ VoR
資源識別子 URI http://id.nii.ac.jp/1328/00003172/ , DOI https://doi.org/10.15084/00003172
ID
  • JaLC 10.15084/00003172
収録誌情報
  • 言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
  • 5 開始ページ324 終了ページ330
ファイル
コンテンツ更新日時 2023-06-26