データセット詳細

言語資源

実証実験コーパスを用いた言語モデルおよび辞書

公開元サイトALAGIN 言語資源・音声資源サイト

大規模音声翻訳実証実験において収集された日英中韓4か国語の実利用音声データを書き起こした約17万発話を形態素解析処理したものから作成したNグラム頻度(4グラム)データおよび、音声認識に用いるための発音辞書です。

本データセットはALAGINよりダウンロードしてください。
なおALAGINからのダウンロードに際しては、ALAGINへの会員登録が必要です。