言語資源
NICT BERT 日本語 Pre-trained モデル
- 公開元サイトALAGIN 言語資源・音声資源サイト
日本語Wikipediaを対象に情報通信研究機構 データ駆動知能システム研究センターで事前学習を行ったBERTモデルとなります。
BERTモデル [1] の学習では、バッチサイズやステップ数を増やすことで性能が向上することが報告されています。そこで本ページのモデルでは、[2] のRoBERTa-500Kと同等の計算量となるよう、ステップ数を [1] と同様に100万に保ちつつ、バッチサイズを [1] の16倍の4,096にして学習を行いました。
本モデルは上記の公開元サイトよりダウンロードしてください。
モデルに関するより詳しい説明も提供しています。
BERTモデル [1] の学習では、バッチサイズやステップ数を増やすことで性能が向上することが報告されています。そこで本ページのモデルでは、[2] のRoBERTa-500Kと同等の計算量となるよう、ステップ数を [1] と同様に100万に保ちつつ、バッチサイズを [1] の16倍の4,096にして学習を行いました。
本モデルは上記の公開元サイトよりダウンロードしてください。
モデルに関するより詳しい説明も提供しています。