データセット詳細

言語資源

NICT BERT 日本語 Pre-trained モデル

公開元サイトALAGIN 言語資源・音声資源サイト

日本語Wikipediaを対象に情報通信研究機構データ駆動知能システム研究センターで事前学習を行ったBERTモデルとなります。
BERTモデル [1] の学習では、バッチサイズやステップ数を増やすことで性能が向上することが報告されています。そこで本ページのモデルでは、[2] のRoBERTa-500Kと同等の計算量となるよう、ステップ数を [1] と同様に100万に保ちつつ、バッチサイズを [1] の16倍の4,096にして学習を行いました。

本モデルは上記の公開元サイトよりダウンロードしてください。
モデルに関するより詳しい説明も提供しています。

論文情報

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proc. of NAACL:HLT, pp. 4171-4186, 2019.

[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv e-prints, arXiv:1907.11692, 2019.