検索結果
ジャンル
|
データセット名
|
説明 |
---|---|---|
言語資源 | 異表記対データベース |
文字レベルの編集距離の近い、日本語の語句の異表記対(あるいは「表記揺れの対」)の正例と負例を集めたものです。 本データセットはALAGINよりダウンロードしてください。 なおALAGINからのダウンロ…
|
言語資源 | 文脈類似語データベース |
約100万の見出し語それぞれに対して、Web文書上での出現文脈が最も類似している名詞最大500個を類似度とともに列挙したものです。 本データセットはALAGINよりダウンロードしてください。 なおAL…
|
言語資源 | 負担・トラブル表現リスト |
「災害」「心理的ストレス」「アスベスト汚染」など社会活動に負荷を与えたり、マイナス効果をもたらす問題や障害に関係する表現、20,115件を収録したものです。 本データセットはALAGINよりダウンロー…
|
言語資源 | 単語共起頻度データベース |
各単語に対して、それとの意味的関連を表す共起スコアの高い単語を、スコアの高い順に、スコアとともに列挙したものです。 本データセットはALAGINよりダウンロードしてください。 なおALAGINからのダ…
|
言語資源 | 京都観光ブログの評価情報付与データ |
「京都観光ブログ」と京都観光ブログの「評価情報付与データ」から構成され、前者は京都観光を中心とした執筆者47名・合計1041記事(平均約480字)から構成される日本語ブログ記事のデータベースです。後者…
|
言語資源 | 音声翻訳実証実験固有名詞対訳辞書 |
平成21年度「地域の観光に貢献する自動音声翻訳技術の実証実験」で採択された5つのプロジェクトにおいて収集した日・英・中・韓国語の固有名詞辞書をNICTで整備した辞書です。 本データセットはALAGIN…
|
言語資源 | 意見(評価表現)抽出ツール用モデル |
オープンソースソフトウェアとして配布されている「意見(評価表現)抽出ツール」のための意見解析用モデルファイルと評価表現辞書から構成されたモデルです。 本データセットはALAGINよりダウンロードしてく…
|
言語資源 | 動詞含意関係データベース |
含意関係が成立している動詞のペア(52,689ペア)と含意関係が成立していない動詞のペア(68,819ペア)の計121,508ペアを列挙したものです。 本データセットはALAGINよりダウンロードして…
|
言語資源 | 日英翻訳エンジン学習・評価用対訳コーパス |
IWSLT(International Workshop on Spoken Language Translation)の2005年評価キャンペーンの日英翻訳で使用された基本旅行会話データセットに基づ…
|
言語資源 | 基本的意味関係の事例ベース |
約1億ページのWeb文書上において文脈の類似度が高い2語間の意味的関係を人手で分類し、ラベル付けした102,436語対を収録したものです。 本データセットはALAGINよりダウンロードしてください。 …
|
言語資源 | 日本語係り受けデータベース |
大量の日本語文書を係り受け解析した結果から係り受け関係を抽出し、その頻度を収録したものです。 本データセットはALAGINよりダウンロードしてください。 なおALAGINからのダウンロードに際しては、…
|
言語資源 | アジア言語ツリーバンク(クメール語品詞データ) |
英語のウィキニュースから無作為に抽出した20,000文をクメール語に翻訳したものについて、単語分割・品詞付与を適用したツリーバンクです。 本ツリーバンクは、Asian Language Treeban…
|
言語資源 | NICT BERT 日本語 Pre-trained モデル |
日本語Wikipediaを対象に情報通信研究機構 データ駆動知能システム研究センターで事前学習を行ったBERTモデルとなります。 BERTモデル [1] の学習では、バッチサイズやステップ数を増やすこ…
|
言語資源 | CNP用中国語解析モデル |
オープンソースソフトウェアとして配布している係り受け解析器(A Chinese Dependency Parser,略称CNP)のための中国語解析用モデルパラメータです。 本データセットはALAGIN…
|
言語資源 | 上位語階層データ |
上位下位関係抽出ツールによって日本語Wikipedia(2007/03/28版)から自動獲得した上位下位関係の上位語を人手で階層化したもので、合計約69,000名詞句から成る階層的シソーラスです。 本…
|
言語資源 | JPO・NICT韓日対訳コーパス |
韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及びNICTが共同で作成したデータです。 本データセットはALAGINよりダウンロードしてください。 なお…
|
言語資源 | 日本語パターン言い換えデータベース |
文の係り受け解析の結果を利用して、「AはBが豊富です」のような、一文中で任意の名詞AとBを結ぶパターンに対して、言い換えが可能な別のパターンを収集したものです。 本データセットはALAGINよりダウン…
|
言語資源 | 日中特許用語辞書 |
日中特許用語辞書を、日中特許対訳コーパスを元に、各種自然言語処理ツールを用いて自動構築し、最後に人手による修正作業を行って整備したものです。 本データセットはALAGINよりダウンロードしてください。…
|
言語資源 | JPO・NICT英日対訳コーパス |
英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及びNICTが共同で作成したデータです。 本データセットはALAGINよりダウンロードしてください。 なおA…
|
言語資源 | アジア言語ツリーバンク(ミャンマー語) |
英語のウィキニュースから無作為に抽出した20,000文をミャンマー語に翻訳したものについて、単語分割・構文解析を適用したツリーバンクです。 本ツリーバンクは、Asian Language Treeba…
|