検索結果
ジャンル
|
データセット名
|
説明 |
---|---|---|
言語資源 | アジア言語ツリーバンク(クメール語品詞データ) |
英語のウィキニュースから無作為に抽出した20,000文をクメール語に翻訳したものについて、単語分割・
|
言語資源 | アジア言語ツリーバンク(ミャンマー語) |
英語のウィキニュースから無作為に抽出した20,000文をミャンマー語に翻訳したものについて、単語分割
|
言語資源 | JPO・NICT英日対訳コーパス |
英語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及びNI
|
言語資源 | JPO・NICT韓日対訳コーパス |
韓国語と日本語の対応する公開特許公報の対(パテントファミリー)をもとに、日本国特許庁(JPO)及びN
|
言語資源 | 意見(評価表現)抽出ツール用モデル |
オープンソースソフトウェアとして配布されている「意見(評価表現)抽出ツール」のための意見解析用モデル
|
言語資源 | 基本的意味関係の事例ベース |
約1億ページのWeb文書上において文脈の類似度が高い2語間の意味的関係を人手で分類し、ラベル付けした
|
言語資源 | 実証実験コーパスを用いた言語モデルおよび辞書 |
大規模音声翻訳実証実験において収集された日英中韓4か国語の実利用音声データを書き起こした約17万発話
|
言語資源 | 日英翻訳エンジン学習・評価用対訳コーパス |
IWSLT(International Workshop on Spoken Language Tr
|
言語資源 | 音声翻訳実証実験固有名詞対訳辞書 |
平成21年度「地域の観光に貢献する自動音声翻訳技術の実証実験」で採択された5つのプロジェクトにおいて
|
言語資源 | 異表記対データベース |
文字レベルの編集距離の近い、日本語の語句の異表記対(あるいは「表記揺れの対」)の正例と負例を集めたも
|
言語資源 | 動詞含意関係データベース |
含意関係が成立している動詞のペア(52,689ペア)と含意関係が成立していない動詞のペア(68,81
|
言語資源 | 上位語階層データ |
上位下位関係抽出ツールによって日本語Wikipedia(2007/03/28版)から自動獲得した上位
|
言語資源 | 日中特許用語辞書 |
日中特許用語辞書を、日中特許対訳コーパスを元に、各種自然言語処理ツールを用いて自動構築し、最後に人手
|
言語資源 | 負担・トラブル表現リスト |
「災害」「心理的ストレス」「アスベスト汚染」など社会活動に負荷を与えたり、マイナス効果をもたらす問題
|
言語資源 | 京都観光ブログの評価情報付与データ |
「京都観光ブログ」と京都観光ブログの「評価情報付与データ」から構成され、前者は京都観光を中心とした執
|
言語資源 | 単語共起頻度データベース |
各単語に対して、それとの意味的関連を表す共起スコアの高い単語を、スコアの高い順に、スコアとともに列挙
|
言語資源 | 日本語パターン言い換えデータベース |
文の係り受け解析の結果を利用して、「AはBが豊富です」のような、一文中で任意の名詞AとBを結ぶパター
|
言語資源 | CNP用中国語解析モデル |
オープンソースソフトウェアとして配布している係り受け解析器(A Chinese Dependency
|
言語資源 | 日本語係り受けデータベース |
大量の日本語文書を係り受け解析した結果から係り受け関係を抽出し、その頻度を収録したものです。 本デー
|
言語資源 | 文脈類似語データベース |
約100万の見出し語それぞれに対して、Web文書上での出現文脈が最も類似している名詞最大500個を類
|