JUMAN

2018.08.16

JUMANは日本語の形態素解析システム。京都大学黒橋・河原研究室で計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発された。
人手で整備した辞書に基づいており、ChaSenの元となった形態素解析システム。学校文法が計算機向きではないという問題を考慮して、使用者によって文法の定義や単語間の接続関係の定義などを容易に変更できるように配慮した。
JUMANの情報源には対象言語の文法のルール知識や辞書が使われており、自然言語で書かれた文を形態素の列に分割して、それぞれの品詞を判別する作業を行う。※形態素解析(Morphological Analysis)とは、コンピュータを用いた自然言語処理の基礎技術で、かな漢字変換等にも応用されている。
JUMANは文章から分割された単語が属する品詞を辞書で調べていって、その結果得られた品詞の並びから文法的に正しい並びであるものが正しいとするという方法。多くの自然言語には品詞の接続に制限があって、日本語では動詞のあとに格助詞を置くことはできないなどの問題があるため、この性質を利用して単語の判別を行っている。具体的にこの性質を利用する方法には規則による方法と確率的言語モデルを用いる方法がある。
JUMAN++は最近黒橋・河原研究室から発表された「JUMANの後継」となる形態素解析器で、言語モデルとして Recurrent Neural Network Language Model(RNNLM) を用いることによって、単語の並びの意味的な自然さを考慮した解析を行う。また、ニューラルネットワークを利用した形態素解析器となっている点がこれまでの形態素解析器とは異なる。
詳しくはこちら

コメントを残す

メールアドレスが公開されることはありません。 *が付いている欄は必須項目です

関連記事

TOPICS

MORE