CaboCha(南瓜)

2018.08.16

CaboCha(南瓜)は、Support Vector Machines(SVM:教師ありの機械学習を用いたパターン認識モデル)、CRF++ (条件付き確率場)に基づく高性能な日本語係り受け解析器であり、文の構造を解析して文節間の「修飾する(係る)」「修飾される(受ける)」の修飾関係を教えてくれるツール。
SVMの分類アルゴリズムの高速化手法である PKEを適用しており、IREX の定義による固有表現解析が可能。自然言語の文の意味をシステムにより理解させることができる。
また、柔軟な入力形式を持ち、生文はもちろんのこと、形態素解析済みデータ、文節区切り済みデータ、部分的に係り関係が付与されたデータからの解析が可能であるほか、係り受けの同定に使用する素性をユーザ側で再定義することができる。データを用意すれば, ユーザ側で学習を行うことも可能。
【特徴】
■マージン最大化
・・・データをカテゴリ分けする直線(分離超平面)と各データとの距離が最大になる所で線を引くことができる
■高次元化による線形分離
・・・データが直線で分けられない場合も、基準(X軸・Y軸)を変えれば線を引くことが可能。
詳しくはこちら

コメントを残す

メールアドレスが公開されることはありません。 *が付いている欄は必須項目です

関連記事

TOPICS

MORE