ChaSen(茶筌)

2018.08.16

ChaSen(茶筌)は、広く自然言語処理研究に資するため無償のソフトウェアとして開発された形態素解析ツールのひとつで、奈良先端科学技術大学院大学松本研究室で開発された。著作権は、奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する。
開発元が所在する奈良県生駒市高山町では茶筌が特産品であり、本ツールの名称はこの茶筌に由来する。
日本語は欧米の言語と違って単語と単語の間に空白がないため単語の切り出しが容易ではないが、日本語文を単語に分割することができれば情報検索システムにおける索引語の抽出などに応用が可能であり、日本語文を単語に分割するためには形態素解析 (morphological analysis) が必要となる。『形態素』とは、文を構成する「意味を持つ文字列」の最小単位のこと。形態素解析の結果として形態素の配列を返すことが期待される。形態素解析システムを用いると日本語文が単語辞書と文法規則によって正しく単語に分割されるほか、各単語の品詞情報が得られたり、用言 (動詞、形容詞など) の活用形を基本形(原形、終止形)に戻してくれる。
ChaSenのベースとなった形態素解析ツールは JUMAN であるが、統計的な手法を用いており、解析速度と使い勝手の向上を目指している。現在はIPA品詞体系を使用しており、JUMAN とはその方向性が異なっている。一時期最も使われていた日本語形態素解析システムである。

詳しくはこちら

コメントを残す

メールアドレスが公開されることはありません。 *が付いている欄は必須項目です

関連記事

TOPICS

MORE