MeCab

2018.08.16

MeCabは、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓氏によって開発されたオープンソースの形態素解析エンジン。京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発された。名称は開発者の好物「和布蕪(めかぶ)」から。
開発開始当初はChaSenを基にしており、「ChaSenTNG」という名称で開発されていたが、現在はChaSenとは独立してスクラッチによって開発されている。言語、辞書、コーパスに依存しない汎用的な設計を基本方針とし、パラメータの推定には Conditional Random Fields (CRF) を用いているため、ChaSenが採用している「隠れマルコフモデル」に比べ性能が向上している。(解析精度は同程度で、解析速度は平均3-4倍速い) また、平均的に ChaSen, Juman, KAKASIより高速に動作する。
品詞情報を利用した解析・推定を行うことができる。辞書は、ChaSenと同様にIPA品詞体系で構築されたIPADICが一般的に用いられている。 Googleが公開した大規模日本語n-gramデータの作成にも使用された実績がある。
【特徴】
■辞書、コーパスに依存しない汎用的な設計
■条件付き確率場(CRF)に基づく高い解析精度
■ChaSen や KAKASI に比べ高速
■辞書引きアルゴリズム/データ構造に高速な TRIE 構造である Double-Arrayを採用
■再入可能なライブラリ
■各種スクリプト言語バインディング(perl/ruby/python/java/C#)

詳しくはこちら

コメントを残す

メールアドレスが公開されることはありません。 *が付いている欄は必須項目です

関連記事

TOPICS

MORE