KHコーダー

2018.08.16

テキスト型データの計量的な内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェア。
Perlによって作製されており、バックエンドとしてChaSen・MeCab・MySQL・R言語・Stanford POS Tagger・Snowball Stemmer・TermExtractなどを利用。
対応分析(数量化III類)・クラスター分析・多次元尺度構成法(MDS)・自己組織化マップ・共起ネットワーク・機械学習(ナイーブベイズ)などの多変量解析に対応している。
各種の検索を行える以外にも、言葉の出現頻度を頻度表から見ることなどができるほか、多変量解析によって「一緒に出現することが多い言葉のグループ」や「同じ言葉を含む文書のグループ」を見ることで、データ中に含まれるコンセプトを探索することができる。
一部の文書群に注目した場合には、該当する文書群に特に多く出現する言葉をリストアップすることによって文書群の特徴を探索することもできる。(分析者が指定した基準によって、文書の分類を自動的に行うことも可能)
すべての機能はマウス操作で利用することができるが、より高度な検索・分析のために直接MySQLにアクセスして独自の検索を行ったり、R言語に修正を加えることで統計分析をカスタマイズすることが可能。また短いPerlスクリプトを書くことでプラグインを作成し、独自の機能を付け加えることもできる。

詳しくはこちら

コメントを残す

メールアドレスが公開されることはありません。 *が付いている欄は必須項目です

関連記事

TOPICS

MORE