『形態素解析の理論と実装 (実践・自然言語処理シリーズ)』(工藤 拓・著、言語処理学会・編集、近代科学社・出版)

2019.06.10

汎用形態素解析システムMeCabを開発した工藤拓氏が、形態素解析の理論と実装を技術者向けて具体的・網羅的・体系的に解説する。言語において意味をなす最小の要素「形態素」の解析方法を解説した専門書である。
一般的な形態素解析の教科書や論文等ではまず扱われることがない「実装」や「高速化」などのテーマを扱っている点が非常にユニークであるが、形態素解析では外すことのできないテーマ(辞書やコーパスなどの言語資源の構築・利用など)もきちんと解説しているのが本書の特徴。
四半世紀の歴史を持つ形態素解析をはじめ、近年の計算機の高速化、AIブームなども手伝って、多く作られてきた有用な解析ツールを「ブラックボックス」として使っている人も、本書を読めば、その中身を理解したうえで拡張・改良できる道筋ができ、ひいては独自の辞書の作成を目指せるようになる。
C++11を使った具体的な実装方法も掲載しており、まさに実践書として使える一冊。AI・自然言語処理関係の技術者,研究者には必携の書。
形態素解析やMeCab、辞書、自然言語処理システム、コーパス、テキスト処理、文字コード、辞書引きアルゴリズム、最小コスト法、点予測、未知語処理、未知語、評価、解析に興味がある人が、形態素の理論や実装方法について網羅的、体系的に学ぶのに適した内容になっている。
【目次】
第1章 形態素解析の概要
第2章 言語資源
第3章 テキスト処理の基礎
第4章 辞書引きアルゴリズム
第5章 最小コスト法
第6章 点予測
第7章 未知語処理
第8章 評価
第9章 高度な解析
付録
A.1 条件付き確率場の勾配の導出方法
A.2 logsumexp
コラム
コラム:語 = 形態素
コラム:NKFC を文字列置換で実装できるか?
コラム:言語非依存システム
コラム:オンライン学習とバッチ学習
コラム:最大エントロピー法
コラム:一貫性の重要性

詳しくはこちら

コメントを残す

メールアドレスが公開されることはありません。 *が付いている欄は必須項目です

関連記事

TOPICS

MORE