発刊・体裁・価格
発刊 2020年3月18日 定価 44,000円(税込(消費税10%))
体裁 B5判 180ページ ISBN 978-4-86502-182-0 →詳細、申込方法はこちらを参照
→書籍を購入された方へ(アンケートのお願い)
→PDFパンフレットを見る
本書のポイント
★自然言語処理の基礎からトレンド技術まで一から把握!実務で役立つ前処理・精度向上手法のテクニックも多数ご紹介
★自然言語処理の基礎からトレンドまで概説
何故自然言語処理が難しいのか?その特徴、現状の課題、近年の研究動向から見る注目技術
(self-attention、sub-word、finetuningなど)
★目的別でわかる!各手法とアプリケーションを実現する上で必要不可欠な技術まとめ
【言葉の意味理解、特定の単語や話題抽出方法、文書のカテゴリ分類、文書要約、情報検索、雑談対話システム】
⇒データベースの使い方、解析手法、意味の近さの算出、手掛かりとなる情報、システム評価方法etc
★ハンズオンで学ぶ!文書分類モデルの作成方法
⇒単語バッグ、CNN、BERTを用いたニュース記事のカテゴリー分けモデル作成を例題に、データの準備や前処理・ファインチューニング設定等、豊富なソースコードと併せて順を追って解説していきます。
★処理精度向上に直結する「前処理」と実装の手法
●前処理の種類ごとに具体的な手法を解説
⇒テキストデータのクリーニング・単語/文書のベクトル化・データ内の単語処理
●自然言語処理の実務で役立つテクニック
⇒複合語や固有名詞の扱い方、辞書への登録、表記揺れへの対策など
●前処理に活用できるツールやライブラリも併せてご紹介!
★アプリケーション別の研究開発動向、応用例と活用に向けた提案
●機械翻訳⇒代表的モデルとシステム構築方法。データ不足や教師データに無い未知語への対応など
●質問応答⇒主要事例と研究動向まとめ。実装に役立つツールやサービスなど
●雑談対話⇒対話システムの要素技術と構築方法。対話破綻への試みなど
●固有表現認識⇒機械学習による認識手法、分野特有の固有表現認識など
●感情分析・自動判別⇒機械学習によるクチコミ判別システム。そのシステム開発や技術開発のヒントなど
●英語の文章誤り訂正⇒システム構築方法、用いるデータセットや性能改善に繋がる最新技術など
●SNS上のセンテンス感情分類器開発⇒期間やデータ等、制約があるなかでどのように開発したか?教師データの収集、ノイズの扱い、開発の必要条件など
執筆者一覧(敬称略)
●鈴木潤(東北大学)
●土屋誠司(同志社大学)
●本橋和貴(Konduit(株))
●高橋寛治(Sansan(株))
●田村晃裕(愛媛大学)
●山田育矢((株)Studio Ousia)
●荒木健治(北海道大学)
●森信介(京都大学)
●渡邉信一(宇都宮大学)
●原 紳(宇都宮大学)
●水本智也(フューチャー(株))
●清水武((株)CINC)
目次
第1章 導入~自然言語処理の基礎からトピックの話題
1.自然言語処理の基礎(文章の解析、文章の生成について)
2.自然言語処理の難しさ
3.自然言語処理技術の最先端
3.1 自己注意機構型NNと再帰型NNの比較
4.現状のデファクトスタンダード
4.1 今後の展開
第2章 所持データ&目的に応じた手法の選定
はじめに
1.意味理解
1.1 意味表現方法
1.1.1 意味ネットワーク
1.1.2 オントロジー
1.1.3 シソーラス
1.1.4 格フレーム
1.1.5 Word2Vec
1.1.6 概念ベース
1.2 言語資源
1.2.1 辞書
1.2.2 知識ベース
1.2.3 コーパス
1.3 解析手法
1.3.1 基本的な手法
1.3.2 優先意味論
1.3.3 比喩解析
2.単語や話題の抽出
2.1 抽出対象
2.1.1 固有表現と属性、表現間の関係
2.1.2 参照関係
2.1.3 シナリオ
2.2 抽出方法
2.2.1 出現頻度
2.2.2 共起情報
2.2.3 類似度
2.2.4 関連度
3.文書分類
3.1 クラスタリング
3.1.1 階層型クラスタリング
3.1.2 k平均法
3.1.3 k近傍法
3.1.4 SVM
3.2 近さの判断
3.2.1 単語における手法の利用
3.2.2 Sentence2Vec,Paragraph2Vec,Doc2Vec
3.2.3 文間関連度
4.文書要約
4.1 要約手法
4.1.1 抜粋
4.1.2 アブストラクト
4.1.3 表
4.2 手掛かり情報
4.2.1 文章の構造
4.2.2 文脈解析
5.情報検索
5.1 必要要素
5.1.1 要求解析
5.1.2 索引付け
5.1.3 不要語リスト
5.1.4 重み付け
5.2 検索モデル
5.2.1 全文検索モデル
5.2.2 内容型検索モデル
5.3 評価手法
5.3.1 テストコレクション
5.3.2 有効性の指標
5.3.3 評価尺度
6.雑談対話
6.1 話題の展開
6.1.1 質問応答
6.1.2 挨拶応答
6.1.3 7W1H応答
6.1.4 連想応答
6.1.5 話題転換
6.2 処理方法
6.2.1 テンプレートマッチング
6.2.2 質問タイプの解析
6.2.3 意図解析
6.2.4 感情判断
6.3 必要な機能
6.3.1 誤り、省略の認識
6.3.2 個人適応
6.3.3 常識
第3章 ハンズオンで学ぶ文書分類モデルの作成とツールの利用方法
1.機械学習モデル開発のワークフローと本章で扱う内容
2.文書分類ハンズオン
2.1 本章で扱う主な自然言語処理ツールの解説
2.1.1 spaCy
2.1.2 Transformers
2.2 データセットの準備
2.2.1 livedoorニュースコーパス
2.3 文書分類モデル
2.3.1 単語バッグ(bag-of-words)
(1)データセットの読み込み
(2)文書分類モデルの訓練
2.3.2 畳み込みニューラルネットワーク
2.3.3 BERT
(1)データの前処理
(2)データセットの読み込み
(3)トークンの数値化
(4)Iteratorの設定
(5)BERTのファインチューニングのための設定
3.評価と比較
まとめ
第4章 前処理の種類及び実装手法~処理精度向上に繋げるための登竜門
はじめに
1.前処理の概観
2.テキストデータのクリーニング手法
2.1 文字コード
2.2 不可視文字や見た目が同じ文字に対するUnicode正規化
2.3 正規表現による前処理
3.単語の処理手法
3.1 形態素解析
3.2 複合語や固有名詞を単語とする方法
3.2.1 MeCab形態素解析辞書への登録
3.2.2 規則による結合
3.2.3 頻度などに基づく抽出
3.3 表記ゆれ対策
4.単語のベクトル変換手法
4.1 Bag-of-Words
4.2 分散表現
4.3 系列ラベリングとして取り扱うための変換
5.前処理に活用できるライブラリやツール
5.1 形態素解析
5.1.1 MeCab
5.1.2 Sudachi
5.1.3 JUMAN
5.1.4 JUMAN++
5.2 文構造解析器
5.2.1 KNP
5.2.2 CaboCha
5.2.3 Ginza
5.3 Pythonモジュール
5.3.1 scikit-learn
5.3.2 gensim
5.3.3 spaCy
5.3.4 regex
5.4 言語資源
5.4.1 Wikipedia
5.4.2 日本語評価極性辞書
5.4.3 日本語WordNet
おわりに
第5章 アプリケーション別の応用例と活用への提案
第1節 ディープラーニング技術を用いたニューラル機械翻訳
1.ニューラル機械翻訳の概要
2.代表的なニューラル機械翻訳モデル
2.1 Transformer NMTモデル
2.2 学習モデル
3.ニューラル機械翻訳の研究開発動向
3.1 対訳データ不足に対する対応
3.2 未知語への対応
4.ニューラル機械翻訳システムの構築
5.今後の展望
第2節 質問応答技術の開発動向と応用事例
はじめに
1.質問応答の主要な事例
2.質問応答の研究動向
2.1 ファクトイド質問応答タスク
2.2 抽出型質問応答タスク
2.3 回答選択型質問応答タスク
2.4 その他の質問応答タスク
3.質問応答の実装に使えるツールやサービス
3.1 BERT
3.2 クラウドサービス
おわりに
第3節 自然言語処理技術を用いた雑談対話技術
はじめに
1.雑談システムの歴史と現状
2.雑談システムの構築方法
2.1 ルールベースに基づく手法
2.2 遺伝的アルゴリズムを用いた帰納的学習による手法
2.3 機械学習による手法
3.雑談システムの問題点
4.話し上手な雑談システム構築への取り組み
おわりに
第4節 機械学習に基づく固有表現認識
1.固有表現認識
1.1 機械学習に基づく固有表現認識
1.1.1 学習コーパスの構築
1.1.2 分類問題としての定式化
1.1.3 分類器のパラメータを推定
1.1.4 精度向上のための工夫
2.分野特有の固有表現認識器の構築
3.関連する自然言語処理
第5節 感情分析を用いたクチコミ判別支援システムの開発
1.システムの概要
2.企業ニーズ
3.システム開発
4.今後の展望と波及効果
4.1 今後の展望
4.2 技術開発のためのヒント
4.2.1 重複投稿、コピー投稿、勘違い投稿
4.2.2 広告・スパム
4.2.3 誹謗中傷投稿
4.3 波及効果
第6節 第二言語学習者のための文法誤り訂正~訂正技術・学習用データと性能評価方法
はじめに
1.文法誤り訂正の動向
2.文法誤り訂正技術
2.1 訂正手法
2.2 データセット
2.2.1 多言語の学習者用コーパス
2.2.2 英語の学習者コーパス
2.3 評価方法
3.文法誤り訂正システムの構築
4.文法誤り訂正性能の改善のための最新技術
おわりに
第7節 日本語センテンスを対象とした感情分類器の開発
1.モデル開発にむけての考え方
2.感情シグナルの定義
3.モデル構築と基本的なレイヤー
4.日本語の符号化(入力層)
4.1 文字ユニグラム
5.分類器による処理の具体的なフロー
6.教師データの収集
7.結果
8.アンサンブル
9.今後の課題