日语自然语言处理导论
关于本书
面向处理日语文本的程序员编写的全面指南,涵盖从分词基础到自然语言文本生成等最新研究主题。通过实际示例和详细参考,即使没有日语或机器学习背景也能解决问题。
日语语言学基础
处理计算机日语文本所需的所有背景知识——字符、词汇、语法,以及编码和表情符号。
开源工具
使用开源工具分析日语文本,包括:使用MeCab进行词语分词,使用spaCy进行词性标注和解析。
词典与数据集
全面概述常用于日语处理的词典、语料库和其他数据集。
词嵌入
使用词和句子嵌入来表示、可视化和检索日语文本。
语言生成与转换
使用神经网络生成日语文本,并在假名和汉字之间进行转换。
自然语言理解
通过情感分析和命名实体识别,使用迁移学习来理解日语文本。
目标读者
本书适合所有对处理日语文本感兴趣的人,包括软件开发人员、人工智能研究人员和工程师以及语言专家。
无需数学基础
理解本书不需要数学知识。重点介绍如何使用工具完成任务,而非解释实现背后的理论。
无需日语基础
虽然很有帮助,但阅读本书不需要懂日语,示例文本将提供详细注释。
基础Python要求
本书唯一前提是掌握基本Python技能。通过大量代码示例展示如何解决问题。
目录
第1章:日语语言学基础
1.1 日语概述 1.2 正字法:有哪些类型的字母? 1.3 形态学:有哪些类型的词汇? 1.4 句法:句子如何构建? 1.5 技术说明:文本如何表示?
第2章:形态分析和开源工具
2.1 分词器和形态分析器:概述与基本使用 2.2 高级分词 2.3 依存解析器
第3章:数据集
3.1 概述 3.2 词典 3.3 通用语料库 3.4 专用语料库
第4章:词和句子嵌入
4.1 词嵌入 4.2 句子嵌入 4.3 多语言嵌入
第5章:使用Transformer进行自然语言生成和转换
5.1 Transformer简介 5.2 文本生成 5.3 假名-汉字转换/音译
第6章:通过迁移学习实现自然语言理解
6.1 迁移学习简介 6.2 情感/文档分类 6.3 命名实体识别
关于作者
作者1是独立自然语言处理/机器学习研究员和工程师。致力于教育项目和亚洲语言处理项目,与世界级初创公司和研究机构合作。2009年获某大学信息科学博士学位,曾在多家知名机构工作。著有多本畅销自然语言处理书籍。
作者2是顾问和spaCy开发团队成员。自2011年起常驻东京,维护Python中最流行的日语分词器。除自然语言处理工作外,还协助组织月度游戏开发者聚会。