日语自然语言处理导论

关于本书

面向处理日语文本的程序员编写的全面指南，涵盖从分词基础到自然语言文本生成等最新研究主题。通过实际示例和详细参考，即使没有日语或机器学习背景也能解决问题。

处理计算机日语文本所需的所有背景知识——字符、词汇、语法，以及编码和表情符号。

使用开源工具分析日语文本，包括：使用MeCab进行词语分词，使用spaCy进行词性标注和解析。

全面概述常用于日语处理的词典、语料库和其他数据集。

使用词和句子嵌入来表示、可视化和检索日语文本。

使用神经网络生成日语文本，并在假名和汉字之间进行转换。

通过情感分析和命名实体识别，使用迁移学习来理解日语文本。

本书适合所有对处理日语文本感兴趣的人，包括软件开发人员、人工智能研究人员和工程师以及语言专家。

理解本书不需要数学知识。重点介绍如何使用工具完成任务，而非解释实现背后的理论。

虽然很有帮助，但阅读本书不需要懂日语，示例文本将提供详细注释。

本书唯一前提是掌握基本Python技能。通过大量代码示例展示如何解决问题。

作者1是独立自然语言处理/机器学习研究员和工程师。致力于教育项目和亚洲语言处理项目，与世界级初创公司和研究机构合作。2009年获某大学信息科学博士学位，曾在多家知名机构工作。著有多本畅销自然语言处理书籍。

作者2是顾问和spaCy开发团队成员。自2011年起常驻东京，维护Python中最流行的日语分词器。除自然语言处理工作外，还协助组织月度游戏开发者聚会。