日语自然语言处理技术指南

本书全面介绍日语文本处理技术,涵盖分词、词性标注、句法分析等基础操作,以及Transformer生成、迁移学习等前沿应用。提供实际代码示例和开源工具使用指南,无需日语和数学基础即可学习。

日语自然语言处理导论

关于本书

面向处理日语文本的程序员编写的全面指南,涵盖从分词基础到自然语言文本生成等最新研究主题。通过实际示例和详细参考,即使没有日语或机器学习背景也能解决问题。

日语语言学基础

处理计算机日语文本所需的所有背景知识——字符、词汇、语法,以及编码和表情符号。

开源工具

使用开源工具分析日语文本,包括:使用MeCab进行词语分词,使用spaCy进行词性标注和解析。

词典与数据集

全面概述常用于日语处理的词典、语料库和其他数据集。

词嵌入

使用词和句子嵌入来表示、可视化和检索日语文本。

语言生成与转换

使用神经网络生成日语文本,并在假名和汉字之间进行转换。

自然语言理解

通过情感分析和命名实体识别,使用迁移学习来理解日语文本。

目标读者

本书适合所有对处理日语文本感兴趣的人,包括软件开发人员、人工智能研究人员和工程师以及语言专家。

无需数学基础

理解本书不需要数学知识。重点介绍如何使用工具完成任务,而非解释实现背后的理论。

无需日语基础

虽然很有帮助,但阅读本书不需要懂日语,示例文本将提供详细注释。

基础Python要求

本书唯一前提是掌握基本Python技能。通过大量代码示例展示如何解决问题。

目录

第1章:日语语言学基础

1.1 日语概述 1.2 正字法:有哪些类型的字母? 1.3 形态学:有哪些类型的词汇? 1.4 句法:句子如何构建? 1.5 技术说明:文本如何表示?

第2章:形态分析和开源工具

2.1 分词器和形态分析器:概述与基本使用 2.2 高级分词 2.3 依存解析器

第3章:数据集

3.1 概述 3.2 词典 3.3 通用语料库 3.4 专用语料库

第4章:词和句子嵌入

4.1 词嵌入 4.2 句子嵌入 4.3 多语言嵌入

第5章:使用Transformer进行自然语言生成和转换

5.1 Transformer简介 5.2 文本生成 5.3 假名-汉字转换/音译

第6章:通过迁移学习实现自然语言理解

6.1 迁移学习简介 6.2 情感/文档分类 6.3 命名实体识别

关于作者

作者1是独立自然语言处理/机器学习研究员和工程师。致力于教育项目和亚洲语言处理项目,与世界级初创公司和研究机构合作。2009年获某大学信息科学博士学位,曾在多家知名机构工作。著有多本畅销自然语言处理书籍。

作者2是顾问和spaCy开发团队成员。自2011年起常驻东京,维护Python中最流行的日语分词器。除自然语言处理工作外,还协助组织月度游戏开发者聚会。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计