Python自然语言处理技术指南

本教程系统介绍Python在自然语言处理中的应用,涵盖文本操作、spaCy管道定制、语言模型评估、词嵌入技术和语篇标注处理等核心技术,提供Jupyter Notebook实践环境和练习检测方案。

应用语言技术

关于此慕课课程

  • 关于课程及其目标
  • 芬兰高等教育机构学生信息
  • 其他用户信息

入门指南

学习环境概览

实践中的学习环境使用方法

登录CSC Notebooks

在CSC Notebooks上启动服务器

在JupyterLab中与服务器交互

使用TestMyCode检查练习

常见问题解答

第一部分:Python最小化入门

Jupyter Notebook元素

Python入门

  • 变量
  • 对象

第二部分:Python中的文本处理

使用Python操作文本

  • 计算机与文本
  • 文本编码
  • 将纯文本文件加载到Python中
  • 文本操作

大规模文本处理

  • 正则表达式
  • 处理多个文件

使用spaCy处理文本

  • 入门指南
  • 使用spaCy执行基本NLP任务

定制spaCy管道

  • 修改spaCy管道
  • 高效处理文本
  • 向spaCy对象添加自定义属性
  • 将处理后的文本写入磁盘
  • 简化名词短语和命名实体的输出

评估语言模型

  • 什么是黄金标准?
  • 手动测量可靠性
  • 作为一致性度量的Cohen’s kappa
  • 评估语言模型性能

使用pandas管理文本数据

  • 将数据导入pandas
  • 检查DataFrame
  • 扩展DataFrame
  • 保存DataFrame

第三部分:面向语言学家的自然语言处理

处理多语言文本

  • 简介
  • Stanza——处理多语言的Python库
  • 将Stanza与spaCy对接

通用依存关系

  • 通用依存关系简介
  • 通用依存关系的基本假设
  • 理解注释模式
  • 使用spaCy探索句法依存关系
  • 关于评估的最后说明

使用spaCy查找语言模式

  • 使用spaCy匹配器查找模式
  • 使用上下文检查匹配项

词嵌入介绍

  • 背景:分布假说与词嵌入
  • 探索分布假说
  • 学习词嵌入

spaCy中的词嵌入

  • 在spaCy中使用词嵌入
  • 可视化词嵌入
  • 来自Transformer的上下文词嵌入

语篇级注释处理

  • CoNLL-U注释模式介绍
  • 向Doc对象添加语篇级注释
  • 将CoNLL-U注释转换为Doc对象

引用

资源

© 2020– Tuomo Hiippala与mooc.fi合作开发

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计