应用语言技术
关于此慕课课程
- 关于课程及其目标
- 芬兰高等教育机构学生信息
- 其他用户信息
入门指南
学习环境概览
实践中的学习环境使用方法
登录CSC Notebooks
在CSC Notebooks上启动服务器
在JupyterLab中与服务器交互
使用TestMyCode检查练习
常见问题解答
第一部分:Python最小化入门
Jupyter Notebook元素
Python入门
- 变量
- 对象
第二部分:Python中的文本处理
使用Python操作文本
- 计算机与文本
- 文本编码
- 将纯文本文件加载到Python中
- 文本操作
大规模文本处理
- 正则表达式
- 处理多个文件
使用spaCy处理文本
- 入门指南
- 使用spaCy执行基本NLP任务
定制spaCy管道
- 修改spaCy管道
- 高效处理文本
- 向spaCy对象添加自定义属性
- 将处理后的文本写入磁盘
- 简化名词短语和命名实体的输出
评估语言模型
- 什么是黄金标准?
- 手动测量可靠性
- 作为一致性度量的Cohen’s kappa
- 评估语言模型性能
使用pandas管理文本数据
- 将数据导入pandas
- 检查DataFrame
- 扩展DataFrame
- 保存DataFrame
第三部分:面向语言学家的自然语言处理
处理多语言文本
- 简介
- Stanza——处理多语言的Python库
- 将Stanza与spaCy对接
通用依存关系
- 通用依存关系简介
- 通用依存关系的基本假设
- 理解注释模式
- 使用spaCy探索句法依存关系
- 关于评估的最后说明
使用spaCy查找语言模式
- 使用spaCy匹配器查找模式
- 使用上下文检查匹配项
词嵌入介绍
- 背景:分布假说与词嵌入
- 探索分布假说
- 学习词嵌入
spaCy中的词嵌入
- 在spaCy中使用词嵌入
- 可视化词嵌入
- 来自Transformer的上下文词嵌入
语篇级注释处理
- CoNLL-U注释模式介绍
- 向Doc对象添加语篇级注释
- 将CoNLL-U注释转换为Doc对象
引用
资源
© 2020– Tuomo Hiippala与mooc.fi合作开发