课程主页: https://www.coursera.org/learn/digital-humanities
《数字人文学科中的语言技术》(Sprachtechnologie in den Digital Humanities)是一门在Coursera上提供的在线课程,旨在帮助学生充分理解数字人文学科中语言技术的基本概念和应用方法。课程于2019年5月20日进入最后一轮,将在此后暂停,但学员仍可通过YouTube及瑞士大学的SwitchTube频道观看相关视频。
### 课程大纲简介
#### 第一周 – 进入数字世界
在第一周,课程将讨论文本如何被数字化以及如何在XML中进行表示,OCR(光学字符识别)在实际应用中的意义等主题。此外,学生将学习如何创建语料库及面临的各种挑战。
#### 第二周 – 结构化与可持续的语料数据表示
第二周重点学习如何对语料数据进行结构化与可持续性表示。课程将介绍XML标记语言及一些文本表示的重要标准。同时,还会涉及自动化的文本与词语分段。
#### 第三周 – 语料特性与基本分析方法
第三周聚焦于语料的基本特性、语料语言学中的基本分析方法,以及词频、搭配、N-gram等基本概念。最后,讲师Noah Bubenhofer将展示文本特性的可视化与图形表示。
#### 第四周 – 计算语言学工具的自动语料标注
这一模块探讨带有语法信息的自动语料标注,例如词性标记与词根,还会解析自动标注可能产生的困难,包括专有名词或地名的自动识别,以及文本的自动句法分析。
#### 第五周 – 语料数据的手动标注与评估
在这一周,课程将讨论如何实现经济高效的标注,手动与自动标注如何通过机器学习互补。此外,课程还会探索如何保障标注的质量与准确性,以及通过在线平台进行众包(Crowdsourcing)数据收集与校正。
#### 第六周 – 多语种文本分析的挑战
最后一周的课程内容将集中在多语种及平行语料上,包括混合语言语料的自动语言识别,以及在不同语言之间的自动句子对齐与词对齐问题。
### 总体评价
这门课程既适合对数字人文学科感兴趣的学生,也适合希望掌握语言技术的研究者。课程内容丰富,涵盖了从基础到进阶的诸多领域。尽管课程已进入暂停阶段,但其视频资源仍可供学生们进行自学,是一个难得的学习机会。整体而言,推荐给想要深入探索语言与技术结合的学习者。
课程主页: https://www.coursera.org/learn/digital-humanities