课程主页: https://www.coursera.org/learn/digital-humanities
课程概述
在数字人文学科领域,语言技术的应用无疑是一个倍受关注的话题。Coursera上的课程“数字人文学科中的语言技术”将于2019年5月20日开启最后一次MOOC课程,之后课程将暂停,届时将无法再进行报名。不过,课程的视频资料仍可通过我们的YouTube频道和苏黎世大学的SwitchTube频道访问。
课程大纲
第一周 – 走进数字世界
本周课程将探讨文本的数字化方式,以及如何将其以XML格式展示,了解OCR(光学字符识别)在实际应用中的重要性。此外,课程还会涉及如何创建语料库及面临的挑战。
第二周 – 结构化和可持续的语料库数据表示
我们将学习XML标记语言,掌握文本表示的主要标准,以及自动文本和词汇分段的相关知识。
第三周 – 语料库的特征及基本分析方法
本周重点关注语料库的关键特征、语料库语言学的基本分析方法、词频、共现和N-gram等基本概念,并讨论如何通过可视化呈现文本特征。
第四周 – 使用计算语言工具进行自动语料库注释
这一模块将探讨自动化语料库注释的工作原理,包括词性标记和词根的使用,以及处理命名实体和自动语法分析的相关挑战。
第五周 – 语料库数据的手动注释与评估
我们讨论如何高效进行注释,同时研究手动与自动注释如何通过机器学习相互补充,并探讨众包数据收集的方法。
第六周 – 多语言文本分析的挑战
课程最后一周将讨论多语言及平行语料库的处理,包括自动语种识别和不同语言平行文本的自动句/词对齐。
推荐理由
整门课程结合了理论与实际应用,理论部分讲解了Korpus Linguistik的基本知识,而实践部分则通过丰富的例子使学习者能够更好地掌握这些技术。此外,课程内容涉及多个方面,不论你是初学者还是希望深入了解该领域的专业人士,都能从中获益。
感谢Coursera平台让我们能够接触到这样的优质课程,建议大家尽早报名参加,尤其是在5月20日之前!
课程主页: https://www.coursera.org/learn/digital-humanities