计算语言学前景好
计算语言学是计算机研究和处理自然语言的一门新兴交叉学科。近年来,在推动新文科建设的背景下,计算语言学及其相关应用越来越受到人们的关注。计算语言学领域的学者在接受本报记者采访时表示,计算语言学方兴未艾,应用广泛,前景广阔。
文科三大学科
计算语言学是一门跨越语言学、数学和计算机科学的跨学科学科。它还涉及文科、科学和工程三大领域,具有跨学科性质。从事计算语言学的学者不仅要有语言知识,还要有数学知识和计算机科学知识。教育部语言文字应用研究所研究员冯志伟告诉记者,面对信息网络时代的新要求,许多语言学家正在努力学习计算机自然语言处理技术,不断更新知识,重新学习,成为新一代懂语言学、懂数学、懂计算机的语言学家。
北京大学是计算语言学的一个重要研究中心。谈到当前计算语言学的前沿,北京大学计算语言学研究所所长王厚峰告诉记者,统计和机器学习方法在过去20年中一直占据着自然语言处理的主导地位。统计方法和机器学习方法都是基于数据的。因此,也可以说,20多年来,自然语言处理一直以数据驱动为主。近年来,深度学习的发展进一步强化了数据的作用,尤其是无标记语言数据的使用。在深度学习的框架内,有一些具有代表性的技术,如训练前语言模型的出现。
计算语言学已开始被广泛应用。冯志伟以机器翻译为例,指出计算语言学目前在机器翻译方面取得了很大的成就,机器翻译经历了基于规则的机器翻译、统计机器翻译、神经机器翻译等阶段,目前机器翻译正在被应用和商业化,机器翻译已经从学者们的梦想中成为现实。
发挥优势促进学科整合
近年来,随着人工智能、数字人文、大数据等领域的迅速发展,以及新文科建设的需要,各学术机构结合各自学科的优势,促进研究工作,在计算语言学和自然语言处理领域建立了新的学术机构。例如,北京语言大学语言智能研究所成立于2019年6月,清华大学人工智能研究所于2019年7月成立了自然语言处理和社会人文科学研究中心。
王厚峰介绍了他们目前的新研究。一是跟踪和改进,如在培训前模式中,尝试整合包括结构化知识在内的多模态信息;二是提高模型效率。在目前的深度学习框架下,培训的复杂性很高,如何降低复杂度是一个需要研究的问题。第三,加强以汉语为核心的语言知识挖掘研究。
在北京语言大学教授宋若看来,语言学与语言工程之间还存在着脱节,有必要促进语言学与语言工程的深度融合,加强合作,建立语言知识体系。
清华大学汉语教授刘适和清华大学计算机科学与技术教授孙茂松开展了学术合作,提出了建立"中国古典知识库"的构想。刘氏目前正在承担国家社科基金"基于大数据技术的中国古典文学文献分析与研究"的重大课题。在古诗词分词和知识图的研究中,运用计算语言学和自然语言处理技术,实现了古诗词文本的词汇提取、分词和相关性分析,以及在线的"古典诗歌知识图"。
经验主义方法与理性主义方法的结合
如何进一步推进这一研究,王厚峰说,我国学术界在相关方面基本上属于跟踪研究,也有创新研究的必要。尤其是缺乏对汉语的计算研究,汉语有很多自己的特点,未来需要结合汉语的特点进行相关的研究。
冯志伟认为,目前在计算语言学研究中,深度学习已成为主流方法,几乎已应用于计算语言学的各个领域,这是一种基于语言大数据的经验主义方法,忽视了语言规则,深入学习应与语言研究相结合,以语言规则为基础的经验主义方法应与基于语言规则的理性主义方法相结合,以促进计算语言学的进一步发展。