新万博体育_新万博app

图片

首页
我们
党建
科研
学人
资源
教学
搜索

2023汉语语料库建设与应用研讨会综述

作者:关越 张永伟 来源:今日语言学 时间: 2023-11-17
字号:

 

 

  2023年10月27日上午,中国社会科学院语言研究所、语言研究所语料库暨计算语言学研究中心主办召开了“2023汉语语料库建设与应用研讨会”。会议在语言所大会议室举行。来自中国社会科学院、哈尔滨工业大学、北京师范大学、北京航空航天大学、科大讯飞股份有限公司等单位的二十余位专家学者参加了会议。

 

会场

 

  张伯江所长首先在开幕式中致辞,介绍了国家语料库建设成为十四五规划的所重点项目的重要背景和往届会议的主旨,并指出在当前大语言模型时代下举办会议的重要意义。最后表示对来自不同领域的不同年龄层的学者和专家助力国家语料库建设工作的感谢。

 

张伯江所长

 

  6位专家学者在研讨会上做了主旨报告。

  中国社会科学院王伟副研究员做了题为“ChatGPT的语言学启示”的报告。报告指出以ChatGPT为代表的大语言模型具有很强的语言理解、生成、知识推理能力,能够用自然语言直接调用以参数形式存储的知识。ChatGPT生成语言的基本原理、物质条件和基本模式具有一定程度的“人-机平行”性,因此中国语言学未来发展的趋势应该是接受并拥抱人工智能,抓住和西方基本站在同一起跑线的历史性机遇,努力弥合传统和现代的鸿沟,实现文理融合、中西融合、古今融合。

 

 

王伟副研究员

 

  哈尔滨工业大学车万翔教授做了题为“大语言模型的原理、实现及应用”的报告。报告首先介绍了“大模型语言”和“语言”、“语言学”的关系以及自然语言处理的发展历史,接着通过分析GPT-3的局限性,提出对于学术界的挑战,指出自然语言处理正在由面向自然语言的处理转变为基于自然语言的智能,充分利用大模型能力可实现多项系统任务。最后他介绍了“巧板”、“云孚”、“活字”等大模型产品的应用。

 

车万翔教授

 

  北京师范大学胡韧奋博士做了题为“古汉语语料库建设与大模型研究”的报告。报告从大型语言模型思维和语言认知的差异入手,探讨了如何构建服务于语言模型的研究与评测语料库资源和如何利用语言模型促进语言学研究的问题,并提出了对“大”模型的深刻反思。随后通过分享古汉语语料库的特点、建设工作的经验以及实践中遇到的困难,讨论了大模型给语言学研究和语言资源建设带来的重要挑战和机遇。

 

胡韧奋博士

 

  北京航空航天大学张懂博士做了题为“大数据统计方法在语言研究中的应用”的报告。报告指出语言研究面临的量化转向趋势,语言的使用同时受多个因素制约,因此语料库研究要使用多因素、多变量方法,同时考虑多个因素对语言使用的影响。随后介绍了语言研究中常用的探索性多变量统计方法和验证性多变量统计方法两种大数据统计方法,并以与格交替为例说明了多重对应分析法(MCA)、混合效应逻辑回归模型、决策树和随机森林模型汉语研究中的应用。

 

博士

 

  科大讯飞股份有限公司北京研究院王栋副院长做了题为“通用人工智能技术进展与典型应用”的报告。报告分析了认知大模型“智能涌现”背后的技术路线,勾勒出当今智能涌现推动通用人工智能的技术阶跃、已经逐渐落地赋能于千行百业的图景。他还分享了大模型场景在典型参数量训练和推理成本上的评估,指出因综合考虑各项因素,通过提高质量来降低认知大模型的成本。语料库建设与认知大模型发展互相促进,大规模语料库是认知大模型研发的基础,具备强大语言理解和生成能力的认知大模型又能反过来提升语料库的建设效率。

 

王栋副院长

 

  中国社会科学院语言研究所张永伟副研究员做了题为“大模型对语料库分析工具的影响”的报告。报告首先介绍了语料库分析工具核心功能的定义,重点对用例检索、频次统计功能进行分析,结合大量对比实例分析了大模型对语料库分析工具的核心功能带来的影响,指出大模型尚不能完全取代基于真实语料库的语料库分析工具,但可以与语料库分析工具形成互补,并帮助语料库分析工具改进。

 

张永伟副研究员

 

  六位专家学者的报告结束后,在场的学者就理论和实践等方面的问题进行了积极提问,并得到了报告人的认真解答。语料库暨计算语言学研究中心主任、李爱军副所长做总结发言,高度评价了各位的报告对于语料库建设工作的启示,并且指出该领域研究所体现出的语言学科的交叉性,最后对各位支持语言所的基础研究表示感谢,并提出对共享数据和应用工具的期待。

 

李爱军副所长

 

  本次研讨会报告前沿,理论深刻,数据鲜活,为语料库建设提供了很好的经验和借鉴。本次活动是语言研究所语料库暨计算语言学研究中心系列学术活动之一,后续相关专题学术活动还将持续开展。