北京语言大学推出新一代BCC汉语语料库
来源:中国社会科学网

3月15日,北京语言大学举办语料库建设研讨会暨BCC 2.0发布会,正式推出新一代BCC汉语语料库。BCC 2.0语料库在数据、引擎、服务三个维度完成全面升级,实现了汉语语料的多维度全覆盖,为语言学研究、教学实践及大模型研发提供了更优质的语言数据支撑。

北京语言资源高精尖创新中心主任、北京语言大学语言智能研究院院长荀恩东表示,在大模型时代,语料库与大模型并非替代关系,而是互补共生的重要语言数据形态。大模型是语言大数据的参数化压缩,而语料库是语言生活的显性化采样,具备可验证性、精准化、可复现性等独特优势,能够为大模型的评测、优化、安全检测提供重要支撑;同时,大模型也能赋能语料库的自动标注、智能检索等工作,二者的融合发展为语言学研究开辟了新路径。

BCC语料库是国内外最大的汉语在线语料库,是汉语语言学研究的重要数据基础设施。北京语言大学国际中文教育研究院副研究员饶高琦介绍,此次发布的BCC 2.0语料库总字数约62亿字,首次开放了多领域的字表、词表及频次数据,所有数据均支持可视化查看与下载。

  • 主       管: 陕西新华出版传媒集团有限责任公司
  • 主       办: 陕西新华出版传媒集团有限责任公司
  • 智力支持: 中国社会科学院西部发展研究中心
  • 出       版: 陕西出版传媒集团报刊有限责任公司
  • 编       辑: 《西部学刊》编辑部
  • 编辑委员会主任: 石鸣
  • 编辑委员会副主任: 叶子
  • 执行主编: 朱希良(上半月)赵良(下半月)
  • 编辑一部主任: 朱希良(兼)
  • 编辑二部主任: 赵良(兼)
  • 综合服务部: 李功(主任)付小梅(副主任)严丽洁
  • 数字出版部: 邢恬恬 袁宝燕
  • 责任编辑: 杨军 雷智勇 冯小卫 王宝林 张震 杨超
    王延河
  • 编辑部电话/传真: (029)89520620
  • 网       站: www.xbxkzz.com
  • 投稿邮箱: xbxkbjb@126.com