教育部语言文字应用管理司副司长王晖在新闻发布会上表示,以深度求索等为代表的人工智能技术创新不断取得突破性进展。在此背景下,国家提出建设新型国家语料库的战略部署,凸显了其重要性、必要性和紧迫性。
王晖进一步解释说,在一些应用领域,尤其是语言的教育教学和研究领域,已存在多个语料库。但许多语料库仍处于单一文本模式和领域应用阶段,在建设理念、技术方法、规模以及数据多样性、时效性方面存在不足,难以满足多元化、动态化特别是智能化的语言数据需求。
他指出,要立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,建设具有新质态、多模态、多语言、大规模、全域性的语料库,为通用领域和细分领域的多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。
近期,教育部、国家语委和中央网信办联合印发的《关于加强数字中文建设推进语言文字信息化发展的意见》中提到,到2027年,国家数字中文建设行动将取得重要成效,语言文字数据要素价值得到有效释放。届时将基本形成政府主导、部门协同、社会参与、共建共享的工作机制;初步建成国家语言文字大数据中心和关键语料库,增强语言文字信息化标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力。
从2025年起,已经启动布局新型国家语料库建设工作。王晖介绍,一是通过规范引领,加强制度供给,研制语料库建设规范,突出价值导向、应用导向、创新导向,统筹质量和安全,为语料库建设提供基本原则和方法指引。二是示范引导,开发建设“中华文脉新型语料库”和“中华大阅读体系语料库”,这两个示范库分别瞄准智慧教师和智慧学伴,探索建设系列教育、语言文化国家新型语料库群,服务教育强国、文化强国建设。
目前,教育部、国家语委已支持建设30余项关键领域的语料库,作为新基建服务于大语言模型和生成式人工智能等技术前沿创新应用。此外,还布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据需求稳步扩大建设范围,提升建设成效。
教育部语言文字信息管理司司长刘培俊强调,要夯实机制、标准、人才三个基础,逐步建立健全语料共建共享新机制,制定语言资源、语言数据、基础语料以及大语言模型的技术和管理标准,并依托高校研究机构推进多学科交叉融合,培养高素质人才,推动语言科技、语料建设和人工智能创新应用的发展。
2023年7月,中国中车牵头成立了国家轨道交通装备行业产教融合共同体。该共同体由106家理事单位组成,包括中国中车集团及58家产业链企业、9所普通高校和38所职业院校
2024-11-13 21:11:40教育部:加强产教联合体建设11月11日,教育部举行新闻发布会,解读《中华人民共和国学前教育法》并介绍教育系统学习宣传贯彻落实法律有关情况
2024-11-11 14:43:00教育部回应教育“抢跑”今天,国家发展改革委宣布,今年将有序开展高质量户外运动目的地建设,目标是在2030年前建成约100个高质量户外运动目的地
2025-04-09 14:32:17国家将打造100个户外运动目的地