当前位置:新闻 > 中国新闻 > 正文

国际数博会:网络大数据时代新型《汉语主题词表》在贵阳发布

2018-05-27 10:36:03    央广网  参与评论()人

央广网贵阳5月27日消息(记者陈屹)5月26日,中国科学技术信息研究所在正在贵阳举行的2018中国国际大数据产业博览会上发布在网络环境下大数据时代新型《汉语主题词表》。新《汉语主题词表》在体系结构、词汇术语、词间关系等方面都进行了改进和创新,将对国家信息基础建设提供支撑作用。

据悉,新型《汉语主题词表》是支持汉语信息处理的语义工具,是以概念词汇为知识节点,以等同关系、等级关系和相关关系为语义关联,构建成的超大型知识库系统,编织成的多维度的知识网络。通过新型《汉语主题词表》的微观知识结构,可以将大数据结构化、语义化、规范化。

新型《汉语主题词表》支持中文文献文本语义处理;通过专业词库,支持对专业文献的文本分词;通过同义词归并,聚焦专业知识节点;通过主题分析,批量揭示文献信息涵盖的知识内容与分类类型,将海量信息进行序化;提供在线概念检索和辅助标引服务,通过可视化技术,展示各类概念关系,为网络时代大数据的语义化、结构化、数据共享与开放提供了重要支撑;既可以运用于资源组织与知识关联,也可以支撑知识展示与数据服务,成为实现信息检索、知识发现、语义推理的智能引擎;通过机器标注、语义关联为云计算、云储存提供了信息描述的标准化模型;通过主题标引、学科分类、知识聚类功能,成为物联网与虚拟现实的精准知识组织系统。

《汉语主题词表》是1975年国家重点科技攻关项目“汉字信息处理系统工程”的配套项目,于1980年6月正式公开出版,1985年获得国家科学技术进步二等奖。1991年,出版自然科学增订本。为我国大规模计算机信息存储与检索奠定了基础,促进了中文文本信息处理工作的开展。

新型《汉语主题词表》是为适应网络环境下海量文本大数据形式化、结构化、语义化处理的需要,中国科学技术信息研究所从2009年开始牵头组织分领域、分阶段修订和重新构建的工程。目前已经完成工程技术卷和自然科学卷的编制工作,覆盖31个学科领域,术语词汇达50万条,已经在国家工程技术数字图书馆中,提供科技信息的组织和检索服务。

(责任编辑:苖玉轩 CN074)

相关报道:

    关闭
     

    相关新闻