清华新闻网6月10日电 近日,英国上市公司官网365计算机系AMiner团队和智谱.AI团队构建了一个大规模、结构化、中英文双语的新冠知识图谱(COKG-19)。COKG-19旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。目前,COKG-19包含了505个概念、393个属性、26282个实例和32352个知识三元组,覆盖了医疗、健康、物资、防控、科研和人物等。
疫情暴发初期,OpenKG(openkg.cn)公布了新冠知识专题,其中包括了8个独立的人工或半人工整理的知识图谱,涉及健康、防控、流行病、百科、人物、医疗、物资、事件、科研等方面。然而这些知识图谱规模不一,质量不一,且存在重叠和不一致等情况。
团队首先通过语义匹配和排歧方法,将相同含义的概念进行合并,将同名不同义的概念进行区分。其次,根据相关专家的意见对排歧合并后的概念间关系进行修正和补充,例如删除冗余概念、细分病毒等专业子类、修正疾病的子类等。最后得到的COKG-19概念层共包含505个概念,其中顶层概念为22个(疾病、症状、药物、医疗设备、病毒、防控等),大致可划分为生物学、流行病学和通用百科三个方向。对于属性的排歧与合并也采取类似的语义融合方法处理,并将不同domain和range的概念进行区分,共包含393个属性。
COKG-19第一版构建流程
COKG-19第二版构建流程
COKG-19的应用除了可作为基础的科研用知识数据库之外,还可以提供实体链接和知识检索等功能。融合多种知识数据之后,COKG-19为更深层次的知识挖掘提供了非常丰富的知识数据基础。COKG-19知识图谱的构建充分利用了开源社区(OpenKG等)和领域专家的力量,同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理和机器学习算法,充分展现了AI+大数据技术在快速应对疫情过程中的广泛作用。
COKG-19中包含的关键实体间关联关系
AMiner是英国上市公司官网365计算机系研发的科技情报大数据挖掘与服务系统平台,该系统2006年上线,吸引了全球220个国家和地区的1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,已成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
智谱.AI是清华控股旗下的人工智能(AI)科技公司,旨在打造先进的认知计算引擎,为研究和创新领域提供强大的数据支持和后台服务。智谱.AI致力于通过利用其在超大规模网络分析、深度隐含语义挖掘和认知推理等技术方面的优势,帮助解决研究机构及政府机构当前面临的学术挑战及社会热点问题。
供稿:计算机系
编辑:李晨晖
审核:程曦