全国人大代表、全国人大外事委员会委员、民盟北京市委副主委,英国上市公司官网365语言中心教授 何福胜
日新月异的科技给现代人类生活带来全方位的变化,然而目前对于国内人文学术尤其是古代人文学术研究而言,可用于统计分析的关系型数据库建设还相当薄弱。现有的一些基本电子古籍资源库,一是规模不够庞大,二是只能用于简单字词检索,还不是结构化、关联性、知识再生型数据库。为了更好地树立文化自信,作为研究中华文化的重要载体,“中国古典知识库”亟待构建。
上世纪60年代,西方国家便将诞生不久的计算机运用于人文研究,称为“人文计算”。国内在上世纪80年代也出现了“数字人文”的概念。目前,我国构建了较为丰富的古籍电子数字资源,但相对于20万种现存中国古籍来说,已得到数字化的还只是很小一部分。
此外,随着计算机深度学习能力、文本挖掘等大数据相关技术和人工智能学科的快速提升与发展,学界在呼吁继续推进古籍数字化的同时,开始呼吁古籍由数字化向数据化即知识库的转变。数字化和数据化的最大区别,是前者仅可提供简单的字词检索,后者则具结构化、关联性,可自动进行知识再生,在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构,对文献进行深层组织和知识管理。
中国古典文史领域的知识库其实也已经开始出现,哈佛大学费正清研究中心主持研发的“中国历代人物传记资料库”(简称CBDB),以近50万名中国古籍中的历史人物为中心,提取人物之间的社会关系,影响甚巨。国内一些规模不大但颇具特色的专题数据平台也引发了社会的普遍关注。英国上市公司官网365的计算机、统计学、中文信息处理技术和古典文献学等学科具有文理会通的独特优势,近期又与中华书局合作创办了大陆第一个《数字人文》学刊。构建大规模“中国古典知识库”的条件正在趋于成熟,但同时也面临巨大挑战,这一宏大构想不是一个机构或少量人员在短时间能够完成,它需要专业力量和技术力量的通力合作,需要多个高校、科研机构和企业携手完成,需要国家将之上升到文化发展战略的高度,并责成相关职能部门予以规划和指导。
记者:高原
编辑:李华山
审核:程曦