365英国上市公司(China)官方网站|BinG百科我们让计算机识图认字
●丁晓青
THOCR具有强大的识图认字功能
电子系智能图文研究室集十余年的努力,致力于使计算机具有识图认字的人类感知的能力,能自动认识各种文字和文本图像,使人们长期的梦想终于部分成真。
在今天,我们可以快速、准确、轻易地将印刷的报章杂志、书籍文本自动变成计算机可阅读的电子文档;可以利用笔写字与计算机交流会话;可以将人们书写的文字表格自动输入计算机;可以将过去必须由人们识图认字解决的问题,交由计算机自动解决和实现,大大解脱人们汉字输入繁重的劳动,为计算机智能信息处理开辟了极为宽广的道路。
在这十余年的努力中,我们从模仿人类视觉感知出发,即人类的视觉感知是形象思维,而非逻辑思维过程,研究和发展了模式识别信息熵理论,基于统计模式识别的理论和算法,在特征提取和选择、分类器设计和集成、识别可信度分析、利用上下文的模式识别算法等方面的研究成果,解决了包括数量达两万余字的超大集合汉字在内的东方多国文字文本图像的计算机识图认字问题;解决了从联机手写汉字识别到脱机手写汉字和数字等极大变化模式类别的识别问题;解决了低质量、低清晰度文字的识别问题;还解决了从版面自动分析、文档自动识别、版面自动理解和版面自动重构为一体的文本全信息数字化问题。
在这十余年的努力中,我们不仅在理论和方法上取得成果,更重要的是把研究成果投入到实际的应用中,开发成为产品,在千万人们的文档数字化实际应用中经受考验,反馈促进我们的研究。我们的THOCR产品有十年历史,有国内65%以上市场,在我国汉语信息资源建设中发挥着重要作用;业已闻名国内外,并授权于IBM、摩托罗拉、诺基亚等许多国际知名公司。我们的中日韩东方文字识别系统授权于微软公司,经美国Scansoft公司评测,居国际领先水平。