2018年,中科院自动化所模式识别国家重点实验室学术论坛引入新的交流形式:团队研究进展介绍。这个论坛系列是为了加强实验室内部交流,使实验室成员了解不同团队的研究布局和进展,从而促进研究工作的协同和合作。
1月11日,实验室主任刘成林做了题为《模式分析与学习团队研究方向与最新进展》的报告,介绍了他所领导的模式分析与学习(PAL)团队的发展历程和研究进展,并重点阐述了当前研究的热点、主要方法和研究现状。
报告首先介绍了PAL的发展历程和研究内容。该团队成立于2005年,现有研究员1名、副研究员5名、项目聘用人员3名,博士生12人、硕士生3人。主要研究方向包括文档图像分析与模式识别系统学习。在文档图像分析与识别方面,研究内容包括:文档图像处理、版面分析、文本检测与定位、文本行识别、上下文模型、文档检索等。在模式识别系统学习方面,研究内容包括:分类器设计、神经网络模型、生成-判别学习、鲁棒性置信度估计、结构模型与学习、自适应与在线学习等。
报告接着对文档分析领域做了综述性的介绍。刘成林指出,早期大家对这个领域往往直接叫文字识别,但实际上更完整的叫法应该是文档分析,因为这里面包括从文档图像中提取文本信息的多个步骤:文本分割、识别、上下文处理、语义信息提取等,文字识别只是其中的一个步骤。刘成林强调文档分析技术在实际生活中具有大量的需求并且也具备很大的科学研究价值。报告随后详细讲述了文档的种类划分、文档分析的基本流程、以及文档分析领域所面临的重要研究问题。报告还系统回顾了文档分析领域的发展历史:1920年代出现了第一个光学字符识别(OCR)专利,1950s-1960s出现了基于模板匹配的印刷体字符识别,1970s-1980s出现了基于特征的结构匹配以及统计方法,1990s研究的重心则是版面分析与分割,以及字符切分与识别的结合,并且在很多领域取得成功应用。2000s以后研究较多的方法包括隐马尔可夫模型(HMM)、手写词识别/文本行识别、深度学习模型等。当前研究的热点和难点主要包括:自然场景文本检测与识别、复杂版面分析、以及自由手写文本识别。针对这些问题,刘成林主任详细介绍了几种主要方法并且宏观分析和对比了目前的性能状况,为大家阐述了文档分析领域的技术发展脉络和实际性能水平。
随后报告介绍了PAL团队在机器学习领域的研究重点:面向模式识别的模型与学习算法。首先阐述了文档分析中涉及的学习问题,包括:分类器设计与学习、字符结构分析、版面分析、文本检测等。模式识别的前沿问题则包括:模式结构理解、分类器结构自学习、小样本学习、自适应与在线学习、弱监督学习、以及模型的鲁棒性和可解释性等。针对这些问题,PAL考虑的主要技术方案包括:生成-判别混合模型、结构化预测、以及认知机理启发的模型和学习方法。报告随后还讲述了如何增强现有模式识别系统的鲁棒性,指出基于概率密度估计的产生式模型是提升鲁棒性的有效途径。
报告随后介绍了PAL团队在上述两个方向取得的一些最新进展。在文档分析与识别方面,包括基于偏旁部首的汉字识别、基于递归神经网络的机器自动书写、基于过切分和上下文融合的手写文本行识别、基于直接回归的场景文本检测、基于滑窗卷积神经网络的自然场景文字识别、以及滑动窗卷积注意力模型。在模式识别系统学习方面,包括基于风格迁移的分类器自适应、结合数据局部风格一致性的在线自适应、卷积原型学习模型、融合CRF和深度随机森林的结构预测方法等。
报告最后对目前的研究现状提出了一些疑问:深度学习通过增加训练样本可以达到零错误吗?多少训练样本才够?人的学习是大样本吗?针对这些问题,刘成林指出文档识别需要从交互式模式识别、充分利用语言知识和上下文、字符结构理解、可靠性和拒识等角度展开研究,并且需要研究如何更好的利用大数据,如何在小数据上也获得较好的泛化性能。最后,刘成林对未来的研究方向进行了展望,从两个角度(模式识别与学习、文档分析与识别)分别指出了未来研究的一些方向,如结构化模型、生成模型、小样本学习、弱监督学习、在线学习和自适应、开放环境下模式识别的鲁棒性、复杂版面分析、文本检测和识别的优化模型、面向应用的文档识别技术研究等。
|