【编者按】 视觉与学习青年学者研讨会(VALSE)是为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者(70后和80后为主)提供的深层次学术交流舞台。截至目前,VALSE已成功举办7届。在近期举办的VALSE 2017上,参会人员达到2200+。自动化所一批青年老师和学生参会并展示了科研成果。其中,王亮、何晖光、程健三位研究员受邀在会上进行了报告,何晖光研究员当选VALSE 2016-2017年度贡献奖获得者。
拓展链接:第七届视觉与学习青年学者研讨会VALSE2017总结
王亮:远距离人群透彻感知技术 助力大范围复杂场景态势监控
远距离人群感知是通过对视频的深度分析与理解,全面掌控远距离人群的身份、属性、行为、事件等信息,感知视频内容包括由个体到群体、由近及远的方方面面。
但是,目前面向远距离人群感知的视频分析技术仍然有以下问题尚且不能较好地解决:距离远看不清、范围大找不准、差异大认不对、人数多数不清等问题。
下面是王亮研究员在VALSE 2017上分享的部分相关问题的解决方法:
远距离人群感知的任务分解
1、视频质量增强
针对远距离获取视频数据一般分辨率低的问题,使用超分辨率技术将低分辨率视频恢复到高分辨率,提出全卷积的双向循环网络,用权重共享的卷积操作替代了传统循环网络中所有的全连接操作,将模型参数量从百万级降低至几万的同时可以对视频的空间结构关系建模,包含3D前馈卷积和循环卷积两种操作。
2、个体检测与分割
受人脑自上而下任务驱动的视觉注意机制启发,并结合反馈和侧向抑制机制,提出了一种反馈卷积网络,可以在仅给定查找目标类别的情况下,在图像或者视频中准确定位目标并进行分割。
3、个体认证与检索
为了对个体的身份信息进行识别,通过对人的行走方式建模,从而进行步态识别。由于不同视角下人的步态序列变化非常大,利用特征表示能力很强的双通道卷积神经网络来建模不同视角下步态序列的表观变化,并度量两个序列之间的相似性。
4、个体行为识别
行为识别是基于个体骨架信息实现的,针对其中时间动态特性和空间静态分布,分别提出层次化/双通道循环神经网络的行为识别方法。
5、群体事件识别
在处理群体行为事件时面临以下困难:1)类标签与低层视觉特征之间的语义鸿沟;2)缺少有标签的训练数据。针对这些问题,提出类相关受限玻尔兹曼机(ReRBM),这是一种混合概率图模型,其主要思想是将稀疏贝叶斯学习与RBM模型相结合来联合学习具有区分力的隐含特征作为中层视频表达和稀疏判别函数作为视频分类器。
6、高层语义交互
对于视频中基于属性或者句子检索相应目标的任务,提出了选择式匹配循环网络,可以精确提炼冗余视频信息中的显著目标。
对于海量复杂场景视频来说,需要进行语义交互式检索或理解视频中的信息,包括目标的表观、行为、位置等信息。一个长视频内包含多个行为或者复杂事件,对视频进行问答操作需要准确定位相应的行为事件的位置并同时进行识别。我们提出了深度语义视觉嵌入网络,对监控视频进行基于文本视觉的问答操作。
程健:深度神经网络优化计算
近年来在深度神经网络模型加速和压缩方面的几个有效方法:
1、剪枝与稀疏
研究表明网络中很多连接都是接近0或者冗余的,如何对这些参数进行剪枝就变的很有意义。如下图所示,将全连接网络中的某些连接截断后计算量大幅度缩减。
但是并不是只要剪枝就一定会提高运算速度。
剪枝一般需要如下图左的三个步骤:先正常的进行全连接训练网络,然后删除部分连接,重新训练权重,对训练好的模型再剪枝,再重新训练,直到满足设定条件为止。
2、低秩分解
有很多种分解方法,比如奇异值分解、tucker分解、块分解。
3、权值量化
通常神经网络中的权值一般用单精度的浮点数表示,这在运算过程中计算比较复杂。而用码书对权值进行量化可以大大减轻存储负担。
哈希也是一种有效的方法,如下所示。
量化方式有二值量化(0,1):
也有三值量化:
4、用定点来代替浮点数计算。
|