7月11日,模式识别学术大讲堂邀请加州大学洛杉矶分校(UCLA)的Song-Chun Zhu教授来自动化所做题为《Beyond What and Where: Reasoning Function, Physics, Intents and Causality》的报告,实验室副主任王亮研究员担任主持人。
Zhu教授在1991年毕业于中国科学技术大学,分别在1994年和1996年在哈佛大学获得了硕士和博士学位。Zhu教授是华人的骄傲,他是IEEE fellow,并在2003年获得Marr Prize,在1999年和2007年两度获得Marr Prize honorary nomination,他还获得了Sloan Fellow in Computer Science,NSF Career Award,ONR Young Investigator Award,Aggarwal prize(from the Intl Association of Pattern Recognition)和Helmholtz Test-of-time prize(ICCV2013)。
报告伊始,Zhu教授从人工智能开始谈起,以非常浅显易懂的例子来引导大家思考:计算机视觉应该是什么样子的?Zhu教授旁征博引,从计算机视觉能否解答小学生的题目到计算机能否辨别日常生活的细节、从有趣的生物学实验到人工智能从上世纪80年代开始的起起伏伏开始讲起,这个讲座从一开始就完全吸引住了所有人的注意力。
接着,Zhu教授讲起了他眼中计算机视觉应该是什么样的:从1970年到1990年,计算机视觉主要以几何特征为主要媒介,从1990年到2010年,计算机视觉主要以表观特征为媒介,但这两类特征都只能解决诸如分类、识别、检测、定位等问题,和人类视觉系统所体现出来的“智能”相去甚远。他认为,在人类视觉系统中,看得见的几何和表观特征所占比例很小,大部分是看不见的东西,就像物理学里的暗物质(dark matter)和暗能量(dark energy)在物理世界总占据绝大多数一样,而这些看不见的东西起着最为核心的作用,Zhu教授将这些“看不见的东西”归类为功能(function)、物理(physics)、动机(intents)和因果(causality)。这个观点一经抛出就激起了大家浓浓的兴趣,这是一个和当今主流研究手段完全不同的途径,大家都期待着Zhu教授接下来还会带来怎样的惊喜。
并没有太吊大家胃口,Zhu教授给大家详细讲解:功能是指场景中各个物体所提供的功能,比如椅子可以坐、杯子可以拿、人可以躺在床上等等,并且,这些具有不同功能的物体往往在尺寸上也是具有区别的,Zhu教授也罗列了他们组在这方面的一些工作。物理指的是场景中物体之间的物理联系,这种联系可以以速率、相互受力关系、场等来体现,比如支撑关系,再比如Zhu教授等人将物理空间中人们行为的“场”进行记录,以此来估计物体在场景中的稳定性。动机是指视觉中物体做某项行为的原因和做决定的判断依据,这些原因和依据就是Zhu教授要建模的暗物质和暗能量,比如在介绍中Zhu教授举的一个例子,在视频中,模型观察到一个人去倒茶叶,那么接着来模型估计其可能的动作是往杯子里重新放茶叶并加水,这与视频中很一致。因果关系探究为什么是这样、为什么不是这样、怎么做以及如果这样会怎样等问题,这样一些问题引起了同学们的极大热情,Zhu教授的讲解也给了大家很多启发,比如简简单单开门这件事就包含了深刻的哲学原理。
然后,Zhu教授介绍了所有介绍问题所用到的统一的表达,也是其坚持做了十多年的研究成果:与或图(And-Or Graph)。由于在图中每一个节点都包含了诸如空间、时间、因果等多个属性,Zhu教授又介绍了联合推理方法。最后,Zhu教授还介绍了目前存在的挑战和未来工作。Zhu教授的讲解结合了许多很有趣的例子及其课题组坚实的工作基础,因此显得深入浅出,同学们也受益颇多,讨论环节大家提问也非常热烈,报告结束后,许多未得到提问机会的同学又围住Zhu教授虚心请教。
Zhu教授本次的讲座取得了非常积极的反响,Zhu教授为大家呈现了计算机视觉研究非常广阔和充满希望的一面,给同学们带来了非常有启发性的观点。
(模式识别国家重点实验室 周振)
|