新闻
当前位置:新闻 > 聚焦 > 正文

专访李兵:他坚守的跨模态视频搜索正在爆发(4)

 跨模态视频搜索正在爆发

真实世界是多模态的,信息往往同时存在于文字、声音、图像等多个模态当中。当前人工智能发展迅速,在自然语言处理(NLP)、自动语音识别(ASR)和计算机视觉(CV)各自领域都有重大突破,但这种单一领域的突破仍然有其局限性,与人类理解模式有着明显不同。

人类对于真实世界的感知是多模态和跨模态的,为构建能够“完全模拟人类对于真实世界理解模式”的人工智能,它需要有对多模态数据识别和响应的能力,构建多模态神经网络。

目前借助深度学习技术已经能够有效地对不同模态的数据进行统一的特征表达,不仅能够实现不同模态数据的融合,更能够将不同模态的信息进行相互转换(例如:文字到图像,视频到文字等),从而实现跨模态的智能理解与表示。

因此,跨模态理解可以理解为多模态学习的高级阶段。多模态学习的早期是期望实现不同模态间信息的融合,而跨模态则是更进一步实现不同模态的统一表达,从而实现不同模态信息的相互“翻译”和“跨越”。

李兵认为,人类的大脑是极其奥妙的,例如最早在博士期间,他研究人的视觉认知的四个恒常性,分别是颜色恒常、大小恒常、明亮恒常和形状恒常。以大小恒常为例,在一张照片上,远处的大人比近处的小孩还矮,但人们看到照片第一时间,就知道大人实际上远高于小孩,这是因为人脑对“大小”进行了二次加工。

人工智能可以说是人类智慧的结晶,是对人类自身奥妙的探索与挑战,这种不断突破的兴奋感与成就感也一直鼓舞着大家。李兵带领着团队每年都会在顶级会议和期刊中发表相关学术论文,并获得了一系列的国内外竞赛奖项。2020年更是在恩师胡卫明的带领下收获了国家自然科学二等奖这样的重量级奖项。(编者按:国家自然科学奖,是由中华人民共和国国务院设立,由国家科学技术奖励委员会负责的奖项,是中国五个国家科学技术奖之一,授予在基础研究和应用基础研究中,阐明自然现象、特征和规律、做出重大科学发现的公民)