新闻
当前位置:新闻 > 聚焦 > 正文

专访李兵:他坚守的跨模态视频搜索正在爆发

李兵说,通过创业,能够跟一群志同道的合作伙伴,让技术真正实现产业落地,是他认为最有价值的事情。随着跨模态视频搜索爆发,很多蓝海市场等待着人民中科去挖掘,他对未来充满期待和希望。

人民中科董事长李兵喜欢看《阿甘正传》,每年他都会回看几遍这部影片,阿甘的那份耐力和执着一直吸引着他。

现实生活中,李兵也经历了一场“阿甘式”创业。从求学到科研、再到创业,他已经在视频内容理解与安全领域坚守了十三年。

CNNIC发布的2022年《中国互联网络发展状况统计报告》显示,截至2021年12月,在网民中,网络视频、短视频用户使用率分别为94.5%和90.5%,用户规模分别达9.75亿和9.34亿。

近10亿视频用户正催生了一个新的蓝海市场——跨模态视频搜索引擎。

去年底,人民日报社传播内容认知国家重点实验室与人民中科共同发布面向内容安全的跨模态视频搜索引擎“白泽”,在业内引起广泛讨论。

面向内容安全,“白泽”结合对境内外多平台内容的检索,可跨平台实现文本搜图片、文本搜视频、图片搜视频、视频搜视频、图片搜文字、视频搜文字等功能。

半年时间内,“白泽”便已经广泛应用于内容风控、战略传播、数字政务等领域。

“白泽”的出现,可谓是恰逢其时,也凝聚着一支中科院出身的技术团队的无数心血。

不典型的科学家

2000年高考后,李兵离开安徽老家北上求学。在北京交通大学的机房里,他第一次接触到了计算机,“那时候进机房要穿鞋套,是一件很“隆重”的事情。”

而在此之前,李兵与计算机科技的世界可谓是两条平行线。

李兵出生在一个偏远山区的农村家庭里,说起自己的童年趣事,李兵笑到,小时候经常会帮父母去放牛、放鸭子,曾有次在小河边贪玩,结果丢了整整十只鸭子,被母亲追着打,跑了几里地。村里小学的泥巴房教室年久失修,在一场大雨过后彻底成为危房,于是全班转移到附近废弃的卫生所里上课,就这样度过了充满“消毒水”味道的小学。

从那时起,通过高考走出家乡,成为李兵坚定的信念。2000年,李兵高考填志愿时,家乡县城才有了第一家网吧,让他知道了有个彼时最火热的计算机专业。

在北京交通大学完成本硕博连读之后,李兵进入到中科院自动化所,开始做视频内容理解与敏感信息识别研究。

中科院自动化所,是国内最大的成建制人工智能研究机构。在中科院自动化所进门巨大的宣传栏上写着这样一行字——“打造新时代智能科学与技术的国家战略科技力量”。自动化所还有一颗耀眼的明珠,那就是成立于1984年的“模式识别国家重点实验室”,作为第一批国家重点实验室,主要研究人类模式识别的机理以及有效的计算模型与算法。

今年是李兵在所里的第13个年头了,他是所里年轻的研究员、博导,做研究期间,总喜欢探索一些比较前沿和实用的课题。

2010年,彼时互联网内容还以图文为主,音视频内容由于生产创作门槛较高,而中国的家庭摄像机普及率不如欧美,所以大多来自专业影视制作或者海外内容的引进。但仍然有些包含暴力血腥、恐怖活动及教唆犯罪的视频开始零星出现,李兵也是从这时开始带领团队研究恐怖视频识别和暴恐视频分析,为监管部门提供技术支持。李兵回忆道,“那时候为了做研究,曾经集中阅览过大量恐怖电影和暴力血腥视频,很多场景至今让人不愿回想。有时想到如果自己的孩子会在网上看到这样的内容,便难以接受,也觉得自己肩上的担子更重了一分”。

此后随着人工智能领域的不断发展和迭代,他又在多模态识别、跨模态理解、伪造视频识别等新领域取得了世界领先的科研成果。

李兵形容自己是一个非典型科学家,他一直不希望是“从论文到论文”的学术研究,而是让研究成果解决实际问题,并落地到产业中去。李兵感慨到,“我们这一代人很幸运,出生在了祖国发展建设的高速期,才能有今天这样的机会和平台。我也希望能用毕生所学,为社会、为祖国做点实实在在的事。”

真正进入创业,则是一出“千里马遇见伯乐”的故事。

2019年,计划布局内容科技的人民网,与想做科技成果转化的中科院,一拍即合,世界领先的视频理解技术启动了产业化的征程。

成为创业者

2020年,人民中科正式启动运营。

这样一家颇具传奇色彩的初创公司,带着央媒龙头和中科院的基因,以攻坚下一代内容认知能力为使命,在各方瞩目下,就此扬帆起航。

去年11月,人民中科核心产品“白泽”正式上线,这是成立仅两年时间的人民中科交出的第一份答卷。

“白泽”的典故出自于中国神话《山海经》中一种“通万物之情、晓万物状貌”的神兽,它知道天下所有鬼怪的名字、形貌和驱除的法术。这是一款跨模态视频搜索引擎,将文字、图片、语音和视频等不同模态信息映射到一个统一特征表示空间,以视频为核心,学习多个模态间统一的距离度量,跨越文字、语音、视频等多模态内容的语义鸿沟,自动关联多模态间关键要素。

“白泽”无疑是跨模态视频搜索引擎的先行者。但对李兵来说,这是一个长期坐“冷板凳”的厚积薄发的过程。

在图文为主的互联网时代,视频内容安全鲜有人关注,一方面是视频内容数量不多,互联网场景也一直都不如安防、工业等领域受欢迎,另一方面,类似色情、暴恐这样的敏感内容,在学术界关注度较低。李兵和研究团队在恩师胡卫明研究员的带领下,率先将色情、恐怖图像/视频的识别相关研究成果发表在顶级学术期刊上。

但李兵一直在坚持,用他的话说,无论是读书还是工作,自己总希望能在一个细分领域里做到最好。团队在视频内容理解领域坚持了二十余年后,他也终于等到这个赛道的全面爆发。

 跨模态视频搜索正在爆发

真实世界是多模态的,信息往往同时存在于文字、声音、图像等多个模态当中。当前人工智能发展迅速,在自然语言处理(NLP)、自动语音识别(ASR)和计算机视觉(CV)各自领域都有重大突破,但这种单一领域的突破仍然有其局限性,与人类理解模式有着明显不同。

人类对于真实世界的感知是多模态和跨模态的,为构建能够“完全模拟人类对于真实世界理解模式”的人工智能,它需要有对多模态数据识别和响应的能力,构建多模态神经网络。

目前借助深度学习技术已经能够有效地对不同模态的数据进行统一的特征表达,不仅能够实现不同模态数据的融合,更能够将不同模态的信息进行相互转换(例如:文字到图像,视频到文字等),从而实现跨模态的智能理解与表示。

因此,跨模态理解可以理解为多模态学习的高级阶段。多模态学习的早期是期望实现不同模态间信息的融合,而跨模态则是更进一步实现不同模态的统一表达,从而实现不同模态信息的相互“翻译”和“跨越”。

李兵认为,人类的大脑是极其奥妙的,例如最早在博士期间,他研究人的视觉认知的四个恒常性,分别是颜色恒常、大小恒常、明亮恒常和形状恒常。以大小恒常为例,在一张照片上,远处的大人比近处的小孩还矮,但人们看到照片第一时间,就知道大人实际上远高于小孩,这是因为人脑对“大小”进行了二次加工。

人工智能可以说是人类智慧的结晶,是对人类自身奥妙的探索与挑战,这种不断突破的兴奋感与成就感也一直鼓舞着大家。李兵带领着团队每年都会在顶级会议和期刊中发表相关学术论文,并获得了一系列的国内外竞赛奖项。2020年更是在恩师胡卫明的带领下收获了国家自然科学二等奖这样的重量级奖项。(编者按:国家自然科学奖,是由中华人民共和国国务院设立,由国家科学技术奖励委员会负责的奖项,是中国五个国家科学技术奖之一,授予在基础研究和应用基础研究中,阐明自然现象、特征和规律、做出重大科学发现的公民)

根据Cisco VNI预测,随着未来8K视频、VR/AR应用及物联网的发展,全球IP流量将会保持指数式增长。2022年,全球网络流经的IP流量将超过互联网元年到2016年底全部32年间的流量总和,视频、游戏和多媒体将占全部流量的85%以上。

数字化时代,随着视频等非结构化内容的迅猛增长,迫切需要实现文字、图片、音频、视频的互联互通。基于单个模态的内容提取及简单规则匹配的内容分析策略,已无法满足实际需要。

实现跨模态视频搜索,需要克服很多技术难题。首先是进行大量的数据训练,采集跨模态数据,其次是搭建设计神经网络架构,最后是让整个模型运转起来。对企业来说,还需要考虑用最低成本、最高效的方式跑起来。

“以前做科研,是带几十个人做项目,现在则需要与几百个人协同做企业。”李兵需要以低成本和较少的约束条件做出让用户满意、市场买单的实用产品。

成立两年半年,如今人民中科的营收保持了每年近十倍的增长速度,从百万级营收到几千万营收,再到几亿级别的营收。人民中科也在坚持高研发投入,形成一个又长又厚的雪道。从科学家转变为创业者,既要有能力,也要有情怀。 “眼里没有钱,才能挣到大钱”。

“无论任何事情,你能坚持十年下来,感觉肯定是不一样。”李兵说,通过创业,能够跟一群志同道的合作伙伴,让技术真正实现产业落地,是他认为最有价值的事情。随着跨模态视频搜索爆发,很多蓝海市场等待着人民中科去挖掘,他对未来充满期待和希望

(责任编辑:周晶晶 CN032)