黄铁军: 让AI拥有超人“视力”

  • 2019-08-23 13:57
  • 科技日报

受访者供图

黄铁军,生于1970年12月,籍贯河北省邯郸市,北京大学信息科学技术学院教授、北京智源人工智能研究院院长、国家人工智能标准化总体组副组长,主要研究方向为智能视觉信息处理与类脑智能。

爱国情 奋斗者

“刚开完会,上午会议结束得晚,咱们边吃边聊吧。”第一次见到北京大学信息科学技术学院教授黄铁军是在一次会议间隙,正值午饭时间,快人快语的他直接招呼记者一起用餐。

1970年,黄铁军生于河北省邯郸市大名县的一个普通村庄,和著名歌手邓丽君是同乡。若是身处在人群中,中等个子、衣着朴素的黄铁军,显然不会像邓丽君那样引人注目。但在人工智能(AI)机器视觉领域,他有着绝对的发言权。

最近他的成果再次成为业界关注的焦点。前段时间,黄铁军牵头研制的超速全时仿视网膜芯片首次公开亮相。这款芯片采用光电技术,能“看清”高速旋转叶片上的文字,可充当AI的“超速电眼”。

从农村娃到如今的AI大咖,在黄铁军身上,有着怎样的故事?

高中时对编程感兴趣

1986年,黄铁军上高二。那时很多人还没见过计算机,他却幸运地就用上了电脑。

“当时正值国家在中学推广计算机学习,一些电脑被下发到部分学校。我所在的高中就有5台电脑,而后我参加了学校组织的计算机兴趣班。”黄铁军回忆道,自己对计算机“一见如故”,没学多久就开始自己上机编程。

因为他程序编得好,老师把一台电脑拨给他专用。如今,黄铁军仍心存感激,高中时这段与计算机亲密接触的经历,为他日后的科研选择埋下了伏笔。

1988年,临近高考,那时的他一心想探求世界本源,于是毫不犹豫地填报了北京大学物理系。遗憾的是,他高考发挥失常,没能进入心仪的大学。正在犹豫是否复读时,他收到了武汉工业大学(现为武汉理工大学)的补录录取通知书,随后进入该校计算机学院应用技术专业。

1995年,黄铁军进入华中理工大学(现为华中科技大学)图像识别与人工智能研究所攻读博士学位,主要研究方向为双目立体视觉及其在虚拟现实中的应用。毕业后,1999年他进入中国科学院计算技术研究所进行博士后研究,研究方向为图像识别技术,合作导师是时任所长、现北京大学教授、中国工程院院士高文。

“逼上梁山”转战视频编码

从博士到博士后,黄铁军的研究都围绕图像识别展开。当时,他以为自己会沿着这条路走下去,但命运却把他引向了一条岔路——视频解码。

2002年,数万台我国制造出口的DVD,由于未支付专利许可费,在欧盟地区被海关扣押。在专利大棒的打压下,集中在广东地区的相关生产工厂大量倒闭。

“那是改革开放后,我国首次遭遇重大知识产权问题。”黄铁军说,制定中国自主知识产权音视频压缩标准,摆脱受制于人的困境,在当时变得十分迫切。

彼时,主题为“宽带流媒体”的香山科学会议正在召开,大会主席安排黄铁军起草会议简报。会议期间,工信部、科技部相关领导明确要求成立数字音视频编解码技术标准工作组(AVS),解决音视频产品的知识产权问题,高文任组长。

对黄铁军来说,视频编码是个“从未涉足过的领域”。但由于简报写得好,博士后刚出站的黄铁军就被任命为AVS秘书长。他自嘲道,自己是“被逼上梁山”的秘书长。

“既然是国家需要,自己接下了任务,就得好好干。”黄铁军说,此后他的研究重心逐渐向视频编码方向倾斜。

AVS工作组成立后,经历过一段艰难岁月。黄铁军说,2004年工作组制定的视频编解码技术标准送审,但直至两年后才发布。“因为产业化本身涉及芯片、软件、产品设备和端到端系统等众多关键环节,只有研制出符合标准的芯片,标准才能通过。”他说。

矛盾的是,如果标准不发布,企业就不愿研发芯片。无奈之下,工作组最终决定自己组织芯片设计团队。15年来,这支团队伴随着AVS标准制定,研发出了一系列视频编码芯片。

搞研究不走寻常路

参与AVS工作的同时,黄铁军也开始了从图像识别转战视频编码的旅程。正因是“半路出家”,他的研究视角和长期在此领域研究的人不太一样。

比如,黄铁军巧妙地捕捉到,监控视频具有背景相对不变的特点,提出了基于场景建模的视频编码方法。仅靠这项技术,就把视频编码的效率提高了1倍。“采用现行标准,全国3千万个摄像头采集的视频,若保质保量存储3个月的内容就需要2千亿元。用上这项技术后,等量的内容存储成本可降至500亿元。”他说。

云计算改变了信息的应用和服务模式,但大量摄像头拍摄的视频很难传至云端,于是黄铁军又“脑洞大开”。

“传到‘云’里的视频不是给人看,而是给机器‘看’(进行分析识别),所以只要传回机器识别所需的视觉特征就可以了。”他说,采用这个技术思路,视频传输流量可减少90%以上,大大减轻了传输压力。

基于上述两项创新成果,由黄铁军牵头的团队获得了2017年度国家技术发明奖二等奖。

在新领域屡创佳绩的黄铁军,却一直没忘了自己的“老本行”——图像识别。在该研究领域,他依旧体现出了与众不同的研究视角。

长久以来,一些科学家习惯以人类自身为标准思考机器如何“看”,以为机器视觉和人类视觉一样,但黄铁军却不这么认为。

“人总喜欢把自己的感受强加于别人,现在又强加于机器。一些人单纯地以为,把视频给机器看,机器就能识别,这种思路有些局限。”黄铁军说,其实机器能比人“看”得更准、更快。

于是,跳出人类思维局限,打造真正的机器视觉,即类脑视觉,成了黄铁军当下的目标。

做真正有价值的东西

由黄铁军牵头研制的超速全时仿视网膜芯片,便是他们向类脑视觉走出的探索一步。黄铁军把这款芯片,比作新一代人工智能的“电眼”。

它能干什么?“举例来说,在高速旋转的电风扇叶片上写2个字,电风扇转起来后,人眼看到的是模糊一片,‘电眼’却能把字看得清清楚楚。”他说,“电眼”可用在人工智能界的“网红”无人驾驶汽车、无人机和智能机器人上。

该芯片的研制团队中,有计算机科学、神经科学、医学等众多领域的专家,形成了一个强大的跨学科队伍,他们从生物和信息两个角度进行探索,最终才研制成功。

因为设计这只“电眼”,让黄铁军有机会将视频编码与“老本行”图像识别结合起来,运用上这两种不同领域的技术。“以前,我们实验室里的学生分两拨搞研究,一拨做图像识别,一拨做视频编码,就像两条并行的铁轨。现在,他们可以一起做项目,按照全新的技术体系,创造新的可能。”他说。

实验室的学生对科技日报记者说,开放性思维是黄铁军的标志性特点。“黄老师善于从全局角度看问题,常会把两种看似没有关系的事物联系在一起,让它们碰撞出火花。”

在生活中,黄铁军也依旧如此。他喜欢跟性格各异、领域不同的人打交道,他说这样能通过别人的视角来发现新问题。

对科研,黄铁军表示自己喜欢另辟蹊径,反对跟随和模仿。“以前,一些科研人员十分注重成果的数量,现在则更重视开拓科研‘无人区’。科研人员应该珍视自己的学术生命,做真正有价值的东西,否则你所做的事情就会像沙滩上的脚印,一阵浪打过来就会无影无踪。”他说。

头条推荐
图文推荐