旷视COCO获奖团队亲述:我们是如何两年拿下7个冠军的

  • 2018-09-14 13:59
  • 腾讯网

  即将年满7岁的旷视,最近给自己送了一个生日礼物,计算机视觉顶级赛事MS COCO的Detection(并列)、Panoptic、Keypoints和Mapillary Panoptic四个项目的冠军,继去年三冠一亚之后,连续两年成为该赛事上全球表现最佳的公司。

  今年带队的除了旷视科技首席科学家、研究院院长孙剑之外,还有去年的冠军领队、旷视科技研究院Detection组负责人俞刚博士,另外还有十余位同学,大部分是实习生。

  从5月中旬启动比赛,到8月结束,旷视COCO小分队从确定团队分工、定方向到逐步优化,历时三个月,蝉联冠军王。

  不过,聊到这四个冠军的成就,俞刚博士似乎并没有特别激动,他对今年的比赛有两个字的评价:艰难。

  团队成员华中科技大学博士在读的余昌黔说,艰难到个别时候晚上十点睡下,两三点又要从床上爬起来,再做一波实验。

  不仅艰难,旷视的一个遗憾是算法没有达到内部定下的量化目标。

  这场景很熟悉,让人想起学霸同学声称自己考砸了,结果分数出来是年级第一的故事。

  去年夺冠后,旷视把目标定得过高了,在实际比赛中并没有预料中那么好。旷视COCO团队实习生、北航研二在读的殷斌一同学对量子位说,在他参加的项目里,团队自己拆分出验证集测试,得分超过80,但实际挑战集却只有76分,让大家不得不费尽功夫,0.1分0.1分的向上提。

  至于如此艰难的原因,一方面是COCO“走不动了”,达到了一个饱和状态;二是算法上面还有比较长的路要走,需要更多极致的创新来突破现有的技术水平。

  好在虽然艰难,但这并不妨碍他们拿到四个项目的冠军。

  COCO数据集因为数据难度以及标注误差,导致算法越来越饱和了。旷视自己内部开始研究检测任务的后续方向,建立了两个内部数据集。

  俞刚博士介绍了旷视的两个和COCO有关的数据集:

  第一个是CrowdHuman,包含大量多人重叠照片,专门针对COCO比赛中人人人人人人人人山人海的检测。

  第二个数据集目前还在搜集中,旷视内部的名字叫做COCO++,缘起于COCO的“指鹿为马”现象,因为COCO只有80个标签,难以覆盖世间万物,所以比如当它见到一头鹿的时候,因为没有鹿这个标签,只好标注成马。因此,旷视准备做COCO++这样一个数据集,希望能够覆盖世界上99%的物体,减少出现这类差错的机会。

  COCO:中国队对战中国队?

  关于COCO的另外一个话题就是:包括旷视、商汤、北邮、滴滴等在内,拿冠军的都是中国队,全无谷歌、Facebook等美国大公司的身影。

  这一点俞刚博士觉得与国内的AI发展氛围和创业公司特点分不开。

  一方面国内AI热潮正处风口浪尖,发展氛围更好,投入的资源人力足够多,政策也支持,国内研究AI的热情空前高涨,“从人才潜力这个角度讲,中国不会比欧美差,我们需要更好的环境、更好的团队氛围来释放人才潜力,这也是旷视科技研究院一直在做的事。”

  另一方面则得益于国内创业公司的资源倾斜。大公司业务广,牵扯多,在COCO比赛这类项目上,单点投入不够集中;而创业公司单点投入更集中,一旦决定参加COCO,团队力往一处使,比赛过程更高效,成绩自然会比大公司要好。

  得胜武器:人才培养

  COCO这类比赛,最离不开的是人才。

  俞刚博士也这么认为,他把旷视今年拿下四个冠军归因于对人才的培养。

  一方面,旷视内部一直在培养新人,人才不断档,才能支撑比赛阵容;

  另一方面,旷视也一直有足够的技术积累,每天刷arXiv分享优质论文是技术团队内部的必修课,并且需要分析提炼论文中值得学习的内容,而非简单的复制别人开源的成果,让团队整体也有提升。

  或者说,COCO比赛对旷视的价值就在于带新人练级。

  虽然去年的夺冠神器Brain++已经内部应用,但COCO成绩离商业落地还没有那么近。因此,参与COCO的团队也是实习生为主,就像腾讯互娱的校招新人会自己做小游戏一样,比赛对旷视更重要的是人才培养,是旷视人才战略的一部分。

  所以,COCO比赛中,他们采取了以老带新的方式来培养团队。经验丰富的研究员指导年轻研究员,传授经验;年轻人也可以在比赛的过程中获得自己的经验体会,提升认识和理解,还可以有新的成果出现。

  殷斌一同学对此有深刻的感悟。

  在学校的时候,殷斌一苦于学校的计算、数据集等资源限制,渴望更好的平台。

  COCO开始前两个月,还是北航研一学生的殷斌一刚刚来到旷视实习,彼时的他,刚刚开始自己在深度学习、计算机视觉领域的学术研究生涯,虽然擅长代码,本科时还拿过ACM区域赛银牌,但对算法一窍不通。

  在旷视团队参与COCO的过程中,殷斌一逐渐搞清楚了数据、模型、测试等过程,明白了从头到尾的整体方法逻辑。现在,他已经能够自己独立跑程序、训练模型,完成整一套过程了。

  而另一位团队成员余昌黔已经在旷视实习一年多了,开学季这几天,他刚刚在华中科技大学开始自己的博士生涯。

  在COCO的workshop中,他不仅见到了敬仰已久的大神Ross Girshick和何恺明,还上台演讲,被主办方称赞比人标的ground-truth结果都好,收获了在场全世界各国参赛者的一片欢呼。

  △Ross Girshick 为旷视团队颁奖

  研究&落地双管齐下

  在旷视内部,研究和落地同步进行着。

  落地做实用,比如在手机端运行AI程序,限制在手机的硬件水平之上,模型更小,对用户体验追求更高;

  而研究则是探求物理极限,可以尽量用大模型,用大量硬件。

  参加比赛是以老带新,用最快速度培养出更多新秀去做产品;

  而专做产品的人也要参与研究,把眼界放长远,提升自己的判断能力,培养自己对于技术方向的想法,而不仅仅局限于眼前,才能为自己谋取更高的成长天花板。

  这是俞刚博士分享的旷视人才观。

  这一点也反映在了COCO团队的组建上。

  旷视在组建COCO参赛团队时,先根据新人的兴趣点、爱好特长来分组,如果缺人,再去协调其他团队。之后COCO的成果也会反映在商业落地上,去年的夺冠秘籍Brain++就已经在内部应用了。

  能用大量商业资源推动研究,同时研究成果能迅速反哺实际应用,这真是计算机科学家们最好的时代。

  实习生:博士,硕士,甚至高中生

  旷视的COCO队员余昌黔和殷斌一都是实习生。

  殷斌一此前也有在其他科技公司实习的经历,不过并非在研究部门,而是实际商业落地部门,主要工作是写业务代码,没有做研究的机会,“搬砖”的意味更强一些。

  而在旷视,能享受充足的研究资源,随时随地请教大牛,在前辈们的push下迅速成长,是他在别处无法获得的巨大收获。

  时至今日,已经成为COCO冠军团队成员的他在学校依然行事低调,还没有把这个在校外获得的成就告诉导师和同学。

  余昌黔则已经硕士毕业,对科研有着更深一层的认识。他说,旷视科技研究院满足了他对理想研究院的所有期望:团队氛围非常好,周围大牛云集,工作也很自由。

  并且旷视研究院这类企业研究院的方向也与读硕士、博士也不冲突:都是为了得到优秀的研究成果、能公开发表,企业研究院还有更好的硬件与数据资源。

  前面两位是硕士和博士,但丝毫不过夸张的是,旷视还有过不下十位正在读高中的实习生。

  第一位高中实习生的名字叫做范浩强,当时他在人大附中读高三,因为信息学奥赛的优异成绩已经被保送到了清华,而当时他的信息学教练正是旷视科技CTO唐文斌。

  欣赏范浩强才华的唐文斌对他发出了邀约:

  “我要去开一家公司,叫旷视科技,你要不要来?”

  就这样,高中生范浩强成为了旷视的前10号员工之一。清华本科毕业之后,他终于“转正”成了正式员工。

  有了一个范浩强,就会有更多高中生,他们以学长带学弟的方式,纷纷来到旷视实习(很遗憾,暂未听说有学妹)。

  俞刚博士介绍,来旷视实习的高中生各地都有,他们都不需要高考,或是已经参加竞赛保送了,与其高三无所事事,不如来学点东西;或是准备申请国外的本科,实习中如果有研究成果,也更容易的拿到国外高校的offer。

  在旷视呆过的实习生们,转正率非常高。如果继续升学深造,大多数也能去不错的学校,迄今为止已经有三位实习生去了斯坦福。

  不过,虽然前面提到的几位实习生都是名校背景,但旷视也并不是只要名校生。

  俞刚博士说,主要还是看求职者的闪光点,比如是否擅长代码,学习新知识的能力是否优秀等。有这些亮点,便值得加以培养。

  俞刚博士还透露,今年旷视的冠军模型会在迁移到TensorFlow之后开源,预计会是今年年底前后。

头条推荐
图文推荐