迎接刷脸时代,本文主要内容关键词为:时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
当你走进一家常去的咖啡馆,发现服务员已提前为你准备好最喜欢喝的咖啡;当你到单位上班时,智能门禁系统已自动打出带有你名字的欢迎语;想去办张银行卡吗?只需要在电脑前的摄像头做几个表情就好了。即将发生的这一切,提醒人们刷脸时代的正式到来。 支撑改变的是人脸识别技术,继语音识别之后,人类最近几年内在人工智能的另一领域——图像识别尤其是人脸识别方面取得重大进展。从识别人脸出发,进而识别万物,再进而实现真实物理场景的数据化,正是26岁的印奇和他的小伙伴在2011年创立旷视科技(Megvii)的初衷。 回头来看,他们的选择恰逢其时,赶上了那波人工智能公司创业的最好时机。在图像识别领域,传统的模式识别技术已走到尽头,而模拟人脑的深度学习算法在最近3年内的广泛应用,在技术层面打开了一条新的路径。此外,智能手机近几年的普及带来的图像数据大爆发,又为深度学习提供了至为重要的海量数据支撑。用印奇的话,既有了炼丹炉(深度学习算法),又有了原材料(海量数据),便可以练出与以往截然不同的好技术。 印奇和他的另外两位创业伙伴——唐文斌、杨沐,三人都是85后,同为旨在培养计算机技术精英的清华大学姚期智实验班同学。从大二起,印奇和唐文斌即去微软亚洲研究院(MSRA)实习,两人参与了微软的核心项目——人脸识别引擎的研发,印奇分到了人脸识别组,唐文斌则在图像搜索组,两人在那里接受了机器视觉的最初启蒙。2010年,大学毕业后,由于着迷于人脸识别技术,印奇又在MSRA全职工作了一年。他参与研发的人脸识别引擎,后来被广泛应用在X-box和Bing等微软产品中。三人的开发能力都很强,唐文斌从初中起就参加信息学编程比赛,先后多次获得ACM、Code Jam等各类编程比赛冠军,并担任国家信息学竞赛总教练7年之久。比印奇和唐文斌低一级的杨沐,则曾获国际信息编程奥林匹克比赛(IOI)金牌。 几年的实习工作,使印奇意识到,视觉识别将是人工智能中最具代表性的方向,其于人工智能的重要性,正如眼睛之于人。彼时,清华大学计算机系已有许多创业成功的前辈,比如搜狗的王小川、脉脉创始人林凡、点乐CEO李慰等等。生活在清华浓郁的创业氛围中,与前辈创业者的交流,使印奇和两个伙伴坚定了以视觉识别为方向正式创业的决心。 2011年10月,旷视科技正式成立,并在2个月后便获得联想之星几百万元的天使投资。为展示人脸识别技术,印奇与其时正在读研的唐文斌、杨沐等人初试身手,开发了国内首款基于iOS的移动体感游戏“Crows Coming”。这款小游戏获得清华大学第三十届“挑战杯”特等奖,并在短期内累计了40万左右的用户,一度冲到中国区App Store排行榜的前五名。在印奇看来,除了这次技术展示而获得的这笔创业的启动资金,更重要的是,投资者认定视觉识别未来的爆发性,还有他们的初创团队。 尽管是一家极客性质的创业公司,印奇与他的团队很早便制定了“三步走”的发展战略——第一步是搭建Face++的人脸识别云服务平台,目标是识人;第二步则是Image++,识别万物;最后则是实现“所见即所得”的机器之眼。 机器识别包含云、端两块概念,旷视科技的三位合伙人均偏于软件,虽然精通云上核心算法,却对端这块的硬件技术并不了解。对图像识别而言,如果不能处理好前端的图像采集,即使核心算法再好,最终的效果也不会好。为了补上技术短板,大伙派公司CEO印奇赴哥伦比亚大学,师从Computational Camera的行业泰斗,专攻3D相机方向的博士学位。 由于并非为了获取学位,印奇在哥伦比亚大学学习了两年时间,便于2013年6月回国。这两年里,印奇在美国一边学习,一边远程参与着公司的几乎所有事情,而尚在读研的唐文斌与杨沐,也几乎成为全职创业者。 2012年8月,旷视科技最为核心的产品Face++1.0上线,并很快迭代至3.0版本。平台通过提供云端API、离线SDK以及面向用户的自主研发产品等形式,为不同领域的开发者、企业与个人提供人脸识别的技术服务。 人脸识别所用到的深度学习算法,是一套模拟人脑的神经网络算法,印奇将其描述为一个“婴儿智力的黑盒”,由于涉及极其复杂的技术细节,对计算平台的底层架构要求很高,因此“入门容易,精深很难”。在他看来,目前Google、Facebook、百度等互联网巨头在深度学习算法方面的技术水平比较接近,“大家最终拼的,第一是来自商业化场景的真实数据;第二是对细分聚焦领域的了解程度”。换言之,深度学习高度依赖于数据,为了持续优化算法,必须不断给它喂海量数据。 Face++的数据,主要来自于自动抓取的互联网上的公开图片与从合作伙伴那里获取的图像数据。为了解决图片信息的隐私与安全问题,所有图片需经过一套不可逆的脱敏算法,将人脸照片存储为由特征数据组成的机器代码。 2013年3月,旷视科技获得创新工场数百万美元的A轮投资。在印奇的印象里,创新工场的创始人李开复在生病前的近一年时间里,每两周都会和团队核心成员见面聊一次。旷视科技还是李开复唯一担任董事的被投企业。早年研究语音识别技术出身的李开复,对同为人工智能研究领域的图像识别技术有很深的情结,经常会和印奇他们探讨一些非常具体的技术细节,比如会突然建议他们开发一个APP,以快速获取用户数据。 让印奇印象最深的是,李开复一直特别强调数据循环的重要性,“如果有两个客户,一个客户可以给你一年100万元的技术license的钱,还有一个可以给你一年贡献1000万的数据”,李开复告诉他们永远不要去拿钱,而要去拿数据。 经过3年多积累,Face++平台的图库数量已达10亿级,合作APP达1.5万个,活跃开发者有2.4万个,并与阿里、360、陌陌、美图、世纪佳缘、联想等一批图片、社交、设备类企业建立了合作关系,成为使用量极大的人脸识别引擎。 海量数据进一步训练提升人脸识别技术。印奇将人脸识别总结为一个包含诸多环节的流水线,从大的方面则可分为人脸检测、人脸关键点定位与人脸识别三个大项。在这三个大项上,Face++在2014年连续收获FDDB、300-W、LFW三项国际评测的冠军,尤其在互联网新闻图片的人脸识别评测中,以97.27%的准确率力压之前业内第一的Facebook人脸团队。 以技术带动业务,获取更多数据;业务数据又会反哺技术的提升,印奇将这一数据循环称为“滚雪球”效应。这与他崇拜的谷歌的发展逻辑很像,当年大家在使用谷歌搜索引擎时,每次点击产生的信息正是其优化算法性能最重要的数据来源。 如何将人脸识别技术应用于更加广阔的领域,加快商业化步伐,是印奇最近思考的重点。在他看来这是自然而然的事情,Face++的人脸识别技术已经相对成熟,到了可以开花结果的阶段,而只有开花结果了,才能证明整个公司的模式可以走通。此外,在目前阶段泛泛收集数据已经没有太大意义,只有进一步的商业化,才能定向获取垂直领域有价值的数据。 “在之前那个阶段,要钱还是要数据?我们的选择是要数据;在今天技术已经比较成熟的阶段,我们发现钱和数据是一起来的。”印奇说。 2014年9月,在获得启明、创新工场领投的2200万美元B轮投资后,旷视科技(Megvii)开始发力互联网市场以外的两个重要领域——“金融行业的人脸认证”与智能监控、智能家居应用。 人脸识别技术在金融行业要解决的核心问题是实现线上面签。目前,Face++已与蚂蚁金服及一些商业银行展开战略合作。印奇透露,Megvii的Face++平台单独为了金融场景做出符合识别标准的Face++Financial解决方案。这一动态人脸认证过程,可以规避来自图片或录像的攻击,在电脑或手机上的前置摄像头前,用户只要根据页面指令,做出一连串连续的简单动作,比如摇摇头、眨眨眼睛、动动嘴巴、微笑,数据被发送到云端后与公安部的备份照片进行匹配,匹配成功表示是本人开户,否则就拒绝开户。 智能迎宾系统是旷视科技系统集成的一套完整硬件产品,其核心逻辑是一套动态人脸识别系统。“这套东西非常有代表性,如果放在公司门口,可能就是一个操控门的智能门禁;如果放在会场,可能是一套嘉宾签到系统;如果放在商店门口,可能就是一套VIP识别系统。”印奇对这款尚处试售阶段的产品非常看好。 如果说Face++平台已到了可以开花结果的阶段,那么意在识别万物的Image++平台,尚处在技术的打磨期。不过,由于在做人脸识别时已经考虑到未来的扩展,印奇介绍,Image++与Face++共同一套底层平台,后者规划将在3年后进入技术成熟期,通过智能→商用→数据→智能这个循环不断将“滚雪球”大大缩短。 据悉,Image++的第一个公开版本将在2015年内发布。与Face++的发展路径相似,印奇称Image++是好几个Face++的结合,将首先识别文字、行人、人的行为、场景等高价值的东西,其逻辑顺序正如小孩识别万物的过程,先从父母亲的脸,到其他图片、物体,再到文字。从Face++到Image++,挑战在于,各个细分领域的识别虽然都用深度学习算法,但各自难点不同,需要定向攻坚,即使一上来就能做到80%的准确率,但剩下的20%则属于每个领域中比较特别的东西。 印奇称,Image++出来后,对那些扫题库、扫名片的创业公司来说,并不意味着灾难。他想将这些入口级的技术开放给那些创业公司,围绕图像识别和人工智能技术,在未来建立一个以核心技术为轴的共生生态。“就像马云说的,你必须让别人变得更强,自己才会有更大的发展空间。” Video++,真正的机器之眼,听起来似乎还很遥远,但在场景化数据的大循环与人工智能、机器学习的热浪中,技术的迭代更新无疑已加速。 面对未来可能的竞争,与许多拥有一定技术壁垒、专注于某一细分领域的创业公司CEO一样,印奇并不惧怕巨头,在他看来,那种一上来就要做万物识别的公司,由于不太可能快速做到可用级别,真实场景的数据积累自然也难以谈到,因而在深度学习算法的优化循环中也难以占得先机。 目前,旷视科技近60人的团队中,不少都是技术极客、信息竞赛的获奖者。三位合伙人,仍然都会参与一线的技术开发,印奇负责核心的算法研发,唐文斌偏向产品开发,杨沐则更多负责平台架构。作为公司CEO,印奇笑称很多东西需要现学现用,自己不多的管人经验来自于高中时曾担任学生会主席,本科时则负责过校学生会文化部,做了很多杂事。但精英化的用人路线,使他相信一流人才都是自我驱动,并不需要太多管理。 采访即将结束,印奇告诉记者,他得马上去参加一个电话会议,次日凌晨三点就得起床,飞往海南参加另一个重要活动。所有的忙碌,似乎都配得上他和团队在创业初期便树立的野心——成为人工智能领域的Google。标签:人工智能论文; 人脸识别技术论文; 人脸检测技术论文; 人脸识别算法论文; 唐文斌论文; 李开复论文; 图像识别论文; 印奇论文;