一口气看完微软人工智能布局和产品落地

  • 2018-09-20 14:17
  • 雷锋网

  目前,微软、Google、亚马逊、苹果、Facebook都巨头都在布局人工智能,将人工智能作为公司全面发展战略,涉及方方面面,不花费一通功夫,很难一下子了解各大公司的技术、布局和产品落地。在北京召开的微软2018人工智能大会上,微软把自家做的事一股脑全说了。

  发布会的两点主要有:微软着重强调了其新的“世界观”:智能云和智能边缘;展示了微软在语音语义、视觉、机器翻译的多项技术;微软发布ONNX项目及ML.NET打造开源跨平台人工智能开发框架;搭载着全新的“全双工语音技术”的微软小冰带来了原创诗歌、歌曲和儿童故事;中国移动、大疆、唯品会、小米生态链分别展示了与微软人工智能的合作成果。

  微软新世界观:智能云和智能边缘

  云计算、物联网、大数据、人工智能正在将我们的世界将变成一台巨大的计算机。

  微软全球执行副总裁、人工智能及微软研究事业部负责人沈向洋博士介绍到,在这样的新时代,微软有了全新的世界观:智能云和智能边缘。

  智能云指的是微软Azure,是微软专为人工智能打造的云平台。Azure汇聚了微软在人工智能领域的全部投入与技术积累,是开发、部署、运行人工智能的云平台,同时也是将智能云与智能边缘融会贯通的关键环节。

  微软一直在拓展Azure的功能,Azure目前有四个方面:公有云Azure、混合云Azure Stack、物联网Azure IoT Edge和Azure Sphere,以这四个方面打造出完整的计算环境,支持全新应用场景。

  Azure Stack是Azure公有云在本地数据中心的扩展,可以在边缘和离线环境运行、满足多种监管要求。例如石油开发公司同时使用Azure公有云和Azure Stack可以按照办公地点灵活分配计算资源。

  Azure IoT Edge是微软在2017年Build大会推出的针对智能边缘计算的产品,可以在Linux和Windows上运行,而2018年Build大会上,微软宣布将 Azure IoT Edge 开源,允许开发者进行扩展、添加功能,并部署到任何环境中。

  Azure 上的认知服务也可以扩展到Azure IoT Edge,目前微软已经推出了定制视觉服务,可以让无人机或其它工业装备无需连接到云,就能做出快速的响应和处理。会上,大疆展示了与微软的合作,利用Azure IoT Edge和微软人工智能服务,大疆开发出适用于农业、建筑行业、公共安全及更多应用场景的解决方案。

  Azure Sphere主要用于保护和驱动智能云上的设备。2020年,全球智能边缘设备的总数将超过200亿台,世界会成为一台超级计算机,但是我们也会担忧安全问题。Azure Sphere方案将提供经过特殊设计的安全芯片、安全操作系统和能够守护每台设备的云端安全。

  在介绍完Azure云平台的四个方面后,沈向洋介绍了微软将Azure与AI结合,打造最佳人工智能云平台的四个方向:认知服务、对话式人工智能、开放平台与工具、实时人工智能基础设施。

  Azure 认知服务

  在两年前的Build 2016微软全球开发者大会上,微软首次公布了运行于Azure的认知服务,以API的形式为开发者提供易用的人工智能技术能力。目前微软在全球推出包括语音、视觉、语言、机器翻译等功能的24项服务,超过100万开发者使用。

  CaptionBot 能像人一样理解和描述一张图片,例如,你上传一张照片,CaptionBot能够给出一段文字描述:比尔盖茨正拿着一副网球拍,他看起来很高兴。

  此外,还介绍了微软OCR((Optical Character Recognition光学字符识别) ,将为各种人工智能应用增加图形文字识别功能,目前支持从Office到Skype、Bing、HoloLens的微软应用,可以识别图像内的文字,例如识别车牌号、海报甚至是手写的笔记。

  CaptionBot和OCR都是Azure预制的人工智能服务,微软也针对变化的场景推出了定制视觉服务,可以让不具备深度学习、机器视觉背景的开发者定制图像标签模型、物件认知模型。

  微软技术院士黄学东介绍了微软在人工智能语音语义方面的进展。在计算机视觉方面,2015年微软亚洲研究院发布的152层残差网络(ResNet)的图像识别准确率已经达到96%,胜过人类;2017年8月,微软在Switchboard语音识别基准测试中的错误率已经降低至5.1%,达到了媲美人类专业速记员的水平;2018年1月,微软亚洲研究院自然语言计算组率先在斯坦福大学发起的SQuAD文本理解挑战赛上获得超越人类的分数;2018年3月,微软亚洲研究院与微软雷德蒙研究院宣布,其研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上,第一个达到了可以与人工翻译媲美的水平。

  5月初,谷歌在I/O大会上展示了Google语音助手的Duplex(双工)技术,能主动给餐馆、理发店打电话,帮助用户预约时间。由于其声音和音调与人类几乎没有差别,能实现连续对话还能理解上下文快速反应,在朋友圈大火了一把。这时,微软坐不住了,赶紧发出了技术声明,表明微软小冰在两年前就实现了AI与人类通电话,并且在谷歌之前就公布了实现AI与人双向交流的全双工语音技术。

  在现场,黄学东忍不住Diss了一下,说Google动不动就吹牛, ”微软不仅有全双工,微软更实现了全三工、全四工、全五工……”

  现场展示了一款“全多工”的产品——微软与Roobo合作的AI会议系统。微软特意在现场准备了四个人的现场会议演示,可以看到,这款AI会议系统能识别不同人的声音,实时以文字记录下大家的发言内容,同时识别出涉及工作安排的内容生成代办事项。这个产品,可以说是每个团队中会议记录员的救星。

  黄学东还展示了语音定制技术,根据上传的录音,可以生成和用户一样声音的AI助手。上传30分钟的录音,得到的AI说话与用户相似度不高,但是以10小时的录音进行训练后,就能得到较为逼真的模仿效果。想一想,你会想要把家人或者朋友的声音放进AI里,让它随时陪伴你吗?

  黄学东称今年微软达到中文英文翻译超过专业人士的水平。大会上,小米生态链企业香蕉出行展示了魔芋AI翻译机,借助微软认知服务中的微软翻译打造,能够提供14种语言的实时语音翻译。虽然由于现场混音效果,魔芋AI有几次识别不出语音指令,但翻译的效果还是不错的,可以说是出游利器。

  对话式人工智能

  亚马逊Echo智能音箱带动了对话式人工智能的产品落地,现在对话式人工智能已经进入音箱、电视、车载等多个设备中,是新一代智能应用的核心。对话式人工智能也在不断升级其对话能力,追求越来越自然、流畅的人机交流。

  微软有小娜和小冰两个对话式人工智能助手,小娜更倾向于发展智商,而小冰则是面向情商维度发展的人工智能系统。

  微软小冰诞生已经三年,一直以逗贫、插科打诨的聊天风格著称。最近,微软将最新的全双工语音交互技术(Full Duplex)应用在了微软小冰上,同时提升了小冰的智商和情商,具备了以下能力: 一次唤醒之后的连续对话、预测用户接下来的对话内容、 帮助用户轻松完成多重任务、内容创造(写诗、写歌、讲故事)。小冰不只是能够执行用户的任务,还能主动提供聊天语聊,陪伴和关心用户。

  这次大会上,微软展示了一段小冰在一次电话聊天结束后,由于判断出用户情绪低落,认为需要再一次电话沟通,于是又拨打了一通电话,去询问用户情绪是否变好、提醒用户早点休息、告知用户明天天气情况。

  据了解,2016年8月起,微软(亚洲)互联网工程院通过人类用户主动发起的方式,在明确告知用户小冰并非人类的前提下,已让小冰与人类用户完成了累计超过60万通电话交流。

  在内容创作方面,微软展示了小冰写的诗、原创歌曲、有声读物。在有声读物领域,微软已拥有接近4万集有声童话内容。这些有声读物全部由人工智能技术生成,在与人类主播质量相当的前提下,数量足以陪伴一个孩子从2岁到9岁的全部时光。6个月来,这些有声读物已顺利投放到占中国市场90%的儿童早教机、故事机和在线播客平台,播放总时长超过400万小时。

  今年四月,微软已经在中国和美国宣布了全双工语音技术,并且有多项产品落地,微软(亚洲)互联网工程院副院长李笛宣布,今年秋天,微软还将向合作伙伴和开发者开放“全双工语音技术(Full Duplex)”开发者可以使用这项技术打造自己的对话应用。

  微软的全双工语音技术开源,这会不会对现在的智能音箱里的“傻萌”的语音助手进行一次洗牌呢?(延伸阅读:微软发大招:要做智商和情商兼具的语音助手)

  开放平台+基础设施

  要促进人工智能的普及,技术开放是必经之路,微软也推出了开放人工智能平台(Open AI)战略及开发工具。

  微软可以支持TensorFlow、CNTK等业界主流的深度学习平台,同时,微软还发起了开放神经网络交换(ONNX)项目,旨在推动人工智能研究的互操作性,让任何深度学习框架在任何芯片与任何设备上都能运行。目前,已经有15家公司支持ONNX,并且还有更多公司正在加入进来。现在已经有PyTorch等六种顶级框架支持ONNX,其它框架则可以通过转换器获得支持。

  在Build 2018微软全球开发者大会上,微软宣布推出跨平台、开源机器学习框架ML.NET开放预览。ML.NET让任何开发者都能开发出自己的定制化机器学习模型,并将其融入到自己的应用中去——开发者完全无需具备开发和调试机器学习模型的经验。这一框架最初由微软研究院开发,并且在Windows、Bing、Azure等微软产品上都得到了成功的应用。通过将这一技术框架开源,微软希望能够为每一位开发者赋予驾驭机器学习的能力。

  微软Project Brainwave能利用Azure上最先进的FPGA基础架构完成实时的人工智能处理。用户只需通过实时的单一批数据,就能得到以往需要多得多的批数据处理才能得到的性能,真正实现人工智能的实时计算。而且,FPGA运算不仅仅只在云端提供——通过合作伙伴,也可以通过Azure Stack混合云在本地提供FPGA。如此强大的实时计算能力不仅存在于云端,同时也适用于边缘计算,这将让更多创新成为可能。

  AI赋能Office 365

  虽然今天我们看到的都是全新的AI技术,但是微软也没有忘记其桌面时代的核心业务Windows和Office。

  AI功能已经成功与Office 365、Dynamics 365、Linkedin等产品和功能融为一体。例如,在发邮件时,微软提供了多种语言的一键翻译。在用Excel时,Excel能更好地猜测用户的行为,提前生成用户可能需要的内容。

  在前些天的锤子手机发布会上,罗永浩推出了自己的坚果 TNT 工作站,用人工智能的语音和语义技术升级Office办公软件,例如,可以用语音指令来做PPT和Excel,用语音指令制作幻灯片,包括调节字体大小、颜色、样式等。

  很多人评论这些需求或许都是伪需求,我们看到微软也在用人工智能升级桌面办公系统,更能直接对比,究竟什么样的智能操作才是我们所需要的。

  免费AI课程上线

  最会,为了推动全民AI,让每个人都有机会学习人工智能,微软推出在线人工智能学院,目标是一年内培养出10 万余名人工智能人才,将免费提供包括AI基础、核心技术和高阶应用在内的总共250课时的12门人工智能学分课程,覆盖10项应用技能。完成课程学习的用户,还可申请微软专业学位课程(MPP,Microsoft Professional Program)作为职业技能认证。 感兴趣的朋友可以敲:(https://school.azure.cn/)

  (原标题:一口气看完微软人工智能布局和产品落地|语音|人工智能|微软)

头条推荐
图文推荐