一口气看完微软人工智能布局和产品落地

2018-09-20 14:17
雷锋网

　　目前，微软、Google、亚马逊、苹果、Facebook都巨头都在布局人工智能，将人工智能作为公司全面发展战略，涉及方方面面，不花费一通功夫，很难一下子了解各大公司的技术、布局和产品落地。在北京召开的微软2018人工智能大会上，微软把自家做的事一股脑全说了。

　　发布会的两点主要有：微软着重强调了其新的“世界观”：智能云和智能边缘；展示了微软在语音语义、视觉、机器翻译的多项技术；微软发布ONNX项目及ML.NET打造开源跨平台人工智能开发框架；搭载着全新的“全双工语音技术”的微软小冰带来了原创诗歌、歌曲和儿童故事；中国移动、大疆、唯品会、小米生态链分别展示了与微软人工智能的合作成果。

　　微软新世界观：智能云和智能边缘

　　云计算、物联网、大数据、人工智能正在将我们的世界将变成一台巨大的计算机。

　　微软全球执行副总裁、人工智能及微软研究事业部负责人沈向洋博士介绍到，在这样的新时代，微软有了全新的世界观：智能云和智能边缘。

　　智能云指的是微软Azure，是微软专为人工智能打造的云平台。Azure汇聚了微软在人工智能领域的全部投入与技术积累，是开发、部署、运行人工智能的云平台，同时也是将智能云与智能边缘融会贯通的关键环节。

　　微软一直在拓展Azure的功能，Azure目前有四个方面：公有云Azure、混合云Azure Stack、物联网Azure IoT Edge和Azure Sphere，以这四个方面打造出完整的计算环境，支持全新应用场景。

　　Azure Stack是Azure公有云在本地数据中心的扩展，可以在边缘和离线环境运行、满足多种监管要求。例如石油开发公司同时使用Azure公有云和Azure Stack可以按照办公地点灵活分配计算资源。

　　Azure IoT Edge是微软在2017年Build大会推出的针对智能边缘计算的产品，可以在Linux和Windows上运行，而2018年Build大会上，微软宣布将 Azure IoT Edge 开源，允许开发者进行扩展、添加功能，并部署到任何环境中。

　　Azure 上的认知服务也可以扩展到Azure IoT Edge，目前微软已经推出了定制视觉服务，可以让无人机或其它工业装备无需连接到云，就能做出快速的响应和处理。会上，大疆展示了与微软的合作，利用Azure IoT Edge和微软人工智能服务，大疆开发出适用于农业、建筑行业、公共安全及更多应用场景的解决方案。

　　Azure Sphere主要用于保护和驱动智能云上的设备。2020年，全球智能边缘设备的总数将超过200亿台，世界会成为一台超级计算机，但是我们也会担忧安全问题。Azure Sphere方案将提供经过特殊设计的安全芯片、安全操作系统和能够守护每台设备的云端安全。

　　在介绍完Azure云平台的四个方面后，沈向洋介绍了微软将Azure与AI结合，打造最佳人工智能云平台的四个方向：认知服务、对话式人工智能、开放平台与工具、实时人工智能基础设施。

　　Azure 认知服务

　　在两年前的Build 2016微软全球开发者大会上，微软首次公布了运行于Azure的认知服务，以API的形式为开发者提供易用的人工智能技术能力。目前微软在全球推出包括语音、视觉、语言、机器翻译等功能的24项服务，超过100万开发者使用。

　　CaptionBot 能像人一样理解和描述一张图片，例如，你上传一张照片，CaptionBot能够给出一段文字描述：比尔盖茨正拿着一副网球拍，他看起来很高兴。

　　此外，还介绍了微软OCR（(Optical Character Recognition光学字符识别） ，将为各种人工智能应用增加图形文字识别功能，目前支持从Office到Skype、Bing、HoloLens的微软应用，可以识别图像内的文字，例如识别车牌号、海报甚至是手写的笔记。

　　CaptionBot和OCR都是Azure预制的人工智能服务，微软也针对变化的场景推出了定制视觉服务，可以让不具备深度学习、机器视觉背景的开发者定制图像标签模型、物件认知模型。

　　微软技术院士黄学东介绍了微软在人工智能语音语义方面的进展。在计算机视觉方面，2015年微软亚洲研究院发布的152层残差网络（ResNet）的图像识别准确率已经达到96%，胜过人类；2017年8月，微软在Switchboard语音识别基准测试中的错误率已经降低至5.1%，达到了媲美人类专业速记员的水平；2018年1月，微软亚洲研究院自然语言计算组率先在斯坦福大学发起的SQuAD文本理解挑战赛上获得超越人类的分数；2018年3月，微软亚洲研究院与微软雷德蒙研究院宣布，其研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上，第一个达到了可以与人工翻译媲美的水平。

　　5月初，谷歌在I/O大会上展示了Google语音助手的Duplex（双工）技术，能主动给餐馆、理发店打电话，帮助用户预约时间。由于其声音和音调与人类几乎没有差别，能实现连续对话还能理解上下文快速反应，在朋友圈大火了一把。这时，微软坐不住了，赶紧发出了技术声明，表明微软小冰在两年前就实现了AI与人类通电话，并且在谷歌之前就公布了实现AI与人双向交流的全双工语音技术。

　　在现场，黄学东忍不住Diss了一下，说Google动不动就吹牛， ”微软不仅有全双工，微软更实现了全三工、全四工、全五工……”

　　现场展示了一款“全多工”的产品——微软与Roobo合作的AI会议系统。微软特意在现场准备了四个人的现场会议演示，可以看到，这款AI会议系统能识别不同人的声音，实时以文字记录下大家的发言内容，同时识别出涉及工作安排的内容生成代办事项。这个产品，可以说是每个团队中会议记录员的救星。

　　黄学东还展示了语音定制技术，根据上传的录音，可以生成和用户一样声音的AI助手。上传30分钟的录音，得到的AI说话与用户相似度不高，但是以10小时的录音进行训练后，就能得到较为逼真的模仿效果。想一想，你会想要把家人或者朋友的声音放进AI里，让它随时陪伴你吗？

　　黄学东称今年微软达到中文英文翻译超过专业人士的水平。大会上，小米生态链企业香蕉出行展示了魔芋AI翻译机，借助微软认知服务中的微软翻译打造，能够提供14种语言的实时语音翻译。虽然由于现场混音效果，魔芋AI有几次识别不出语音指令，但翻译的效果还是不错的，可以说是出游利器。

　　对话式人工智能

　　亚马逊Echo智能音箱带动了对话式人工智能的产品落地，现在对话式人工智能已经进入音箱、电视、车载等多个设备中，是新一代智能应用的核心。对话式人工智能也在不断升级其对话能力，追求越来越自然、流畅的人机交流。

　　微软有小娜和小冰两个对话式人工智能助手，小娜更倾向于发展智商，而小冰则是面向情商维度发展的人工智能系统。

　　微软小冰诞生已经三年，一直以逗贫、插科打诨的聊天风格著称。最近，微软将最新的全双工语音交互技术(Full Duplex)应用在了微软小冰上，同时提升了小冰的智商和情商，具备了以下能力：一次唤醒之后的连续对话、预测用户接下来的对话内容、帮助用户轻松完成多重任务、内容创造（写诗、写歌、讲故事）。小冰不只是能够执行用户的任务，还能主动提供聊天语聊，陪伴和关心用户。

　　这次大会上，微软展示了一段小冰在一次电话聊天结束后，由于判断出用户情绪低落，认为需要再一次电话沟通，于是又拨打了一通电话，去询问用户情绪是否变好、提醒用户早点休息、告知用户明天天气情况。

　　据了解，2016年8月起，微软（亚洲）互联网工程院通过人类用户主动发起的方式，在明确告知用户小冰并非人类的前提下，已让小冰与人类用户完成了累计超过60万通电话交流。

　　在内容创作方面，微软展示了小冰写的诗、原创歌曲、有声读物。在有声读物领域，微软已拥有接近4万集有声童话内容。这些有声读物全部由人工智能技术生成，在与人类主播质量相当的前提下，数量足以陪伴一个孩子从2岁到9岁的全部时光。6个月来，这些有声读物已顺利投放到占中国市场90%的儿童早教机、故事机和在线播客平台，播放总时长超过400万小时。

　　今年四月，微软已经在中国和美国宣布了全双工语音技术，并且有多项产品落地，微软（亚洲）互联网工程院副院长李笛宣布，今年秋天，微软还将向合作伙伴和开发者开放“全双工语音技术（Full Duplex）”开发者可以使用这项技术打造自己的对话应用。

　　微软的全双工语音技术开源，这会不会对现在的智能音箱里的“傻萌”的语音助手进行一次洗牌呢？（延伸阅读：微软发大招：要做智商和情商兼具的语音助手）

　　开放平台+基础设施

　　要促进人工智能的普及，技术开放是必经之路，微软也推出了开放人工智能平台（Open AI）战略及开发工具。

　　微软可以支持TensorFlow、CNTK等业界主流的深度学习平台，同时，微软还发起了开放神经网络交换（ONNX）项目，旨在推动人工智能研究的互操作性，让任何深度学习框架在任何芯片与任何设备上都能运行。目前，已经有15家公司支持ONNX，并且还有更多公司正在加入进来。现在已经有PyTorch等六种顶级框架支持ONNX，其它框架则可以通过转换器获得支持。

　　在Build 2018微软全球开发者大会上，微软宣布推出跨平台、开源机器学习框架ML.NET开放预览。ML.NET让任何开发者都能开发出自己的定制化机器学习模型，并将其融入到自己的应用中去——开发者完全无需具备开发和调试机器学习模型的经验。这一框架最初由微软研究院开发，并且在Windows、Bing、Azure等微软产品上都得到了成功的应用。通过将这一技术框架开源，微软希望能够为每一位开发者赋予驾驭机器学习的能力。

　　微软Project Brainwave能利用Azure上最先进的FPGA基础架构完成实时的人工智能处理。用户只需通过实时的单一批数据，就能得到以往需要多得多的批数据处理才能得到的性能，真正实现人工智能的实时计算。而且，FPGA运算不仅仅只在云端提供——通过合作伙伴，也可以通过Azure Stack混合云在本地提供FPGA。如此强大的实时计算能力不仅存在于云端，同时也适用于边缘计算，这将让更多创新成为可能。

　　AI赋能Office 365

　　虽然今天我们看到的都是全新的AI技术，但是微软也没有忘记其桌面时代的核心业务Windows和Office。

　　AI功能已经成功与Office 365、Dynamics 365、Linkedin等产品和功能融为一体。例如，在发邮件时，微软提供了多种语言的一键翻译。在用Excel时，Excel能更好地猜测用户的行为，提前生成用户可能需要的内容。

　　在前些天的锤子手机发布会上，罗永浩推出了自己的坚果 TNT 工作站，用人工智能的语音和语义技术升级Office办公软件，例如，可以用语音指令来做PPT和Excel，用语音指令制作幻灯片，包括调节字体大小、颜色、样式等。

　　很多人评论这些需求或许都是伪需求，我们看到微软也在用人工智能升级桌面办公系统，更能直接对比，究竟什么样的智能操作才是我们所需要的。

　　免费AI课程上线

　　最会，为了推动全民AI，让每个人都有机会学习人工智能，微软推出在线人工智能学院，目标是一年内培养出10 万余名人工智能人才，将免费提供包括AI基础、核心技术和高阶应用在内的总共250课时的12门人工智能学分课程，覆盖10项应用技能。完成课程学习的用户，还可申请微软专业学位课程（MPP，Microsoft Professional Program）作为职业技能认证。感兴趣的朋友可以敲：（https://school.azure.cn/）

　　（原标题：一口气看完微软人工智能布局和产品落地|语音|人工智能|微软）