成立快两年，阿里巴巴达摩院都干什么了？

日期：07-11

阿里巴巴图像识别达摩院

作者： Decode

达摩院成立快两年之际，机器智能技术实验室抢先展示了一下成绩。

2017年10月，阿里成立了达摩院，覆盖5个研究领域，建有14个实验室。除了上述的“机器智能”，达摩院研究大方向还有数据计算、机器人、金融科技、X实验室。

成立快两年，阿里巴巴达摩院都干什么了？

机器智能技术实验室侧重于AI相关技术的基础研究，旗下设有语音实验室、视觉实验室、语言技术实验室、决策职能实验室、以及城市大脑实验室。

近日，达摩院机器智能技术实验室举办了一场小型媒体沟通会，几位技术专家向外界介绍了最新成果和进展。

成立快两年，阿里巴巴达摩院都干什么了？

兼具表现力和稳定性的语音合成技术

首先，机器智能技术实验室正式发布了新的语音合成技术KAN-TTS（KAN指的是Knowledge-AwareNeural）。TTS（Text-To-Speech，文本到语音）是一种将文字转化成语音的技术，智能音箱、个人虚拟助理都需要这种技术支持。

达摩院机器智能语音实验室高级算法专家雷鸣介绍，当前业界商用系统的合成语音与原始音频录音的接近程度，通常在85%到90%之间，而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

简单来说，KAN-TTS合成的语音更加像真人的语音，“接近真人韵律的感觉”。

成立快两年，阿里巴巴达摩院都干什么了？

“我们新一代的TTS解决方案深度融合了传统TTS和端到端TTS，基于不同领域的深层Knowledge。”雷鸣介绍道。

所谓端到端TTS，即不依靠领域知识，基于强大的深度学习模型、海量数据来生成音频，优势是大大节省设计的工作，并且得到更加流畅、表现力更好的合成语音，但需要大量计算力支持，而且会出现丢字、漏字等不稳定的情况。Google的Tacotron和DeepMind的WaveNet都是典型的端到端TTS模型。

而传统TTS需要花费大量时间和精力去了解相关的领域知识，设计难度较高，但胜在合成的语音比较稳定。

通过将传统TTS和端到端TTS的结合，KAN-TTS结合了两者的优势，充分利用不同领域的深层Knowledge，合成表现力和稳定性具佳的语音。

针对不同的需求，机器智能技术实验室提供了“开箱即用”的TTS产品，覆盖5大场景（通用场景、客服场景、童声场景、英文场景和方言场景），具备34个高品质的声音。

成立快两年，阿里巴巴达摩院都干什么了？

除了“开箱即用”的声音，达摩院这个语音合成方案还能让专业用户定制声音。

传统语音合成定制需要10小时以上的数据录制和标注，对录音人和录音环境要求很高。“从启动定制到最终交付，需要半年时间”。而达摩院利用Multi-SpeakerModel与Speaker-awareAdvancedTransferLearning相结合的方法，将语音合成定制成本降低10倍以上，周期压缩3倍以上。

也就是说，用1小时有效录音数据和不到两个月制作周期，就能完成一次标准TTS定制。

此外，普通用户也可以自己定制“AI声音”，只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。

成立快两年，阿里巴巴达摩院都干什么了？

语音、自然语言、视觉各领域都有新成绩

除了公布新语言合成方案，机器智能技术实验室还亮出了新成绩。

机器智能技术实验室透露，阿里AI在国际顶级技术赛事上获得了40多项世界第一，入选了近400篇国际顶会论文。具体到细分领域，机器智能技术实验室最近都有不同建树。

语音领域，2019年1月机器智能技术实验室在国际顶级对话系统评测大赛（DSTC-7）上获得双料冠军，将人机对话准确率的世界纪录提升至94.1%，并于2019年7月开源了创造这一记录背后的人机对话模型ESIM。

事实，该算法模型提出了两年多，已被包括谷歌、facebook在内的国际学术界在200多篇论文中引用。

成立快两年，阿里巴巴达摩院都干什么了？

自然语言理解方面，机器智能技术实验室在6月的MSMARCO文本阅读理解挑战赛中，击败了Facebook和微软，创造了阅读理解能力测试的新纪录，并在开放域问答任务上超越人类阅读水平。

MSMARCO挑战赛是AI阅读理解领域的权威比赛，参赛机构提供的AI模型需要在搜索引擎返回的网页文档中，找出100万个问题的正确答案。

阿里方面介绍，阿里AI模型的突破在于提出了基于“融合结构化信息BERT模型”的“深度级联机器阅读模型”，可以模仿人类阅读理解的过程，先对文档进行快速浏览，判断，然后针对相应段落进行精读，并根据“自己的理解”回答问题。

达摩院机器翻译技术团队已实现了48个语言翻译方向，支持俄、西、法、阿、土，泰、印尼、越南等多种语言翻译，其中电商覆盖了大部分语向和场景，超越了谷歌和亚马逊，日调用量达到17.9亿次。

成立快两年，阿里巴巴达摩院都干什么了？

在机器视觉领域，机器智能技术实验室在图像搜索、大规模图像识别、视频分析、线下视觉智能等领域都有所建树。其中，图像搜索领域，阿里AI的向量引擎比Facebook快6倍。

机器智能技术实验室在6月份刚刚结束的WebVision竞赛中，阿里AI以82.54%的识别准确率，击败了全世界150多支参赛队伍，获得冠军。机器智能技术实验室称，阿里AI目前可以识别超过100万种物理实体。

WebVison是目前图像识别领域最权威的竞赛之一，专注于物体识别，被誉为接棒ImageNet的大规模图像识别竞赛。

7月，在CVPR2019举办的LPIRC（低功耗图像识别挑战赛）中，阿里AI获得在线图像分类任务第一名。在挑战赛使用的训练数据集上，阿里AI实现了67.4%的分类精度，比官方提供的基准线高3.5%。

值得注意的是，上述只是达摩院旗下机器智能技术实验室的进展和成绩。到2019年10月达摩院两周年之际，会有更加全面的消息公布。

成立快两年，阿里巴巴达摩院都干什么了？

伊朗被控在美大选前“谋杀特朗普”！特朗普返回白宫第一天，将聚焦这三件事！马斯克角色引人关注

天猫精灵发布“哇哦闺蜜机 ”新品：100Hz高刷屏，定价2799元起

高质量发展调研行｜回龙观老批发市场变身文体新公园辐射85万回天居民

十年数博会助力中国“数字力量”崛起

中国“黑科技”征战巴黎奥运会 AI大模型落地应用成竞争焦点

成立快两年，阿里巴巴达摩院都干什么了？

伊朗被控在美大选前“谋杀特朗普”！特朗普返回白宫第一天，将聚焦这三件事！马斯克角色引人关注

天猫精灵发布“哇哦闺蜜机 ”新品：100Hz高刷屏，定价2799元起

高质量发展调研行｜回龙观老批发市场变身文体新公园 辐射85万回天居民

十年数博会 助力中国“数字力量”崛起

中国“黑科技”征战巴黎奥运会 AI大模型落地应用成竞争焦点

高质量发展调研行｜回龙观老批发市场变身文体新公园辐射85万回天居民

十年数博会助力中国“数字力量”崛起