斯坦福大学DAWNBenchmark最新成绩。
原标题 斯坦福最新深度学习测试:华为云ModelArts排名世界第一
记者马婧
作为人工智能最重要的基础技术之一,近年来深度学习逐步延伸到更多的应用场景。随着深度学习模型越来越大,所需数据量越来越多,深度学习的训练和推理性能将是重中之重。
近日,斯坦福大学发布了DAWNBenchmark的最新成绩,在图像识别(ResNet50-on-ImageNet,93%以上精度)的总训练时间上,华为云ModelArts排名世界第一,仅需10分28秒,比第二名提升近44%。成绩证明,华为云ModelArts实现了更低成本、更快速度、更极致的体验。
斯坦福大学DAWNBench是用来衡量端到端的深度学习模型训练和推理性能的国际权威基准测试平台,相应的排行榜反映了当前全球业界深度学习平台技术的领先性。
深度学习训练加速需求日益剧增
人工智能领域存在巨大的反差,一方面论文数量、AI计划、创业公司数量繁多,一方面传统行业和企业却鲜有部署AI,AI普及率在多个行业还是个位数。华为GIV预测,到2025年,全球人工智能终端将达到400亿台,企业应用云化率将达到85%;企业数据利用率将达到80%;86%的企业将应用人工智能。
近年来,深度学习已经广泛应用于计算机视觉、语音识别、自然语言处理等领域,为了达到更高的精度,通常深度学习所需数据量和模型都很大,训练非常耗时,这也在一定程度上阻碍了深度学习应用的开发进度。因此,深度学习训练加速一直是学术界和工业界所关注的重要问题。
最近BigGAN、NASNet、BERT等模型的出现,预示着训练更好精度的模型需要更强大的计算资源。未来随着模型的增大、数据量的增加,深度学习训练加速将变得更加重要。
华为云ModelArts是一站式的AI开发平台,已经在公测中。在模型训练部分,ModelArts通过硬件、软件和算法协同优化来实现训练加速。可将训练时长缩短到10分钟,创造了新的纪录,为用户节省44%的时间。ModelArts提供自动学习、数据管理等多个模块化的服务,可以帮助不同层级的用户很快地开发出自己的AI模型。
开发者只需聚焦业务模型,无忧其他
在衡量分布式深度学习的加速性能时,主要通过两个指标来衡量,一个是吞吐量,即单位时间内处理的数据量;另一个是收敛时间,即达到一定的收敛精度所需的时间。
吞吐量一般取决于服务器硬件、数据读取和缓存等方面的优化,大部分技术在提升吞吐量的同时,不会造成对模型精度的影响。为了达到最短的收敛时间,需要在优化吞吐量的同时,在调参方面也做调优。如果调参调得不好,那么吞吐量有时也很难优化上去。
对用户而言,最终关心的指标是收敛时间,ModelArts实现了全栈优化,分别在数据读取和预处理、模型计算、超参调优、底层优化等方面进行优化,缩短了训练收敛时间。
在易用性方面,上层开发者仅需关注业务模型,无需关注下层分布式相关的API,仅需根据实际业务定义输入数据、模型以及相应的优化器即可,训练脚本与运行环境(单机或者分布式)无关,上层业务代码和分布式训练引擎可以做到完全解耦。
华为云ModelArts致力于为用户提供更快的AI开发体验,在模型训练这方面,内置的MoXing框架使得深度学习模型训练速度有了很大的提升。事实上,深度学习加速属于一个从底层硬件到上层计算引擎、再到更上层的分布式训练框架及其优化算法多方面协同优化的结果,具备全栈优化能力才能将用户训练成本降到最低。后续,华为云ModelArts将进一步整合软硬一体化的优势,逐步集成更多的数据标注工具,扩大应用范围,在公有云上为用户提供AI服务。