原标题:清华超算团队包揽三大国际大学生超算竞赛冠军
新京报快讯(记者 王俊)近日,清华大学超算团队摘得2018国际大学生超级计算机竞赛(SC18)总冠军,至此,在2018年三大国际大学生超算竞赛ASC、ISC和SC中,清华大学超算团队包揽了全部三项竞赛的总冠军,实现了继2015年后的又一次“大满贯”。
48小时不间断的比赛赛程
全球超级计算大会(Supercomputing Conference,简称SC)是超级计算机领域的顶级赛事,每年举办一次,吸引着世界各国家和地区的众多高校参与。
据了解,本次竞赛共有来自全球15所高校的本科大学生组队参赛。清华大学作为唯一一所内地高校参赛。
参加本次竞赛的清华学生超算团队成员主要由计算机系于纪平(计52)、余欣健(计55)、何家傲(计62)、郑立言(计64)、赵成钢(计75)和交叉信息院娄晨耀(“姚班”计科60)6名不同年级的本科生组成。指导教师为计算机系副教授翟季冬和博士后韩文弢。
据翟季冬介绍,团队于美国时间周五晚上到达达拉斯。
“我们把机器装箱打包运到美国,周六周日一直在调试机器,安装机器调试到最优的状态。”翟季冬说。
周一早上先进行基准测试程序,测到下午5:30,周一晚上7:00开始到周三晚上7:00为正式比赛时间,48小时不间断。
并且,翟季冬告诉记者,一旦第一天基准测试结束后,就不能再碰机器,不能进行任何配置的修改。
3千瓦功率内进行6个应用程序的性能比拼
超算比赛可以看成“F1”赛事,参赛队伍要在3千瓦功率的限制条件下,搭建计算机集群系统,并在集群系统上进行6个应用程序的性能比拼。
参赛团队需要在48小时的竞赛中完成超算集群的性能基本测试HPL(直译为高性能线性系统软件包)和HPCG(直译为高性能共轭梯度),大规模机器学习,核裂变链式反应的稳态求解与模拟,论文复现——特大地震模拟,现场公布的神秘应用等内容。
除了考察成员的计算机“脑力”,比赛还会考察团队成员的写作、表达能力。
比赛设置了采访、参会、海报设计等环节,成员需在比赛中向评委介绍自己优化的应用和正在进行的软件优化设计。
并且,团队还需要在48小时内完成一篇在国际权威杂志具有发表能力的英文论文。
惊险随机“断电”考验计算机恢复能力
与其他两个大赛不同的是,本次SC大赛有随机断电环节的设置。
“什么时候断、断几次都是未知。”队长于纪平告诉记者,“这次大赛是在第一天晚上12点断电。断电后组委会要求所有参赛队伍把插头拔下来,来进行检查。团队除了拔插头不能进行任何操作。“
这也是组委会为了考察计算的集群断电后的恢复能力,检验计算设备能否经得起断电考验。
断电给清华超算团队带来挑战的同时也带来了“幸运”。
据翟季冬介绍,今年机器的集群没有采用星状结构,而是用了链状结构。
“通过网线串联起机器的链状结构,能够省去交换机消耗的100多瓦功率,但同时也带来了不稳定性。”翟季冬说,“因为链状结构中间任何一根线断了,就会使得机器之间失去‘联系’。”
后来团队头脑风暴,想出一个办法,在链的两头,各自引一根线出来,接到选手的机器上,一旦中间线断了,引出的“小辫子”还能继续访问机器。本来中间走的流量,可以从两头走,利用选手的电脑交换数据。
链状结构在周一晚上出现了问题,由于比赛规定不能碰机器,不能检查线缆,只能通过远程的方式检查。“我们正在排查故障的时候断电了。断电重启后,故障竟然消失了。”于纪平说。
“超算是计算机本源的集中体现形式之一”
超级计算也称为高性能计算,是研发超级计算机及其软件和应用的领域。
清华大学超算团队,在今年的三大国际大学生超算竞赛ASC、ISC和SC中,包揽了三项竞赛的总冠军,实现了继2015年后的又一次“大满贯”
清华大学计算机系系主任、中国工程院院士吴建平认为,IT行业热点很多,大数据、人工智能物联网、区块链……热点与计算机科学本源怎么平衡,是一个值得深思的。
“超算是本源的集中体现形式之一,是比赛高性能、低耗能指标的平衡。高性能计算能力的增强,是驱动计算机发展动力。怎么把基本的计算单元搭建更高速、更大规模计算能力的装置,是一个很大的挑战。”吴建平说。
新京报记者 王俊 编辑 黄哲程