今年5月,最新一期全球超算TOP500(第63届HPC TOP500)排行榜榜单发布,排列在第3位和第10位的微软Eagle系统和英伟达Eos系统非常关注,因为它们都不是传统意义上的“超算”,而是当下炙手可热的“智算”,也被称为“人工智能(AI)超级计算机”。
“人工智能超级计算机说明大规模计算走向超智融合是大势所趋。”在日前结束的第二十届中国高性能计算学术年会(HPC China 2024)上,国家高性能计算机工程技术研究中心副主任曹振南在接受《中国科学报》专访时表示,“超算和智算之间的界限正变得模糊,可以说它们在本质上是同类。”
从计算机技术发展史看,从第一台电子计算机开始,计算的发展脉络就与代表智能的“模拟神经网络”分道扬镳。直到20世纪90年代初,人们才在日本所谓“第五代计算机计划”的带动下,开始讨论“智能计算机”。
但是,“第五代计算机计划”最终因未能实现既定目标而宣告失败。此后的二三十年里,高性能计算机和智能计算机的各自发展像是两条平行线,超算和智能一个要求“算得快”、一个追求“算得巧”,最终成了“两条道上的车”。
非常有意思的一件事是,就在日本科学家热火朝天研制“第五代计算机”、意图实现AI计算的那些年里,中国的科学家通过“863计划”,依托国家智能计算机研究开发中心,开发出中国第一代超级计算机。
用中国工程院院士、中国科学院计算技术研究所研究员李国杰的话来说,“我国其实是以智能计算机的名义发展了高性能计算机”。
近年来,随着深度神经网络的成功和大数据的兴起,超级计算和以深度学习技术、大模型技术为代表的计算智能逐步走到一起,李国杰称之为“历史性的汇合”。具体体现为,高性能计算机大量用于人工智能的训练和推理,智能算法也在为传统的高性能计算加速。
如今,大模型训练等智能应用对算力高度依赖,传统超算跟智能计算形影不离、难分彼此。在最新一期HPC TOP500榜单上,除了文章开头提到的两台典型的“智能超算”,其余大多数超级计算机都兼具专门的智算架构,是典型的超智融合下的“异构多元算力”。
就在HPC China 2024开幕的前一天,中国智能计算产业联盟、国家高性能计算机工程技术研究中心等联合在武汉发布国内首部超智融合研究报告《2024中国算力发展研究报告之超智融合技术路线与趋势》(以下简称研究报告)。
围绕“AI发展催生海量算力需求背景下,超算与智算技术如何融合发展”“多元算力如何协同发力”等前沿问题,研究报告作出了系统性的思考与探讨。
“超智融合成为热门话题,并不是因为它有话题度,而是确确实实正在发生的事。”在研究报告的发布现场,国家高性能计算机工程技术研究中心常务副主任何铁宁分享说,在当前的数智时代,“超智”的融合体现在数据层面、算法层面、业务层面和系统架构层面,可以说无所不在。
他举例介绍,在数据层面,现实世界许多场景缺数据,人工智能大模型即便想要构建该场景下的模型应用,也是“巧妇难为无米之炊”。数据何来?领域专业技术人员利用高性能计算进行建模、计算、仿真等,就能产生大量高精度、高质量的数据,这一些数据都会成为训练大模型的“养料”。反过来,大模型训练成功后,也会成为人类用以挖掘最新规律、取得科学发现的得力工具。
在算法层面,科学家们在积极地将超智两端的算法技术实现“互用”。例如,数值计算中的求解回归方程可以融入一定深度的神经网络,而在神经网络中也能够最终靠加入一些物理机制,如第一性原理等来加速、提高算法效率。
在业务层面,融合越来越明显。创新药物研发、气象、智慧城市、工业制造等传统超算的“地盘”,都开始有智能的影子。
上海超算中心主任李根国在现场分享说,上海气象局已经在利用传统高性能计算机做气象数值模拟的基础上,发展出结合人工智能、大数据等技术的天气预报新范式;中国科学院上海药物研究所原本是典型的“超算用户”,但现在已经将药物研发与大模型结合起来,使创新药物研发效率提高数倍。
数据、算法和业务上呈现的这些业态,不能离开底层架构上的超智融合。“一个全新的算力中心,要想使数据有效地共享流通、发挥协同作用,必须依靠超智融合的多元算力设施。”何铁宁说。
对此,中国工程院院士、鹏程实验室主任高文认为,智能超算和传统数值超算不同之处大多数表现在处理的对象是标量还是张量,以及数据的输入是一次还是自始至终。虽然二者相互关系的讨论还没有定论,但必然逐步走向融合。
何铁宁告诉《中国科学报》,前述围绕超智融合技术路线的研究报告,首次提出A与计算是一种“双向赋能”。
研究报告认为,虽然超算在设计之初并不是专为AI算法而生,超算与智算的发展和应用也各有侧重,但随着彼此在发展过程中互相借鉴、互相赋能,高性能计算与AI走向融合是顺应潮流大势。
谈及超智融合,中国科学院院士、北京航空航天大学计算机学院教授钱德沛提出,超智融合在技术路径上需要从硬件、软件两方面综合考量,并且要在符合国情的前提下,做好软件和硬件的协同,以最佳匹配组合支持特定应用。
这是他一直希望看到的:“我们可能在单点技术上暂时不能跟领先水平相匹敌,但能够最终靠系统性的创新协同发力特别是在硬件层面和软硬结合层面,实现计算技术进步和支撑复杂场景应用两开花。”
在钱德沛的构想中,超智融合的进程将会沿着“超算支撑AI应用”(For AI)、“用AI技术改进超算”(By AI)、“超智实现内生融合”(Being AI)三个阶段演进。
“到了Being AI阶段,计算机系统将内生智算属性,或者说智能是计算机的核心属性和基本组成,它的智能化水平可能远超今天的超算或智算。”钱德沛说。
当前,在超智融合沿着For AI、By AI、Being AI的路径演进的过程中,硬件能力是先进计算平台汇聚超智互动生态的有效依托。换言之,若用户可以一站式获得通用、全精度的高算力硬件设施,包括“混合精度计算”在内的各类不同精度的算力需求就能快速得到满足。
研究报告提到,国内涌现出来的一些先进计算平台,如国家超算互联网,是超算、智算基础设施融合演变的重要依托。这一些平台通过链接全国的超算、智算基础设施,汇聚全国各个算力中心的异构算力资源,不仅让用户便捷地获得所需计算服务,还让多个超算中心、智算中心之间更加紧密耦合,从而更高效地共同应对大型复杂计算难题。
据曹振南介绍,自从2024年4月11日国家超算网络站点平台正式上线以来,平台依托一体化的算力调度、数据传输、生态协作体系,紧密连接供需方,通过市场化的运营和服务体系,实现了算力资源统筹调度。
“截至8月底,超算网络站点平台已链接超280家服务商,提供超6300个计算商品,可为上百个行业及1000多个应用场景提供算力服务。”曹振南说,国家超算互联网正成为先进算力底座。
上一篇:人工智能电脑已成“个人助理”
下一篇:用计算科学促进科学和社会进步