AI算力“编织”成网,安享智能未来
2022-11-09
AI算力是未来国家、城市、企业的核心竞争力。
在人工智能时代,AI算力就是电,AI计算中心就是电厂。
在电力时代,我们构建了一个“网格”,现在随着全球人工智能计算中心的陆续落地,我们正在编织一个AI算力网络。
算力网络自2019年诞生至今已有3年多,在产业界的共同努力下,算力网络技术研究在国际取得了显著的进展。国际上,互联网工程任务组(Internet Engineering Task Force,IETF)已经开展了计算优先网络框架(computing first network framework)系列研究;欧洲电信标准组织(European Telecommunication Standards Institute, ETSI)和宽带论坛(Broadband Forum,BBF)分别启动了NFV-EVE020和SD-466相关技术研究;国际电信联盟电信标准化部门(International Telecommunication Union Telecommunication Standardization Sector,ITU-T)也发布了Y.2501(computing power network-framework and architecture)的技术标准。在中国,三大运营商与中国通信标准化协会(China Communications Standards Association,CCSA)同期开展了包括算力网络需求与架构、算力路由协议技术、算力网络标识解析技术、算力网络控制器技术、算力网络交易平台技术、算力网络管理与编排技术、算力度量与算力建模技术等全方位的标准技术研究工作,有力地推动了算力网络的发展。
目前,人工智能的发展已经上升到国家战略层面。 加快人工智能产业发展,保障和提供充足的人工智能算力,已经是在人工智能时代取胜的国家、城市和企业亟待解决的问题。
AI算力,顾名思义,就是支持AI的计算能力。 这里的计算不是加减乘除,而是对世间万物的计算,是万物互联和人工智能互联下的高度复杂且无处不在的计算。
与传统算力不同,为了支持人工智能模型的开发、训练和推理,AI算力对并行处理能力的要求特别高,因此需要专门的人工智能芯片和框架。
因此,人工智能的算法越来越依赖于算力的发展。
目前,为AI提供算力的主流AI计算加速芯片主要为以下几种:
GPU:图形处理器(Graphics Processing Unit,GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。
FPGA:现场可编程门阵列(Field Programmable Gate Array,FPGA)。其设计初衷是为了实现半定制芯片的功能,即硬件结构可根据需要实时配置灵活改变。
ASIC:专用集成电路(Application Specific Integrated Circuit,ASIC),适合于某一单一用途的集成电路产品。
他们之间与传统的CPU对比如下:
从图中可以看出,针对不同的计算任务、不同的场景,不同类型的芯片各具优势。
不同于传统算力,AI算力为了支撑AI模型的开发、训练和推理,对并行处理能力的要求特别高,也因此需要专门的AI芯片和框架。
正是有了这些AI芯片和AI框架释放出的AI算力,我们才能加速进入万物互联和人工智能时代。
对国家级别来说,AI是从制造大国向制造强国转型升级的关键。最近多年,众多城市都在努力争夺各种资源提升城市的发展力和竞争力,而AI算力就是未来发展最重要的“资源”。
在人工智能的世界,没有AI算力,就像没有电。
AI算力已渗入到我们生活的方方面面,以如今比较常见的警力系统为例:
一孤寡老人在路上遗失走丢,亲属报警,警方出动全所人员,花费3天72小时轮流查看路面监控系统无法寻找到线索,此时调动了AI算力,用到了3D视觉定位、机器人智能抓取、智能视觉复核技术等技术,同时配合城市的全部高清摄像头数据抓取,10秒定位了老人的行动轨迹,并寻找到老人第一时间送院治疗;
它来的最直观的改变,大量的缩短了人力成本与时间成本,这个过程中,就能看出AI系统能算得有多快、多好、多准,这背后的支撑就是强大的AI算力。
AI算力如此重要,但很多企业缺乏足够的资金来搭建自己的AI算力。那AI算力需求该如何被满足,国家、城市又该如何提供足够的AI算力支持,推动AI产业发展并赢得AI时代的竞争力呢?答案是,要让AI算力成为公共资源,配套建立新型基础设施。
这种新型的算力基础设施就是人工智能计算中心,用回电气时代的比喻,那就是要建电厂和电网。
首先是,加快人工智能计算中心的建设。
人工智能计算中心,是以基于人工智能芯片构建的人工智能计算机集群为基础,涵盖了基建基础设施、硬件基础设施和软件基础设施的完整系统,其核心功能就是,提供从底层芯片算力释放到顶层应用使能的人工智能全栈能力,也就是输出AI算力。
人工智能计算中心除了是提供公共算力服务的平台,还同时应该是应用创新的孵化平台、产业聚合发展平台和科研创新人才培养平台。只有同时扮演好这些角色,集中最多的力量,形成产业汇聚力并提升AI竞争力。
其次,高效利用人工智能计算中心的算力资源。
当越来越多的人工智能计算中心建成并投入运营,如何让它们的计算能力更加高效,服务更多的行业和企业?如何避免各地计算能力分布不均,使用效率不一致?在没有建设人工智能计算中心计划的地方,如何启用AI计算能力?人工计算中心之间的互联、协作和共享已经成为各界需要考虑的问题。
这就需要人工智能计算网络,就像电网对于电厂和消费者一样。
借助算力网络,我们可以将分布在全国各地的人工智能计算中心的节点连接起来,根据算力资源的状态和需求,动态、实时地分配和调度计算任务,形成全国范围的感知、分配和调度人工智能中心的算力网络,然后在此基础上汇聚和共享计算力、数据和算法资源。
最重要的是,有了这个网络,更多的行业和企业可以像现在一样使用AI算力。
总结算力网络就是汇聚大数据+算力,使能大模型和重大科研创新,孵化新应用。从而实现算力的网络化,降低计算成本,提高计算能效。
事实上,过去十年,人类最好的AI算法对算力的需求几乎增长了100万倍,平均每3.4个月翻一倍。
相比之下,全球AI算力的增长却十分有限。
没有强大AI算力,一个国家或地区必然在未来的科技竞争中处于劣势。
未来,一旦人工智能计算中心全部建成,并组成人工智能算力网络,不但将为社会提供跨地域、源源不断的超级算力。而且,还能够实现跨区域的科研和产业协作,使能大模型和重大科研创新,为千行百业孵化新应用。
最终,使得人工智能赋能更多的行业和场景,让我们在未来国家之间的产业和科技竞争中立于不败之地。