大模型再多也不够用?不管是自研还是借用,算力都是“硬需求”
通义千问、文心一言等国产大模型通过备案,国内人工智能行业随之进入新阶段。当中国造大模型向全社会开放,是否意味着大模型已实现普及?
“我们正在面临一个全新的计算时代,全球各地的企业正在从通用计算转型为加速计算和生成式AI。”近日,英伟达深度学习解决方案技术专家梁潇在北京表示,大模型的普及仍然不够,企业需要为特定的业务使用定制大模型。
对于大模型的推广和应用,阿里云、英伟达、百度、华为等互联网科技公司均在算力市场进行布局。但在业内人士看来,产品加生态才是企业的两条腿。“领军企业已针对AI领域研发了超级计算机,但并不是小公司都不用做了,不同的垂直赛道都可以有自己的应用。”
大模型技术推动数智商业时代到来,数字经济正成为重组全球要素资源。重塑全球经济结构,改变全球竞争格局的关键力量。在物理仿真软件新星熙流数字创始人牟熙看来,企业数智化水平和企业家的创新变革,正逐渐成为核心竞争力。“在这场全球数字化、智能化的技术变革中,如何抓住机会,寻找新的用户需求和商业模式,是每个企业家思考的问题。”
各家积极应对
想尽办法做大模型
没条件,创造条件也要上——这似乎是大模型参与者中的多数心态。而如何创造条件,应对真实存在的问题,各家也是方法颇多。
由于高端GPU芯片短缺,且中国市场能用的GPU不是最新代次,性能通常更低一些,所以企业需要更长的时间来训练大模型。这些公司也在寻找一些创新性的办法来弥补算力短板。
其中一种方法是,使用更高质量的数据去做训练,从而提升训练效率。近期,信通院牵头发布了《行业大模型标准体系及能力架构研究报告》,其中就提到了大模型数据层的评估。报告建议,在数据质量方面,由于其对模型的效果影响会很大,推荐引入人工的标注和确认,至少从原始数据中挑选一定比例进行标注,从而构建并严重高质量的数据集。
除了通过高质量数据减少大模型成本,对于业界来说,提升基础架构能力,实现千卡以上稳定运行两周不掉卡,是技术难点也是构建可靠基础架构、优化大模型训练的方法之一。
“作为云服务商,我们会帮助客户建立起稳定可靠的基础架构。因为GPU服务器卡的稳定性会差一些,任何故障都会让训练中断,导致整体的训练时长增加。高性能计算集群,可以给到客户更稳定的服务,也能相对减少训练时长、解决一些算力问题。”周立军说。
同时,算力卡资源调度也考验服务商的技术能力。火山引擎华东互联网解决方案负责人徐巍告诉钛媒体,拥有算力卡资源只是一方面,如何将卡资源调度起来,真正投入使用,是更具考验的核心能力、工程能力。“把一个卡拆成很多小卡,尽量能做到分布式的精细化的调度,可以更近一步降低算力成本。”徐巍说道。
网络也影响大模型训练速度和效率。大模型训练动辄千卡,连接几百台GPU服务器所要求的网络速度极高,如果网络有点拥塞,训练速度就会很慢,效率很受影响。“只要一台服务器过热宕机,整个集群都可能要停下来,训练任务要重启。这对云服务运维能力与排查问题能力的要求非常高。”邱跃鹏说。
也有厂商另辟蹊径,从云计算架构过渡到超算架构也成为减少成本的一种方法,即在都能满足用户需求的情况、非高通量计算的任务及并行任务场景下,超算云大概是云超算一半左右的价格,然后再通过性能优化资源利用率可以从30%提高到60%。
另外,也有厂商选择使用国产平台做大模型的训练和推理以替代一卡难求的英伟达。“我们跟华为联合发布了讯飞星火一体机,能够在国产平台上自己做训练做推理,这是非常了不起的。我特别高兴地告诉大家,华为的GPU能力现在已经跟英伟达一样,任正非高度重视,华为的三位董事到科大讯飞专班工作,现在已经把它做到了能对标英伟达的A100。”科大讯飞创始人、董事长刘庆峰曾表示。
上述方法,每一种都是一个相对大的工程,所以,一般企业是很难通过自建的数据中心来满足,很多算法团队都选择最专业的算力厂商来支持。这其中并行存储也是很大的一种成本,以及技术能力,对应的故障率的保障等等也属于硬件成本的一部分。当然甚至要考虑,IDC可用区电的成本,软件、平台、人员成本等运营成本等等。
千卡级别的GPU集群才会有规模化效应,选择算力服务商,等于说边际成本为零。中国工程院院士,中国科学院计算技术研究所研究员孙凝晖也曾在演讲中提出,AIGC 带来 人工智能产业的爆发,而智能技术的规模化应用具有典型长尾问题,即具备强 AI 能力的强势部门 (网安、九院九所和气象局等)、科研院校与大中企业只占据算力需求主体的大约 20%,另外 80% 则均为中小微企业,这类主体受限于公司规模与预算,往往难以接入算力资源、或受限于算力的高昂价格,从而难以在AI时代浪潮中获得发展红利。因此,要实现智能技术的规模化应用,让人 工智能产业既“叫好”也“叫座”,需要大量便宜、易用的智能算力,让中小微企业也能方便、 便宜地使用算力。
而无论是大模型对算力的急切的需求,还是算力在应用过程中需要解决的各种难题,这其中都需要注意的一个新变化是,算力已经在市场需求和技术迭代的过程中,成为了一种新的服务模式。
算力需求暴涨
地方加速布局
不久前发布的《中国人工智能大模型地图研究报告》显示,目前,中国10亿参数规模以上的大模型已经发布了79个,在全球占比很高。一名业内人士表示,如果这些大模型都能走向市场,算力需求会非常可观。
业内人士说:“目前来看,整个国内对于算力这种训练的需求或者预训练的需求并不是特别大。那么,未来有没有可能爆发?我觉得一定会爆发,是因为在大模型真正训练成熟之后,那么对各方面的推理需求、实时推理的需求应该一定是非常大的。”
除了规模,大模型对算力布局和数据传输也提出了要求。广东联通算网研究运营基地市场总监骆益民认为:“目前大模型还是基于整个节点租赁提供算力服务的这种模式。如果要满足这种超大规模计算、高通量的带宽,我们只能把业务的需求和算力节点更加靠近一点,来解决传输时延的问题,以及节点内通讯的问题。第二是要做算力梯次化、层次化、合理化布局,将来实现算力、标注、训练一体化的功能。”
在供应层面,目前,全国90%左右的算力都是通用算力,智能算力和超算算力占比很小。一些企业发现了巨大的需求潜力,开始布局智能算力。在中国联通互联网应用创新基地,智能算力的规划占比高达25%。
工作人员说:“机架构成,现在如果是按比例算,通用算力应该是2,然后智算和超算都是1,也就是2:1:1的关系,现在是以通用为主。”
搜索各地发布的信息可以发现,不少地方都在超前布局建设智能算力基地。一些专家用“零敲碎打”“遍地开花”这样的词来形容当前智能算力的发展态势。广州广电研究院董事长、总经理邓家青认为,算力的智能化是一大趋势,但超前布局要适度。
邓家青说:“ChatGPT出来之后的跟风也好,其它也好,我们也是一直在研究探讨。如果说每个区都建一个,每个国企自己也建一个,每个民营企业自己建一个,建了之后面对的客户是谁?市场化运营以后要赚钱,作为企业,投入跟产出要匹配。”
算力商业模式迭代
ChatGLM是最早一批推出的通用大模型,以智谱AI的ChatGLM算力使用为例,据已经公开披露的消息,智谱AI使用了国内多家主流AI算力服务商。“理论上应该所有的都有用了。”知情人士表示,这其中可能还包括了国内主流的算力服务商/云服务商。
按量计费和包年包月计费是当前算力服务的主流模式,使用需求大致有两种,一种是选择对应的算力服务实例,在某云服务商的官网界面,可提供搭载英伟达A800、A100、V100三种主流显卡的高性能GPU服务器。
另一种是选择对应的MaaS服务平台,在MaaS平台中对大模型进行行业性的精调。以腾讯云TI-ONE平台按量计费刊例价为例,8C40G V100*1的配置,20.32元/小时,可用于自动学习-视觉、任务式建模、Notebook、可视化建模。
当前行业也在推进算力服务的“算网一体化融合”,通过对计算任务、算网资源状态等信息的综合判断,形成可支持跨架构、跨地域、跨服务商调度的算网编排方案,并完成相关资源部署。例如,只要存一笔钱,存到算力网络里来,算力网络中的分区可以随意调用。根据应用特点,选择最适合的分区、最快的分区、最具性价比的分区,然后根据时长计费,从预存的资金中把费用扣除。
云服务商也是如此,算力服务作为云服务一项独特的产品,使他们迅速参与到算力产业链中来。
工业和信息化部数据显示,2022年中国算力总规模达到180EFLOPS,位列全球第二。截至2022年,中国算力产业规模已经达到1.8万亿。大模型算力很大程度上加速了算力产业的发展。
一种说法是,当下的算力服务,实际上是一种新型的“卖电”模式。只不过根据分工的不同,一部分算力服务商可能需要帮助用户做更多系统性能调试、软件安装、大规模作业运行值守和运行特征分析,即一部分的最后一公里运维工作。
随着大模型高性能计算需求的常态化,脱胎于云服务的算力服务,俨然快速进入大众视野,形成了独特的产业链和商业模式。只不过在算力产业因大模型而爆发的伊始,高端GPU短缺、算力成本高企、抢“芯”形成了属于这个时代的独特风景。
“现阶段卷的是供应链中谁能拿到卡,英伟达是目前整个行业的王者,所有的市场都被它控制,这是现状。”知情人士评论。目前境况仿佛是,在供不应求的情况下,谁能拿到卡,谁就可以去交付业务。
但并不是所有人都在抢“卡”,因为短缺是暂时的,问题总会解决。“做长期研究的人其实不抢,正常等着就行了,因为他不会死。现在正儿八经抢卡的只有一批创业公司,他们要保证自己可以活到明年。”上述人士称。
在诸多不确定性中,算力成为一种服务是确定性趋势,算力服务商要做的是随时准备,在大模型回归理性、市场风向快速转变的时候,能未雨绸缪。
同类文章排行
- 5SHX1960L0006 3BHB016120R0002
- 怎么联系业务?
- ABB厦门工业中心“碳中和”园区示范基地落成
- 3500/22M 288055-01 表面检测系统分类性能的
- 协作机器人市场能否在后疫情时代迎来二次增长?
- 3500/33-01-00 全集成线扫描接触式图像传感器
- 5SHX1960L0006 3BHB016120R0002
- 辉瑞6年的工业数字化转型历程与成果
- 3500/34 125696-01 相机用于开发眼睛研究的瞳
- 5SHY4045L0003 3BHB021400 克服制造
最新资讯文章
- CI535V26 3BSE022161R1 凯本隆SC30双
- SB510 3BSE000861R1 智能驾驶领域再迎新动作
- RB520 3BSE003528R1 CMA三十而立:埃夫特
- SC520 3BSE003816R1 皮尔磁即将亮相汉诺威工
- SC520M 3BSE016237R1 智辟新天地!ABB机
- CS513 3BSE000435R1 ABB赋能广东阳江能源
- MB510 3BSE002540R1 ABB推出水和废水能源
- SC510 3BSE003832R1 将人工智能嵌入全线业务
- SR511 3BSE000863R1强生公司将以7亿美元出售
- RF533 3BSE014227R1 龙沙从罗氏收购加州生物