日前,火山引擎宣布推出云原生新版机器学习平台,以支持万卡级大模型训练、微秒级延迟网络,助推大模型训练走向更快更稳。
如火山引擎总裁谭待所言,国内很多科技公司投入到大模型建设中,他们有优秀的技术团队,有丰富的行业知识和创新想法,但往往缺乏经过大规模场景实践的系统工程能力。
大模型训练需要大算力的支持,也需要与之匹配的工程能力。与其他云厂商力推自家大模型不同,火山引擎不做大模型,他们为大模型提供高稳定性高性价比的基础设施,如同为大模型训练装上“发动机”。
大模型带动云上算力急剧增长,为做好相关资源支持,火山引擎宣布与字节跳动国内业务并池,由此,抖音等业务的空闲资源可合理并高效地调度给火山引擎客户使用。
字节跳动副总裁杨震原介绍,并池的池指的是计算池,包括计算、存储、服务器、容器等单元,并池后,可以在一个共享的资源池里调度资源,从而提高整体资源利用率,简单说就是增效降本。
“业务创新需要试错,但试错也一定要控制成本。”杨震原以抖音推荐系统为例介绍,并池后,原本工程师用15个月的样本训练某个模型,5小时就能完成训练,成本只有5000元。
谭待强调,在大模型及下游应用发展推动下,无论传统企业还是初创企业,对AI算力都有迫切需求,企业使用多家云服务将成为常态。同时,各行业有自己高质量的私有语料,大模型不会一家独大,而是会在千行百业生长,形成多模型共生甚至协作的生态。
谭待透露,火山引擎的大模型云平台已获得智谱AI、昆仑万维等众多企业的良好反馈,目前国内大模型已有七成以上运行在火山引擎。