不出所料,阿里巴巴带来了一款ARM架构的服务器芯片。
2021年10月19日,云栖大会现场,阿里巴巴旗下半导体公司平头哥发布自研云芯片倚天710,采用5nm(纳米)工艺,单芯片容纳高达600亿晶体管;在芯片架构上,基于最新的ARMv9架构,内含128核CPU,主频最高达到3.2GHz。
阿里表示,该芯片已于7月流片,性能超过业界标杆20%,能效比提升50%以上,“是业界性能最强的ARM服务器芯片”。而作为阿里第一颗为云而生的CPU芯片,倚天710将在阿里云数据中心部署应用。
阿里云智能总裁张建锋表示,倚天710是阿里云推进“一云多芯”策略的重要一步,正如云上用户不需关心服务器运维一样,他们也不再需要关心芯片。
2018年4月,阿里巴巴全资收购大陆唯一拥有自主嵌入式CPU IP核的半导体公司中天微,并在数月后将达摩院芯片研发团队与中天微团队合并成立平头哥半导体公司。这是阿里在芯片领域最早的动作。
三年间,平头哥完成从发布首款RISC-V处理器玄铁710、首款云端AI推理芯片含光800,到首款通用服务器芯片倚天710的“三级跳”,拥有处理器IP、AI芯片及通用芯片等产品系列。张建锋透露,玄铁CPU已出货超25亿颗,成为国内应用规模最大的国产CPU。
不过,张建锋明确表示,新研发的倚天710芯片不出售,将在很长一段时间内自用。首款搭载倚天710的磐久服务器同时亮相云栖大会。但张建锋同时也强调,阿里将继续与英特尔、英伟达、AMD、ARM等合作伙伴保持密切合作,为客户提供更多选择。
为什么是ARM架构?
在倚天710发布前一天,云栖C场馆的达摩院展台已经发出了信号:展台从左到右摆着平头哥曾经发布的芯片,包括人工智能芯片含光800等,再往后,则盖着神秘红布。随后,有消息传出,云栖大会上阿里云将发布5nm制程的ARM架构服务器芯片,该芯片于2019年开始研发。
随着人工智能、云计算、物联网等产业的发展,数据中心作为基础设施的作用越来越举足轻重。作为算力和数据的承载单元,服务器是数据中心最核心的硬件,而服务器采取的芯片又是其中关键。
“用ARM架构做服务器芯片是一个很好的方向,目前,英特尔的芯片依旧‘垄断’着整个服务器芯片市场,采取x86架构,这也是英特尔最挣钱的部门。几年前,大家开始说要用ARM架构来做服务器,阿里云每年这么大的业务量,完全可以做,降本增效。而且现在产业成熟了,时机到了。”一位前英特尔工程师对《中国企业家》表示。
阿里此举也早就有迹可循。今年5月,阿里在北京召开云峰会,阿里云智能总裁张建锋就表示,阿里云优化了自己的云操作系统飞天,使其同时兼容x86、ARM等多种芯片架构。其在采访中提到,阿里云2021年的目标之一是要“做深基础”,计划今年开始陆续推出一系列核心的硬件结合软件的产品,包括自有芯片。
不仅仅是阿里,国内外的云服务厂商们都在用实际行动表达对这条路径的厚望。
2019年,华为通过旗下海思半导体自研芯片推出了基于ARM架构的7nm 64核服务器芯片“鲲鹏920”和服务器“泰山”,后因受制于来自美国的制裁,下一代“鲲鹏930”一直无法如期发布。国外,Amazon发布了第二代基于ARM架构的自主设计服务器芯片“Graviton2”;英伟达也发布了首款ARM架构服务器处理器Grace,面向AI、超算、数据中心等领域,将于2023年正式推出。
在一片热闹景象背后,很难绕开一个问题:为什么芯片公司和云厂商们都纷纷期待摘下ARM这颗芯片产业皇冠上的明珠?或许不仅仅是降本增效,而是ARM架构为服务器芯片带来了推高行业天花板的可能性。
和苹果做M1一个道理?
1978年6月8日,英特尔发布了新款16位微处理器“8086”,也同时开创了一个新时代:x86架构诞生了。凭借着x86,在服务器芯片市场,英特尔保持着绝对优势。
据IDC此前发布的《全球服务器季度跟踪报告》数据显示,x86服务器产生的收入在2021年第二季度达到了214亿美元,非x86服务器收入约为23亿美元,x86市场占比超过90%。而在x86市场中,英特尔作为阵营龙头,其服务器芯片也占据了近90%的份额。
在已成熟的技术路线上开辟另一种可能,不仅是一件耗成本的事,更是一件极长周期的事。2008年,ARM开始酝酿服务器芯片计划,随后乘着ARM 64的东风,高通、微软、华为等开始逐步自研ARM服务器CPU,不过大多数入局者折戟沉沙。
前英特尔工程师认为,“垂直整合带来的性能提升”是大家未曾放弃尝试ARM的重要原因,“就和苹果做自研基于ARM架构的芯片M1是一个道理。举个例子,windows要在英特尔CPU上优化会比较困难,但是macOS在M1上优化就可以做到极致。自研芯片把这件事的天花板掌握在自己手里。”
虽然未曾有人明示,但始终有一种潜在的共识:有一天,人工智能模型会变得庞大,以至于今天的人工智能硬件架构不得不从头开始,重新设计,而这一天或许会很快到来。
从英伟达的表述中也不难看到这一点,服务器芯片Grace基于未来的ARM Neoverse处理器架构,被设计为与Nvidia GPU极其紧密的耦合,消除了目前x86 CPU和加速器互联中存在的任何“瓶颈”。
不仅如此,ARM架构正逐步在小型服务器中得以验证。“之前大家或许对ARM有质疑,现在慢慢地正在获得信任。”该工程师认为,“或许,ARM反超x86的时代将真正开启。”
云栖大会同一天,苹果发布最新版本MacBook Pro,MacBook Pro有两个处理器选择,分别是M1 Pro和M1 Max。无论哪种,都是在ARM架构上的重新定义。
对ARM的信心也正在影响着市场对英特尔的判断。过去几个月里,英特尔的股价一路下跌,而标普500指数则走向相反方向。有分析认为,虽然英特尔的营收已经连续10个季度超过市场预期,但投资者对该公司在关键业务领域缺乏进展感到失望,尤其是数据中心和客户端计算业务,这两项业务分别占该公司季度营收的30%和50%。
有人认为,英特尔服务器芯片目前总量很大,但随着时间推移,ARM架构服务器芯片不断成熟,英特尔很可能会丢失掉新的增量市场,“比如可能五年之后阿里自己的新增服务器、机房,就用自己的芯片”。
不过从阿里的对外表述来看,合作伙伴依旧重要,比起“垂直整合”,张建锋更倾向于客户需求。在发布倚天710后,张建锋紧接着强调,“我们将继续与英特尔、英伟达、AMD、ARM等合作伙伴保持密切合作,为客户提供更多选择。”
在随后的采访中,张建锋更是强调:“未来,Core有极大的不确定性,你说一定是ARM还是x86,其实不确定,今天我们有能力去选择一个更面向未来、符合生态的东西。而要不要切换是客户的选择,不是我的选择,因为我的芯片最终是让客户来埋单,完全是市场化的东西。”
做成并不容易
2019年,ARM引入Neoverse产品线,并发布了Neoverse N1/E1核心IP,这是ARM第一次专门针对服务器产品推广的处理器IP,亚马逊的Graviton2以及英伟达的Grace都是基于该IP。DIGITIMES在今年3月发布的研究报告中提到:亚马逊、微软等云计算数据中心运营商以及Marvell、Ampere等芯片设计企业开始采用ARM架构。
据阿里方面介绍,倚天710采取ARM的公版授权,并非架构授权。团队从平头哥成立后开始逐步搭建,来自于行业中的很多公司,具备丰富的设计经验。
针对这种做法,一位半导体从业者表示,其难度和华为做麒麟芯片其实是类似的:“今天大家都是买ARM的IP,然后自研芯片,从技术上来说,这种做法是有门槛的,但也不算极大创新。举个例子,就相当于你买了乐高的积木小块,然后你需要自己去搭,可以搭成房子,也可以搭成车子。”
但在张建锋看来,这是阿里的第一块5nm制程的服务器芯片,它的诞生充满挑战:
“首先,工艺跟设计要匹配,这是一个很大的技术挑战;第二,我们将这么多先进的IP集成到一个SoC上面,很多IP其实没有被验证过的,因为别人开发出来,从来没有在工艺上流过片,很多问题很多系统我们是第一家去做,所以我们要承担更多的风险,解决更多的问题;第三,(在研发过程中)大规模的流片是多次,到目前为止是比较超预期的,这一次流片的东西回来大部分指标超出预期。”
“做ARM架构的服务器芯片都是重投入、长周期。能做出来、敢放在自己服务器上并且卖出去、用户用起来不出问题,这才是挑战所在,大家能看到的目标和路径基本差不多,就看谁能实现。”一名芯片从业者表示。
这一点似乎也不用担心,在阿里云的叙事里,技术与商业度正在愈发贴近。Canalys发布了中国云计算市场2021年第二季度报告,报告显示阿里云、华为云、腾讯云和百度智能云分别以33.8%、19.3%、18.8%、7.8%的市占率位列前四名。
据TrendForce预测,至2023年前,以ARM架构为代表的RISC架构芯片仍难与x86抗衡。尽管ARM这条路径也没那么容易,但正如张建锋所说,一切都是交由市场选择。如果有新的技术变量出现,阿里云的选择也将随之变化。