距离Llama 3模型发布已经过去两个多星期,但全球开发者对这个号称“开源之王”“AI源神”的开源大模型,仍然热情不减。
截至5月8日发稿前,这个美国社交巨头meta旗下的开源大模型,在全球代码托管服务平台GitHub上的星标(Stars)数值已接近19600,并且该数据还在持续增长。星标是大模型项目在GitHub上的用户收藏规模,可以反映全球开发者对该模型的关注度。
开发者对Llama 3模型的追捧,不仅在于meta宣称它是目前市场内相同体量下性能最好的开源大模型,还因为meta提供了有力的支撑条件——Llama 3模型的两个版本都是在含24000个英伟达显卡(GPU)的算力集群上训练的,使用了15万亿个(15T)Token(文本中的最小单位)组成的高质量预训练数据集。
陈天楚在浙江大学计算机系统结构实验室从事大模型相关研究工作。他在对Llama 3模型调优的过程中发现,这个由强大算力、优质且海量数据支撑的开源大模型,确实给那些没有足够算力的企业或个人用户,“打开了一个开放体验的窗口”。
不过,陈天楚也表示,考虑到Llama 3模型对某些领域的使用许可和对数据输出再训练的限制,它并非一个完全意义上的开源大模型。
Llama 3究竟强大在哪?
4月18日,meta发布Llama 3模型,并对开发者开放80亿(8B)和700亿(70B)两个参数规模的版本——Llama 3 8B模型和Llama 3 70B模型。当天恰好是AI行业学者吴恩达的生日。作为AI开源的倡导者,吴恩达感慨“(Llama 3模型是)至今为止最好的礼物”,并向meta表示感谢。
在发布几小时后,Llama 3模型便在AI代码社区Hugging Face的模型排行榜单上史无前例地“霸榜”了。此后,英伟达高级科学家Jim Fan更是发出预言:“meta 即将推出的Llama 3 400B将成为一个分水岭。即社区将获得开源重量级的GPT-4模型。”
meta一直强调创新、扩展和优化的重要性,但它在开发Llama 3模型时,并未对上一代模型Llama 2的架构和底层算法做出太大的调整。两代模型间的变量更为集中地体现在数据工程上。
Llama 3模型使用的预训练数据集超过15万亿个Token,比Llama 2使用的数据集大7倍,包含的代码量也多了4倍,这反映出meta在开发该模型的过程中投入了丰富资源。此前meta也表示:“数据的增多,帮助(Llama 3)模型更好地识别差异和模式。”
Llama 3 8B模型是Llama 3的小参数版本。陈天楚称,国内外目前开源的大多数8B体量模型,一般使用2000亿个(0.2T)Token的数据集就能满足训练需要,而meta为训练Llama 3模型扩充的语料出人意料。
除此之外,Llama 3模型使用的算力卡更令人惊叹,它是在含24000个英伟达GPU的算力集群上训练的。超大规模的算力集群会带来网络通信优化、电力基础设施构建等工程上的挑战。陈天楚说,不论在开源还是在闭源社区,鲜见用如此多资源去训练一个小参数大模型的案例。
因此,Llama 3模型一经发布,便吸引了众多大模型玩家对它进行测试、微调等重训工作。开源模型社区开源智友(OpenBuddy)就是其中之一,它由陈天楚担任模型训练负责人。
meta在官方博客上表示,Llama 3模型只针对英语输出进行了微调,主要提供英语方面的对话能力。而在Llama 3面市3天后,OpenBuddy团队就在汇集AI开发者的魔搭社区内,发布了一个支持中文的Llama 3 8B模型优化版本——OpenBuddy-Llama3-8B模型。陈天楚说:“我们主要优化了它的跨语言理解能力,让它在中文方面具备更强的稳定性和认知能力。”
陈天楚透露,一位魔搭社区用户向OpenBuddy团队反馈,OpenBuddy-Llama3-8B模型对一些中国传统文化或小众的中文知识点掌握得不够精确,但它比同体量的开源模型具有更大的潜力。该用户还认为,它对中文的认知理解能力,已接近大参数中文原生大模型。
一般情况下,体量在70B左右的大参数大模型才具有反思、纠错能力。但据陈天楚观察,OpenBuddy-Llama3-8B模型“既可以对自己说过的话有认知,意识到错了,还能在承认错误后有一个反思的过程,重新更正一个答案”。
小参数大模型多被认为适合处理简单的日常事务。可Llama 3 8B及其衍生模型表现出了更深层的反思和纠错机制,让开源社区的用户们意识到,复杂认知不再是大参数大模型的专利。陈天楚据此预判,在某些预算有限的垂直行业领域中应用Llama 3 8B模型,或将存在更多的可能性。
有限开源的“开源之王”
Llama 3模型强大且开源的特性,更让开发者对它冠以“开源之王”“AI源神”的称号,但陈天楚对此有不同看法。
OpenBuddy团队一直致力于为开源社区提供强认知智能的中文开源模型。他们在一个新的开源大模型发布后,往往会第一时间查看该模型的许可(License),看它是不是有被限制的使用方法。陈天楚说,如果它只能用在某一特定的语言,或者它不能商用,“这意味着我们基于这种开源基座(调优)的衍生结果,也可能会受到同样的限制”。
而OpenBuddy团队发现,Llama 3模型实际上限制了某些领域的使用许可,经由它输出的数据并不能用于训练其他模型。
陈天楚注意到,对于要进行模型应用开发的企业而言,Llama 3模型的掣肘问题并非语言,而是它并不支持用户规模巨大的企业商用。“包含关联公司在内,7亿月活以上的厂商都是不可行的。”
陈天楚还十分关心大模型的训练数据来源和数据去向。但OpenBuddy团队在对Llama 3模型调优的过程中发现,包括meta在内的很多开源厂商,都不太愿意把数据来源或数据比例进行公布。陈天楚称,这可能是因为他们会用到一些有版权的数据进行训练。
基于上述限制因素,陈天楚从开源社区的严格定义上分析,Llama 3不完全是一个开源大模型。“它还是一个有所保留的开放模型,(我们)不能真正定义它为一个开源的作品。”
对于Llama 3模型的有限开源,云从科技研究院产品总监孙进认为,开源的版本一定不是大模型最好的版本。“如果有平替GPT-4(美国AI公司OpenAI研发的大模型)的模型,即使(它)开源,也会是阉割之后(的)再开源。”
去年至今,国内外不少厂商将旗下的大模型开源。但孙进与一些行业客户交流下来发现:“他们都经历了(对开源模型)从入门到放弃的过程,现在来找我们直接采购大模型算法。”
孙进的团队也曾接到一些地方政府的需求,“给一些补贴,(让)我们开源大模型技术”。但他们至今没有实际推进此事。在孙进看来,如果一家厂商选择开源大模型,需要配套的算力运营生态来支撑盈利模式,只有云计算、算力硬件、初创AI企业才有开源大模型的动力。
陈天楚理解厂商对开源大模型商业模式的关注,但他并不建议所有厂商从零开始训练大模型。“追踪开源社区的最新成果,可能也是一条值得考虑的路线。”
从Llama 3模型的开放模式看,陈天楚认为,该模型为开源社区打开了一个窗口——它不仅令开发者认识到,使用巨量的算力和数据集能够让大模型达到怎样的结果,也为很多没有足够算力的企业或个人用户提供了体验大模型能力的机会。
陈天楚说,meta为了训练Llama 3 8B模型,投入了百万小时的H100(一款英伟达GPU)算力,这是任何一家初创企业承受不起的。考虑到该模型实现了不错的训练效果,他判断,在未来很长一段时间内,特别是在英语环境下,基于Llama 3模型的进一步优化、开发,会成为一些初创企业在商业上颇有意义的选项。