直击WAIC2023|阿里达摩院李晨亮:开源生态有助于大模型的繁荣
(资料图片)
《科创板日报》7月8日讯(记者 黄心怡)在WAIC2023期间,阿里云推出了国内首款大模型调用工具魔搭GPT(ModelScopeGPT),它能接收用户指令,通过“中枢模型”一键调用魔搭社区其他的AI模型,大小模型协同完成复杂任务。目前,魔搭GPT已能够调用魔搭社区十多个核心AI模型的API。
“目前,大语言模型在文本创作、内容生成等方面,都有惊艳表现。但作为一个大模型,如果本身只有文本生成能力的话,其实并不足够的。我们提出了魔搭GPT,主要理念是以大模型为中枢,调动各种各样的小模型API,来弥补大模型在图片生成、语言视频、视频生成等能力上的不足。” 阿里巴巴达摩院高级算法工程师李晨亮对《科创板日报》记者表示。
当前,如何把通用大模型做小做精,让行业更快用起来,是一大探索方向。在这方面,李晨亮向《科创板日报》记者介绍,“为了让各行各业的这种开发者能够把大模型用在真实的业务场景上,我们对大模型做了很多的一些优化,包括利用蒸馏压缩的方法,来提供更多的小模型;通过模型量化,来压缩得到小模型等。后续也会开放更多和大模型周边相关的工具,来帮助模型的落地应用。”
构建和训练一个大模型需要大量的计算资源和数据,这对于个人研究者或者小团队来说非常具有挑战性。在这样的背景下,开源开放的生态系统成为了推进大模型技术发展的重要力量。
目前,阿里云魔搭社区是国内最大的AI模型社区,集聚了180多万AI开发者和900多个AI模型。模型贡献者包括百川智能、哔哩哔哩、IDEA研究院、兰丁股份、澜舟科技、openBMB社区、启智社区、清华TSAIL、RWKV、深势科技、WeNet社区、元语智能、浙江大学、智谱AI等,贡献了30多个10亿以上参数规模大模型。
“开源生态肯定是有助于大模型的繁荣。”李晨亮强调,“2018年谷歌提出了BERT大模型,并开源了模型的代码,这带来了整个预训练大模型领域的繁荣。如果没有BERT的开源,那可能就没有如今大模型的繁荣现状,整个业界发展得会比较慢。”
以数据层面为例,大模型非常依赖于数据的质量。“”现在不管是大厂还是创业公司,自身都有大量的数据积累。如果大家能够把一些数据贡献出来,构建高质量、更大规模的开源数据集,那么不管是从自身模型的迭代,还是国内大模型发展速度,都能带来很大的提升。” 李晨亮呼吁。
关键词: