在一篇多页的论文中,PercyLiang、李飞飞等斯坦福研究者系统阐述了大规模预训练模型背后的机遇与风险。他们还给这些模型取了一个统一的名字——FoundationModel。
随着BERT、DALL-E、GPT-3等大规模预训练模型的出现,AI社区正在经历一场范式转变。从计算机视觉到自然语言处理,从机器人学到推理、搜索,这些大模型已经无处不在,而且还在继续「野蛮生长」。
这种野蛮生长是大模型的有效性带来的必然结果。在BERT出现(年)之前,语言模型的自监督学习本质上只是NLP的一个子领域,与其他NLP子领域并行发展。但在BERT横扫11项NLP任务之后,这种格局被打破了。年之后,使用自监督学习构造语言模型俨然已经成为一种基础操作,因为使用BERT已经成为一种惯例。这标志着大模型时代的开始。
这一时代的重要标志是「同质化」。如今,NLP领域几乎所有的SOTA模型都是少数几个基于Transformer的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个AI社区似乎出现了一种大一统的趋势。
毋庸置疑,这种同质化是有好处的,大模型的任何一点改进就可以迅速覆盖整个社区。但同时,它也带来了一些隐患,因为大模型的缺陷也会被所有下游模型所继承。
大模型的强大能力来自巨大的参数空间的结合,这也导致它们的可解释性非常差,其能力和缺陷都存在不确定性。在这种情况下,盲目将整个研究范式向大模型转变真的可取吗?
最近,斯坦福大学的PercyLiang、RishiBommasani(PercyLiang的学生)、李飞飞等多位研究者联名发布了一篇系统探讨此问题的论文。在论文中,他们给这种大模型取了一个名字——「基础模型(foundationmodel)」,并系统探讨了基础模型的机遇与风险。「基础」代表至关重要,但并不完备。
论文链接: