大语言模型新的摩尔定律

网站运营求职招聘微信群 http://www.guanxxg.com/news/roll/1561718.html

译者按:最近一段时间,ChatGPT作为一个现象级应用迅速蹿红,也带动了对其背后的大语言模型(LLM)的讨论,这些讨论甚至出了AI技术圈,颇有些到了街谈巷议的程度。在AI技术圈,关于LLM和小模型的讨论在此之前已经持续了不短的时间,处于不同生态位置和产业环节的人都有表达自己的观点,其中不少是有冲突的。

大模型的研究者和大公司出于不同的动机站位LLM,研究者出于对LLM的突现能力(emergentability)的好奇和对LLM对NLP领域能力边界的拓展、而大公司可能更多出自于商业利益考量;而社区和中小公司犹犹豫豫在小模型的站位上徘徊,一方面是由于对LLM最终训练、推理和数据成本的望而却步,一方面也是对大模型可能加强大公司数据霸权的隐隐担忧。但讨论,尤其是公开透明的讨论,总是好事,让大家能够听到不同的声音,才有可能最终收敛至更合理的方案。

我们选译的这篇文章来自于年10月的HuggingFace博客,作者在那个时间点站位的是小模型,一年多以后的年作者的观点有没有改变我们不得而知,但开卷有益,了解作者当时考虑的那些点,把那些合理的点纳入自己的思考体系,并结合新的进展最终作出自己的判断可能才是最终目的。

不久前,微软和Nvidia推出了Megatron-TuringNLG50B,一种基于Transformer的模型,被誉为是“世界上最大且最强的生成语言模型”。

介绍Megatron-TuringNLG50B模型的博文:


转载请注明:http://www.aierlanlan.com/cyrz/6603.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了