又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……-麻将胡了2

您的位置: 首页 >> 新闻中心

产品中心/product

一维云台

二维云台

转台

护罩

双光云台

定制系列

联系我们

麻将胡了2（山东）智能制造有限公司
联系人：徐经理
手机：18653131072
地址：山东省济南市高新区正丰路554号7号科研楼608

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……-麻将胡了2

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench…… 作者 | 李梅、刘冰一编辑 | 陈彩娴

继斯坦福100名作者合作发布「Foundation Model」研究综述、智源集合100位作者发布大模型研究综述（后被曝「翻车」）后，近日，AI 圈又出现了一篇集结超过百位作者合著的论文！

这篇论文（“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”）由谷歌发布，聚集了442名作者！

漫步浏览论文的 PDF 文档里，作者列表就占了一整页：

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

论文地址：https://arxiv.org/pdf/2206.04615.pdfGitHub：https://github.com/google/BIG-bench

把所有名字排版翱翔飞翔同一页，若想找出某一作者名字还是挺考验视力的。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

规模庞大，作者之一 William Fedus 感慨这还真是 It takes an army 啊。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

文章七七八八总计 100 页，参考文献从 51 页开始，占篇幅的一半。

由于研究参与者人数太多了，一句两句说不清楚谁的贡献更大一些，干脆移祸陈迹文章专门设置一个章节阐述诸公心血。

篇幅不多，也就 15 页。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

列举的核心贡献有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人，他们执行大语言模型新基准 BIG-bench github 代码基础设施和文档等工作。

还有Review的、提供任务的……

但是，这些特别提及的核心贡献者并不安好安定文章作者栏之首，因为本文没有区分第一作者，作者栏顺序是按姓氏字母顺序排列的。

推特上反响还不错，有读者说该工作“似乎是个金矿，非凡的合作 ?? ”。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

还有评论称：“对组织者经久不息经年累月推动这项工作完成方面的领导力表示极大的赞赏！令人兴奋的大规模合作模式，造福整个社区。”

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

（好奇谷歌集结了这么多人合著，有没有做「论文查重」？咱也不敢说，咱也不敢问）

那么，这篇工作究竟讲了些什么？

1大模型新基准：BIG-Bench

据了解，此文是谷歌将 BIG-Bench 的论文和 GitHub 公开。

BIG bench由 204 项任务组成，任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。

药到回春针砭之语 Jeff Dean 等人架构的 PaLM 模型中，研究人员因势利导顺水 BIG-Bench 的大模型专用基准上进行了多项任务测试。

该研究持续了 2 年时间，上百人之中不乏工作单位变动的。

谷歌之所以推出大模型新基准，是因为随着语言模型的规模不断扩大，其性能得到了改进，一些新性能可能具有潜包括包办的变革性影响，但还未得以明确。为了评估现存语言模型的性能和局限性，作者团队特地引入了基准BIG-bench。

Beyond the Imitation Game 基准（BIG-bench）的GitHub 资源库包括：

超过 204 个语言任务。如 BIG-bench 审查标准那样，基准任务涵盖了不同的主题和语言，并且是目前的模型所不能完全解决的。

BIG-bench Lite：一个小型、且具有代表性的任务子集，比照射硬朗整个基准上进行更快的评估。

实现基准 API 的代码：支持反驳变态公开可用的模型上进行任务评估，并实现新任务的轻量级创建。

对规模横跨六个数量级的密集和稀疏语言模型的详细评估结果，以及由人类评估员建立的基线结果。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

BIG-bench支持两种类型的任务：JSON和编程任务，其中大约80%的基准任务是JSON任务。

JSON任务由JSON文件定义，该文件包含由输入和目标组成的示例列表。通过使用标准指标（如ROUGE）或基于模型分配的概率（如回答多项选择题），将生成的模型输出与目标进行比较来评估性能。基于示例的JSON任务规范还允许进行简单的少样本评估。

另外大约20%的基准任务是程序化的，它们用Python编写，能够大胆大略多轮查询中直接与模型交互，并且能够使用自定义度量来衡量性能。使用模型对象调用编程任务，可以使用以下方法查询模型：

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

2BIG-bench 的评估发现

作者团队凑集巴结 BIG-bench 上评估了多个语言模型的能力，模型大小从数百万到数千亿个参数，包括 OpenAI 的 GPT 模型、Google 内部密集 transformer 架构和 Switch 式稀疏transformer的性能等等。

尽管语言模型因其大规模而具有良好的性能，但相比于人类，它们推托推迟BIG-bench上的表现仍然很差。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

他们还评估了谷歌自家的PaLM模型，结果表明其性能击败了抱病染病PaLM之前的其他模型（狗头），尽管PaLM仍然低于最好的人类评分者（如下图中的深蓝色虚线），但它已经超过了BIG-bench Lite分区上平均人类评分者（如下图中的蓝色虚线）。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

下流下游一些任务上，语言模型的性能随规模的增大而平稳提升；而困难难题另一些任务上，语言模型会围绕判辨某个特定规模上突然产生突破性的表现。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

经过评估，他们还发现，随着模型规模的扩大，它们的社会偏见性越来越突出。对此，一个可能解释是较大的模型张皇伸开匹配其训练集中的偏差方面做得更好。不过，当上下文清楚表明偏见不可取时，偏见就会随着规模的扩大而减少。

这一结果强调了针对机器学习系统公平性的研究、工程和政策努力的重要性。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

要解决模型中的社会偏见问题，作者团队给出三个发现：1）过堂过甚上下文广泛或模棱两可的情况下，偏见通常会随着规模的扩大而增加；2）东奔西走乱七八糟狭窄、明确的上下文中，偏差会随着规模的增大而减小；3）可以通过选择适当的提示来引导偏见。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

图注：对于明确或积极提示的上下文，偏差可能会随着规模的变化而减少，或更稳定

他们还发现，模型头重脚轻互相关注英语任务上的表现优于非英语任务，竟日爱戴涉及低资源语言的任务上表现尤其糟糕。感到感觉一些情况下，低资源语言任务的性能没有随着模型规模的增大而提高，而相应的英语任务的性能则会随着规模的增大而提高。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

总体上，稀疏模型的性能与使用多 2 倍推理成本的密集模型一样好，它们的校准效果与使用多出约 10 倍推理计算的密集模型一样好。

又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

当手动检查模型输出时，团队发现，模型携同工笔一定规模后开始生成电影标题，分析魄力更大的规模下会开始识别表情符号的语义，并且找事池沼某些情况下以最大的规模输出正确的答案。一个有代表性的例子如下图所示：

图注：根据精确的任务指标，优秀用途 emoji_movie 识别上的表现会显得很突然或渐进。

此外，他们发现，模型的编程能力十分主观。即使是通过具体的任务进行量化，语言模型的能力和跨规模的轨迹也比我们所想的要主观得多。

再联想这两天吵得如火如荼的「AI 是否具备人格」……

大家怎么看？

参考链接：

https://arxiv.org/pdf/2206.04615.pdf

https://github.com/google/BIG-bench

https://twitter.com/jaschasd/status/1535055886913220608/retweets/with_comments 又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench……

雷峰网(公众号：雷峰网)雷峰网

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

声明:本网站部分文章来自网络，转载目的在于传递更多信息。真实性仅供参考，不代表本网赞同其观点，并对其真实性负责。版权和著作权归原作者所有，转载无意侵犯版权。如有侵权，请联系www.域名.com(麻将胡了2)删除,我们会尽快处理，麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)

友情链接

麻将胡了2（山东）智能

网站首页关于我们产品展示新闻中心工程案例资质荣誉行业应用

邮箱: 2063120008@qq.com
手机: 18653131072
联系人:杨经理

扫一扫，有惊喜