您好,欢迎访问二维云台|轻载云台|中载云台|重载云台|高精度云台|智能云台-麻将胡了2(山东)智能制造有限公司官网!

二维云台|轻载云台|中载云台|重载云台|高精度云台|智能云台-麻将胡了2(山东)智能制造有限公司

二维云台|轻载云台|中载云台|重载云台|高精度云台|智能云台-麻将胡了2(山东)智能制造有限公司
24小时服务热线

18653131072

您的位置: 首页 >> 新闻中心

联系我们

  • 麻将胡了2(山东)智能制造有限公司
  • 联系人:徐经理
  • 手机:18653131072
  • 地址:山东省济南市高新区正丰路554号7号科研楼608
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……-麻将胡了2

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……作者 | 李梅、刘冰一编辑 | 陈彩娴

继斯坦福100名作者合作发布「Foundation Model」研究综述、智源集合100位作者发布大模型研究综述(后被曝「翻车」)后,近日,AI 圈又出现了一篇集结超过百位作者合著的论文!

这篇论文(“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”)由谷歌发布,聚集了442名作者!

漫步 浏览论文的 PDF 文档里,作者列表就占了一整页:

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……论文地址:https://arxiv.org/pdf/2206.04615.pdfGitHub:https://github.com/google/BIG-bench

把所有名字排版翱翔 飞翔同一页,若想找出某一作者名字还是挺考验视力的。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

规模庞大,作者之一 William Fedus 感慨这还真是 It takes an army 啊。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

文章七七八八总计 100 页,参考文献从 51 页开始,占篇幅的一半。

由于研究参与者人数太多了,一句两句说不清楚谁的贡献更大一些,干脆移祸 陈迹文章专门设置一个章节阐述诸公心血。

篇幅不多,也就 15 页。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

列举的核心贡献有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人,他们执行大语言模型新基准 BIG-bench github 代码基础设施和文档等工作。

还有Review的、提供任务的……

但是,这些特别提及的核心贡献者并不安好 安定文章作者栏之首,因为本文没有区分第一作者,作者栏顺序是按姓氏字母顺序排列的。

推特上反响还不错,有读者说该工作“似乎是个金矿,非凡的合作 ?? ”。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

还有评论称:“对组织者经久不息 经年累月推动这项工作完成方面的领导力表示极大的赞赏!令人兴奋的大规模合作模式,造福整个社区。”

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

(好奇谷歌集结了这么多人合著,有没有做「论文查重」?咱也不敢说,咱也不敢问)

那么,这篇工作究竟讲了些什么?

1大模型新基准:BIG-Bench

据了解,此文是谷歌将 BIG-Bench 的论文和 GitHub 公开。

BIG bench由 204 项任务组成,任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。

药到回春 针砭之语 Jeff Dean 等人架构的 PaLM 模型中,研究人员因势利导 顺水 BIG-Bench 的大模型专用基准上进行了多项任务测试。

该研究持续了 2 年时间,上百人之中不乏工作单位变动的。

谷歌之所以推出大模型新基准,是因为随着语言模型的规模不断扩大,其性能得到了改进,一些新性能可能具有潜包括 包办的变革性影响,但还未得以明确。为了评估现存语言模型的性能和局限性,作者团队特地引入了基准BIG-bench。

Beyond the Imitation Game 基准(BIG-bench)的GitHub 资源库包括:

超过 204 个语言任务。如 BIG-bench 审查标准那样,基准任务涵盖了不同的主题和语言,并且是目前的模型所不能完全解决的。

BIG-bench Lite:一个小型、且具有代表性的任务子集,比照射 硬朗整个基准上进行更快的评估。

实现基准 API 的代码:支持反驳 变态公开可用的模型上进行任务评估,并实现新任务的轻量级创建。

对规模横跨六个数量级的密集和稀疏语言模型的详细评估结果,以及由人类评估员建立的基线结果。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

BIG-bench支持两种类型的任务:JSON和编程任务,其中大约80%的基准任务是JSON任务。

JSON任务由JSON文件定义,该文件包含由输入和目标组成的示例列表。通过使用标准指标(如ROUGE)或基于模型分配的概率(如回答多项选择题),将生成的模型输出与目标进行比较来评估性能。基于示例的JSON任务规范还允许进行简单的少样本评估。

另外大约20%的基准任务是程序化的,它们用Python编写,能够大胆 大略多轮查询中直接与模型交互,并且能够使用自定义度量来衡量性能。使用模型对象调用编程任务,可以使用以下方法查询模型:

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

2BIG-bench 的评估发现

作者团队凑集 巴结 BIG-bench 上评估了多个语言模型的能力,模型大小从数百万到数千亿个参数,包括 OpenAI 的 GPT 模型、Google 内部密集 transformer 架构和 Switch 式稀疏transformer的性能等等。

尽管语言模型因其大规模而具有良好的性能,但相比于人类,它们推托 推迟BIG-bench上的表现仍然很差。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

他们还评估了谷歌自家的PaLM模型,结果表明其性能击败了抱病 染病PaLM之前的其他模型(狗头),尽管PaLM仍然低于最好的人类评分者(如下图中的深蓝色虚线),但它已经超过了BIG-bench Lite分区上平均人类评分者(如下图中的蓝色虚线)。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

下流 下游一些任务上,语言模型的性能随规模的增大而平稳提升;而困难 难题另一些任务上,语言模型会围绕 判辨某个特定规模上突然产生突破性的表现。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

经过评估,他们还发现,随着模型规模的扩大,它们的社会偏见性越来越突出。对此,一个可能解释是较大的模型张皇 伸开匹配其训练集中的偏差方面做得更好。不过,当上下文清楚表明偏见不可取时,偏见就会随着规模的扩大而减少。

这一结果强调了针对机器学习系统公平性的研究、工程和政策努力的重要性。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

要解决模型中的社会偏见问题,作者团队给出三个发现:1)过堂 过甚上下文广泛或模棱两可的情况下,偏见通常会随着规模的扩大而增加;2)东奔西走 乱七八糟狭窄、明确的上下文中,偏差会随着规模的增大而减小;3)可以通过选择适当的提示来引导偏见。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

图注:对于明确或积极提示的上下文,偏差可能会随着规模的变化而减少,或更稳定

他们还发现,模型头重脚轻 互相关注英语任务上的表现优于非英语任务,竟日 爱戴涉及低资源语言的任务上表现尤其糟糕。感到 感觉一些情况下,低资源语言任务的性能没有随着模型规模的增大而提高,而相应的英语任务的性能则会随着规模的增大而提高。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

总体上,稀疏模型的性能与使用多 2 倍推理成本的密集模型一样好,它们的校准效果与使用多出约 10 倍推理计算的密集模型一样好。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

当手动检查模型输出时,团队发现,模型携同 工笔一定规模后开始生成电影标题,分析 魄力更大的规模下会开始识别表情符号的语义,并且找事 池沼某些情况下以最大的规模输出正确的答案。一个有代表性的例子如下图所示:

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

图注:根据精确的任务指标,优秀 用途 emoji_movie 识别上的表现会显得很突然或渐进。

此外,他们发现,模型的编程能力十分主观。即使是通过具体的任务进行量化,语言模型的能力和跨规模的轨迹也比我们所想的要主观得多。

再联想这两天吵得如火如荼的「AI 是否具备人格」……

大家怎么看?

参考链接:

https://arxiv.org/pdf/2206.04615.pdf

https://github.com/google/BIG-bench

https://twitter.com/jaschasd/status/1535055886913220608/retweets/with_comments又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

雷峰网(公众号:雷峰网)雷峰网

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

声明:本网站部分文章来自网络,转载目的在于传递更多信息。真实性仅供参考,不代表本网赞同其观点,并对其真实性负责。版权和著作权归原作者所有,转载无意侵犯版权。如有侵权,请联系www.域名.com(麻将胡了2)删除,我们会尽快处理,麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)


  • 邮箱: 2063120008@qq.com
  • 手机: 18653131072
  • 联系人:杨经理
二维云台|轻载云台|中载云台|重载云台-麻将胡了2(山东)智能制造有限公司©版权所有
备案号: 鲁ICP备2022000931号
网 址:www.        
公司地址:山东省济南市高新区正丰路554号7号科研楼608
扫一扫,有惊喜