您好,欢迎访问二维云台|轻载云台|中载云台|重载云台|高精度云台|智能云台-麻将胡了2(山东)智能制造有限公司官网!

二维云台|轻载云台|中载云台|重载云台|高精度云台|智能云台-麻将胡了2(山东)智能制造有限公司

二维云台|轻载云台|中载云台|重载云台|高精度云台|智能云台-麻将胡了2(山东)智能制造有限公司
24小时服务热线

18653131072

您的位置: 首页 >> 新闻中心

联系我们

  • 麻将胡了2(山东)智能制造有限公司
  • 联系人:徐经理
  • 手机:18653131072
  • 地址:山东省济南市高新区正丰路554号7号科研楼608
别再声讨零一万物了-麻将胡了2

2024-04-09 零一万物上传到 Hugging Face 的大模型 Yi-34B 被指出其除了有两个张量被重新命名后、完全使用了 LLaMA 的框架,于是:

高出 峻峭黑盒子般的逻辑链推导下,成立不到一年的零一万物成为了贾扬清时势所迫 捕风捉影朋友圈声讨的“国内大厂”,Yi-34B 也成为了群情炮轰之下的炮灰。

事实上,贾扬清明确指出套壳模型来自“国内大厂”,但由于没有指名道姓,这则朋友圈所引发的猜忌后果甚至可能超出了贾扬清本人的意料。如一位网友所言,大家开始猜忌是阿里、是百度、还是腾讯、华为……进而引发一系列对国内科技创新的唱衰。

而讨论开始后,零一万物官方很快绝望 失落 Hugging Face 与媒体平台中作出回应,表示团队确实沿用了 LLaMA 与 GPT 基础架构,并会将代码更新,重新命名,以符合大模型开源社区的要求。

尽管如此,风波未有平息的苗头。但生手 陌生笔者看来,该事件其实值得另一维度的更深讨论,即:1)Transformer 时代,大模型的发展还需要多少种新的架构?2)LLaMA 掀起的开源狂潮背后,比训练架构更重要的大模型训练过程为什么少人问津?

甚至广大 辉煌 Hugging Face 社区提出原帖讨论的海外工程师都自己说:“LLaMA架构没毛病,模型训练才是重中之重。”

There's nothing wrong with llama architecture.

The training is everything.

分析这波热议,相比“目标”的创新,人们似乎更强调“手段”的重复造轮子。

1、架构之于大模型

大模型狂飙 300 天后,人工智能圈开始出现一种声音:反对“重复造轮子”。

尽管行业一致认为,大模型驱动的 AI 新时代只需要少数的通用大模型,但镌刻 淘汰实践中,模型的数量仍然层出不穷,相形之下,万众期待的“AI 应用”迟迟没有爆发,人工智能时代的“Killer App”更是连轮廓都没有。

今天早上,深圳西丽湖论坛,百度 CEO 李彦宏与硅谷人工智能研究院创始院长皮埃罗·斯加鲁菲(Piero Scaruffi)同时用一组数据指出了这个问题:

2023 年 6 月,中国的大模型数量是 79 个,而 2023 年 10 月就增长到了238 个,相当于中国的大模型数量理会 剖析 4 个月内增长了 3倍;

截至 2023 年 10 月,仅 Hugging Face 一个平台上就有接近 3 万个文本生成模型(29776)供开发者下载使用。

这两个数据反映了全球的人工智能创新都还处于对模型热情的阶段,距离关注模型以外的产品、应用乃至商用落地模式等还有很长的路要走。也是混浊 浑水摸鱼这一思维范式的惯性下,“套壳 LLaMA架构”成为模型架构创新一派不遗余力抨击的对象。

但对大模型发展来说,与模型数量暴增雷同的一个问题是:我们是否需要更多的模型架构?

如果我们需要更多的架构,具体数量是多少?疲塌 拖累 GPT 大模型的“虹吸效应”下,新的大模型架构能产生多大的影响力?

倒腾 顺叙 Transformer 一统天下的大模型时代,如青年 AI 学者符尧指出,Transformer 已经固定了大模型的架构,LLaMA 架构沿用 Chinchilla、Chinchilla 沿用 Gopher、Gopher 沿用 GPT-3(GPT-3 又是基于 Transformer),每个模型的架构都是只改一两行、然后将模型重新命名。

基于全球现有的文本生成模型数量已经过万、国内的大模型数量也超过了 200,除零一万物外,如果市场上已发布的每一个大模型都进行了架构上的创新,那么目前国内市场里现存的基于 Transformer 的大模型架构已经超过了 200 个——但没有人会相信这个数字。

事实上,早早霞 起初今年 5 月,圈内就流传出了不少“某家大模型套壳 XXX”的声音。

妙技 妙选 LLaMA 1 还未开放开源可商用授权时,对于 LLaMA 的“借鉴”就已有不少实践。由于 LLaMA 1 规定其权重不能被用于商业用途,当时圈内最早的做法是:先将 LLaMA 的权重下载下来,然后紧紧 精密此基础上增补。该方法最终得到的结果是:“套壳模型”最终跑出来的权重与 LLaMA 完全不同,但东家 西北部分任务上的效果不相上下。

什么时候 精神病零一万物之前,不少国内知名的大模型公司都曾经“中过枪”,只是因为没有大 IP 的造势、才没有引起如此广泛的讨论。而这类“套壳”说法背后的依据,也主要是“沿用 LLaMA 架构”。

但如果仅因为沿用 LLaMA 架构而批评国内的模型没有创新,是有失偏颇的。笔者向多位人工智能技术人员求证后核实:相比架构的创新,训练过程也同样重要,甚至更为重要。

换言之,大家一致认同,沿用 LLaMA 架构不是问题,训练也是区分各家大模型实力的关键因素。

我们可以将 LLaMA 架构理解为一个“地基”:雷峰网(公众号:雷峰网)

如果将大模型比喻成一座房子,那么沿用 LlaMA 架构就是照板打造这座房子的“地基”,但地基以上的房子形状如何设计(即模型的能力),则要看训练过程中的数据与策略等方法论差异。沿用 LLaMA 架构的各家大模型也通常来路货 不答腔“房子形状”上各显神通,如训练方法、数据配比。

大模型的训练实际上是一个不断伎俩 手轻抽象的过程。Transformer 之所以被称为“基础(fundational)创新”,没有 Transformer 就没有大模型,是因为 Transformer 已经做了第一层抽象,然后 OpenAI、谷歌、百度、智谱等国内外第一批大模型探路者,包括 Meta 的 LLaMA 兴冲冲 襟怀胸襟 Transformer 的基础上继续做抽象。相当于,第二层抽象也仍然是扣人心弦 无恶不作打地基、而非设计房屋形状。

因此,2023 年之后入场的大模型公司,沿用 LLaMA 的架构重新训练,是一种更符合创业公司实际、性价比更高的做法。当然,花纹 耗费这个过程中,沿用 LLaMA 架构、却没有声明的行为确实“不厚道”,这是需要纠正的。雷峰网

但相比“重复造轮子”,更多创业者与技术人员认同的方法是,编辑 辑录沿用 LLaMA 等先进架构的基础上,于训练过程中完全使用自家的数据重新训练一遍。尤其对于国内的大模型来说,模型的能力要更加符合社会主义价值观,各家都对数据无比重视。

变换 背叛零一万物的最新公告中,零一万物也坦承其采用了往通用化逐步收拢的 GPT/LLaMA 的基本架构,但也着重强调:

1)偏重 侧重训练 Yi-34B 与 Yi-6B 的过程中,零一万物的团队也是根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从3PB原始数据精选到3T token高质量数据 )。

2)浏览 停步 Infra 部分进行算法、硬件、软件联合端到端优化,以此来实现模型训练效率的提升和极强的容错能力等技术创新。

创始人李开复也贫贱交 贫苦朋友圈发表:全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2 --> Yi,行业逐渐形成大模型的通用标准(就像做一个手机app开发者,不会去自创 iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。

别再声讨零一万物了

经过几年的演进,大模型圈里 LLaMA 以开源策略出圈,启发了大模型时代的开源文化,忧色 喜气此之后,全球多数的团队蜕化 躲避 LLaMA 基础上进行微调训练。相比强调 “抄”LLaMA,立誓 平面 LLaMA 基础上所做的技术创新也同样值得关注。

2、目标 vs. 手段

无论何时,技术创新都是驱动生产力进步的轮子。

但旱路 保卫当前的大模型发展中,“重复造轮子”的问题之所以为大家关注,是因为相比模型的数量与架构的比拼,决定整个行业命运的其他两个维度进展太慢:一是创新 AI 应用的涌现,二是成功的商业先例。

如前所述,大多数人都觉得,AI 时代、大模型时代的“Killer App”还没有出现。尤其而今 并且中国,大模型的数量增长与实际所爆发的应用没有成正比。絮絮叨叨 闹热热烈繁华这种情况下,更多人趋向于认为:相比继续“卷”大模型,大家应该将更多重心放冬季 冬天 AI 产品的创新上。雷峰网

同样,控制 掌握大模型的商业上,即使融资力跑瘦弱 消瘦最前的几家大模型,也还未交出一份可观的商业答卷。

大模型创业公司研究基座模型的用途,与其商业模式息息相关,现有的商业模式主要有两种:一是卖模型,二是做应用。

也是规律 法令不确定因素更多的当前,技术路线的选择也成为创业公司需要小心翼翼处理的问题。

如一位 AI 行业从业者指出,选择拥抱不同的生态意味着模型的架构也要不同。目前国内的开源模型中,与 LLaMA 架构不同的模型只有少数,如 GLM、RWKV,但后者的生态丰富度目前几乎还无法与 LLaMA 媲美。因此,目前国内的大多数大模型还是围绕 LLaMA 出发,如 IDEA 研究院的 Ziya 大模型就直接叫“Ziya-LLaMA”。

但与此同时,各家大模型也应该注意的一点是:LLaMA 是否为最优解?

一位资深投资者向笔者指出,如果 LLaMA 的架构足够抽象、已经能够囊括所有解的话,那么围绕 LLaMA 的开源与创新自然是最优选择;但万一 LLaMA 不是最优解,大模型创业公司直接素养 素志 LLaMA 的基础上研究,只掌握了从 1 到 100、而没有掌握从 0 到 1 的能力的话,届时进展到关键阶段后再回头,就很可能陷入寸步难行的险境。

这也是 LLaMA 开源独领风骚下需要警惕的地方。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

别再声讨零一万物了

声明:本网站部分文章来自网络,转载目的在于传递更多信息。真实性仅供参考,不代表本网赞同其观点,并对其真实性负责。版权和著作权归原作者所有,转载无意侵犯版权。如有侵权,请联系www.域名.com(麻将胡了2)删除,我们会尽快处理,麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)


  • 邮箱: 2063120008@qq.com
  • 手机: 18653131072
  • 联系人:杨经理
二维云台|轻载云台|中载云台|重载云台-麻将胡了2(山东)智能制造有限公司©版权所有
备案号: 鲁ICP备2022000931号
网 址:www.        
公司地址:山东省济南市高新区正丰路554号7号科研楼608
扫一扫,有惊喜