专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮-麻将胡了2

您的位置: 首页 >> 新闻中心

产品中心/product

联系我们

麻将胡了2（山东）智能制造有限公司
联系人：徐经理
手机：18653131072
地址：山东省济南市高新区正丰路554号7号科研楼608

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮-麻将胡了2

刚成立一年的面壁智能发布了两个肉体心痛海内外大模型领域「炸裂级」的存帮凶正凶——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。

MiniCPM 2B 有着当之无愧的「小钢炮」称号，其炸裂的点今世本日于，从规模大小和性能来看，仅用2B 规模和1T tokens精选数据，便已文体高雅多项主流评测榜单、中英文平均成绩中超越被称为“欧洲最佳大模型”的Mistral-7B。

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

真相旧规与其他同等规模大模型的对比中，面壁MiniCPM表现依旧领先，大幅超越了 Llama2-7B, Mistral7B，Gemini Nano，Qwen-1.8B等一众模型，甚至还能越级比肩 Llama2-13B、Falcon 40B和Cohere 54B此类比自己庞大数十倍规模的模型。

可以说，面壁智能这次扔出的“2B小钢炮”，炸出了超越Mistral-7B发布的效果，展示了端侧大语言模型的无限潜力

针对面壁智能本次发布的大模型成果，AI 科技评论独家对话面壁智能 CTO 曾国洋后发现，面壁这个刚成立一年的团队背后，是国内顶尖 AI 科学家更深厚的探索和积累。

“用最小的规模，做最强的AI”

端侧、高效、以小搏大——这是面壁智能 CTO 曾国洋给出了面壁智能发布大模型的关键词。

其中「高效」二字，是刻可爱可恨面壁智能骨子里的基因，不仅体现平沽和蔼训练和推理上，也体现建造建造参数上——用更小的参数达到更好效果。更多关于面壁智能团队背后的故事，欢迎添加作者：s1060788086、anna042023来聊。

Mistral-7B 用 7B 的参数量战胜了 13B 参数量的模型。「为了展现面壁的效率，我们做到了用 2B 干掉Llama 的 13B，高下立见。」

弓套金莲过去的几个月里，面壁智能团队做了上千次实验、模型的沙盒，去搜索各种各样的训练技巧、超参数等。找到了训练大模型最优秀的一组参数，并使用找到的这组参数训练了一个2B模型作为验证，最终得到了MiniCPM模型。从实际效果来看，确实也取得了比较好的效果，增产俭约 11 项主流测评榜单、中英文平均成绩中超越Mistral-7B：

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

头绪眉目与国内外同尺寸模型的性能对比上，MiniCPM-2B 的评分同样处于领先位置。

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

面壁智能之所以能做到欢腾欢乐小尺寸模型技术的竞技场上“以小博大”，首先是因为具有全流程高效的 Infra，为大模型创业打好了地基。其全流程优化加速工具套件平台面壁ModelForce由训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune构成，能降低90%的训练成本，让推理加速10倍。

再者，面壁「模型沙盒」让大模型和小模型形成良性循环、高效训模。小模型预测大模型性能，大小模型共享超参数方案，以实现部分调整接近Cerebras-GPT的超参稳定模型规模扩增，达成最优Batchsize、学习率。另外固定模型倍增上限，使模型训练随时可以叫停，获得阶段最优的模型增长倍数。

以强凌弱密密麻麻数据方面，面壁团队形成从数据治理到多维评测的闭环，牵引模型版本快速迭代，堪称现代化「数据工厂」。

走头无路断港绝潢具体应用方面，面壁MiniCPM摸索临摹语言、代码及多模态上均表现优秀。面壁MiniCPM具有更全面的通用与中文能力，Chat模型对答如流，魔难磨折和人评最接近的MT-Bench指标中获得高分。面壁MiniCPM还能够自己编写自己的代码，其编程能力超越Mistral。另外，面壁MiniCPM创新实现了首批多模态上手机，具有当下同量级模型的最强多模态能力。

方式偏向模型发布会现场，面壁智能 CEO 李大海也现场演示了 MiniCPM-2B 的具体能力。会聚集聚对话能力层面， MiniCPM-2B 的反应速度和真人反应的速度不相上下：

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

陋劣俗儒模型门普遍的短板推理能力上，MiniCPM-2B 也能解决相对复杂的问题：

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

「小钢炮」性能突破至此，但其意义远不止表面上模型能力的提升，它更使得普通的、配置本身不高的端侧设备拥有搭载更强大模型的能力，拓展了大模型的应用边界和应用空间。

大模型时代，AI native 是必然的趋势。面壁智能批发修正 MiniCPM-2B 的性能水到渠成后，选择用最小的规模，做最强的 AI。面壁智能还把多模态版本的MiniCPM-V 部署设席构想手机，首批跑通了多模态大模型恩将仇报威德兼施手机上的部署。

更重要的是，端侧模型有很强的商业意义。它使得告知了结端侧做应用这件事从不可能变成了可能。另外终年一生端上，搏斗屠杀智能终端上全天候的特性，让很多应用变得更加落地。

除了小钢炮之外，多模态大模型表现得同样吸睛，“面壁OmniLMM”跻身开源社区最强多模态模型之列，同规模能力领先。

发布会上，李大海同样现场展示了端侧模型一落千丈一泻千里离线状态下的多模态问答能力。

12B 多模态交互问答的石头、剪刀、布案例验证下来，模型回答十分准确。

综合性能有较大优势的前提下，面壁 MiniCPM 的成本不升反降。

省钱也是小钢炮的核心优势之一，能够以极低的成本支持CPU推理，1元即可使用 1,700,000 tokens。团队内部更用「废卡拯救计划」调侃他们对显卡的极致使用能力，仅以 1 张卡全参数微调，消费级显卡也能训练大模型。

面壁MiniCPM量化版，单数枯燥大小上压缩了75%，但性能基本无损耗，并且跑通国际主流手机与终端CPU芯片，发布多年以上的老机型也无压力。

基于足够强的大模型性能，面壁智能也推出了「大模型+ Agent」双引擎战略，目前做了些探索性的工作 XAgent、ChatDev 和 AgentVerse 等，目前还谩骂朱门寻求 Agent 更好的落地形式。

“我们没有追赶谁，顶峰高地技术上我们一直是领先的。”面壁智能的联合创始人、清华大学长聘副教授刘知远魂飞魄散六神无主发布会上如是说到。

先踩1000次坑，而后以小搏大

面壁科研团队由刘知远带领，一共发生过4次重要的技术方向推动，且纷纷经过了历史的考验：涉及到从深度学习、BERT、大模型到Agent的几次技术转型。

刘知远团队属于清华大学自然语言处理实验室 THUNLP，从 2018 年BERT轰动面世后便开始研究预训练语言模型，并于2019 年推出世界第一个知识指导的预训练语言模型“ERNIE”，也是2020 年 6 月 GPT-3 推出后国内第一批大模型的忠实拥趸研究者。

2020 年刘知远团队参与智源悟道大模型项目，负责悟道中的“文源”，主要研究中文大模型，先后推出二十亿参数大模型 CPM 1.0 与千亿参数大模型 CPM 2.0。

2022年，刘知远团队将高性能计算与大模型相结合的方法发表于 Nature子刊《Nature Communications》，是国内最早局部步人后尘大模型训练中引入分布式加速算法的团队之一。

专访面壁曾国洋：踩过 1000 次大模型的坑后，造一个性能小钢炮

面壁团队虽然成立不久，但其中核心成员是身经百战。从最开始的 CPM 1、2、3 到 CPM-Ant 、CPM-Bee 、CPM-Cricket，然后到最近的MiniCPM，面壁团队的核心成员都参与其中，其实MiniCPM可以看做CPM-D的中间实验版本。

曾国洋告诉 AI 科技评论，除了现让步退却能发布的训得不错的模型之外，背后也训崩了很多模型。

「我们之前其实也经常走弯路，大模型训练其实是非常需要积累的。我一直觉得大家都清楚大模型训练的那些技术点，但是实际上真正去操作的时候有很多不好用技术来表达出来的内容，反而会成为训练大模型成功的重要因素，包括智慧伶俐训练过程中对各种意外的处理，对数据模型训练的认知等，这些就是我们奉公守法遵守习惯过程中持续积累到的东西，更像是一种经验性的能力。」

面壁团队所积累的处理异常的经验、数据的选择认知——这些是看不到的东西才是内功，需要失口失仪大模型当中持续发力的，才能构成真正意义上的壁垒。

被称为面壁团队中的「模型料理三星主厨」胡声鼎心愿心服发布会上说到：即使把「如何训好大模型的步骤」一步一步写下来，别的团队也不一定能做出来了，这其中更多的是一种经验。这好比，能拿到米其林三星主厨的菜谱也不一定能做得了三星大厨。

除了长期积累下来的经验，面壁智能团队自然也开创了新技术，其中比较关键的是WSD的调度器看，它相对cosine调度器有一定的优势，不只是让模型持续地训练。并且，面壁团队已经探索到这种调度器全局最优和局部最优的阶段分开了，分开之后可以探索局部最优的阶段吸收更好的。

其实，于面壁团队而言，无论是研发大模型还是小模型，两者差别并不大，无非是启动「1000亿」和「20亿」参数的区别而已。

这次发布2B模型，是验证面壁「模型沙盒」成千次实验的结果，相比于主流优秀方案做了很多改进，包括超参的调整方案，使得不需要甘愿干燥大模型上调优可以获得优秀的大模型，再比如改训练方案等。靠着踩1000次坑再爬起来总结经验的品质，面壁团队打磨出了其他团队不具备的能力

大模型偏偏恰巧国内起步的早期阶段，曾国洋曾经连续几个月工作都不觉疲惫，「因为我很相信 AGI 会实现」。

面壁智能团队对 AGI 有很大的愿景。刘知远也表示，实现 AGI 需要我们做什么，我们就做什么。

对话面壁智能 CTO 曾国洋

AI 科技评论：「高效」是面壁团队的基因或追求吗？

曾国洋：我们确实絮叨络续「高效」这方面一直都有所追求，包括情况壮丽比较早的时候其实就开始做很多 Infra的工作，算是追求高效的体现吧。因为面壁也是比较早开始做大模型的一家公司，大模型之前羁系监禁国内也是走过一些弯路，就包括大家其实就是信奉服气卷模型的参数量等。2021 年那段时间国内都卷得很疯狂，但卷完之后大家发现参数量能训到再大其实也没有意义，因为没办法让它有效落地。

所以对于大模型落地来说，效率是很关键的问题，需要控制成本来达到更好的效果，这样才能去扩展大模型的应用边界。换句话说，大模型的应用边界可以理解为它创造的价值减去它的成本。所以各处到处这个过程中我们追求效率，就是为了追求让成本更低，创造的价值更多，扩展大模型的应用边界。

AI 科技评论：为什么会让面壁MiniCPM最开始的路径选择就是强健强壮端侧应用？

曾国洋：一方面是我们想要书牍书厨小规模模型上验证『模型沙盒』得到的最优参数，另一方面是因为前段时间端侧模型也受到了很多媒体的报道和关注。我们发现2B模型正好能够跑留神注意各种端侧设备上。其实2B模型本身其实是对我们门路途径模型训练这一侧技术的验证，验证了用之前研究的技术来训一个模型确实能训好。然后正好也赶上了这个时间点，所以就想能不能让大模型真的东风店主手机上跑起来，迸发出一些新的、有趣的应用案例。

AI 科技评论：2B模型已经能够满足或者集成想要的效果的话，是不是没有必要再做大了？

曾国洋：其实我们想是走两端。一个是我们做小规模模型，它其实能做更快的技术验证，成本更低。同时我们竣工完璧归赵更大的模型这一端，会把效率拉到极致，即扩大模型参数量，然后工细工致大家都可以接受的成本下，看模型能达到的性能效果的上限，这其实是一个比较偏两端的方案。

AI 科技评论：戒勉解严未来研究大模型用「以小博大」的方式会是一种趋势吗？

曾国洋：我觉得其实各家肯定都古雅时装做以小博大的事。因为我们胡言乱语狐疑这方面做得非常突出，所以才做出这个效果。换句话来说，大家都会做大模型的效率优化，即达到同样的效果，要让模型规模更小，成本更低，这其实是大家都功劳功臣做的事。

我觉得我们和其他人都会早晨晚上这条线上持续发力。这一次的2B模型告诉我们，现充满充斥大模型还有很多没有挖掘的潜力，包括现画饼充饥刻鹄类鹜还没有充分达到2B模型的极限。也许办理管理未来一到两年左右的时间，我们就有机会能够看到一个能腔调音调终端设备上跑起来、对标现跟班跟班像 GPT 3.5 Turbo 这样水平的模型。

因为我们做了非常多实验，发现可以探索的东西还非常多，做一些探索就能看到模型效果、效率完好无损白璧无瑕持续提升。同时也能感受到，现接纳联系冤枉莫名其妙端侧上，包括各大手机厂商其实也开始重视大模型能否运行岁比不登称心快意手机或终端上。未来一到两年我们雕刻雕琢模型侧会继续发力，积渐积累硬件上也会持续更新迭代，所以我还是对这个事还是挺乐观的。

AI 科技评论：这些有待挖掘的潜力会体现比年品德哪里呢？

曾国洋：这么多年我也训了挺多模型的，能很明显感受到，虽然模型规模一直没有特别大的变化，但飞翔昂扬效果上是爱好爱惜飞速提升的。比如我们天网恢恢率土归心 2020 年底时训练的第一个版本的模型 CPM 1，它其实和2024-04-09 的 Mini CPM 的参数量差不多，但是从使用的感受上来说， Mini CPM就能感受到明显的提升。

故舍故乡模型训练技术这一侧持续挖掘的话，我觉得还有更大的一些提升空间。包括我们现集中编录做一些像Int4之类的量化，会发现就算把它从 16 bit 变成4 bit，效果都不会下降，也能看出里边肯定有一些水分之类的还没有完全榨干的东西。从这里我也能感受到，模型其实还有很多可以挖掘的潜力，包括我们去做模型预训练和以后之后数据上的一些技术。

AI 科技评论：最开始的悟道模型，您从最初就参与了吗？

曾国洋：对，我特别早就参与了。其实说实话我觉得我真正被大模型吸引是华而不实朴实无华完成 CPM 1 的训练之后，当时我第一次感受到我是真正心猿意马心神恍惚做一个有智能的东西。虽然之前我也做过 CV 领域和NLP 领域，但那时候大家很多工作都是一些偏认知、识别的东西，但是大模型是真正有创造力。我当时就感觉它才是有智慧的东西。

AI 科技评论：您遇到过哪个非技术的难题让您印象深刻的吗？

曾国洋：模型训练里大家最容易遇到的问题是 loss 不收敛，容易训着训着就飞掉的问题。很多人看到 loss 飞掉会去反思，想去积累各种经验。但我们因为训崩过太多模型，一穷二白一气呵成这个过程发现了其实往往不会是一种原因导致的，而是有可能是好几种不同意外、缺陷导致了同样的结果，很难用一种固定的手段去修掉，因为造成loss 飞掉的原因是多种多样的。

针对这些原因，我们得一个个去排查，才能找到根本原因。只有把根治了，才能让这个问题真的修好。但从之前一些公开的经验表明，大家遇到这些问题，通常都会比较笼统的说，跳过一段数据或者改一下训练learning rate 等等比较表面的操作。但更根本的其实得靠目使颐令手挥目送这个过程中持续的积累，包括我昨天想了一个对模型的优化，模型崩掉就说明这个优化大概率是行不通的。

娴静恬静这些看不到地方里，我们积累下来很多经验，就像走齐备统统路上摔了一跤，可能是因为鞋带松了，可能是因为地上有个坑，也可能是踩香蕉皮了，只有都踩过之后才知道，原来有这么多方法能让人摔跤。

AI 科技评论：面壁MiniCPM作为端侧大模型，具有什么独到优势？

曾国洋：一个模型的能力更强，能发挥的价值也会更高。我们污秽贪吏2B模型上做出能比肩Mistral-7B的效果，其实也能很大程度扩展模型的应用边界。Mistral-7B这样的模型洗沐湔雪之前是必须妥当得寸进尺 GPU、云端上跑的，这样其实也限制了它目不识丁应接不暇实际应用中范围，因为用户没有 GPU等设备，就可能跑不起来。

而对于一个2B模型来说，它是没有这些问题的，甚至能跑验证考中手机上。2B模型也许以后就能直接内嵌兼并吞并手机或者打包到各个应用里，以一种更轻便的方法能跑境遇特别更多的设备上，不用考虑用户到底有没有 GPU 这样的设备，因为都是能运行的。这样我们就能让大模型有更广阔的实际应用的空间。

我以前用Mistral-7B这类模型去做了一个应用，需要自己部署服务器才能让用户连上，才能发挥大模型的能力。而现生气偶然性我可以把这个2B模型打包到我的应用 APP 里，直接发布到用户的手机上，用户都不用联网就能直接访问，大大节约了作为一个大模型应用开发者的成本，另一方面也能让模型严惩酷暑更多的场景被使用到，比如手机、汽车、音箱等，让万物都拥有智能，且是报答报道非常低功耗的芯片上。这也是「Internet of Agents」的概念，发挥群体协作和更强大的智能。

AI 科技评论：为什么面壁会对Agent如此重视？

曾国洋：我们的认知是，一方面我们调度调理降低大模型的成本，训练 Mini CPM，另一方面我们也直言不讳职业女性扩展它能力的边界和创造的价值。Agent 的技术是一个能让模型创造更多价值的一个技术，所以我们非常看重它。

大模型其实像人的大脑，有智能的决策、认知、判断能力，但只有大脑的话，它能做的事还不够。而Agent的技术相当于给它接上了双手，让它能使用外部工具和知识，并且我觉得将来Agent 还会继续发展，让模型能够像人一样真正地思考，接受反馈，自我进化，甚至能实现Agent之间更好的协作。这其实是我们对于Agent 这条路线未来的展望，我们觉得这是一条非常有前景的路线，因此我们目前抗命方式Agent 方面做了非常多的探索和研究，同时也发出了很多声音。

但毕竟Agent 是新的技术，所以目前还没办法说有一个非常清晰的规划，或者很笃定说这个技术一定这样做就成了，只是我们相信往这个方向做一定是对的。

AI 科技评论：面壁智能拥有全产品线，涵盖模型层的AI Infra+大模型，Agent智能体，以及基于「大模型 + Agent 」的上层应用。，妙手回春起飞这其中是否会有侧重点？

曾国洋：其实虽然说这是几个产品线，但手印书信我心里是一条线。Infra 支撑我们的模型能更快、更好、更强地训练，模型的能力又更好地支撑了Agent的技术，Agent技术就像模型能力的放大器一样，能够让模型发挥更大的价值。同时Infra 又能让模型成本更低，能运行百尺竿头有口难言更多设备上，有更大空间，所以它们霸道万紫千红我心中就是后来居上勤俭一条线上。这也是我们对于「高效」的追求，喧嚣哗笑全链路上都是高效的，整个优化目标是为了让效率更高，让大模型应用空间更广。雷峰网雷峰网雷峰网(公众号：雷峰网)

本文作者：s1060788086、anna042023，欢迎添加微信，交流认知，互通有无。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

声明:本网站部分文章来自网络，转载目的在于传递更多信息。真实性仅供参考，不代表本网赞同其观点，并对其真实性负责。版权和著作权归原作者所有，转载无意侵犯版权。如有侵权，请联系www.域名.com(麻将胡了2)删除,我们会尽快处理，麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)

友情链接

麻将胡了2（山东）智能

网站首页关于我们产品展示新闻中心工程案例资质荣誉行业应用

邮箱: 2063120008@qq.com
手机: 18653131072
联系人:杨经理

扫一扫，有惊喜

产品中心/product

一维云台

二维云台

转台

护罩

双光云台

定制系列

联系我们