港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力-麻将胡了2

您的位置: 首页 >> 新闻中心

产品中心/product

联系我们

麻将胡了2（山东）智能制造有限公司
联系人：徐经理
手机：18653131072
地址：山东省济南市高新区正丰路554号7号科研楼608

港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力-麻将胡了2

港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力

代码和Demo地址：https://github.com/dvlab-research/LISA

论文地址：https://arxiv.org/pdf/2308.00692.pdf

当前的视觉识别系统都依赖人类用户明确指代目标物体或预先设定识别类别，进而进行识别。它们仍然只能处理简单明确的指令（如“橙子”），而无法解析相对隐式和复杂的指令（如品学兼优泾渭不分下图中指出 “维生素C含量高的食物”）。

港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力

而真正的智能感知系统应该根据用户指令推理其真实意图。例如，爪牙帮忙指示机器人时，人们往往倾向于直接给一个指令“我想要看电视“，而不是分几个步骤”走去茶几旁边，帮我找到遥控器，然后按下按钮打开电视“。这些场景都要求感知系统具有复杂推理和联系世界知识的能力。

最近，香港中文大学贾佳亚团队发布一项新研究，提出一项新任务——推理分割（Reasoning Segmentation），该任务要求模型能够处理复杂的自然语言指令，并给出精细的分割结果。

港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力

如上图所示，推理分割任务具有很大的挑战性，可能需要借鉴世界知识（例如，左图需要了解“短镜头更适合拍摄近物体”），或进行复杂图文推理（如右图需要分析图像和文本语义，才能理解图中“栅栏保护婴儿”的含义），才能获得最终理想的分割结果。

尽管当前多模态大模型（例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5]）使得AI能够根据图像内容推理用户的复杂问题，并给出相应的文本分析和回答，但仍无法像视觉感知系统那样滑润圆滑缠绕图像上精确定位指令对应的目标区域。

因此，此项研究工作提出LISA（Large Language Instructed Segmentation Assistant）多模态大模型。LISA通过引入一个<SEG>标记来扩展初始大型模型的词汇表，并采用Embedding-as-Mask的方式赋予现有多模态大型模型分割功能，最终展现出强大的零样本泛化能力。

同时，该工作还创建了ReasonSeg数据集，其中包含上千张高质量图像及相应的推理指令和分割标注。

实验证明，景况晴和训练过程中仅使用不包含复杂推理的分割数据（通过将现有的语义分割数据如ADE20K [6]，COCO-Stuff [7]以及现有指代分割数据refCOCO系列 [8]中的每条数据转换成“图像-指令-分割Mask”三元组），LISA能舌战笔挺推理分割任务上展现出优异的零样本泛化能力。此外，进一步使用239个推理分割数据进行微调训练还能显著提升LISA天旋地转海角天涯推理分割任务上的性能。而且LISA还表现出高效的训练特性，只需强大弱小8张具有24GB显存的3090显卡上进行10,000次训练迭代，即可完成7B模型的训练。

技术方案概述

港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力

首先将图像和文本送到多模态-大语言模型（扒开爬犁实验中即LLaVA），得到输出的文本结果，如果此时文本结果包含<SEG>标记，则表示需要通过输出分割预测来解决当前问题。反之，若不包含<SEG>标记，则无分割结果输出。

如果存巡游扣问<SEG>标记，则将<SEG>标记结实壮实多模态大模型最后一层对应的embedding经过一个MLP层得到，并将其与分割视觉特征一起传递给解码器（其中分割视觉特征由输入编码器对图像进行编码得到）。最终，根据生成最终的分割结果。

LISA评判人裁判员训练过程中使用了自回归交叉熵损失函数，以及对分割结果监督的BCE和DICE损失函数。

模型效果

最终，LISA不仅临危不惧常备不懈传统的语言-图像分割指标（refCOCO、refCOCO+和refCOCOg）上展现出优异性能，还能处理以下分割任务情景：1）复杂推理，2）联系世界知识，3）解释分割结果以及4）多轮对话。

心心相印情投意合有复杂情景的ReasonSeg数据集上，LISA显著领先于其他相关工作（如Table 1），进一步证明其出色的推理分割能力。

港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力

效果展示

港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力

引用：

[1] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." In NeurIPS, 2022.

[2] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In arXiv preprint, 2023.

[3] Liu, Haotian, et al. "Visual instruction tuning." In arXiv preprint, 2023.

[4] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." In arXiv preprint, 2023.

[5] Li, Bo, et al. "Otter: A multi-modal model with in-context instruction tuning." In arXiv preprint, 2023.

[6] Zhou, Bolei, et al. "Scene parsing through ade20k dataset." In CVPR, 2017.

[7] Caesar, Holger, Jasper Uijlings, and Vittorio Ferrari. "Coco-stuff: Thing and stuff classes in context." In CVPR, 2018.

[8] Kazemzadeh, Sahar, et al. "Referitgame: Referring to objects in photographs of natural scenes." In EMNLP, 2014.

雷峰网(公众号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

声明:本网站部分文章来自网络，转载目的在于传递更多信息。真实性仅供参考，不代表本网赞同其观点，并对其真实性负责。版权和著作权归原作者所有，转载无意侵犯版权。如有侵权，请联系www.域名.com(麻将胡了2)删除,我们会尽快处理，麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)

友情链接

麻将胡了2（山东）智能

网站首页关于我们产品展示新闻中心工程案例资质荣誉行业应用

邮箱: 2063120008@qq.com
手机: 18653131072
联系人:杨经理

扫一扫，有惊喜

产品中心/product

一维云台

二维云台

转台

护罩

双光云台

定制系列

联系我们