【多模态读论文系列】LLaMA-Adapter V2论文笔记

news/2024/11/6 6:36:55 标签: llama, 论文阅读, 人工智能

分享第二篇论文阅读笔记,欢迎指正,LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

论文:https://arxiv.org/abs/2304.15010

代码:https://github.com/ZrrSkywalker/LLaMA-Adapter

介绍

本文提出了 LLaMA-Adapter V2,一种参数高效的视觉指令模型。

主要通过以下方法来增强LLaMA-Adapter

  1. 解锁更多可学习参数:解锁更多的可学习参数(例如,norm, bias 和 scale),将指令跟随能力分布到整个LLaMA模型中,而不仅仅是Adapter部分。

  2. 早期融合策略:将视觉token只输入到LLM的早期层,尽早融入视觉知识。

  3. 联合训练方法:引入了一种图像-文本对和指令跟随数据的联合训练方法,通过优化不同组的可学习参数来减轻这两个任务(图像-文本对齐和指令跟随)之间的干扰。

  4. 在推理时结合其他模型,例如图像字幕生成/OCR系统等;

LLaMA-Adapter V2与LLaMA-Adapter相比,仅增加了1400万个参数就能执行多模态指令。

虽然一开始的LLaMA-Adapter可以通过冻结指令跟随模型,然后训练投影层来实现图像-文本对齐从而达到不需要多模态数据也能得到多模态模型,但是视觉特征往往主导模型的回应,从而降低了模型指令跟随的能力

因此在LLaMA-Adapter V2 中,作者仅将动态视觉提示分发到前 K 层,而不会过分影响最后几层模型的自适应输出,所以使得图像文本对齐不再破坏模型的指令跟随能力

最终所有可训练参数仅占整个模型的约 0.04%,因此 LLaMA-Adapter V2 仍然是一种参数高效的方法。

回顾LLaMA-Adapter
  • 初始化注意力。LLaMA-Adapter冻结了整个LLaMA模型,引入拥有1.2M参数的额外轻量级适配器模块。适配器层用于 LLaMA 的较高的 Transformer 层,并将一组可学习的软提示连接起来作为词标记的前缀(软提示向量在训练过程中逐步调整,以使模型能够实现指令跟随)。为了将新适应的知识融入到冻结的 LLaMA 中,LLaMAAdapter 提出了一种零初始化注意机制,在训练过程中,门控幅度逐渐增加,从而逐渐将指令跟踪能力注入冷冻的 LLaMA 中。
  • 简单的多模态变体。除了使用纯语言指令进行微调之外,LLaMA-Adapter 还可以合并图像和视频输入以进行多模态推理。例如,在处理图像时,LLaMA-Adapter 采用预先训练的视觉编码器(例如 CLIP )来提取视觉特征。然后,这些特征被聚合成全局特征,并通过可学习的投影层,以使视觉语义与语言嵌入空间保持一致。之后,全局视觉特征会按元素添加到 Transformer 较高层的每个适应提示中。这使得 LLaMA-Adapter 能够根据文本和视觉输入生成响应。
  • 开放式多模式推理。虽然 LLaMA-Adapter 能够处理相对简单的任务,例如 ScienceQA,但仍不清楚它是否可以生成开放式响应,例如通用视觉问答所需的响应。为了研究这一点,作者首先从 LLaMA-Adapter 开始,用语言指令数据进行预训练,以利用其现有的指令跟随功能。然后通过在 COCO Caption 数据集上微调其适配器模块和视觉投影层来进行实验。最后作者发现新学习的视觉提示往往会主导适应提示,从而超越固有的指令跟随特征。因此提出了LLaMAAdapter V2,一种参数高效的视觉指令模型,以充分释放LLaMA的多模态潜力。
LLaMA-Adapter V2

线性层的偏置调整

LLaMA-Adapter 在冻结的 LLaMA 模型上采用可学习的适应提示和零初始化注意机制。但参数更新仅限于适应提示和门控因子,没有修改LLM的内部参数,这限制了其进行深度微调的能力。所以为了自适应地处理指令跟踪数据的任务,作者解冻了 LLaMA 中的所有归一化层,对于 Transformer 中的每个线性层,添加一个偏差和一个比例因子作为两个可学习参数。

具有不相交参数的联合训练

由于 500K 图文对和 50K 指令数据之间的数据量差异,简单的将它们组合起来进行优化可能会严重损害 LLaMA-Adapter 的指令跟随能力。

这里作者提出了一种 联合训练策略,通过优化 LLaMA-Adapter V2 中不同的参数组来分别处理 图像-文本对齐指令跟随 两个任务。

  • 图像-文本对齐训练:对于图像-文本配对数据,仅优化与 图像理解 相关的参数,包括 视觉投影层(visual projection layers)早期零初始化注意力层(early zero-initialized attention with gating)

在这里插入图片描述

  • 指令跟随训练:对于语言指令数据,优化与 语言生成 相关的参数,包括 后期适配器提示(late adaptation prompts)零初始化注意力机制的门控(zero gating)未冻结的归一化层(unfrozen norm)、以及 新增的偏置和缩放因子(或者可选的低秩适配(low-rank adaptation))。

在这里插入图片描述

视觉知识的早期融合

LLaMA-Adapter V2 将 编码后的视觉标记(visual tokens)适配提示 分别注入到不同的 Transformer 层,而不是将它们直接融合在一起。

  • 对于共享的数据集适配提示仍然在最后的 L 层插入(例如 L=30)。
  • 对于输入的视觉提示,它们在 第一层 Transformer 中与词标记直接拼接,并使用 零初始化注意力 机制,而不是与适配提示融合。

集成其他模型

LLaMA-Adapter V2 通过引入专家系统(如图像描述、OCR 和搜索引擎)来增强其视觉指令跟随能力。相比于大规模图像-文本训练数据,LLaMA-Adapter V2 在小规模数据集上进行微调,更高效,但是会面临视觉指令跟随能力不足的问题。专家系统为模型提供额外的视觉推理能力。

实验
实验设置

训练数据。52K 单轮指令数据(来自 GPT4-LLM)、567K 图像描述数据(来自 COCO Caption),以及 80K 对话数据(来自 ShareGPT)。与 我们上一篇读的论文 LLaVA 不同,该模型没有使用视觉指令数据。

在这里插入图片描述

实现细节。在 LLaMA-7B 模型的实现中,静态适配提示被插入到最后 31 层,动态视觉提示则附加到第一层,提示长度为 20。所有归一化层的参数、线性层的偏置和缩放因子在训练过程中都会更新,其他 LLaMA 的参数保持冻结。


http://www.niftyadmin.cn/n/5740476.html

相关文章

钉钉向广告低头

商业化重压下,钉钉试水应用内广告。 作者|文昌龙 编辑|杨舟 “钉钉吃相真心难看!早晨打卡时间还做开屏广告赚打工人的钱,比如很多踩点上班的,就因为你这5秒时间的开屏广告,没按上打卡按钮就会迟到,知道吗…

「实战应用」如何用图表控件LightningChart .NET在WPF中制作表格?(一)

LightningChart .NET完全由GPU加速,并且性能经过优化,可用于实时显示海量数据-超过10亿个数据点。 LightningChart包括广泛的2D,高级3D,Polar,Smith,3D饼/甜甜圈,地理地图和GIS图表以及适用于科…

信息安全工程师(76)网络安全应急响应技术原理与应用

前言 网络安全应急响应(Network Security Incident Response)是针对潜在或已发生的网络安全事件而采取的网络安全措施,旨在降低网络安全事件所造成的损失并迅速恢复受影响的系统和服务。 一、网络安全应急响应概述 定义:网络安全应…

华为HarmonyOS借助AR引擎帮助应用实现虚拟与现实交互的能力5-识别平面语义

对于检测到的平面,您可以通过AR Engine识别该平面的语义,包括墙面、地面、座椅面、桌面、天花板、门面、窗面、床面。 创建AR会话 创建AR会话并配置为平面语义识别模式。 AREngine_ARSession *arSession nullptr;// 创建AR会话。HMS_AREngine_ARSessi…

【dvwa靶场:XSS系列】XSS (Reflected)低-中-高级别,通关啦

一、低级low 简单拿捏 <script>alert(123)</script>二、中级middle 源码过滤了script但是没有过滤大小写&#xff0c;改成大写S <Script>alert(123)</script>三、高级high 比中级高&#xff0c;过滤了script并且以及大小写&#xff0c;使用其他标…

ChatGPT o1与GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的比较

全新的ChatGPT o1模型&#xff08;代号“Strawberry”&#xff09;是OpenAI的最新进展&#xff0c;专注于以前的AI模型难以应对的领域&#xff1a;高层次推理、数学和复杂编程。OpenAI设计o1模型以花费更多时间思考问题&#xff0c;使其在需要逐层推理的任务中提高准确性。本文…

乐尚代驾十订单支付seata、rabbitmq异步消息、redisson延迟队列

账单信息 司机结束代驾之后&#xff0c;生成账单&#xff08;包含账单信息和分账信息&#xff09;司机发送账单给乘客乘客获取账单之后&#xff0c;进行支付 获取账单信息 order_bill表记录的账单信息&#xff0c;我们直接获取即可 Operation(summary "根据订单id获取…

机器学习(二)——线性回归模型、多分类学习(附核心思想和Python实现源码)

目录 关于1. 基本形式2. 线性回归2.1 单变量线性回归2.2 多元线性回归2.2 对数线性回归 3. 对数几率回归4. 线性判别分析5. 多分类学习5.1 拆分策略 6. 类别不平衡问题X 案例代码X.1 源码X.2 数据集&#xff08;糖尿病数据集&#xff09;X.3 模型效果 关于 本文是基于西瓜书&a…