当前位置：首页 > news >正文

视觉设计类网站百度seo关键词排名技术

news 2025/7/28 7:16:36

视觉设计类网站,百度seo关键词排名技术,宁波网站制作,锦州北京网站建设🍎个人主页：小嗷犬的个人主页 🍊个人网站：小嗷犬的技术小站 🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。基本信息标题: X-Former: Unifying Contr…

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs
作者: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2407.13851

基本信息

摘要

近期在多模态大型语言模型（MLLMs）方面的进步，通过将视觉感知能力整合到大型语言模型（LLMs）中，已经彻底改变了视觉-语言理解领域。

该领域的流行趋势涉及使用来自视觉-语言对比学习（CL）的视觉编码器，擅长捕捉整体表示，但在捕捉详细局部模式方面存在困难。

在本工作中，我们通过结合通过掩码图像建模（MIM）获得的高频和详细视觉表示与由CL捕获的语义丰富的低频表示，来增强MLLMs的视觉表示。为了实现这一目标，我们引入了X-Former，这是一个轻量级的Transformer模块，通过创新交互机制利用CL和MIM的互补优势。

具体来说，X-Former首先从两个冻结的视觉编码器，即基于CL的CLIP-ViT和基于MIM的MAEViT，启动视觉-语言表示学习和多模态到多模态生成学习。它进一步从冻结的LLM启动视觉到语言的生成学习，以确保X-Former的视觉特征可以被LLM解释。

为了证明我们方法的有效性，我们在需要详细视觉理解的任务上对其性能进行了评估。广泛的评估表明，X-Former在涉及GQA数据集中结构和语义类别的视觉推理任务中表现出色。对细粒度视觉感知基准的评估进一步证实了其在视觉理解方面的优越能力。

主要贡献

提出利用CL和MIM中的视觉编码器，从冻结的图像编码器中捕捉全局和局部视觉表示，以提升视觉语言理解能力。
提出具有双重交叉注意力的X-Former，用于通过图像-文本对启动多模态到多模态的生成学习，完全无需使用精心挑选或视觉指令数据。

方法

预备知识

CLIP-ViT与MAE-ViT的训练目标使得其关注点有所不同。CLIP-ViT更多关注低频信号和全局视觉表示，而MAE-ViT在理解详细视觉特征方面更加出色。

原生的Q-Former仅采用CLIP-ViT特征，尽管其在VQA和图像描述等下游任务上表现出色，但在详细视觉特征理解方面遇到了挑战。

将CLIP-ViT特征与MAE-ViT特征融合

BLIP2、BLIP2+Concatenation、BLIP2+Early Cross-Attention以及我们的方法在VQAv2（a）、GQA（b）和OKVQA（c）数据集上的性能比较

如何融合CLIP-ViT特征和MAE-ViT特征成为了本文的研究重点。

X-Former

Pre-Training

X-Former Pre-Training

CLIP-ViT: pre-trained ViT-G model from EVA-CLIP
MAE-ViT: pre-trained ViT-H model

X-Former通过优化重建、ITC、ITM和ITG损失来学习提取局部和全局表示。

🔥 X-Former
❄️ CLIP Image Encoder、MAE Image Encoder、MAE Image Decoder

LLM Alignment

X-Former LLM Alignment

LLM Decoder: OPT model

将X-Former的特征与冻结的LLM对齐。

🔥 X-Former、FC
❄️ CLIP Image Encoder、MAE Image Encoder、LLM Decoder

实验

主实验

VQAv2数据集上的零样本视觉问答结果

VQAv2数据集上的零样本视觉问答结果。

GQA和OKVQA数据集上零样本视觉问答结果

GQA和OKVQA数据集上零样本视觉问答结果。

GQA中的详细比较

GQA中的详细比较。

MLLMs在物体计数（OC）和多类识别（MCI）任务上的零样本细粒度视觉感知评估

MLLMs在物体计数（OC）和多类识别（MCI）任务上的零样本细粒度视觉感知评估。

COCO与NoCaps上的无微调结果零样本图像描述结果

COCO与NoCaps上的无微调结果零样本图像描述结果。

消融实验

消融实验

Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。

总结

在这篇论文中，我们介绍了X-Former，这是一种新型架构，旨在通过整合预训练的MAE和CLIP视觉编码器来增强多模态语言模型（MLLMs）的视觉表示。

我们的动机源于以下几点观察：

现有的MLLMs主要依赖于CLIP-ViT，但往往无法捕捉到细粒度的视觉信号；
我们的实证研究表明，简单地将CLIP-ViT和MAE-ViT相结合并不一定能带来性能提升；
MLLMs的有效性高度依赖于大规模图像-文本对进行预训练和精心策划的指令调整数据集进行微调。

X-Former通过双重交叉注意力机制有效地整合了CLIP-ViT和MAE-ViT，同时保持计算需求可控。我们的方法即插即用，可以应用于其他模型。

我们的实验结果明确表明，X-Former在各种需要稳健视觉理解的视觉推理任务中超越了BLIP-2。值得注意的是，这些优越的结果仅使用了十分之一的图像-文本对数据集，且无需任何指令调整数据集。

http://www.zhongyajixie.com/news/62076.html

相关文章：

微信网站开发视频搜索引擎优化包括哪些方面

免费多用户商城系统连云港seo公司

哪些网站是用织梦做的百度网盘电脑版下载

做网站优化给业务员提成微信加人推码35一单

男女做视频网站网站快速排名公司

广州电子商务网站建设网络推广的含义

字体设计欣赏网站宁波seo网络推广公司排名

怎么注册重庆seo关键词排名

上海公司网站建设多少钱大兴今日头条新闻

哪个网站可以搭建网页网站优化推广公司

上海进博会?推广关键词如何优化

网站做文献格式广点通官网

劫持网站挂广告是个人做的吗今日重大新闻头条财经

万商惠网站建设系统开发网站seo排名优化

网站设计怎么学百度竞价

网站开发外文期刊网app拉新推广平台渠道

赤峰做网站的公司网络营销软文范例

步骤流程图引擎优化是什么工作

常州网站制作多少钱市场调研问卷

做网站被骗首付款怎么报案抖音搜索优化

做网站买别人的服务器网站优化推广公司

用word文档做网站百度营销推广登录

广东网站建设微信商城运营seo网络培训机构

医药类网站建设评价长春网站开发

太原网站制作网页seo网站推广免费

辽宁网站建设新媒体运营哪个培训机构好

可信网站认证必须做吗灰色行业推广

才做的网站怎么搜不到网络推广的优势有哪些

阿里云一键建站网站成人电脑速成培训班

网站制作需要什么资料自己建网站怎么弄