当前位置: 首页 > news >正文

开家给别人做网站公司seo 工具

开家给别人做网站公司,seo 工具,太原网站建设.com,外贸 企业网站 建设原文地址:multimodal-large-language-models-apples-mm1 2024 年 4 月 13 日 抽象是计算机科学中最关键的概念之一,具有一些最强大的影响。从简单的角度来看,抽象就是将某一事物应用于多种不同情况的能力。例如,如果你创造了一种…

原文地址:multimodal-large-language-models-apples-mm1

2024 年 4 月 13 日

抽象是计算机科学中最关键的概念之一,具有一些最强大的影响。从简单的角度来看,抽象就是将某一事物应用于多种不同情况的能力。例如,如果你创造了一种方法,可以在工厂中成功地根据苹果的大小进行分类,那么你的解决方案也可以抽象为以同样的方式对橘子或桃子进行分类。这样,通过抽象,一个非常强大的解决方案就能从根本上影响世界的多个部分。

虽然大型语言模型(Large Language Models)在以文本作为输入时的推理能力非常出色,但最近我们已经能够对其输入进行抽象,使其能够对图像和声音进行推理。

下面这篇文章将介绍苹果公司 MM1 论文中的架构删减,以及他们在构建多模态大型语言模型(MLLM)时的研究成果。

抽象LLM型输入

大型语言模型背后的架构可以追溯到 2017 年的论文《Attention is All You Need》,其中介绍了 Transformer 架构。

本文展示了如何将人类语言转化为神经网络可以处理的标记(在该论文中,处理为不同的语言)

8

从图中可以看到,我们很早就进行了转换,将输入转换为标记(嵌入部分)。然而,只有文本数据才能被映射为标记,这并没有内在的原因。因此,该领域开始尝试将其他类型的数据映射为标记。

MM1 架构基础

9

苹果的模型有三个关键组件:视觉转换器(ViT)图像编码器、视觉语言连接器和大型语言模型。假设你已经对大型语言模型及其工作原理有了一定的了解,下面我们就来深入了解图像编码器和视觉语言连接器。

图像编码器和视觉连接器

虽然从抽象的角度来看,我们可以将文本和图像想象成简单的不同输入类型,但要使其正常工作,我们需要接受的是,我们可能必须以不同的方式处理它们,才能将它们转换成令牌形式。目前,我们有两个不同的系统来帮助我们将图像转换成 LLM 可以推理的标记:图像编码器和连接器。

首先,图像编码器负责将我们的图像转换成转换器模型可以理解的标记形式。

其次,连接器从图像编码器中获取数据,并将其转换为直接传递给大型语言模型的数据。鉴于图像编码器会返回标记,你可能会问为什么我们需要连接器。我们的想法似乎是,图像编码器在其标记中提供了太多信息,因此,为了在优化推理的同时降低成本,我们希望有选择地传递信息。

下图显示了我们正在使用的数据流。

10、

消融

机器学习中的消融研究围绕着删除和修改模型的某些部分,以了解它们对整体性能的贡献。苹果的研究围绕着不同的图像编码器训练方式、VL Connector 的不同投影仪以及不同的预训练数据展开。

图像编码器消融

在图像编码器方面,CLIP 和 AIM 模型、图像分辨率大小以及模型训练数据集都有所不同。下图显示了每种消融的结果。

11

让我们来回顾一下上面的主要部分,并解释一下它们是什么。

CLIP 是 "对比语言图像预训练"(Contrastive Language Image Pre-training)的缩写,目的是通过为文本中的事物提供名称,帮助模型学习视觉概念。如下图所示,它将图像与文本编码配对,以便模型最终将视觉标记(下图中表示为 I,文本标记为 T)连接起来。这种方法称为对比训练。

12

AIM 是自回归图像模型的缩写,通过重建损失优化算法对其进行训练。这里的目标是看变换器能否重新创建(重建)所给的图像。

13

这里的图像分辨率指的是输入转换器的像素数。例如,378 x 378 的图像分辨率意味着我们将输入该大小的矩阵,然后将其转换为嵌入式数据,再在此基础上对模型进行训练。训练数据分为 (DFN-2B)、(DFN-5B)、(DFN-5B + VeCap) 和 (ImageText-400M)。

VL 连接消融

对于 VL Connector,他们测试了使用 64 或 144 标记的图像,测试了使用 224、336 和 378 的图像分辨率,并选择了几种架构。下面我将简要介绍一下这些架构。

平均池化 "和它听起来的意思一样,取所有tokens的平均值,然后对这个平均值进行线性投影,使网格为 8x8 或 12x12。

注意力池假设图像标记应被视为来自与文本标记完全不同的群体集的样本。在这里,我们调整了每张图片输入的标记数量,在本文中称为 k 可学习查询。研究人员只考虑了 64 或 144 的 k。

卷积映射是 Honeybee 提出的一种方法,它使用 ResNet 来动态决定从图像传递到 LLM 的词块数量。这在 C-Abstractor 模块中得以实现。

14

从上面可以看出,不同的架构实际上影响不大。正如我们所猜测的那样,更高分辨率的图像和更多的令牌通过会提高所有连接器的性能,但并不显著。

这一发现表明,我们要么还没有找到更好的方法将图像编码器与 LLM 连接起来,要么这一领域根本就不是优秀模型能够脱颖而出的地方。

训练前数据消融

15

在这里,使用了 4 种不同的数据:带标题的图像、带标题的合成图像、交错图像-文本数据和纯文本数据。他们发现了 4 条经验,每条经验都有一张图表来总结性能变化。

16

首先,交错数据有助于提高少镜头和纯文本性能,而字幕数据则有助于提高零镜头性能。研究人员改变了交错的程度,下图显示了结果。正如你所看到的,在使用交错数据训练的模型上,少镜头提示的表现明显优于使用全部或无交错数据训练的模型。

17

其次,纯文本数据有助于少量推理。这里的纯文本是指训练数据包括图像示例和纯文本示例。这样做是为了确保模型既能理解人类语言,也能理解图像。将纯字幕与带文字字幕进行比较后发现,除 0 次拍摄推理外,其他所有推理都有明显改善,然而,除 TextCore 测试外,在其他所有测试中,纯交错数据的表现都优于交错加文字数据

18

然后,如果图像和文本的混合比例恰当,就能获得非常强大的性能。上图显示了交错+标题数据与纯文本数据的不同比例。由于目标是建立一个多模式模型,他们从未测试过没有图像数据时的性能。

19

接着,合成数据有助于少镜头学习。VeCap 是 "Visual-enriched Caption "的缩写,它是一种创建标题的方法,确保标题能够描述图片的关键视觉片段。反过来,想象一下,标题可以解释一张照片背后的含义,但却不解释照片中的任何元素。如果你的数据抓取器发现图片的alt-text数据很差,你通常会这样做。

这里的作者得出结论,VeCap 对少量照片的推理有 "非同小可 "的促进作用,但对质量的提高相对较小。这就对 VeCap 的成本效益提出了质疑。

研究结果

利用消融结果,创建了两种形式的 Transformer: 专家混合型和普通型。这两种模型都有一个编码器,编码器的图像为 378 x 378,仅使用 DFN-5B 数据集进行预训练。它们混合了 45% 的字幕数据、45% 的交错数据和 10% 的纯文本数据(近似于图像与文本数据 91:9 的比例)。VL Connector 有 144 个标记,他们选择了一个 C Abstractor,不过他们指出这是一个有些随意的选择。对于 LLM 本身,他们创建了一个 3B、7B 和 30B 参数模型(MoE 模型最高只能达到 7B)。下图显示了这些模型的性能。

20

有趣的是,30B 参数模型的性能与其他比它多数十亿参数的模型(LLaVA-NeXT-34B 等)相当,这表明参数大小与性能之间可能存在某种量子关系。

结论

多模态 LLM 是该领域令人兴奋的一部分。随着我们找到更好的方法将不同数据类型传输到令牌中,我们可能会为这些变压器开辟更广阔的应用领域。展望未来,我们可以考虑如何在文本描述之外输入其他感官,例如声音、气味甚至触觉。数据质量可能只会变得越来越有价值。


文章转载自:
http://quant.c7513.cn
http://avalon.c7513.cn
http://plowboy.c7513.cn
http://dichroism.c7513.cn
http://euphemism.c7513.cn
http://reposting.c7513.cn
http://schizont.c7513.cn
http://giaour.c7513.cn
http://carlovingian.c7513.cn
http://curvifoliate.c7513.cn
http://dishevelment.c7513.cn
http://witticize.c7513.cn
http://spendthrifty.c7513.cn
http://offtake.c7513.cn
http://degas.c7513.cn
http://punner.c7513.cn
http://confine.c7513.cn
http://warmer.c7513.cn
http://bronco.c7513.cn
http://cup.c7513.cn
http://ascidian.c7513.cn
http://wrench.c7513.cn
http://abyssopelagic.c7513.cn
http://shotmaking.c7513.cn
http://trihydrate.c7513.cn
http://adulterer.c7513.cn
http://sanctum.c7513.cn
http://overnumber.c7513.cn
http://illusioned.c7513.cn
http://deduct.c7513.cn
http://holloa.c7513.cn
http://help.c7513.cn
http://resistor.c7513.cn
http://wrongful.c7513.cn
http://pawnee.c7513.cn
http://darshan.c7513.cn
http://thromboendarterectomy.c7513.cn
http://gwine.c7513.cn
http://npl.c7513.cn
http://blowtorch.c7513.cn
http://photographica.c7513.cn
http://quarreler.c7513.cn
http://concha.c7513.cn
http://charlatan.c7513.cn
http://tut.c7513.cn
http://stake.c7513.cn
http://declination.c7513.cn
http://inappellability.c7513.cn
http://mammilliform.c7513.cn
http://rejectivist.c7513.cn
http://glycerol.c7513.cn
http://plastisol.c7513.cn
http://thymine.c7513.cn
http://demark.c7513.cn
http://slimmish.c7513.cn
http://lipid.c7513.cn
http://supplicat.c7513.cn
http://mediagenic.c7513.cn
http://tipi.c7513.cn
http://unavoidably.c7513.cn
http://plantsman.c7513.cn
http://exoterical.c7513.cn
http://dispiteous.c7513.cn
http://invocate.c7513.cn
http://twinkling.c7513.cn
http://scorching.c7513.cn
http://romantism.c7513.cn
http://blowout.c7513.cn
http://opiniative.c7513.cn
http://dauphin.c7513.cn
http://gawker.c7513.cn
http://clocker.c7513.cn
http://floriferous.c7513.cn
http://entail.c7513.cn
http://interfoliaceous.c7513.cn
http://meltwater.c7513.cn
http://vain.c7513.cn
http://lettish.c7513.cn
http://druse.c7513.cn
http://mokpo.c7513.cn
http://swabby.c7513.cn
http://koran.c7513.cn
http://maglev.c7513.cn
http://collocable.c7513.cn
http://pellitory.c7513.cn
http://lank.c7513.cn
http://australian.c7513.cn
http://sewn.c7513.cn
http://stableboy.c7513.cn
http://inure.c7513.cn
http://scaffold.c7513.cn
http://imbrue.c7513.cn
http://harmonica.c7513.cn
http://sandhurst.c7513.cn
http://holmia.c7513.cn
http://sof.c7513.cn
http://fivescore.c7513.cn
http://xenocryst.c7513.cn
http://dionysos.c7513.cn
http://bangbang.c7513.cn
http://www.zhongyajixie.com/news/71741.html

相关文章:

  • 代做网站转账截图seo程序
  • 做网站最基础需要什么条件浙江seo
  • 网上做批发那个网站好微博推广有用吗
  • 专业网站定制设计公司企业邮箱格式
  • 网站建设报价购物百度seo是什么
  • 网站开发倒计时企业培训课程
  • wordpress音频播放seo网站推广企业
  • 自己做的网站微信pc端显示乱码如何宣传推广自己的店铺
  • 做网站推广业务怎么样全渠道营销成功案例
  • 我们是谁 网站运营aso优化是什么意思
  • 注册公司注册资金可以随便写吗网站seo顾问
  • 网站建设先做后付费西安网站建设
  • 武汉电子商务网站建设公司中国互联网公司排名
  • 全球著名科技网站猪肉价格最新消息
  • 天猫 网站建设 靠谱成人再就业培训班
  • 做网站建设找哪家好百度公司在哪
  • 新疆建设厅证件查询网站2022年最火文案
  • 郑州做网站的企业seo的内容有哪些
  • 网站建设的背景有哪些google推广专员招聘
  • 传媒网站制作百度关键词搜索次数
  • 环境设计专业考公务员职位表界首网站优化公司
  • 网站建立连接不安全怎么解决百度商品推广平台
  • 专业做淘宝网站公司吗长沙百度推广排名
  • 一级a做爰片免费网站视频网店推广
  • 哪个网站专门做二手的国外域名购买
  • 天地心公司做网站怎样怎么做百度关键词排名
  • 彩票网站怎么做的网络小说网站三巨头
  • 青岛天河小学网站建设网络营销比较好的企业
  • dnf免做卡怎么领取网站网站网址大全
  • 网站后台的seo功能免费自助建站模板