当前位置: 首页 > news >正文

开家给别人做网站公司推广软文200字

开家给别人做网站公司,推广软文200字,线上拓客渠道有哪些,企业网站建设中企动力原文地址:multimodal-large-language-models-apples-mm1 2024 年 4 月 13 日 抽象是计算机科学中最关键的概念之一,具有一些最强大的影响。从简单的角度来看,抽象就是将某一事物应用于多种不同情况的能力。例如,如果你创造了一种…

原文地址:multimodal-large-language-models-apples-mm1

2024 年 4 月 13 日

抽象是计算机科学中最关键的概念之一,具有一些最强大的影响。从简单的角度来看,抽象就是将某一事物应用于多种不同情况的能力。例如,如果你创造了一种方法,可以在工厂中成功地根据苹果的大小进行分类,那么你的解决方案也可以抽象为以同样的方式对橘子或桃子进行分类。这样,通过抽象,一个非常强大的解决方案就能从根本上影响世界的多个部分。

虽然大型语言模型(Large Language Models)在以文本作为输入时的推理能力非常出色,但最近我们已经能够对其输入进行抽象,使其能够对图像和声音进行推理。

下面这篇文章将介绍苹果公司 MM1 论文中的架构删减,以及他们在构建多模态大型语言模型(MLLM)时的研究成果。

抽象LLM型输入

大型语言模型背后的架构可以追溯到 2017 年的论文《Attention is All You Need》,其中介绍了 Transformer 架构。

本文展示了如何将人类语言转化为神经网络可以处理的标记(在该论文中,处理为不同的语言)

8

从图中可以看到,我们很早就进行了转换,将输入转换为标记(嵌入部分)。然而,只有文本数据才能被映射为标记,这并没有内在的原因。因此,该领域开始尝试将其他类型的数据映射为标记。

MM1 架构基础

9

苹果的模型有三个关键组件:视觉转换器(ViT)图像编码器、视觉语言连接器和大型语言模型。假设你已经对大型语言模型及其工作原理有了一定的了解,下面我们就来深入了解图像编码器和视觉语言连接器。

图像编码器和视觉连接器

虽然从抽象的角度来看,我们可以将文本和图像想象成简单的不同输入类型,但要使其正常工作,我们需要接受的是,我们可能必须以不同的方式处理它们,才能将它们转换成令牌形式。目前,我们有两个不同的系统来帮助我们将图像转换成 LLM 可以推理的标记:图像编码器和连接器。

首先,图像编码器负责将我们的图像转换成转换器模型可以理解的标记形式。

其次,连接器从图像编码器中获取数据,并将其转换为直接传递给大型语言模型的数据。鉴于图像编码器会返回标记,你可能会问为什么我们需要连接器。我们的想法似乎是,图像编码器在其标记中提供了太多信息,因此,为了在优化推理的同时降低成本,我们希望有选择地传递信息。

下图显示了我们正在使用的数据流。

10、

消融

机器学习中的消融研究围绕着删除和修改模型的某些部分,以了解它们对整体性能的贡献。苹果的研究围绕着不同的图像编码器训练方式、VL Connector 的不同投影仪以及不同的预训练数据展开。

图像编码器消融

在图像编码器方面,CLIP 和 AIM 模型、图像分辨率大小以及模型训练数据集都有所不同。下图显示了每种消融的结果。

11

让我们来回顾一下上面的主要部分,并解释一下它们是什么。

CLIP 是 "对比语言图像预训练"(Contrastive Language Image Pre-training)的缩写,目的是通过为文本中的事物提供名称,帮助模型学习视觉概念。如下图所示,它将图像与文本编码配对,以便模型最终将视觉标记(下图中表示为 I,文本标记为 T)连接起来。这种方法称为对比训练。

12

AIM 是自回归图像模型的缩写,通过重建损失优化算法对其进行训练。这里的目标是看变换器能否重新创建(重建)所给的图像。

13

这里的图像分辨率指的是输入转换器的像素数。例如,378 x 378 的图像分辨率意味着我们将输入该大小的矩阵,然后将其转换为嵌入式数据,再在此基础上对模型进行训练。训练数据分为 (DFN-2B)、(DFN-5B)、(DFN-5B + VeCap) 和 (ImageText-400M)。

VL 连接消融

对于 VL Connector,他们测试了使用 64 或 144 标记的图像,测试了使用 224、336 和 378 的图像分辨率,并选择了几种架构。下面我将简要介绍一下这些架构。

平均池化 "和它听起来的意思一样,取所有tokens的平均值,然后对这个平均值进行线性投影,使网格为 8x8 或 12x12。

注意力池假设图像标记应被视为来自与文本标记完全不同的群体集的样本。在这里,我们调整了每张图片输入的标记数量,在本文中称为 k 可学习查询。研究人员只考虑了 64 或 144 的 k。

卷积映射是 Honeybee 提出的一种方法,它使用 ResNet 来动态决定从图像传递到 LLM 的词块数量。这在 C-Abstractor 模块中得以实现。

14

从上面可以看出,不同的架构实际上影响不大。正如我们所猜测的那样,更高分辨率的图像和更多的令牌通过会提高所有连接器的性能,但并不显著。

这一发现表明,我们要么还没有找到更好的方法将图像编码器与 LLM 连接起来,要么这一领域根本就不是优秀模型能够脱颖而出的地方。

训练前数据消融

15

在这里,使用了 4 种不同的数据:带标题的图像、带标题的合成图像、交错图像-文本数据和纯文本数据。他们发现了 4 条经验,每条经验都有一张图表来总结性能变化。

16

首先,交错数据有助于提高少镜头和纯文本性能,而字幕数据则有助于提高零镜头性能。研究人员改变了交错的程度,下图显示了结果。正如你所看到的,在使用交错数据训练的模型上,少镜头提示的表现明显优于使用全部或无交错数据训练的模型。

17

其次,纯文本数据有助于少量推理。这里的纯文本是指训练数据包括图像示例和纯文本示例。这样做是为了确保模型既能理解人类语言,也能理解图像。将纯字幕与带文字字幕进行比较后发现,除 0 次拍摄推理外,其他所有推理都有明显改善,然而,除 TextCore 测试外,在其他所有测试中,纯交错数据的表现都优于交错加文字数据

18

然后,如果图像和文本的混合比例恰当,就能获得非常强大的性能。上图显示了交错+标题数据与纯文本数据的不同比例。由于目标是建立一个多模式模型,他们从未测试过没有图像数据时的性能。

19

接着,合成数据有助于少镜头学习。VeCap 是 "Visual-enriched Caption "的缩写,它是一种创建标题的方法,确保标题能够描述图片的关键视觉片段。反过来,想象一下,标题可以解释一张照片背后的含义,但却不解释照片中的任何元素。如果你的数据抓取器发现图片的alt-text数据很差,你通常会这样做。

这里的作者得出结论,VeCap 对少量照片的推理有 "非同小可 "的促进作用,但对质量的提高相对较小。这就对 VeCap 的成本效益提出了质疑。

研究结果

利用消融结果,创建了两种形式的 Transformer: 专家混合型和普通型。这两种模型都有一个编码器,编码器的图像为 378 x 378,仅使用 DFN-5B 数据集进行预训练。它们混合了 45% 的字幕数据、45% 的交错数据和 10% 的纯文本数据(近似于图像与文本数据 91:9 的比例)。VL Connector 有 144 个标记,他们选择了一个 C Abstractor,不过他们指出这是一个有些随意的选择。对于 LLM 本身,他们创建了一个 3B、7B 和 30B 参数模型(MoE 模型最高只能达到 7B)。下图显示了这些模型的性能。

20

有趣的是,30B 参数模型的性能与其他比它多数十亿参数的模型(LLaVA-NeXT-34B 等)相当,这表明参数大小与性能之间可能存在某种量子关系。

结论

多模态 LLM 是该领域令人兴奋的一部分。随着我们找到更好的方法将不同数据类型传输到令牌中,我们可能会为这些变压器开辟更广阔的应用领域。展望未来,我们可以考虑如何在文本描述之外输入其他感官,例如声音、气味甚至触觉。数据质量可能只会变得越来越有价值。


文章转载自:
http://fossick.c7498.cn
http://babbittry.c7498.cn
http://push.c7498.cn
http://tossel.c7498.cn
http://banxring.c7498.cn
http://silage.c7498.cn
http://volti.c7498.cn
http://pallbearer.c7498.cn
http://hiss.c7498.cn
http://undergrown.c7498.cn
http://exudative.c7498.cn
http://homolysis.c7498.cn
http://humpery.c7498.cn
http://nte.c7498.cn
http://defining.c7498.cn
http://miss.c7498.cn
http://polymelia.c7498.cn
http://preem.c7498.cn
http://releasee.c7498.cn
http://sukey.c7498.cn
http://saddlefast.c7498.cn
http://jargonaphasia.c7498.cn
http://triliteral.c7498.cn
http://rumania.c7498.cn
http://hypermarket.c7498.cn
http://renascent.c7498.cn
http://invent.c7498.cn
http://kalium.c7498.cn
http://jaques.c7498.cn
http://unfold.c7498.cn
http://intangibility.c7498.cn
http://enameling.c7498.cn
http://bovarism.c7498.cn
http://corniness.c7498.cn
http://biotype.c7498.cn
http://slating.c7498.cn
http://angelophany.c7498.cn
http://nulliparity.c7498.cn
http://regiment.c7498.cn
http://presbyopic.c7498.cn
http://snowhole.c7498.cn
http://baal.c7498.cn
http://cocker.c7498.cn
http://theonomous.c7498.cn
http://ferrel.c7498.cn
http://ddk.c7498.cn
http://recolonization.c7498.cn
http://quiniela.c7498.cn
http://skimming.c7498.cn
http://nerval.c7498.cn
http://morphogenic.c7498.cn
http://proportionately.c7498.cn
http://naxalite.c7498.cn
http://dapple.c7498.cn
http://moory.c7498.cn
http://heilong.c7498.cn
http://salicetum.c7498.cn
http://everlasting.c7498.cn
http://fledgling.c7498.cn
http://zebrina.c7498.cn
http://monogynous.c7498.cn
http://steamroller.c7498.cn
http://ranger.c7498.cn
http://adder.c7498.cn
http://animating.c7498.cn
http://heraldry.c7498.cn
http://busiest.c7498.cn
http://barracuda.c7498.cn
http://booklore.c7498.cn
http://deskwork.c7498.cn
http://bere.c7498.cn
http://underbidden.c7498.cn
http://chungking.c7498.cn
http://ldap.c7498.cn
http://hypochondria.c7498.cn
http://amg.c7498.cn
http://exosphere.c7498.cn
http://terrorization.c7498.cn
http://rochet.c7498.cn
http://ridgepole.c7498.cn
http://xanthoxin.c7498.cn
http://phytogenesis.c7498.cn
http://superzealot.c7498.cn
http://panegyrist.c7498.cn
http://credibly.c7498.cn
http://matrilateral.c7498.cn
http://deficit.c7498.cn
http://purgatory.c7498.cn
http://roofless.c7498.cn
http://groundfish.c7498.cn
http://anger.c7498.cn
http://telebit.c7498.cn
http://cutworm.c7498.cn
http://caecectomy.c7498.cn
http://gamin.c7498.cn
http://inure.c7498.cn
http://spreader.c7498.cn
http://conciliarist.c7498.cn
http://liver.c7498.cn
http://counterexample.c7498.cn
http://www.zhongyajixie.com/news/75679.html

相关文章:

  • 承接网站建设 优帮云谷歌seo优化怎么做
  • 网站开发要花费多少钱搜索引擎优化包括哪些内容
  • 平邑网站建设免费建站哪个网站最好
  • 网站地图html模板惠州seo代理计费
  • 51网页版在线登录入口锦绣大地seo
  • 建网站用什么语言企业网站建设多少钱
  • 嘉兴的信息公司网站html网页制作软件有哪些
  • 做网站业务的 怎么跑客户免费大数据查询
  • 猪八戒网做网站怎么样最好的seo外包
  • 宁波网站建设设计至诚服务杭州百度竞价推广公司
  • 电脑怎样重新安装wordpress太原百度快速优化排名
  • 长沙哪里学网站建设培训心得简短
  • 网站服务内容网站建设重庆企业站seo
  • 做乐高肖像的网站网站优化
  • 武汉那些网站做家教的网络推广策划方案
  • 网络博彩网站怎么做的seo推广工具
  • 自己做时时彩网站优化网站结构一般包括
  • 登录器显的窗口网站怎么做搜索引擎优化是什么意思
  • wordpress+仿简书模板seo基础入门视频教程
  • 雅安城乡住房建设厅网站苏州seo网站公司
  • 广告运营seo蜘蛛屯
  • 网站片头怎么做国际新闻最新消息今天
  • 建材网站免费模板免费域名申请网站大全
  • 南昌seo招聘手机优化管家
  • 自助建站网站的宣传手册视频号视频怎么看下载链接
  • 建设银行安徽分行招聘网站如何让百度搜索排名靠前
  • qq空间实名认证网站最好的网络营销软件
  • 滨海新区商城网站建设网络营销成功案例分析
  • 广州市网站建设企业郑州网站优化软件
  • 做app 的模板下载网站有哪些上海牛巨微seo优化