当前位置: 首页 > news >正文

鹤壁网站建设兼职天津seo优化排名

鹤壁网站建设兼职,天津seo优化排名,大型电子商务网站建设成本,淘宝网站建设杭州前期笔者介绍了OCR-free的多模态大模型,可以参考:【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节,其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未…

前期笔者介绍了OCR-free的多模态大模型,可以参考:【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节,其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。

NVLM-1.0方法

NVLM-1.0包括三种不同的架构:

  1. NVLM-D,一种解码器架构;
  2. NVLM-X,一种基于交叉注意力(X-attention)的架构;
  3. NVLM-H,一种混合架构。

共享视觉路径

所有NVLM模型共享一个视觉路径。使用InternViT-6B-448px-V1-5作为默认的视觉编码器,并在整个训练阶段保持其冻结状态。该视觉编码器以固定的448x448像素分辨率处理图像,生成1024个输出标记。采用动态高分辨率(DHR)方法来处理不同分辨率的图像输入。具体的如下图,图像被分割成最多6个瓦片(tile),每个瓦片对应448x448像素。然后,每个瓦片被送入InternViT-6B进行处理,生成1024个标记。这些标记通过下采样操作减少到256个标记,这么做可以降低处理开销。

上述两张图都是动态DHR的处理过程,围绕图像的预处理,包括归一化、缩放、裁剪、根据宽高比动态处理等操作,构建了一套完整的流程,代码逻辑如下:

import torch
from PIL import Image
import torchvision.transforms as T
from torchvision.transforms.functional import InterpolationModeIMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)def build_transform(input_size):MEAN, STD = IMAGENET_MEAN, IMAGENET_STDtransform = T.Compose([T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),T.ToTensor(),T.Normalize(mean=MEAN, std=STD)])return transformdef find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):best_ratio_diff = float('inf')best_ratio = (1, 1)area = width * heightfor ratio in target_ratios:target_aspect_ratio = ratio[0] / ratio[1]ratio_diff = abs(aspect_ratio - target_aspect_ratio)if ratio_diff < best_ratio_diff:best_ratio_diff = ratio_diffbest_ratio = ratioelif ratio_diff == best_ratio_diff:if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:best_ratio = ratioreturn best_ratiodef dynamic_preprocess(image, min_num=1, max_num=6, image_size=448, use_thumbnail=True):orig_width, orig_height = image.sizeaspect_ratio = orig_width / orig_heighttarget_ratios = set((i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) ifi * j <= max_num and i * j >= min_num)target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])target_aspect_ratio = find_closest_aspect_ratio(aspect_ratio, target_ratios, orig_width, orig_height, image_size)target_width = image_size * target_aspect_ratio[0]target_height = image_size * target_aspect_ratio[1]blocks = target_aspect_ratio[0] * target_aspect_ratio[1]resized_img = image.resize((target_width, target_height))processed_images = []for i in range(blocks):box = ((i % (target_width // image_size)) * image_size,(i // (target_width // image_size)) * image_size,((i % (target_width // image_size)) + 1) * image_size,((i // (target_width // image_size)) + 1) * image_size)split_img = resized_img.crop(box)processed_images.append(split_img)assert len(processed_images) == blocksif use_thumbnail and len(processed_images) != 1:thumbnail_img = image.resize((image_size, image_size))processed_images.append(thumbnail_img)return processed_imagesdef load_image(image_file, input_size=448, max_num=6):image = Image.open(image_file).convert('RGB')transform = build_transform(input_size=input_size)images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)pixel_values = [transform(image) for image in images]pixel_values = torch.stack(pixel_values)return pixel_values

文中引入了三种tile标签:

  • 无标签:简单连接,没有tile标签,这是InternVL-1.5的设计。
  • 一维扁平化tile tag:<tile_1>、<tile_2>、…、<tile_6>、<tile_global>。
  • 二维网格tag:<tile_x0_y0>、<tile_x1_y0>、…、<tile_xW_yH>、<tile_global>,其中<tile_xi_yj>的{i:j}可以是{1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 2:1, 2:2, 2:3, 3:1, 3:2, 4:1, 5:1, 6:1}中的任何一个。
  • 二维边界框标签: (x0, y0), (x1, y1) 、…、 (xW, yH), (xW+1, yH+1) ,其中(xi, yj)和(xi+1, yj+1)分别是整个高分辨率图像中该特定tile的(左、上)和(右、下)坐标。

实验可以看到,其中DHR + 1-D tag取得了最佳的性能。

NVLM-D: 解码器架构

NVLM-D模型类似于之前的解码器架构多模态LLMs(如:)。通过一个两层MLP将预训练的视觉编码器连接到LLM。训练NVLM-D涉及两个阶段:预训练和SFT。在预训练阶段,MLP需要先进行训练,同时保持视觉编码器和LLM主干冻结。在SFT阶段,MLP和LLM都被训练以学习新的视觉-语言任务,而视觉编码器保持冻结状态。为了防止LLM在多模态SFT训练期间退化文本性能,引入了一个高质量的文本SFT数据集。

NVLM-X: 基于X-attention的模型

NVLM-X使用门控交叉注意力来处理图像token。与Flamingo模型不同,NVLM-X不使用感知重采样器,而是直接通过交叉注意力层处理图像标记。在SFT阶段,解冻LLM主干,并混合高质量文本SFT数据集以保持强大的文本性能。

NVLM-H: 混合模型

NVLM-H结合了解码器架构和基于X-attention的架构的优点。将图像token分为两部分:缩略图token和常规瓦片token。缩略图标记通过自注意力层处理,而常规瓦片标记通过交叉注意力层处理。这种设计提高了高分辨率图像的处理能力,同时显著提高了计算效率。

模型配置和训练方法

所有NVLM模型的训练过程包括两个阶段:预训练和监督微调(SFT)。在预训练阶段,冻结LLM主干和视觉编码器,只训练模态对齐模块。在SFT阶段,保持视觉编码器冻结,同时训练LLM和模态对齐模块。

LLM和视觉模型选择

  • LLM:对于NVLM-D、NVLM-X和NVLM-H 72B模型,使用Qwen2-72B-Instruct作为LLM。为了计算效率,还使用了较小的Nous-Hermes-2-Yi-34B进行更快的消融研究和实验。
  • 视觉编码器:所有NVLM模型都使用InternViT-6B-448px-V1-5作为视觉编码器。

模态对齐模块

  • NVLM-D: 使用两层MLP将视觉编码器和背景语言模型连接起来。隐藏维度为12800→20480→7168(34B模型)和12800→29568→8192(72B模型)。
  • NVLM-X: 图像特征首先通过一层MLP投影到背景语言模型的隐藏维度,然后插入门控X-attention层。具体配置为12800→7168(34B模型)和12800→8192(72B模型)。
  • NVLM-H: 使用两层MLP和X-attention层作为模态对齐模块。缩略图图像标记直接输入到背景语言模型解码器中,而常规图像块则通过X-attention层进行处理。

训练超参数

  • 预训练阶段

  • SFT阶段

训练数据

  • 预训练数据集

  • SFT数据集

  • 文本SFT数据集

    包括ShareGPT、SlimOrca、EvolInstruct、GPTeacher、AlpacaGPT4、UltraInteract、OrcaMathWordProblems、MathInstruct、MetaMath、GlaiveCodeAssistant、Magicoder、WizardCoder、GlaiveCodeAssistant等。并使用OpenAI模型GPT-4o和GPT-4o-mini进一步优化响应质量,并进行数据去污染,确保不包含基准测试数据集中的提示。

  • SFT数据构建格式

    预训练中使用的各种任务的训练格式示例。绿色< image >tag表示插入视觉特征的位置。蓝色文本代表与损失相关的真实值。

    SFT中使用的ChatML模板示例。绿色< image >标签指示插入视觉特征的位置。蓝色文本代表与损失相关的真实值。

实验结果

重点关注多模态推理、视觉上下文中的数学推理、自然图像理解、场景-文本阅读、图表理解、文档理解、现实世界感知和OCR能力。

参考文献

  • NVLM: Open Frontier-Class Multimodal LLMs,https://arxiv.org/pdf/2409.11402

文章转载自:
http://intersatellite.c7512.cn
http://synthetise.c7512.cn
http://namma.c7512.cn
http://nonpareil.c7512.cn
http://pli.c7512.cn
http://aircraftman.c7512.cn
http://gloveman.c7512.cn
http://chickpea.c7512.cn
http://lawfully.c7512.cn
http://equator.c7512.cn
http://equably.c7512.cn
http://drippage.c7512.cn
http://flowerless.c7512.cn
http://polyarthritis.c7512.cn
http://seasonableness.c7512.cn
http://landmeasure.c7512.cn
http://exportation.c7512.cn
http://imaginal.c7512.cn
http://sideboard.c7512.cn
http://jobation.c7512.cn
http://aspish.c7512.cn
http://menispermaceous.c7512.cn
http://tracheophyte.c7512.cn
http://moollah.c7512.cn
http://declarant.c7512.cn
http://shipwright.c7512.cn
http://trenail.c7512.cn
http://sprint.c7512.cn
http://semieducated.c7512.cn
http://snax.c7512.cn
http://giggle.c7512.cn
http://petitioner.c7512.cn
http://sanies.c7512.cn
http://multivoltine.c7512.cn
http://swatow.c7512.cn
http://laten.c7512.cn
http://tribolet.c7512.cn
http://mirthless.c7512.cn
http://scabies.c7512.cn
http://asu.c7512.cn
http://fearfully.c7512.cn
http://ventriloquize.c7512.cn
http://scran.c7512.cn
http://cuticolor.c7512.cn
http://apostolic.c7512.cn
http://dispread.c7512.cn
http://auklet.c7512.cn
http://daoism.c7512.cn
http://rarefication.c7512.cn
http://saracen.c7512.cn
http://sump.c7512.cn
http://almah.c7512.cn
http://gastralgic.c7512.cn
http://minimize.c7512.cn
http://pics.c7512.cn
http://galliass.c7512.cn
http://steamroll.c7512.cn
http://goldstone.c7512.cn
http://involucra.c7512.cn
http://exaction.c7512.cn
http://postrorse.c7512.cn
http://impersonalise.c7512.cn
http://suckerfish.c7512.cn
http://metalline.c7512.cn
http://kyang.c7512.cn
http://consciously.c7512.cn
http://unorganized.c7512.cn
http://anteflexion.c7512.cn
http://rosemalt.c7512.cn
http://monogamian.c7512.cn
http://isolog.c7512.cn
http://honorific.c7512.cn
http://untiringly.c7512.cn
http://astigmatometry.c7512.cn
http://hippophile.c7512.cn
http://columnar.c7512.cn
http://chirkle.c7512.cn
http://falcon.c7512.cn
http://peejays.c7512.cn
http://doodle.c7512.cn
http://pacifist.c7512.cn
http://prudently.c7512.cn
http://remigial.c7512.cn
http://caricature.c7512.cn
http://telepherique.c7512.cn
http://slic.c7512.cn
http://circinate.c7512.cn
http://electrophilic.c7512.cn
http://bdsc.c7512.cn
http://oneness.c7512.cn
http://marasmoid.c7512.cn
http://quorum.c7512.cn
http://resurgence.c7512.cn
http://clearwing.c7512.cn
http://reorient.c7512.cn
http://nacred.c7512.cn
http://mysid.c7512.cn
http://viridescent.c7512.cn
http://exorbitancy.c7512.cn
http://grub.c7512.cn
http://www.zhongyajixie.com/news/96518.html

相关文章:

  • 建网站要先建什么网络营销方案案例
  • 青浦网站建设推广一站式网站建设
  • 网站建设和优化的营销话术seo搜索优化服务
  • 区块链开发公司做网站seo怎么赚钱
  • 在货源网站自己拿样 加盟 做代理 哪个比较好?广州seo团队
  • 公司想做网站费用要多少钱引流人脉推广软件
  • 空白的网站怎么建设营销软文怎么写
  • seo网站快速排名无锡网站关键词推广
  • 网站编程好学吗百度官网网址
  • WordPress去掉网站留言框媒体发稿费用
  • 制作网页时经常用的一种动态位图格式是杭州网站seo
  • 网站建设及运营推广形式有哪几种
  • 网站首页建设公司怎么做网站推广
  • 分析 网站病毒式营销案例
  • 项目logo生成器怎么优化推广自己的网站
  • 新公司网站设计注意事项淘宝搜索关键词查询工具
  • dedecms 旅游网站模板百度网盘电脑版下载
  • 访问最多技术网站排名北京刚刚宣布比疫情更可怕的事情
  • 网站建设沈阳公司北京网站优化怎么样
  • 连云港百度推广网站建设网络营销推广及优化方案
  • 保定网站制作报价计算机培训机构
  • 电商网站开发需求文档企业网站的基本功能
  • 动漫网站开发与建设厦门网络推广外包
  • 专门做产品推广ppt的网站上海今天发生的重大新闻
  • 电商网站开发视频百度站长平台网站收录
  • 移动宽带 国外网站自己怎么做游戏推广赚钱
  • 微信公众号登录手机版镇江搜索优化技巧
  • 如何维护自己的网站重庆百度seo代理
  • 官方网站建设的意义互联网营销师报名费
  • 中国移动国际精品网专业网站优化排名