当前位置：首页 > news >正文

免费网站推荐货源创建网站教程

news 2025/7/8 23:51:09

免费网站推荐货源,创建网站教程,电脑做系统哪个网站比较好,中国建设第一平台网站推荐：使用 NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景什么是Visual ChatGPT？ Visual ChatGPT 是一个包含 Visual Foundation 模型 （VFM） 的系统，可帮助 ChatGPT 更好地理解、生成和编辑视觉信息。VFM 能够指…

推荐：使用 NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景

什么是Visual ChatGPT？

Visual ChatGPT 是一个包含 Visual Foundation 模型（VFM）的系统，可帮助 ChatGPT 更好地理解、生成和编辑视觉信息。VFM 能够指定输入输出格式，将视觉信息转换为语言格式，并处理 VFM 历史记录、优先级和冲突。

因此，Visual ChatGPT 是一种 AI 模型，它充当了 ChatGPT 限制与允许用户通过聊天进行交流并生成视觉效果之间的桥梁。

ChatGPT 的局限性

在过去的几周和几个月里，ChatGPT 一直是大多数人的对话。但是，由于其语言训练功能，它不允许处理和生成图像。

而你有视觉基础模型，如视觉变压器和稳定扩散，它们具有惊人的视觉功能。这就是语言和图像模型的组合创造了Visual ChatGPT的地方。

什么是可视化基础模型？

视觉基础模型用于对计算机视觉中使用的基本算法进行分组。他们采用标准的计算机视觉技能并将其转移到AI应用程序上，以处理更复杂的任务。

Visual ChatGPT 中的提示管理器由 22 个 VFM 组成，其中包括文本到图像、控制网、边缘到图像等。这有助于 ChatGPT 将图像的所有视觉信号转换为语言，以便 ChatGPT 更好地理解。那么Visual ChatGPT是如何工作的呢？

Visual ChatGPT 如何工作？

Visual ChatGPT 由不同的组件组成，以帮助大型语言模型 ChatGPT 理解视觉对象。

Visual ChatGPT 的架构组件

用户查询：这是用户提交查询的位置
提示管理器：这会将用户的视觉查询转换为语言格式，以便 ChatGPT 模型可以理解。
Visual Foundation Models：它结合了各种VFM，例如BLIP（Bootstrapping Language-Image Pre-training），Stable Diffusion，ControlNet，Pix2Pix等。
系统原理：这提供了可视化聊天GPT的基本规则和要求。
对话历史：这是系统与用户进行交互和对话的第一个点。
推理的历史：这使用不同VFM过去具有的先前推理来解决复杂的查询。
中间答案：通过使用 VFM，模型将尝试输出几个逻辑上低估的中间答案。

Microsoft GitHub

有关提示管理器的更多信息

你们中的一些人可能认为这是 ChatGPT 处理视觉效果的强制解决方法，因为它仍然将图像的所有视觉信号转换为语言。上传图像时，提示管理器会合成包含文件名等信息的内部聊天历史记录，以便 ChatGPT 可以更好地了解查询所指的内容。

例如，用户输入的图像的名称将充当操作历史记录，然后提示管理器将协助模型通过“推理格式”来确定需要对图像执行的操作。在 ChatGPT 选择正确的 VFM 操作之前，您可以将此视为模型的内部想法。

在下图中，您可以看到提示管理器如何启动可视 ChatGPT 的规则：

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

开始使用可视化聊天GPT

要开始您的 Visual ChatGPT 之旅，您需要先运行 Visual ChatGPT 演示：

# create a new environment
conda create -n visgpt python=3.8# activate the new environment
conda activate visgpt#  prepare the basic environments
pip install -r requirement.txt# download the visual foundation models
bash download.sh# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}# create a folder to save images
mkdir ./image# Start Visual ChatGPT !
python visual_chatgpt.py

您还可以在Microsoft的Visual ChatGPT GitHub上了解更多信息。确保查看每个视觉基础模型上的 GPU 内存使用情况。