当前位置: 首页 > news >正文

做外贸为什么要知道b2b网站友情链接举例

做外贸为什么要知道b2b网站,友情链接举例,WordPress高德,服装定制费用AUTOCRAWLER:用于生成 WebCrawler 的渐进式理解 Web 代理 Fudan University;Alibaba Holding-Aicheng Technology-Enterprise Abstract: 网络自动化是一项重要技术,它通过自动化常见的网络操作来完成复杂的网络任务,提高效率并…

AUTOCRAWLER:用于生成 WebCrawler 的渐进式理解 Web 代理

Fudan University;Alibaba Holding-Aicheng Technology-Enterprise

Abstract

网络自动化是一项重要技术,它通过自动化常见的网络操作来完成复杂的网络任务,提高效率并减少手动干预。传统的网络自动化方法如wrappers,在适应性和可扩展性上有局限性,而基于大型语言模型(LLMs)的生成式代理在开放世界的环境中表现不佳。本文提出了一种针对垂直信息网页的爬虫生成任务,介绍了一种结合LLMs与爬虫的新范式,以提高爬虫应对多样化和不断变化的网络环境的效率。作者提出了AUTOCRAWLER,这是一种利用HTML的层次结构进行逐步理解的两阶段框架。通过自顶向下和后退操作,AUTOCRAWLER可以从错误的操作中学习并不断修剪HTML,以更好地生成操作。作者通过多种LLMs进行了全面实验,证明了框架的有效性。

1 Introduction

  • 网络自动化通过编程与基于Web的应用程序或网站交互,以执行通常需要人工干预的任务。传统的网络自动化方法主要依赖于wrappers,这些wrappers对网站或网页具有特定的适应性。大型语言模型(LLMs)为生成式代理提供了计划、推理和反思等高级功能,但在处理开放世界任务时,仍存在性能差和可重用性低的问题。
  • 主要贡献
    1. 提出了一种新的web爬虫生成任务,并对其进行分析。
    2. 引入了AUTOCRAWLER,这是一种具有渐进理解能力的两阶段框架。
    3. 实验结果表明,AUTOCRAWLER在爬虫生成任务中表现出色。

2 Preliminaries预备知识

  • 2.1 Task Formulation:爬虫生成任务是生成执行动作序列A的过程,目标是在给定的网页集合中提取目标信息。
  • 2.2 Datasets:使用SWDE、EXTENDED SWDE和DS1三个数据集来测试该任务。
  • 2.3 Evaluation Metrics:提出了可执行性评估来评估动作序列的效果,并采用传统的精确度、召回率和F1分数作为指标。

3 AUTOCRAWLER

  • 3.1 Modeling:将爬虫生成任务建模为动作序列生成任务。
  • 3.2 Progressive Generation:通过自顶向下和后退操作逐步生成动作序列。
  • 3.3 Synthesis:通过在种子网页上执行多个不同的动作序列来选择最终的动作序列。

4 Experiment

  • 4.1 Experimental Settings & Evaluation Metrics:进行了广泛的实验设置,包括使用不同的LLMs、数据集和评估指标。
  • 4.2 Main Results on SWDE:AUTOCRAWLER在执行任务时表现优于其他框架。
  • 4.3 Generate with Golden Label:在提供金标签的情况下,AUTOCRAWLER仍能有效提升模型性能。
  • 4.4 Further Study with AUTOCRAWLER:不同LLMs在生成动作序列的步数上存在差异,性能更强的LLMs生成的步数较少。
  • 4.5 Error Analysis:分析了AUTOCRAWLER在执行任务时的常见错误,包括网页结构缺乏通用性和多值信息丢失。

Conclusion: 文章提出了一个新的网络爬虫生成任务,并介绍了AUTOCRAWLER框架,这是一种结合LLMs和爬虫的新范式。AUTOCRAWLER利用HTML的层次结构进行逐步理解,通过自顶向下和后退操作生成操作序列。通过广泛的实验证明了该框架在网络爬虫生成任务中的有效性。

http://www.zhongyajixie.com/news/13130.html

相关文章:

  • 网站整站下载器下载utf8网页乱码搜狗seo优化
  • 做婚礼请柬的网站有哪些百度查重工具
  • 怎样在别人网站做加强链接小红书搜索关键词排名
  • 惠州网站建设哪里有百度品牌广告收费标准
  • 中国十大电商平台排行榜信息流优化师证书
  • wordpress后台英文合肥网站推广优化
  • 杭州市江干建设局网站考研培训机构排名前五的机构
  • 网站建设相关书籍杭州网站提升排名
  • 做公司网站哪里好网络营销岗位职责和任职要求
  • 有没有跟一起做网店一样的网站双11销量数据
  • 团购网站做不起来国内搜索引擎排名第一的是
  • 做虚拟货币交易网站小程序推广平台
  • 杭州市拱墅区疫情最新消息重庆的seo服务公司
  • 做网站路由器映射外网深圳网络推广哪家比较好
  • 律师网站建设杭州网站制作排名
  • 网站滑块验证怎么做广东今天新闻最新消息
  • 企业网站推广计划网站推广属于哪些
  • wordpress实现表格填写功能seoer是什么意思
  • 做网站需要买网址吗seo页面优化的方法
  • 外贸公司手机网站百度添加到桌面
  • 如何设计网站中的上传功能郑州百度推广公司地址
  • 做情趣导航网站可以吗能打开各种网站的浏览器下载
  • 怎么做百度联盟网站今日的最新消息
  • 网站时间显示广告软文范例
  • 做个外贸网站多少钱百度竞价效果怎么样
  • dw可以用来做网站吗武汉百度搜索优化
  • 有专门做dnf工作室的网站么外贸平台排行榜前十名
  • 武汉影楼网站建设推广自己产品的文案
  • 毕设做系统好还是做网站好腾讯网网站网址
  • 做ppt常用网站it培训四个月骗局