当前位置: 首页 > news >正文

任县网站建设设计在线看网址不收费不登录

任县网站建设设计,在线看网址不收费不登录,三维家软件培训班,云南做企业网站多少钱分类目录:《自然语言处理从入门到应用》总目录 当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义…

分类目录:《自然语言处理从入门到应用》总目录


当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义相关"可能取决于文本的类型。本文就展示了几种实现这一目标的方法。

在高层次上,文本分割器的工作原理如下:

  1. 将文本分割成小的、语义有意义的块(通常是句子)。
  2. 开始将这些小块组合成较大的块,直到达到一定的大小(由某个函数衡量)。
  3. 一旦达到该大小,将该块作为自己的文本片段,然后开始创建一个具有一定重叠的新文本块(以保持块之间的上下文)。

这意味着有两个不同的方向可以定制文本分割器:

  • 文本如何被分割
  • 块的大小如何衡量

默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块,但如果有任何分块过大,它将继续尝试下一个字符,依此类推。默认情况下,它尝试进行分割的字符是\n\n\n等。除了控制分割的字符之外,我们还可以控制其他一些内容:

  • length_function:如何计算分块的长度。默认只计算字符数,但通常在这里传递一个标记计数器。
  • chunk_size:分块的最大大小(由长度函数测量)。
  • chunk_overlap:分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性(例如使用滑动窗口)。
  • add_start_index:是否在元数据中包含每个分块在原始文档中的起始位置。
# This is a long document we can split up.
with open('../../state_of_the_union.txt') as f:state_of_the_union = f.read()
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(# Set a really small chunk size, just to show.chunk_size = 100,chunk_overlap  = 20,length_function = len,add_start_index = True,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])

输出:

page_content='Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and' metadata={'start_index': 0} page_content='of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.' metadata={'start_index': 82}

我们还可以使用文本分割器分割下列类型的文件:

  • Character
  • HTML
  • Latex
  • Markdown
  • NLTK
  • Python
  • Recursive Character
  • spaCy
  • tiktoken(OpenAI)

参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/

http://www.zhongyajixie.com/news/27365.html

相关文章:

  • 东营最新新闻重庆seo整站优化方案范文
  • 深圳短视频推广收费百度网站优化工具
  • 宝安网站制作哪家强企业培训课程设计
  • 微信小程序怎么做网站链接百度长尾关键词挖掘工具
  • 做网站的好公司有哪些东莞搜索引擎推广
  • 宜昌网站建设厂家百度推广电话
  • 深圳专门做兼职的网站南昌seo教程
  • wordpress 表格 css样式表优化工具箱下载
  • 怎么做幼儿园网站优化设计三要素
  • 网站建设商业阶段百度网页搜索
  • 做网站 客户一直要求改网络防御中心
  • 蓬莱做网站哪家好临沂做网站的公司
  • 用花生壳怎么做网站的服务器磁力搜索器在线
  • wordpress如何做关键词和描述设置沈阳关键词seo
  • wordpress主题超限青岛网站seo公司
  • 帝国和织梦哪个做网站好网络营销推广策划步骤
  • 济宁哪里有做网站的优化方案电子版
  • 做统计图的网站怎么自己做网址
  • 武进网站建设代理商苏州seo网站公司
  • 个体做敦煌网站怎么样个人网站模板建站
  • 自己做网站 需要哪些大型营销型网站制作
  • 烟台免费做网站黄页推广2021
  • 计算机软件开发就业前景赣州seo排名
  • 网站的开发与维护公司网站建设平台
  • 如何建设一个自己 的网站首页太原全网推广
  • 电子商务网站设计的认识北京seo代理计费
  • wordpress 登陆插件seo网络营销是什么意思
  • 佛山网站建设公司 华欣世纪深圳百度百科
  • 国外做黄漫的网站有哪些深圳百度推广
  • 网站制作程序下载windows优化大师下载