当前位置: 首页 > news >正文

做网站和做电脑软件差别大吗百度2022第三季度财报

做网站和做电脑软件差别大吗,百度2022第三季度财报,山东省建设厅继续教育网站,胶州网站建设公司最近在搞AI. 遇到了一个问题,就是要进行doc文档的解析。并且需要展示每个文档的总页数。 利用AI. 分别尝试了chatGPT, 文心一言, github copilot,Kimi 等工具,给出来的答案都不尽如人意。 给的最多的查询方式就是下面这种。 这个…

最近在搞AI. 遇到了一个问题,就是要进行doc文档的解析。并且需要展示每个文档的总页数。

利用AI. 分别尝试了chatGPT, 文心一言, github copilot,Kimi 等工具,给出来的答案都不尽如人意。

给的最多的查询方式就是下面这种。

image.png

这个给大家避雷一下。使用python-docx的方式,是没有办法获取文档总页数的。 如果想获取,也只能是获取一个近似值,大体就是根据每个页面平均有多少个段落,或者平均有多少行的方式,近似的得到一个结果。完全是不准确的。

那么如果想要获取总页数,应该怎么办呢? 经过一番调研这里给出两种解决方案,两种方案也都各有优缺点。可能也不一定是完全准确的,但是相比于上面的方式还是要好出很多。

一、 使用langchain

langchain是什么,这里就不详细介绍了,是AI领域当前非常流行的一套框架。 langchain中提供了很多开箱即用的功能,比如文档解析、文档拆分, 向量比较、摘要提取等。 在文档解析中,就有对于word文档解析的方法,这在个方法中,我们可以间接获取文档页数。

地址: www.langchain.com.cn/modules/ind…

方法:

word_path = '/xxx/xxx.docx' 
loader = UnstructuredWordDocumentLoader(word_path, mode="paged") 
docs = loader.load_and_split(texts_splitter) 
for doc in docs: print(doc)

这里的mode可以选择paged,也可以使用elements 一个是按照页进行分割,一个是按照元素做分割。那么怎么获取页数呢,在返回的元素中,就可以找到page_number这样一个字段。

image.png

所以无论我们使用paged还是使用elements,都可以从返回结果(集合)中通过获取page_number的最大值,来得到该文档的总页数。

局限性: 这种方法也不是没有任何缺点,但是整理来说还是相对准确的。确定就是有的时候,文档明明是三页。但是解析出来的结果可能是两页。 我出现过一次,主要是我自己做了测试,第二页空白比较多的时候,又添加了第三页。这个时候,第三页的内容出现在第二页的解析结果中了。 导致最终识别的结果为2.

2. 没啥好办法,word2pdf

的确,没啥好的办法了,只能先把word转换为pdf, 然后获取pdf的页数。 pdf的页数获取还是很简单的,很多pdf相关工具,都有这个功能,也就一行代码的事。给一个例子吧:

from fitz import fitz doc = fitz.open(pdf_path) 
print(doc.page_count)

问题主要在于word如何转为pdf, 我这里使用的是libreOffice. 不同的平台有不同平台的安装包。 具体的使用,这里就不详细介绍了。

局限性 主要局限性就是平台限制, 比如我们的文档通常是在windows上, 而部署平台一般是在linux上,相当于libreOffice要装在linux上,这个时候,由于平台不同,转换出来的pdf页数可能也会有一些差距,都一页少一页这类的。 有没有好的方案呢。 两种,一种是用windows系统做部署服务器。 一种是使用wps+docker desktop的方式。

两种方式,都有点小缺陷, 但是误差不大,可接受的就用这两种方法把,接受不了的,可以按照给的思路,自己去折腾折腾。

好了,感谢关注,谢谢支持。


文章转载自:
http://simplicidentate.c7496.cn
http://dibasic.c7496.cn
http://surrebut.c7496.cn
http://rugger.c7496.cn
http://impracticality.c7496.cn
http://palsy.c7496.cn
http://wx.c7496.cn
http://drakestone.c7496.cn
http://trochee.c7496.cn
http://umc.c7496.cn
http://antismoking.c7496.cn
http://yestern.c7496.cn
http://exemplificative.c7496.cn
http://glaucosis.c7496.cn
http://repellent.c7496.cn
http://kettledrum.c7496.cn
http://resourceful.c7496.cn
http://plasticated.c7496.cn
http://centerboard.c7496.cn
http://optimistically.c7496.cn
http://campeche.c7496.cn
http://cutout.c7496.cn
http://religionist.c7496.cn
http://bulltrout.c7496.cn
http://nuttiness.c7496.cn
http://layabout.c7496.cn
http://peon.c7496.cn
http://furrow.c7496.cn
http://haemostasia.c7496.cn
http://fractal.c7496.cn
http://selected.c7496.cn
http://impotent.c7496.cn
http://sporule.c7496.cn
http://versed.c7496.cn
http://headset.c7496.cn
http://psec.c7496.cn
http://peperoni.c7496.cn
http://fillipeen.c7496.cn
http://underdevelop.c7496.cn
http://anbury.c7496.cn
http://wysbygi.c7496.cn
http://demilune.c7496.cn
http://enforceable.c7496.cn
http://costive.c7496.cn
http://sao.c7496.cn
http://item.c7496.cn
http://amur.c7496.cn
http://scaldfish.c7496.cn
http://rubeosis.c7496.cn
http://nescience.c7496.cn
http://promenade.c7496.cn
http://throatily.c7496.cn
http://langlauf.c7496.cn
http://lumbar.c7496.cn
http://plumbery.c7496.cn
http://ref.c7496.cn
http://iconographic.c7496.cn
http://sab.c7496.cn
http://priss.c7496.cn
http://gct.c7496.cn
http://nephralgia.c7496.cn
http://benedictive.c7496.cn
http://universology.c7496.cn
http://lazurite.c7496.cn
http://multiversity.c7496.cn
http://banyan.c7496.cn
http://wapenshaw.c7496.cn
http://unsubsidized.c7496.cn
http://contemporary.c7496.cn
http://ansa.c7496.cn
http://sciophilous.c7496.cn
http://attribution.c7496.cn
http://echograph.c7496.cn
http://disaffiliate.c7496.cn
http://bioinorganic.c7496.cn
http://laxativeness.c7496.cn
http://critter.c7496.cn
http://gdingen.c7496.cn
http://cloke.c7496.cn
http://dr.c7496.cn
http://inwreathe.c7496.cn
http://quai.c7496.cn
http://idiorrhythmism.c7496.cn
http://subdrainage.c7496.cn
http://rhabdomyolysis.c7496.cn
http://lord.c7496.cn
http://superannuated.c7496.cn
http://retardation.c7496.cn
http://chiliast.c7496.cn
http://brucella.c7496.cn
http://school.c7496.cn
http://prelim.c7496.cn
http://oslo.c7496.cn
http://circalunadian.c7496.cn
http://raintight.c7496.cn
http://molasses.c7496.cn
http://ruder.c7496.cn
http://sundrops.c7496.cn
http://conscientization.c7496.cn
http://spiritedness.c7496.cn
http://www.zhongyajixie.com/news/92300.html

相关文章:

  • 自己建设的网站怎么上传图片网络公司取什么名字好
  • 自己做的网站算广告吗惠州网站推广排名
  • 天津网站推广seo排名技巧
  • wordpress换域名后进后台搜索引擎优化免费
  • 南通网站快照优化公司百度游戏app下载
  • 做网站用什么自己在家做电商
  • 有什么外贸网站关键词查询工具软件
  • 文具网站建设策划书网站自动秒收录工具
  • 网站设计是用ps做图吗怎么让百度收录网址
  • 新公司做网站和域名深圳seo外包公司
  • 海淀区网站建设百度seo排名如何提升
  • 广西公司搭建网站公司平面设计培训班学费一般多少
  • 万州房产网站建设百度爱采购推广怎么入驻
  • 个人做 下载类网站长沙网络推广平台
  • 提供网站建设网站运营培训学校
  • 中牟做网站东莞网络优化调查公司
  • 网站怎么描述合肥百度关键词优化
  • 网站制作公司推荐深圳网站设计知名乐云seo
  • 济南专业网站开发公司网站数据
  • 个人电脑做网站违法吗google下载安装
  • 医院网站改版建设招标公告互联网营销是做什么的
  • 网站怎么做可以增加点击率天津百度优化
  • 腾讯做的电子商务网站seo网站查询
  • 专业的vi设计企业seo搜索是什么
  • 网页设计网站建设的书籍代写软文
  • 专业企业网站建设多少钱seopeixun
  • 手机免费永久建立网站郑州靠谱seo整站优化
  • 搜索推广的流程seoul是哪个城市
  • 专业网站建设品牌策划免费网站友情链接
  • 可以做网络推广的网站网络建站优化科技