当前位置: 首页 > news >正文

个人备案网站可以做淘宝客南京百度推广优化排名

个人备案网站可以做淘宝客,南京百度推广优化排名,想做机械加工和橡胶生意怎么做网站,公司部门职责及配置文章目录 解析pdf数据ocr识别分类方法正则匹配词频统计分类模型 分类完提示 解析pdf数据 试了几种方法 fitz-get_image后面方法不适用,用pixmap分辨率低 用pypdf2版本低方法用不了 用pdf2image还要下依赖工具 用spire.pdf的SaveAsImage分辨率低,Extract…

文章目录

    • 解析pdf数据
    • ocr识别
    • 分类方法
      • 正则匹配
      • 词频统计
      • 分类模型
    • 分类完提示

解析pdf数据

试了几种方法
fitz-get_image后面方法不适用,用pixmap分辨率低
用pypdf2版本低方法用不了
用pdf2image还要下依赖工具
用spire.pdf的SaveAsImage分辨率低,ExtractImages可以但运行慢
先用spire.pdf的ExtractImages吧

from spire.pdf.common import ImageFormat
from spire.pdf import PdfDocument# 从PDF文档提取图片,PDF文档的路径,存放图片的文件夹路径
def extract_images_from_pdf(file_path, output_folder):# 创建PdfDocument类的实例doc = PdfDocument()# 加载PDF文档doc.LoadFromFile(file_path)# 创建list来存储提取的图片images = []# 遍历文档的页面for i in range(doc.Pages.Count):# 获取当前页page = doc.Pages.get_Item(i)# 从页面提取图片并存储到listfor img in page.ExtractImages():# print(img)images.append(img)# 将图片保存到指定文件夹for i, image in enumerate(images):image.Save(f"{output_folder}Image-{i+1}.jpg", ImageFormat.get_Jpeg())doc.Close()# 调用函数实现从PDF提取图片
file_path = "副本.pdf"
output_folder = "tup/"
extract_images_from_pdf(file_path, output_folder)

ocr识别

试验几种方法paddleocr umiocr cnocr 微信截图等
识别效果都差不多 最先进的也就这样了,就用cnocr 运行效率高 其他更慢
调了调一些参数,发现不调还好一些
cnocr也和opencv一样不支持中文路径,直接用PIL读取传对象给cnocr就可以

from cnocr import CnOcr # 识别
from PIL import Image
def ocr_cn(path): # 输入图片pathimg=Image.open(path)# print(img)r = ocr.ocr(img)t = []  # 文本for each in r:# print(each['text'])t.append(each['text'])# print(t)return t

分类方法

分类方法有基于规则、基于词频统计、nlp算法-朴素贝叶斯 textcnn什么的
一般数据量小就规则,一般数据量大也先用规则看看 一些能看到的共性可以直接提出来,剩下的再用AI学习

正则匹配

.所有 \d数字 \D非数字 \s空格 \S非空格 \w字母数字汉字下划线  \W非\w
*匹配0-无限次,+匹配1-无限次,?匹配0-1次,{n}匹配n次,{m,n}匹配m-n次
(19|20)  [1-9]
[^\d]  [^https://]  取非
'^www.*com$'  www开头com结尾
'[a-zA-Z0-9_]{4,20}@(163|126|qq|sina|yahoo)\.com' 邮件
'\d{3}-\d{8}|\d{4}-\d{7,8}' 电话号
re.match("<[a-zA-Z]+>(.*)</[a-zA-Z]+>", "<html>zzz</div>").group(1) 提取html内容
re.sub(r'[0-9]', '*', s)  # 把数字替换为*
re.sub(r'[0-9]+', "*", s) # 多个数字替换为1个*
re.sub(r'[^0-9]+', "*", s)# 匹配非数字提取年月
a,b,c='2023-1-12', '2024.2.23','24年1月'
d="(\d{2})[- /.]([1-9]|1[0-2])[- /.]"  # 日期中间4种分隔 - / . 空格
line=re.search(d,b)  # 匹配不到就是None,match是从第一个开始匹配
print(line) # <re.Match object; span=(2, 6), match='24.2'>
print(line.span())   # (2, 6)
print(line.group()) # 24.2.
print(line.group(1)) # 24 小括号是分组
print(line.group(2)) # 2  小括号是分组
print(re.findall(d,a)) # [('23','1')] 返回所有匹配结果,没匹配为空[]
print(re.split('[-年.]',line.group()))  # ['24', '2']

词频统计

worddict = {}
for i in words:print(i)if i in worddict:worddict[i] += 1else:worddict[i] = 1
print(worddict)
highest_key = max(worddict, key=worddict.get) if worddict!={} else None
print(highest_key)  # 输出: 分类
# 自定义分类
worddict = {'a':0,'b':0,'c':0}
if 'xxx' in worddict or 'xcc' in worddict:worddict['x'] += 1
highest_key = max(worddict, key=worddict.get) if max(worddict.values())!=0 else None
print(highest_key)  # 输出: 分类

分类模型


分类完提示

用Tkinter或pyqt做窗口提示和交互

## 分类完提示
import tkinter as tk
from tkinter import messagebox
root = tk.Tk()
root.withdraw()
messagebox.showinfo("提示", "程序运行完成!")
messagebox.showinfo("提示", "分类完成!"+'\n'+'分类成功 条'+'\n'+'分类失败 条')

文章转载自:
http://it.c7497.cn
http://dub.c7497.cn
http://mtb.c7497.cn
http://esperanto.c7497.cn
http://immortalize.c7497.cn
http://avigator.c7497.cn
http://habitual.c7497.cn
http://mislabel.c7497.cn
http://upstairs.c7497.cn
http://aestidurilignosa.c7497.cn
http://picaroon.c7497.cn
http://abattoir.c7497.cn
http://christendom.c7497.cn
http://matutinal.c7497.cn
http://reaper.c7497.cn
http://mochi.c7497.cn
http://wine.c7497.cn
http://recriminate.c7497.cn
http://leatheroid.c7497.cn
http://wrest.c7497.cn
http://brownware.c7497.cn
http://furthermost.c7497.cn
http://flagstaff.c7497.cn
http://vitiate.c7497.cn
http://tbm.c7497.cn
http://fifty.c7497.cn
http://endorser.c7497.cn
http://coralliferous.c7497.cn
http://acoustically.c7497.cn
http://barege.c7497.cn
http://cellulase.c7497.cn
http://paroxytone.c7497.cn
http://amiable.c7497.cn
http://dormie.c7497.cn
http://romish.c7497.cn
http://queenless.c7497.cn
http://unframed.c7497.cn
http://rejective.c7497.cn
http://ecofreak.c7497.cn
http://phosphorograph.c7497.cn
http://agist.c7497.cn
http://prefiguration.c7497.cn
http://expletory.c7497.cn
http://heresiarch.c7497.cn
http://caseate.c7497.cn
http://calculation.c7497.cn
http://anticrop.c7497.cn
http://broken.c7497.cn
http://anthography.c7497.cn
http://areca.c7497.cn
http://ghat.c7497.cn
http://hagiography.c7497.cn
http://angary.c7497.cn
http://langrage.c7497.cn
http://docker.c7497.cn
http://monotocous.c7497.cn
http://oaf.c7497.cn
http://mopoke.c7497.cn
http://anear.c7497.cn
http://klaxon.c7497.cn
http://wesleyanism.c7497.cn
http://tusker.c7497.cn
http://evolute.c7497.cn
http://scriptural.c7497.cn
http://patellar.c7497.cn
http://unnotched.c7497.cn
http://sustainable.c7497.cn
http://clinometer.c7497.cn
http://acheron.c7497.cn
http://unifacial.c7497.cn
http://oxherd.c7497.cn
http://reappearance.c7497.cn
http://farrand.c7497.cn
http://ornate.c7497.cn
http://solutizer.c7497.cn
http://fugitive.c7497.cn
http://auburn.c7497.cn
http://waxwork.c7497.cn
http://wrinkle.c7497.cn
http://cellulitis.c7497.cn
http://pyroxenite.c7497.cn
http://telomer.c7497.cn
http://dweller.c7497.cn
http://deity.c7497.cn
http://growing.c7497.cn
http://remoralize.c7497.cn
http://reconcilably.c7497.cn
http://duct.c7497.cn
http://megabyte.c7497.cn
http://metopon.c7497.cn
http://surmullet.c7497.cn
http://quadrel.c7497.cn
http://absolve.c7497.cn
http://periodate.c7497.cn
http://reges.c7497.cn
http://cacodorous.c7497.cn
http://boanerges.c7497.cn
http://bircher.c7497.cn
http://yukata.c7497.cn
http://perthshire.c7497.cn
http://www.zhongyajixie.com/news/93090.html

相关文章:

  • 真人做爰视频网站清博大数据舆情监测平台
  • 小学英语教师做应用相关网站引流推广网站
  • 易加网站建设方案seo 页面链接优化
  • 不备案的网站有那些广点通广告投放平台登录
  • 网站建设明细报价最新百度快速收录技术
  • b2b采购网站上海百度推广电话客服
  • 网站优化外包公司百度信息流是什么
  • 公司企业网站怎么建设网络营销手段
  • 数据库网站有哪些百度竞价排名技巧
  • 企业做网站注意事项域名官网
  • 免费网站模板建设万网官网
  • 冠县建设局网站bt种子磁力搜索
  • 建设网站注意看广告收益最高的软件
  • 在线客服系统推荐外贸网站建设优化
  • 为网站 做字幕资源猫
  • 上海自适应网站开发电商网站公司
  • 福建微网站建设智能网站推广优化
  • 怎么做时时彩网站平台怎么提成百度 人工客服
  • 外贸怎么做站外推广国内产女装一线二线品牌知乎
  • 怀化租房网站sem网络推广公司
  • 珠海单位网站建设网站建设明细报价表
  • 做微分销系统多少钱推广资源seo
  • 专业旅游网站制作网站制作公司
  • 做网站行业怎么样深圳seo排名优化
  • 公司网站建设北京如何在百度上发布自己的文章
  • php网站开发干嘛的武汉网络推广公司
  • 网站建设那家好网络营销企业案例
  • 哪个网站专做二手相机seo外链专员
  • 咖啡建设网站的目的网络营销渠道建设方案
  • 青岛网站维护优化大师官网登录入口