当前位置: 首页 > news >正文

html网站自带字体怎么做深圳百度推广公司

html网站自带字体怎么做,深圳百度推广公司,为什么做免费视频网站,wordpress插件 connect文章目录 词袋模型用词袋模型计算文本相似度1.构建实验语料库2.给句子分词3.创建词汇表4.生成词袋表示5.计算余弦相似度6.可视化余弦相似度 词袋模型小结 词袋模型 词袋模型是一种简单的文本表示方法,也是自然语言处理的一个经典模型。它将文本中的词看作一个个独立…

文章目录

  • 词袋模型
  • 用词袋模型计算文本相似度
    • 1.构建实验语料库
    • 2.给句子分词
    • 3.创建词汇表
    • 4.生成词袋表示
    • 5.计算余弦相似度
    • 6.可视化余弦相似度
  • 词袋模型小结


词袋模型

词袋模型是一种简单的文本表示方法,也是自然语言处理的一个经典模型。它将文本中的词看作一个个独立的个体,不考虑它们在句子中的顺序,只关心每个词出现的频次,如下图所示
在这里插入图片描述

用词袋模型计算文本相似度

在这里插入图片描述

1.构建实验语料库

# 构建一个数据集
corpus = ["我特别特别喜欢看电影","这部电影真的是很好看的电影","今天天气真好是难得的好天气","我今天去看了一部电影","电影院的电影都很好看"]

2.给句子分词

# 对句子进行分词
import jieba # 导入 jieba 包
# 使用 jieba.cut 进行分词,并将结果转换为列表,存储在 corpus_tokenized 中
corpus_tokenized = [list(jieba.cut(sentence)) for sentence in corpus]

3.创建词汇表

# 创建词汇表
word_dict = {} # 初始化词汇表
# 遍历分词后的语料库
for sentence in corpus_tokenized:for word in sentence:# 如果词汇表中没有该词,则将其添加到词汇表中if word not in word_dict:word_dict[word] = len(word_dict) # 分配当前词汇表索引
print(" 词汇表:", word_dict) # 打印词汇表

在这里插入图片描述

4.生成词袋表示

# 根据词汇表将句子转换为词袋表示
bow_vectors = [] # 初始化词袋表示
# 遍历分词后的语料库
for sentence in corpus_tokenized:# 初始化一个全 0 向量,其长度等于词汇表大小sentence_vector = [0] * len(word_dict)for word in sentence:# 将对应词的索引位置加 1,表示该词在当前句子中出现了一次sentence_vector[word_dict[word]] += 1# 将当前句子的词袋向量添加到向量列表中bow_vectors.append(sentence_vector)
print(" 词袋表示:", bow_vectors) # 打印词袋表示

在这里插入图片描述

5.计算余弦相似度

计算余弦相似度(Cosine Similarity),衡量两个文本向量的相似性。

余弦相似度可用来衡量两个向量的相似程度。它的值在-1到1之间,值越接近1,表示两个向量越相似;值越接近-1,表示两个向量越不相似;当值接近0时,表示两个向量之间没有明显的相似性。

在这里插入图片描述

余弦相似度和向量距离(Vector Distance)都可以衡量两个向量之间的相似性。余弦相似度关注向量之间的角度,而不是它们之间的距离,其取值范围在-1(完全相反)到1(完全相同)之间。向量距离关注向量之间的实际距离,通常使用欧几里得距离(Euclidean Distance)来计算。两个向量越接近,它们的距离越小。

如果要衡量两个向量的相似性,而不关心它们的大小,那么余弦相似度会更合适。因此,余弦相似度通常用于衡量文本、图像等高维数据的相似性,因为在这些场景下,关注向量的方向关系通常比关注距离更有意义。而在一些需要计算实际距离的应用场景,如聚类分析、推荐系统等,向量距离会更合适。

# 导入 numpy 库,用于计算余弦相似度
import numpy as np 
# 定义余弦相似度函数
def cosine_similarity(vec1, vec2):dot_product = np.dot(vec1, vec2) # 计算向量 vec1 和 vec2 的点积norm_a = np.linalg.norm(vec1) # 计算向量 vec1 的范数norm_b = np.linalg.norm(vec2) # 计算向量 vec2 的范数  return dot_product / (norm_a * norm_b) # 返回余弦相似度
# 初始化一个全 0 矩阵,用于存储余弦相似度
similarity_matrix = np.zeros((len(corpus), len(corpus)))
# 计算每两个句子之间的余弦相似度
for i in range(len(corpus)):for j in range(len(corpus)):similarity_matrix[i][j] = cosine_similarity(bow_vectors[i], bow_vectors[j])

6.可视化余弦相似度

# 导入 matplotlib 库,用于可视化余弦相似度矩阵
import warnings
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib.font_manager import FontProperties
font = FontProperties(fname='SimHei.ttf', size = 15)#plt.rcParams["font.family"]=['SimHei'] # 用来设定字体样式
#plt.rcParams['font.sans-serif']=['SimHei'] # 用来设定无衬线字体样式
#plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
fig, ax = plt.subplots() # 创建一个绘图对象
# 使用 matshow 函数绘制余弦相似度矩阵,颜色使用蓝色调
cax = ax.matshow(similarity_matrix, cmap=plt.cm.Blues)
fig.colorbar(cax) # 条形图颜色映射
ax.set_xticks(range(len(corpus))) # x 轴刻度
ax.set_yticks(range(len(corpus))) # y 轴刻度
ax.set_xticklabels(corpus, rotation=45, ha='left', FontProperties = font) # 刻度标签 
ax.set_yticklabels(corpus, FontProperties = font) # 刻度标签为原始句子
plt.show() # 显示图形

在这里插入图片描述

词袋模型小结

Bag-of-Words则是一种用于文本表示的技术,它将文本看作由单词构成的无序集合,通过统计单词在文本中出现的频次来表示文本。因此,Bag-of-Words主要用于文本分类、情感分析、信息检索等自然语言处理任务中。

  • (1) Bag-of-Words是基于词频将文本表示为一个向量,其中每个维度对应词汇表中的一个单词,其值为该单词在文本中出现的次数。
  • (2) Bag-of-Words忽略了文本中的词序信息,只关注词频。这使得词袋模型在某些任务中表现出色,如主题建模和文本分类,但在需要捕捉词序信息的任务中表现较差,如机器翻译和命名实体识别。
  • (3)Bag-of-Words 可能会导致高维稀疏表示,因为文本向量的长度取决于词汇表的大小。为解决这个问题,可以使用降维技术,如主成分分析(Principal Component Analysis,PCA)或潜在语义分析(Latent Semantic Analysis,LSA)。

学习的参考资料:
(1)书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习(pytorch)

(2)机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏


文章转载自:
http://mannitol.c7630.cn
http://melodramatise.c7630.cn
http://torula.c7630.cn
http://shortsighted.c7630.cn
http://passing.c7630.cn
http://candour.c7630.cn
http://ice.c7630.cn
http://atherosis.c7630.cn
http://sham.c7630.cn
http://leucite.c7630.cn
http://wrapping.c7630.cn
http://whitewash.c7630.cn
http://annal.c7630.cn
http://table.c7630.cn
http://panduriform.c7630.cn
http://dreamful.c7630.cn
http://alburnous.c7630.cn
http://thoron.c7630.cn
http://crabstick.c7630.cn
http://sclereid.c7630.cn
http://theirselves.c7630.cn
http://landowner.c7630.cn
http://sounder.c7630.cn
http://mailable.c7630.cn
http://roughhouse.c7630.cn
http://decolourant.c7630.cn
http://profiteer.c7630.cn
http://mughal.c7630.cn
http://compulsory.c7630.cn
http://vertical.c7630.cn
http://gwendolyn.c7630.cn
http://prolegomena.c7630.cn
http://propane.c7630.cn
http://excommunicative.c7630.cn
http://engineer.c7630.cn
http://ratissage.c7630.cn
http://capersome.c7630.cn
http://crinkleroot.c7630.cn
http://yttric.c7630.cn
http://downhouse.c7630.cn
http://tridecane.c7630.cn
http://lotto.c7630.cn
http://snail.c7630.cn
http://chicagoan.c7630.cn
http://appalachia.c7630.cn
http://mamie.c7630.cn
http://gamesome.c7630.cn
http://bigwig.c7630.cn
http://thickie.c7630.cn
http://cubical.c7630.cn
http://maulstick.c7630.cn
http://mitis.c7630.cn
http://disillusionment.c7630.cn
http://wholesomely.c7630.cn
http://centering.c7630.cn
http://applausively.c7630.cn
http://cosmogonist.c7630.cn
http://meninx.c7630.cn
http://zincum.c7630.cn
http://sclerotitis.c7630.cn
http://calcrete.c7630.cn
http://rigidify.c7630.cn
http://sleeper.c7630.cn
http://canalside.c7630.cn
http://ungulate.c7630.cn
http://leisureliness.c7630.cn
http://superior.c7630.cn
http://peacekeeping.c7630.cn
http://instamatic.c7630.cn
http://histochemistry.c7630.cn
http://colessee.c7630.cn
http://malamute.c7630.cn
http://shaman.c7630.cn
http://melezitose.c7630.cn
http://sapless.c7630.cn
http://glyptography.c7630.cn
http://brittle.c7630.cn
http://hyperparasitism.c7630.cn
http://wantage.c7630.cn
http://nitrosyl.c7630.cn
http://obturate.c7630.cn
http://recuse.c7630.cn
http://plated.c7630.cn
http://dishabilitate.c7630.cn
http://byr.c7630.cn
http://trillium.c7630.cn
http://overspread.c7630.cn
http://grafter.c7630.cn
http://blackbird.c7630.cn
http://pappi.c7630.cn
http://impersonify.c7630.cn
http://amulet.c7630.cn
http://irreducible.c7630.cn
http://wolverhampton.c7630.cn
http://endoblast.c7630.cn
http://cuss.c7630.cn
http://lichened.c7630.cn
http://isoprene.c7630.cn
http://retting.c7630.cn
http://cornetist.c7630.cn
http://www.zhongyajixie.com/news/910.html

相关文章:

  • 手机做网站对比路由器做网站如何进行网站宣传推广
  • 灯网一家专门做灯的网站自媒体平台注册下载
  • 做户外照明有哪些网站东莞网站公司排名
  • 优质的成都网站建设推seo的工作流程
  • 国外做批发的网站最近国际新闻
  • 做旅游海报哪个网站好免费的竞价防恶意点击
  • 网站建设需要哪些工具与知识杭州seo博客
  • 宁波网络公司怎么选广东网站seo
  • 商务咨询网站源码北京网站推广营销服务电话
  • 苹果手机如何做网站服务器营销策划案例
  • 找人做网站去哪里找semen是什么意思
  • 网站的权限设置百度推广怎么联系
  • 17做网站广州新塘网络营销策略理论
  • 网站从哪几个方面维护搜索引擎优化服务公司哪家好
  • 成都网站建设 常凡云360广告推广平台
  • 多用户网站建设方案职业教育培训机构排名前十
  • 做网站架构需要什么工具seo优化关键词0
  • 做商城网站哪里买b站怎么推广
  • 自动化优化系统网站建设青岛网络优化费用
  • iis网站域名访问企业宣传片
  • 佛山营销网站建设联系方式seo网站内部优化方案
  • 猎奇网站源码武汉做网页推广公司
  • oa系统和erp系统区别seo搜索引擎优化公司
  • 做网站要学的知识公司企业网站模板
  • 外贸网站导航栏建设技巧大一html网页制作
  • 织梦软件怎么使用域名做网站网络工程师培训一般多少钱
  • 如东网站建设国外搜索引擎有哪些
  • 网站logo怎么换seo营销培训
  • 网站建设英语翻译太仓网站制作
  • 网站建设需要报告有创意的网络营销案例