当前位置: 首页 > news >正文

可以做翻译兼职的网站吗夸克搜索引擎入口

可以做翻译兼职的网站吗,夸克搜索引擎入口,龙江人社app二维码图片,网站建设注意细节问题1 问题 通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。 from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件) word2vec_model KeyedV…

1 问题

通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。

from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件)
word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)

2 解决方案

(1)方案一
第一次加载后保存为能够快速加载的文件,第二次加载就能快读读取。

file_path = "word2vec/train_bio_word"
if os.path.exists(file_path):word2vec_model = KeyedVectors.load(file_path,mmap='r')
else:# 读取中文词向量模型(需要提前下载对应的词向量模型文件)word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)word2vec_model.init_sims(replace=True)word2vec_model.save(file_path)

(2)方案二
第一次加载后,只将使用到的词向量以表格的形式保存到本地,第二次读取就不需要加载全部word2vec的,只加载表格中的词向量。

file_path = "word2vec/train_vocabulary_vector.csv"
if os.path.exists(file_path):# 读取词汇-向量字典,csv转字典vocabulary_vector = dict(pd.read_csv(file_path))# 此时需要将字典中的词向量np.array型数据还原为原始类型,方便以后使用for key,value in vocabulary_vector.items():vocabulary_vector[key] = np.array(value)else:# 所有文本构建词汇表,words_cut 为分词后的list,每个元素为以空格分隔的str.vocabulary = list(set([word for item in text_data1 for word in item]))# 构建词汇-向量字典vocabulary_vector = {}for word in vocabulary:if word in word2vec_model:vocabulary_vector[word] = word2vec_model[word]# 储存词汇-向量字典,由于json文件不能很好的保存numpy词向量,故使用csv保存pd.DataFrame(vocabulary_vector).to_csv(file_path)

(3)方案三
不使用word2vec的原训练权重,使用Embedding工具库。自动下载权重文件后,高效使用。
参考:https://github.com/vzhong/embeddings
安装库

pip install embeddings  # from pypi
pip install git+https://github.com/vzhong/embeddings.git  # from github
from embeddings import GloveEmbedding, FastTextEmbedding, KazumaCharEmbedding, ConcatEmbeddingg = GloveEmbedding('common_crawl_840', d_emb=300, show_progress=True)
f = FastTextEmbedding()
k = KazumaCharEmbedding()
c = ConcatEmbedding([g, f, k])
for w in ['canada', 'vancouver', 'toronto']:print('embedding {}'.format(w))print(g.emb(w))print(f.emb(w))print(k.emb(w))print(c.emb(w))
http://www.zhongyajixie.com/news/29292.html

相关文章:

  • 做网站找谁南昌seo排名外包
  • 小企业网站建设怎么做好自动优化句子的软件
  • 广州黄埔做网站的公司图片外链生成器
  • 网站开发标书百度助手下载
  • wordpress 国内云太原搜索引擎优化招聘信息
  • wordpress布局切换功能seo技术
  • 建材 团购 网站怎么做中层管理者培训课程有哪些
  • 长丰县建设局网站seo专员工作内容
  • 自己做手机网站谷歌广告代理商
  • 二级建造师证报考要求北京优化seo排名
  • 排版设计模板免费宁波厂家关键词优化
  • 哪个网站做服装定制好nba最新交易动态
  • 如何开发移动网站最新军事新闻事件今天
  • 网站建设的基本流程规范近期新闻热点
  • 购物网站 怎么做做网站公司哪家好
  • 做淘宝网站要多少钱桂林网站优化
  • 网站建设需要域名服务器百度一下马上知道
  • 某网站建设方案正规的教育培训机构有哪些
  • 导购网站怎么做的市场营销策划方案3000字
  • 深圳三级分销网站设计制作策划方案怎么做
  • 东莞seo建站优化公司郑州做网站
  • 深圳优化公司哪家好电脑优化用什么软件好
  • 做搜狗网站排名软件广州网络推广选择
  • 湖北城乡和建设官方网站网搜网
  • 帮熟人做网站如何收费百度关键词排名点击器
  • 接做网站单子的网站个人发布信息免费推广平台
  • 有哪些网站建设方案如何做网页推广
  • 网站推广优化网络营销总结
  • 做企业网站的第一步需要啥企业网站制作公司
  • 深圳网站建设 cms电商seo是指