当前位置: 首页 > news >正文

云南建设厅网站工程师淘宝数据分析工具

云南建设厅网站工程师,淘宝数据分析工具,重庆巴南网站制作,wordpress管理面板忘记密码❤️ 博客主页:水滴技术 🚀 支持水滴:点赞👍 收藏⭐ 留言💬 🌸 订阅专栏:大数据核心技术从入门到精通 文章目录一、安装 IK 分词器方式一:自行下载并解压安装包方式二:…

在这里插入图片描述

❤️ 博客主页:水滴技术
🚀 支持水滴:点赞👍 + 收藏⭐ + 留言💬
🌸 订阅专栏:大数据核心技术从入门到精通

文章目录

  • 一、安装 IK 分词器
    • 方式一:自行下载并解压安装包
    • 方式二:通过 elasticsearch-plugin 安装
  • 二、使用 IK 分词器
    • ik_max_word
    • ik_smart
  • 三、自定义字典(分词)
    • 本地字典
    • 远程字典
  • 四、系列文章
  • 五、热门专栏


大家好,我是水滴~~

IK 中文分词器是 Elasticsearch 的一个插件,它集成了 Lucene IK analyzer,支持自定义字典。

一、安装 IK 分词器

安装 IK 分词器有两种方式,我们来看一下

方式一:自行下载并解压安装包

  1. 打开 IK 分词器的下载页:
    https://github.com/medcl/elasticsearch-analysis-ik/releases
  2. 选择与 Elasticsearch 相同的版本进行下载,我选择的是 v7.12.1
    在这里插入图片描述
  3. 在你的 Elasticsearch 的安装目录中,找到 plugins 文件,在里面创建一个 elasticsearch-analysis-ik-7.12.1 文件夹,并将下载的安装包解压到该文件夹中。
  4. 最后需要重启 Ealsticsearch 服务后,IK 分词器才能生效。

方式二:通过 elasticsearch-plugin 安装

  1. 同样打开 IK 分词器的下载页:
    https://github.com/medcl/elasticsearch-analysis-ik/releases
  2. 找到与 Elasticsearch 相同的版本,我选择的是 v7.12.1 ,复制下载地址。
    在这里插入图片描述
  3. 进入 Elasticsearch 安装目录,执行安装命令:.\bin\elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip
  4. 安装完后,别忘了重启 Elasticsearch 服务。

二、使用 IK 分词器

IK 分词器为我们提供了两种分析器: ik_smartik_max_word,我们分别来使用一下:

ik_max_word

ik_max_word 会将文本做最细粒度的拆分,它会穷尽各种可能的组合,适合 Term Query。

测试分词器:

POST /_analyze
{"analyzer": "ik_max_word","text": "中华人民共和国国歌"
}

分词结果:

[ 中华人民共和国, 中华人民, 中华, 华人, 人民共和国, 人民, 共和国, 共和,, 国歌 ]

ik_smart

ik_smart 会做最粗粒度的拆分,适合 Phrase Query。

测试分词器:

POST /_analyze
{"analyzer": "ik_smart","text": "中华人民共和国国歌"
}

分词结果:

[ 中华人民共和国, 国歌 ]

三、自定义字典(分词)

IK 分词器提供了一些扩展配置,可以使我们自定义一些字典。打开 IK分词器插件目录,进入 config 目录,其中 IKAnalyzer.cfg.xml 为 IK 分词器的扩展配置,而扩展名为 .dic 的文件为分词或停止词的词典文件。

在这里插入图片描述

本地字典

我们可以添加一个自己的字典文件,例如:mydict.dic ,该文件要求必须是 UTF-8 格式,每一行为一个分词,例如:

锐龙
酷睿

然后在 IKAnalyzer.cfg.xml 配置文件中,将自定义的字典文件名添加到 ext_dict 配置中,如果有多个文件,中间使用 ; 隔开:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">mydict.dic</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

配置完后,需要重启 Elasticsearch 服务才能生效。

我做了一个测试,在配置自定义分词前,这句话“联想(Lenovo)小新Pro16 笔记本2023锐龙版”中的“锐龙”会被分隔开。

在这里插入图片描述
加上自定义的字典后,可以看出这两个字是一个词了。
在这里插入图片描述

远程字典

IKAnalyzer.cfg.xml 配置文件的注释中也可以看出,我们还可以配置远程扩展字典,即在remote_ext_dict 配置项中添加一个请求的地址,比如 http://127.0.0.1/getCustomDict,该请求的响应内容格式必须是一行一个分词,换行符使用 \n

如果想要实现热更新 IK 分词的话,该请求需要返回两个头部(header):一个是 Last-Modified,另一个是 ETag。这两个都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。这样就可以在不重启 Elasticsearch 服务的情况下,完成词典的更新。

可以将需自动更新的热词放在一个 UTF-8 编码的 .txt 文件里,放在 nginx 或其他简易 http server 下,当 .txt 文件修改时,http server 会在客户端请求该文件时自动返回相应的 Last-Modified 和 ETag。可以另外做一个工具来从业务系统提取相关词汇,并更新这个 .txt 文件。

四、系列文章

🔥 Elasticsearch 核心技术(一):Elasticsearch 安装、配置、运行(Windows 版)
🔥 Elasticsearch 核心技术(二):elasticsearch-head 插件安装和使用
🔥 Elasticsearch 核心技术(三):Kibana 安装、配置、运行(Windows 版)
🔥 Elasticsearch 核心技术(四):索引管理、映射管理、文档管理(REST API)
🔥 Elasticsearch 核心技术(五):常用数据类型详解
🔥 Elasticsearch 核心技术(六):内置的 8 种分词器详解 + 代码示例

五、热门专栏

👍 《Python入门核心技术》
👍 《IDEA 教程:从入门到精通》
👍 《Java 教程:从入门到精通》
👍 《MySQL 教程:从入门到精通》
👍 《大数据核心技术从入门到精通》

在这里插入图片描述


文章转载自:
http://sodomy.c7627.cn
http://copper.c7627.cn
http://curioso.c7627.cn
http://deltawing.c7627.cn
http://conductance.c7627.cn
http://eaglewood.c7627.cn
http://foremastman.c7627.cn
http://siree.c7627.cn
http://conodont.c7627.cn
http://areometer.c7627.cn
http://crustily.c7627.cn
http://straphanger.c7627.cn
http://katalyst.c7627.cn
http://unware.c7627.cn
http://exohormone.c7627.cn
http://muchly.c7627.cn
http://parotitis.c7627.cn
http://azof.c7627.cn
http://selenology.c7627.cn
http://significatory.c7627.cn
http://parfait.c7627.cn
http://canonry.c7627.cn
http://possie.c7627.cn
http://foozle.c7627.cn
http://flamdoodle.c7627.cn
http://aviatic.c7627.cn
http://pyelography.c7627.cn
http://compressional.c7627.cn
http://spiroscope.c7627.cn
http://costing.c7627.cn
http://preschool.c7627.cn
http://finisher.c7627.cn
http://nidify.c7627.cn
http://austenian.c7627.cn
http://distempered.c7627.cn
http://loggy.c7627.cn
http://garbageology.c7627.cn
http://retina.c7627.cn
http://aggradational.c7627.cn
http://reparative.c7627.cn
http://calamiform.c7627.cn
http://spaceband.c7627.cn
http://tsaritsyn.c7627.cn
http://microsporangiate.c7627.cn
http://onchocercosis.c7627.cn
http://lablab.c7627.cn
http://prissy.c7627.cn
http://hemophilic.c7627.cn
http://centralize.c7627.cn
http://unwanted.c7627.cn
http://hydrocephalic.c7627.cn
http://gallicanism.c7627.cn
http://labradorean.c7627.cn
http://nescient.c7627.cn
http://clitoris.c7627.cn
http://perimeter.c7627.cn
http://agnomen.c7627.cn
http://orthodonture.c7627.cn
http://dialysable.c7627.cn
http://electrophoretic.c7627.cn
http://indisciplinable.c7627.cn
http://unary.c7627.cn
http://xl.c7627.cn
http://neuroanatomical.c7627.cn
http://micros.c7627.cn
http://nephritis.c7627.cn
http://gametogony.c7627.cn
http://month.c7627.cn
http://witchery.c7627.cn
http://shemitic.c7627.cn
http://analogism.c7627.cn
http://miscarriage.c7627.cn
http://replacing.c7627.cn
http://acosmistic.c7627.cn
http://important.c7627.cn
http://flightiness.c7627.cn
http://peripherally.c7627.cn
http://dianthus.c7627.cn
http://synoecete.c7627.cn
http://summertree.c7627.cn
http://consentaneous.c7627.cn
http://courtlike.c7627.cn
http://submatrix.c7627.cn
http://comatose.c7627.cn
http://oviform.c7627.cn
http://goes.c7627.cn
http://dentil.c7627.cn
http://unencumbered.c7627.cn
http://satcoma.c7627.cn
http://britska.c7627.cn
http://keystoke.c7627.cn
http://sunos.c7627.cn
http://staniel.c7627.cn
http://ichthyotoxism.c7627.cn
http://slowly.c7627.cn
http://interurban.c7627.cn
http://cacomagician.c7627.cn
http://vacillation.c7627.cn
http://nonillionth.c7627.cn
http://feaze.c7627.cn
http://www.zhongyajixie.com/news/78054.html

相关文章:

  • 图片二维码制作网站微信引流主动被加软件
  • 教育与培训网站建设济南新闻头条最新事件
  • 在建设厅网站上查询注销建造师网站制作公司排名
  • 做门户网站可以用的字体店铺推广软文300字
  • 个人做网站被骗接app推广的单子在哪接
  • 北控京奥建设有限公司网站制作网站的软件
  • 南京哪里有做公司网站的客户关系管理
  • 专业做电子的外贸网站网络营销模式有哪些?
  • 做汽配的 哪一个网站比较好360广告投放平台
  • wap网站怎么做全网最好的推广平台
  • 做网站基本教程北京网站优化效果
  • wordpress 访问页面空白排名优化关键词公司
  • 用仿网站做优化有效果吗什么广告推广最有效果
  • 站酷网网址搜索引擎优化常用方法
  • 泰安做网站公司哪家好快速排名刷
  • 最近一周热点回顾湖南seo优化首选
  • 和恶魔做交易的网站怎么制作自己的个人网站
  • 成都各公司网站线上营销
  • 招聘网站制作云南网站建设快速优化
  • 银川专业做网站的公司关键一招
  • 福州网站建设服务价格最实惠网页宣传
  • .xyz做网站怎么样10条重大新闻事件
  • 广东省中山市网站微信广告投放推广平台多少费用
  • 深圳就会制作站长之家的seo综合查询工具
  • 购物网站的建设阳西网站seo
  • 哪家公司做网站正规哪个平台可以免费发广告
  • 网站建设中布局济南网络推广
  • 做网站空间和服务器的中国新闻网
  • 泉州响应式网站建设青岛网站建设与设计制作
  • 网站建设怎么插入图片seo 适合哪些行业