文档规范化(normalization)
文档规范化,提高召回率
示例代码
#normalization GET _analyze { "text": "Mr. Ma is an excellent teacher", "analyzer": "english" }
字符过滤器(character filter)
分词之前的预处理,过滤无用字符
html标签过滤器
官方参考地址
HTML strip character filter | Elasticsearch Guide [8.11] | Elastic
示例代码
GET /_analyze { "tokenizer": "keyword", "char_filter": [ "html_strip" ], "text": "I'm so happy!
" }
字符映射过滤器(MappingCharFilter)
官方参考地址
Mapping character filter | Elasticsearch Guide [8.11] | Elastic
示例代码
PUT my_index { "settings": { "analysis": { "char_filter": { "my_char_filter":{ "type":"mapping", "mappings":[ "滚 => *", "垃 => *", "圾 => *" ] } }, "analyzer": { "my_analyzer":{ "tokenizer":"keyword", "char_filter":["my_char_filter"] } } } } } GET my_index/_analyze { "analyzer": "my_analyzer", "text": "你就是个垃圾!滚" }
正则过滤器
官方参考地址
Pattern replace character filter | Elasticsearch Guide [8.11] | Elastic
示例代码
PUT my_index { "settings": { "analysis": { "char_filter": { "my_char_filter":{ "type":"pattern_replace", "pattern":"(\d{3})\d{4}(\d{4})", "replacement":"****" } }, "analyzer": { "my_analyzer":{ "tokenizer":"keyword", "char_filter":["my_char_filter"] } } } } } GET my_index/_analyze { "analyzer": "my_analyzer", "text": "您的手机号是17611001200" }
令牌过滤器(token filter)
停用词、时态转换、大小写转换、同义词转换、语气词处理等。比如:has=>have him=>he apples=>apple
示例代码
#停用词 PUT /test_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "type": "standard", "stopwords":["me","you"] } } } } } GET test_index/_analyze { "analyzer": "my_analyzer", "text": ["Teacher me and you in the china"] }
分词器(tokenizer)
切词
官方参考地址
Tokenizer reference | Elasticsearch Guide [8.11] | Elastic
常见分词器
-
standard analyzer:默认分词器,中文支持的不理想,会逐字拆分。
-
pattern tokenizer:以正则匹配分隔符,把文本拆分成若干词项。
-
simple pattern tokenizer:以正则匹配词项,速度比pattern tokenizer快。
-
whitespace analyzer:以空白符分隔
-
ik分词器:中文分词器(git地址:GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.)
示例代码
#分词器 tokenizer POST _analyze { "analyzer": "ik_max_word", "text": "小孩儿不能吃糖" }
自定义分词器
-
char_filter:内置或自定义字符过滤器 。
-
token filter:内置或自定义token filter 。
-
tokenizer:内置或自定义分词器。
示例代码
PUT custom_analysis { "settings": { "analysis": { "char_filter": { "my_char_filter": { "type": "mapping", "mappings": [ "& => and", "| => or" ] }, "html_strip_char_filter":{ "type":"html_strip", "escaped_tags":["a"] } }, "filter": { "my_stopword": { "type": "stop", "stopwords": [ "is", "in", "the", "a", "at", "for" ] } }, "tokenizer": { "my_tokenizer": { "type": "pattern", "pattern": "[ ,.!?]" } }, "analyzer": { "my_analyzer":{ "type":"custom", "char_filter":["my_char_filter","html_strip_char_filter"], "filter":["my_stopword","lowercase"], "tokenizer":"my_tokenizer" } } } } } GET custom_analysis/_analyze { "analyzer": "my_analyzer", "text": ["What is ,as.df ss
in ? &
| is ! in the a at for "] }
猜你喜欢
- 17天前(江西启动“唱游江西”计划)江西启动“唱游江西”计划
- 17天前(fender japan hybrid)Fender东京旗舰店盛大开幕在即,开售商品和店内服务提前揭晓
- 17天前(中旅酒店 维景)中旅酒店首次AI数字人直播亮相南京维景
- 17天前(哥伦比亚号邮轮)爱达邮轮与哥仑比亚船舶管理集团达成合作
- 17天前(甘肃文旅项目)甘肃省文旅产业链招商引资推介会在天水成功举办
- 17天前(中国旅游集团旗下酒店)中国旅游集团酒店控股有限公司战略投资雅阁酒店集团
- 17天前(岭南东方大酒店)粤西成势 | 阳江阳春长兴岭南东方酒店正式签约,粤西文旅再添明珠
- 17天前(美诺酒店集团旗下臻选品牌m collection)美诺酒店集团启动盛橡品牌战略焕新 开启全球扩张新篇章
- 17天前(辽宁新增6个国家4a级旅游景区有哪些)辽宁新增6个国家4A级旅游景区
- 17天前(冬日生活还没安排?上抖音一键打包北方花式过冬精彩)冬日生活还没安排?上抖音一键打包北方花式过冬精彩
网友评论
- 搜索
- 最新文章
- (2020广州车展哈弗)你的猛龙 独一无二 哈弗猛龙广州车展闪耀登场
- (哈弗新能源suv2019款)智能科技颠覆出行体验 哈弗重塑新能源越野SUV价值认知
- (2021款全新哈弗h5自动四驱报价)新哈弗H5再赴保障之旅,无惧冰雪护航哈弗全民电四驱挑战赛
- (海南航空现况怎样)用一场直播找到市场扩张新渠道,海南航空做对了什么?
- (visa jcb 日本)优惠面面俱到 JCB信用卡邀您畅玩日本冰雪季
- (第三届“堡里有年味·回村过大年”民俗花灯会活动)第三届“堡里有年味·回村过大年”民俗花灯会活动
- (展示非遗魅力 长安启源助力铜梁龙舞出征)展示非遗魅力 长安启源助力铜梁龙舞出征
- (阿斯塔纳航空公司)阿斯塔纳航空机队飞机数量增至50架
- (北京香港航班动态查询)香港快运航空北京大兴新航线今日首航
- (我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉)我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉
- 热门文章