2020-11-25 13:40:58 阅读(159)
为了方便大家理解,这里还是用一个通俗易懂的流程图给大家看看,有一个大致的脉络,我也会根据这个脉络给大家介绍一下。话不多说,上图!(为了看起来不那么产品味道,很容易理解,我简化了很多)一般来说,干分裂过程没有味道,所以我们再举一个例子,几乎理解,首先声明,我说不一定是对的,不要盲目地服从。让我们从汉语开始。关键词是“男士印花t恤”,将首先进入预处理环节。这个链接将删除关键字的无用部分,如停用词。“”是我们想切断的部分,事实上,在预处理阶段会消除一些无用的空间,所以如何确定停止单词,在中文任何单词都可能有用,但在特定的语言环境中,许多短语已经成为停止单词,如淫秽单词、极端敏感单词(参考广告方法)等。预处理环节后,进入智能纠错或人工重写环节,需要判断关键词是否有错别字(算法/人工字库),是否命中人工重写字库(暴君功能)。经过这个链接处理后,进入语言识别链接,国内电子商务也支持英语环境。此时,关键字将进行语言识别,以确认该词应该在哪种语言环境中搜索。一些电子商务公司没有这个链接,因为它真的没有必要。对于出口型跨境电商来说,比如速卖通、虾皮、亚马逊等。此时进入词性还原阶段,词性还原顾名思义,对于英语是单复数还原、时态还原、词干提取等,对于汉语是识别关键词骨干,男士印花t恤(预处理已删除“”),整个词是骨干。然后进入分词阶段。此时,分词系统将对“男士印花t恤”进行分词。一般来说,中文将进行n-gram多粒度分词。分词结果如下:男/士/印/花/t/t恤/男士/印花/t恤/男士印花/印花t恤/男士t恤/。以上ngram不懂也没关系,以后会讲到专门的算法章节。对于一些音型文字,如英语、法语、印尼语等,使用的空格分词法是根据关键词之间的空格,如“womendress“分词结果直接从空间切词。为什么它不同于汉语?事实上,英语中也有多粒度的切割词。汉语的切割方法是基于词典中短语的合理性,但汉语和音型语言之间存在一些差异。因此得出假设结论:音型文字:音型文字含义容量范围低,精度值高;汉语:象形结构文字,含义容量范围高,精度值低。汉语搜索采用多粒度短语切割词的分词方法,很大程度上是基于汉语搜索词的含义容量大,导致精度不准确。因此,有必要使用多个单词组成词来确认搜索词的具体含义。让我们来体验一下:query(汉语):男士印花t恤。切词:男/士/印/花/t/t恤/男士/印花/t恤/男士印花/印花t恤/男士t恤/;query(英语):MenPrintT-Shirt 切词: men/print/t-shirt/ment-shirt/printt-shirt/。两者的原理大致相同。另外,我只想让大家明白,不同语言之间的分词有一些差异,我们不能“一招到处吃”。接下来,分词后,系统进入同义词扩展环节。词典和人工维护的同义词词库用于扩展分词后的关键词。具体来说,印刷和印染是同义词,男人、男孩和男人是同义词,所以这些同义词将一起添加到分词中,进入匹配召回环节。进入匹配召回阶段,先看这张图。同样,我懒惰的时候也用我前同事的ppt截图来展示。我厌倦了看他一万年不变的例子截图。你会看的。 我相信你一眼就能明白,它使用全词匹配召回。什么意思?男士印花t恤的分词结果需要在同一粒度下与商品名称或属性描述完全匹配,才能召回商品。不可能少补一个匹配。而多词粒度的权重>单词粒度的权重,即短语匹配优先于单词匹配。当短语没有匹配时,再去匹配单词,当然汉语匹配单词是没有意义的,一般汉语基本上都是匹配短语。(我的一些中文单词的例子不是很合适)匹配召回后进入“点头”链接,也被称为确认商品是“无结果”还是“少结果”无结果是关键词找不到商品,少结果意味着关键词搜索小于等于8个产品,一些电力将少结果设置为4或12个,无论如何,你知道这个意思。点头后,进入大范围排序阶段,类别排序。我们将这个链接称为类别预测,并将与关键字最相关的类别放在首位(我们需要知道,这些类别的商品集合也应该与关键字的整个单词相匹配。并不是说所有类别的商品都会放在前面)。类别预测一般通过算法进行,人工干预得到补充。此时,筛选参数的显示范围(即该类别下的参数)也得到了确认,顶部分类也将确认此时是否会激发显示。类别预测结束后,开始对商品进行排序,预测类别与非预测类别分开排序。根据用户行为数据和商品综合得分算法对各种算法进行排序。然后经过网观渲染,就是我们看到的搜索结果页面,你看,简单,今天就先到这里。预测下一章:全面分析站内搜索类别预测
以上就是关于电商运营:站内搜索的流程的相关介绍,更多电商运营:站内搜索的流程相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对电商运营:站内搜索的流程有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一