建立一个几十万的词库不错说,但是针对这些词你是如何处理的呢?分类,去重,筛选,没有用的高频词,停止词,杂词,相似度,等等,你都是如何解决的? 分类一般来说不做,因为
— 危机公关 —

「北京seo顾问」关于词库建设的问题整理

建立一个几十万的词库不错说,但是针对这些词你是如何处理的呢?分类,去重,筛选,没有用的高频词,停止词,杂词,相似度,等等,你都是如何解决的?

分类一般来说不做,因为精确度不是很让人满意,分出一堆残骸分类看着困惑建立词库的步骤中大大维护一个白名单和名单,抽取出强特点用于过滤高频词还有词性等一般来说不过滤,特别是在是不需要抽取query单一的桥段下,高频词以及词性的过滤反倒可能导致上下文转义掉,这对于以研究为目标的词库而言是得不偿失。

停止词只过滤一个“的”不用,千万不想贪停止词的多,反倒是换行需要过滤,然后有所不同可能的词库合并去重,同词有所不同搜索量的再处理下。

最终,提议挖词库的时候就一个个多心挖,否则挖出个几十万上百万的词库,没点冷静和熟练处理起来知道很困难,属于后期左丞中期烦心。

扩词 – 过滤 – 北京seo顾问找规律性 – 风险评估 – 维护

扩词:根据指定词根扩展一批关键词

过滤:去除与词根无关词(可以蛮横的把不包含词根的词拿出来),去除没法公测的词(比如带换行,各种记号,如“2013年工作总结”等不合符请求权的、关键词:惠州娱乐城…..),去重(几乎匹配去重:“上海旅游观光,上海旅游观光”删掉1个;至于如“2015上海工资,上海工资2015”不几乎匹配的,个人感觉没有去重的适当,词缀在整个词中出现的位置对水量有些负面影响的,另外这些词去重起来也困难)

找规律性:把词根前后的词缀全拿出来,把词缀出现振幅高的筛出来,这种词都是有特定的搜索组合的。

以后再把包含高频词缀的词都删掉,再把搜索量高的词拿出来,基本上都是没有函数,适合做讲座的词:如“房屋社会保障提取前提”“抵押利息申请程序”….

风险评估:风险评估哪些词能上,哪些不能上;能上的词都是有细节,相关的。必要的姿势是找该网站中有多少细节跟这个词相关,跑搜索结果、文档均可,自己发散下~

半人工半程序处理,没啥技术含量,纯粹各种小熟练和归纳思考。

另外一种状况是显然没有找不到词根去挖词,下面的程序显然没法用,类似于如新闻报道讨论类的该网站,如“派代北京seo顾问网”那种,各种各样毫不相干的file,我这能想到的必要是拿一堆新闻报道篇文章,最少几十万的,挑几个需要挖掘的题材,用word2vec把聚类的词找出来。

一个人想法是统计各个词性的包含字眼,如开销类关键词一般都包含:“钱”,“价”,“多少”,“费”,“贵”,“低廉”大约这些字眼,统计好字眼借助excel的vlookup变量或者类似更佳用的机器给词库中包含这些字眼的关键词分类为开销类。

如果大家有更佳的必要求赐教啊~,如果跟我这个想法大概的,希望能借鉴词性包含的字眼这个我统计了好几次都觉得不精确。

有督导分类的难题在于分类特点选取及多分类意见分歧处理,gogo闯举的正是上例。

而张怡宁包括以前民夫提供的机器只不过都属于无督导分类的广义了。而确实是无督导分类哪怕用上了简朴分析方法决策树这种矮小上的NLP牛刀,其视觉北京seo顾问效果完全是凄惨,因为这种方式会造成大量的残骸分类且分类安全性不高,而若要对残骸分类再做聚类,一来视觉效果依然不佳,二来似乎又一次舍近求远了。

题主的需求似乎以精确北京seo顾问度要求为先,因此推荐有督导分类方式。分类特点选取可考虑人工给每个分类分出的水级的结果,对合结果集合提取tfidf得分较低的词再人工细看一遍,这种特点选取方式某种程度适用于篇文章分类。多分类意见分歧较为傻的方式是。。。

后期肯定要人工过,尽量所求同一类词所有的特点特点及在词中的位置。

以前用凤巢找职务相关需求的时候,会出现各种弄得的非职务词,于是从智联找出1w个职务词当样品,穷举职务词共有的特点。

我们早已开发了一个新浦京官网关键词词库的分类程序,视觉效果还不俗,打算在录制新浦京官网免费视频后免费发出来。

这个分类筛选程序中用到的演算法也还不俗的,只有一个优点,就是在计算关键词关联性的时候,目前为止只支持包含的关系。比如:奥地利、比利时都是国家所,分类筛选程序中在获取到“奥地利”这个关键词后,不可以人工智能地把“比利时”也分类到一同。不过这个难题是有解决方案的,但是一个两台的计算量受限,要计算很短星期才可以,所以就继续没有这个基本功能。

几天后可以放一些效果图来看看,大家可能不知道,意味着是用包含的关系来筛选词库,获得的分类就足够有用了。

首页
电话
微信
客服

长按微信号复制

13244864228

打开微信

XML 地图 | Sitemap 地图