为solr中文分词添加停用词

目前我选用的分词方式为solr自带的中文分词,其配置方法在前面的博客solr配置(续) 有介绍。

在实际搜索的时候发现很大的问题,因为查询语句中一些高频词的出现,比如“的”,”是”等导致无关的文章被搜索出来。因此首先要做的是要修改停用词,让solr把我们不感兴趣的词拿掉。

在上面的配置中,使用的分词方法为solr.HMMChineseTokenizerFactory , 这个类在lucene-analyzers-smartcn-4.10.3.jar文件中。
其位置在这里:
./node1/solr-webapp/webapp/WEB-INF/lib/lucene-analyzers-smartcn-4.10.3.jar

利用jar -tvf 查看lucene-analyzers-smartcn-4.10.3.jar的内容可以看到其中有一个文件叫stopwords.txt
解开上面的这个jar , (jar -xvf) , 可以看到其中的内容为一些标点符号。在文件的最后添加一些停用词,比如的,是, 你,我,这个等,
然后利用jar cvf lucene-analyzers-smartcn-4.10.3.jar META-INF/ org/ 重建这个jar文件,用这个新的替换原来的那个。
然后重启solr查看分词的效果。可以看到停用词生效了。

停用词 停用词

后来利用百度知道上的这个停用词库,放在里面



本文地址: http://www.bagualu.net/wordpress/archives/4171 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注