solr配置(续)

前面的文章将solr和nutch连接起来了,并且可以看到solr中已经有我们抓取的数据,但是搜索结果一团糟。

继续研究了solr的文档,知道这是因为solr根本没有为文档做中文的分词。从solr admin的analysis页面中,可以看到,每个单个的汉字都被分割了,根本没有词的概念。需要为solr设置分词的方法。

根据前面提到的文档,分词需要在Fieldtype下的Analysis下设置。文档中给出了一个示意的设置如下:

<analyzer>       

<tokenizer class="solr.HMMChineseTokenizerFactory"/>         

<filter class="solr.StopFilterFactory        

words="org/apache/lucene/analysis/cn/smart/stopwords.txt"/>     [bgurl]markdown/p4142.html[/bgurl]

<filter class="solr.PorterStemFilterFactory"/>       

</analyzer>


其中的tokenizer即指定了分词需要用到的模块。该模块的输入为文本流,输出为词语(token)流。指定分词后,随后指定过滤器(filter),过滤器的输入和输出均为词语,只是过滤器可以修改或者扔掉部分或者全部词语。

因此现在需要找一个分词程序来加到solr系统中。

一旦分词系统设置完毕,可以用solr的analysis页面来进行测试。该测试会列出tokenize和每个filter的输入和输出,很容易的看出其处理方式是否正确。



本文地址: http://www.bagualu.net/wordpress/archives/4142 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注