为nutch配置solr

solr是apache的一个索引以及查询项目。其项目的主页在这里 http://lucene.apache.org/solr

为了让索引nutch抓来的数据,需要建立solr服务,接受nutch的数据,索引并提供查询服务。

在nutch的conf/schema.xml看到
“Description: This document contains Solr 4.x schema definition to”
看来这个版本的nutch应该是和4.x的solr配套。于是下载了solr的4.10.3.
下载的地址为: http://mirrors.hust.edu.cn/apache/lucene/solr/4.10.3/solr-4.10.3.tgz
下载后,解压。

将nutch下的schema.xml拷贝到solr下的./example/solr/collection1/conf/schema.xml
将 id 修改为 url。

然后启动solr: bin/solr start -e cloud -noprompt

启动以后可以用http://localhost:8983/solr/ 来进行访问。不过这时候solr中并没有数据。

在nutch目录下。利用下面的命令来向solr添加前面抓来的页面数据:
bin/nutch solrindex http://localhost:8983/solr -all -crawlId 1

索引完毕,可以在http://localhost:8983/solr/#/collection1 查询索引后的页面。
可以选择搜索返回的数据的格式,比如jason或者xml。不过我看了下,这个结果似乎并不怎么好。下面是一个截图:

solr solr



本文地址: http://www.bagualu.net/wordpress/archives/4139 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注