为hadoop配置mapreduce

利用nutch抓到的网页,并添加到solr进行索引,一切顺利,但是在搜索时,发现有不少页面被重复的索引了。所以需要将重复的页面删除。

查nutch的命令行,可以用

bin/nutch solrdedup <solr url>

来进行。

这个命令需要有map reduce 的支持。于是必须配置mapred,

我现在的设置如下

<property>       

<name>mapred.job.tracker</name>      

<value>b2:9001</value>       

</property>      

<property>       

<name>mapred.system.dir</name>       

<value>/hadoop/mapred/system/</value>        

</property>      

<property>       

<name>mapred.local.dir</name>        

<value>/home/xuyang/mapred/local1/,/home/xuyang/mapred/local2/</value>      [bgurl]markdown/p4240.html[/bgurl]

</property>      

<property>       

<name>mapred.hosts</name>        

<value>b2,b3</value>         

</property>      

<property>       

<name>mapred.acls.enabled</name>         

<value>false</value>         

</property>

 

配置完成之后,在b2机器上,利用bin/start-mapred.sh 即可。b3上不需要动作。

利用jps可以看到:

在b2机器上的输出:

23109 jar

3971 NameNode

5915 Jps

2316 JobTracker

5718 HMaster

5651 HQuorumPeer

在b3机器上的输出:

31632 TaskTracker

1994 HRegionServer

944 DataNode

1892 HQuorumPeer

1015 Jps

 

这样看起来hadoop的HDFS,mapreduce , hbase 都已经在工作了。

 



本文地址: http://www.bagualu.net/wordpress/archives/4240 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注