搜狗实验室的资料

在网络上查找中文词库,最后的结果是钻到了搜狗实验室。搜狗实验室,这里有很多的资料可以下载,其中包括词库,语料库,新闻库,等等,对于每种资料,提供了资料的格式。看到这些资料我感觉比较兴奋,搜狐还真是做了件大好事。

当然首先是把搜狗的词频及词性库给下下来了,这个比较小。是2006年的,有些词还没有标上词性。不过很不错了。
又看下搜狐的新闻库,新闻库的存储格式是用XML的,这点看来我想的还没有错。每篇新闻存储的信息如下:

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本

其中只包含了URL,ID,标题和内容,注意这里的内容是处理过的新闻正本,这也和我想象中的一样。另外这里保存的信息太少,我想应该把什么meta的keyword信息也应该存下来。或许对于自动摘要具有参考意义。

还有一些全网的语料库,有的要上T,搜狐能够提供这么完整的数据,实在是件美事。



本文地址: http://www.bagualu.net/wordpress/archives/1859 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注