2017-09-21

猎数博客

数据挖掘,机器学习

文档数据库的规模

作者:江航 / 2011-04-11 / (阅读 1,276 次) /



图书馆是文档数据库的一种表现形式。假设一本书50万字。每个字有两个字节存储。即100万字节=1MB。 而上海图书馆的馆藏中文图书约为200万本,以每本1M计算,那么一共有2Mx1M=2TB。考虑一个小型图书馆,藏书10万册,那么共有0.1Mx1M=100G。藏书1w册,那么数据为10G。因此10G的数据规模就和1万册书的概念差不多。因此我们至少要处理10G的数据才有些意义,如果能够快速索引查询100G数据,就是10万册书的规模。如果能够快速索引查询2T数据,那么就相当于处理了上海图书馆的中文图书的规模了。至此,我们对数据库的规模有了大致的感性认识。

我们的兴趣是解决海量文本存储的空间和检索文本所需的时间问题。

文本必然存储在磁盘上,而根据我们前面的硬盘速度测试知,硬盘每秒最多只能读200次。100次就是0.5秒,加上其他的一些计算时间,硬盘访问的次数最好在50次以下。不然,查询速度就会让人感到不快了。



本文地址: http://www.bagualu.net/wordpress/archives/138 转载请注明






相关文章

  • 为solr配中文分词( 3,580 )
  • 霍夫曼编码和算术编码简单比较( 2,978 )
  • CPU乘法速度测试( 2,380 )
  • CPU 加法速度测试( 1,886 )
  • 多线程文件处理实例( 1,759 )
  • 磁盘速度问题( 1,544 )
  • nutch 2.x index( 1,494 )
  • nutch solrdedup( 1,470 )
  • 硬盘参数及速度(二)( 1,444 )
  • nutch 2.x 蜘蛛抓来的数据( 1,395 )
  • Leave a Reply

    您必须登录以发表评论,

    沪ICP备11036560号
    联系我: jianghang at bagualu.net