文档数据库的规模

图书馆是文档数据库的一种表现形式。假设一本书50万字。每个字有两个字节存储。即100万字节=1MB。 而上海图书馆的馆藏中文图书约为200万本,以每本1M计算,那么一共有2Mx1M=2TB。考虑一个小型图书馆,藏书10万册,那么共有0.1Mx1M=100G。藏书1w册,那么数据为10G。因此10G的数据规模就和1万册书的概念差不多。因此我们至少要处理10G的数据才有些意义,如果能够快速索引查询100G数据,就是10万册书的规模。如果能够快速索引查询2T数据,那么就相当于处理了上海图书馆的中文图书的规模了。至此,我们对数据库的规模有了大致的感性认识。

我们的兴趣是解决海量文本存储的空间和检索文本所需的时间问题。

文本必然存储在磁盘上,而根据我们前面的硬盘速度测试知,硬盘每秒最多只能读200次。100次就是0.5秒,加上其他的一些计算时间,硬盘访问的次数最好在50次以下。不然,查询速度就会让人感到不快了。



本文地址: http://www.bagualu.net/wordpress/archives/138 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注