数据挖掘竞赛网站
kaggle https://www.kaggle.com/ KDD CUP http://www.kdd.o …
kaggle https://www.kaggle.com/ KDD CUP http://www.kdd.o …
学校排名 学科排名 前50大项目 前50大负责人 各学科排名最前的单位 各单位排名最前的学科 根据国家自然科学 …
继续 文章聚类 一文中没有解决的问题。 这里利用余弦距离进行分析。 这里从文档词频矩阵开始,在生成这个矩阵以后 …
目的是对我的所有博文内容进行分类,原先有处理过一次,不过并没有达到目的,这次用tm包试试看。 分类出来的效果依 …
jiebaR本身就支持关键词抽取功能,使用的是IDF方法,使用的是它缺省的语料库。该方法请参考这篇文章 基本原 …
中文文本文件读入 word文档和pdf文档的读入 前文提到只要为tm创建一个包含分词功能的reader就可以使 …
关于开源的中文分词项目 项目 实现语言 作者 ansi_seg java实现 作者:anjsun SkyLig …
tm 中reader的调用方式 中文reader模板 调用方法 为tm添加中文支持 前文中提到,为了让tm支持 …
简介 安装 数据输入—文集(corpus) 数据输出 查看语料库(corpora) 查看某几条信息 查看单个文 …
直接通过词频矩阵通过kmeans的方法看起来不怎么靠谱. 计算量也不算小. 下面根据吴军<数学之美> …
mongodb 相比于mysql的一大优点是可以方便的横向扩展. 也就是当一台机器不够用的时候从一台机器扩展到 …
最近在关注百度指数, 首先科普一下百度指数, 百度指数是百度发布的针对每个关键字的指数,这个指数的大小反应了这 …
百度指数是一个很好的风向标. 他反应了一段时间内,人们对某个关键词的关注程度. 长假前如果某景区的百度指数突然 …
本文参考—-《数据挖掘:R语言实战》–黄文,王正林一书第六章 关联分析是前面提到的数据挖掘的十大算法之一。因此 …
K-means是十大数据挖掘算法之一,属于聚类分析。这个算法需要预先给定分类的个数。然后算法随机选出几个点,然 …
这里研究一下国家统计局网站的国家数据结构,主要目的是想要做一个工具来从这里自动获取一些数据。 国家数据的地址在 …
继续一些回归分析的例子,这里我们将事先构造一些已知的数据,然后利用回归算法来看看结果。 二次函数回归 第一个例 …
R中的lm函数可以用来做回归分析。 我们去R中的datasets包中的cars数据。这个数据由50个汽车速度和 …
R中有个dataset包,通过data(package=”datasets”) 可以看到dataset包中所有 …
概述 数据挖掘是指通过系统分析从大量数据中提取隐藏于其中的规律, 并用这些规律来预测未来或者指导未来工作的科学 …