跳至内容
独上高楼,望尽天涯路

独上高楼,望尽天涯路

  • 首页
  • Linux
    • latex
    • lisp
    • perl
    • php
    • python
    • vim
    • javascript
  • emacs
  • R语言
  • 数学
  • 投资
  • 链接

分类:数据挖掘

发布于2017 年 05 月 09 日 -- 点击:757次

数据挖掘竞赛网站

kaggle https://www.kaggle.com/ KDD CUP http://www.kdd.o …

继续阅读“数据挖掘竞赛网站”

发布于2016 年 03 月 30 日 -- 点击:17,018次

国家自然科学基金2015年项目分析

学校排名 学科排名 前50大项目 前50大负责人 各学科排名最前的单位 各单位排名最前的学科 根据国家自然科学 …

继续阅读“国家自然科学基金2015年项目分析”

发布于2016 年 03 月 28 日2016 年 03 月 30 日 -- 点击:1,600次

文章聚类(续)

继续 文章聚类 一文中没有解决的问题。 这里利用余弦距离进行分析。 这里从文档词频矩阵开始,在生成这个矩阵以后 …

继续阅读“文章聚类(续)”

发布于2016 年 03 月 25 日 -- 点击:1,827次

文章聚类

目的是对我的所有博文内容进行分类,原先有处理过一次,不过并没有达到目的,这次用tm包试试看。 分类出来的效果依 …

继续阅读“文章聚类”

发布于2016 年 03 月 02 日2016 年 03 月 02 日 -- 点击:10,709次

用jiebaR进行关键字抽取

jiebaR本身就支持关键词抽取功能,使用的是IDF方法,使用的是它缺省的语料库。该方法请参考这篇文章 基本原 …

继续阅读“用jiebaR进行关键字抽取”

发布于2016 年 03 月 01 日2016 年 03 月 01 日 -- 点击:2,661次

jiabaR 让tm支持中文处理

中文文本文件读入 word文档和pdf文档的读入 前文提到只要为tm创建一个包含分词功能的reader就可以使 …

继续阅读“jiabaR 让tm支持中文处理”

发布于2016 年 03 月 01 日 -- 点击:1,363次

开源的分词算法

关于开源的中文分词项目 项目 实现语言 作者 ansi_seg java实现 作者:anjsun SkyLig …

继续阅读“开源的分词算法”

发布于2016 年 03 月 01 日 -- 点击:3,102次

为tm开发一个中文reader

tm 中reader的调用方式 中文reader模板 调用方法 为tm添加中文支持 前文中提到,为了让tm支持 …

继续阅读“为tm开发一个中文reader”

发布于2016 年 02 月 29 日2016 年 03 月 07 日 -- 点击:14,198次

R包之tm:文本挖掘包

简介 安装 数据输入—文集(corpus) 数据输出 查看语料库(corpora) 查看某几条信息 查看单个文 …

继续阅读“R包之tm:文本挖掘包”

发布于2015 年 12 月 23 日2016 年 02 月 27 日 -- 点击:2,929次

文章关键字抽取

直接通过词频矩阵通过kmeans的方法看起来不怎么靠谱. 计算量也不算小. 下面根据吴军<数学之美&gt …

继续阅读“文章关键字抽取”

发布于2015 年 12 月 20 日2016 年 02 月 27 日 -- 点击:1,098次

mongodb under ubuntu

mongodb 相比于mysql的一大优点是可以方便的横向扩展. 也就是当一台机器不够用的时候从一台机器扩展到 …

继续阅读“mongodb under ubuntu”

发布于2015 年 12 月 08 日2016 年 02 月 27 日 -- 点击:931次

数据挖掘告诉你人们什么时候对美女最感兴趣

最近在关注百度指数, 首先科普一下百度指数, 百度指数是百度发布的针对每个关键字的指数,这个指数的大小反应了这 …

继续阅读“数据挖掘告诉你人们什么时候对美女最感兴趣”

发布于2015 年 12 月 08 日2016 年 02 月 27 日 -- 点击:6,558次

关于百度指数的抓取

百度指数是一个很好的风向标. 他反应了一段时间内,人们对某个关键词的关注程度. 长假前如果某景区的百度指数突然 …

继续阅读“关于百度指数的抓取”

发布于2015 年 12 月 06 日2016 年 02 月 27 日 -- 点击:2,669次

关联分析算法

本文参考—-《数据挖掘:R语言实战》–黄文,王正林一书第六章 关联分析是前面提到的数据挖掘的十大算法之一。因此 …

继续阅读“关联分析算法”

发布于2015 年 12 月 01 日2016 年 02 月 27 日 -- 点击:1,265次

用聚类分析来分析各省的经济结构

K-means是十大数据挖掘算法之一,属于聚类分析。这个算法需要预先给定分类的个数。然后算法随机选出几个点,然 …

继续阅读“用聚类分析来分析各省的经济结构”

发布于2015 年 11 月 20 日2016 年 02 月 27 日 -- 点击:1,611次

国家统计局国家数据结构

这里研究一下国家统计局网站的国家数据结构,主要目的是想要做一个工具来从这里自动获取一些数据。 国家数据的地址在 …

继续阅读“国家统计局国家数据结构”

发布于2015 年 11 月 19 日2016 年 02 月 27 日 -- 点击:7,617次

用R语言做数据分析:回归分析(二)

继续一些回归分析的例子,这里我们将事先构造一些已知的数据,然后利用回归算法来看看结果。 二次函数回归 第一个例 …

继续阅读“用R语言做数据分析:回归分析(二)”

发布于2015 年 11 月 07 日2016 年 02 月 27 日 -- 点击:28,195次

用R语言做数据分析:回归分析(一)

R中的lm函数可以用来做回归分析。 我们去R中的datasets包中的cars数据。这个数据由50个汽车速度和 …

继续阅读“用R语言做数据分析:回归分析(一)”

发布于2015 年 11 月 05 日2016 年 02 月 27 日 -- 点击:3,442次

R中的数据集

R中有个dataset包,通过data(package=”datasets”) 可以看到dataset包中所有 …

继续阅读“R中的数据集”

发布于2015 年 11 月 04 日2016 年 02 月 27 日 -- 点击:1,266次

数据挖掘概述

概述 数据挖掘是指通过系统分析从大量数据中提取隐藏于其中的规律, 并用这些规律来预测未来或者指导未来工作的科学 …

继续阅读“数据挖掘概述”

功能

  • 注册
  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

近期评论

  • 江航发表在《一个自动接电话的应用》
  • 肖发表在《一个自动接电话的应用》
  • Miu发表在《搜索求解之启发式搜索策略》
  • Cion发表在《关于美国政治制度》
  • 反倒是发表在《vim 多文件搜索并实现自动跳转》

分类目录

  • android (17)
  • C/C++ (62)
  • CSS (10)
  • CUDA (4)
  • drupal (19)
  • emacs (40)
  • firefox (22)
  • gdb (12)
  • golang (1)
  • hadoop (25)
  • java (1)
  • javascript (10)
  • latex (8)
  • Linux (148)
  • lisp (16)
  • markdown (15)
  • pdf (4)
  • perl (11)
  • php (13)
  • python (26)
  • ruby (41)
  • R语言 (70)
  • VBA (1)
  • vim (23)
  • windows (21)
  • wordpress (43)
  • 中文处理 (26)
  • 人工智能 (8)
  • 其他备忘 (1)
  • 化工 (45)
  • 反编译 (4)
  • 图形 (24)
  • 应用开发 (24)
  • 投资 (5)
  • 搜索引擎 (19)
  • 数学 (16)
  • 数据挖掘 (20)
  • 数码电子 (8)
  • 新站介绍 (1)
  • 旅游地理 (5)
  • 未分类 (31)
  • 杂谈杂感 (12)
  • 照片 (2)
  • 生化 (2)
  • 生活 (22)
  • 电力 (3)
  • 算法 (1)
  • 经济 (2)
  • 网站动态 (27)
  • 网络 (26)
  • 美食 (21)
  • 考古 (2)
  • 股票 (27)
  • 视频 (9)
  • 设计 (1)
  • 语言参考 (3)
  • 量化交易 (9)
  • 金属 (1)
跟我联系 jianghang at bagualu.net