文章聚类

目的是对我的所有博文内容进行分类,原先有处理过一次,不过并没有达到目的,这次用tm包试试看。

分类出来的效果依然很差,结果如下:(贴代码,求改进)

一个可能的改进是在建立DocumentTermMatrix的时候,传入感兴趣的字典,只是在这个子集上建立文档单词矩阵,然后基于这个矩阵再进行kmeans分类。而感兴趣的词汇子集可以利用jiebaR的关键字提取技术,在每篇文章上提取5-10个关键词,然后把所有的关键词合并起来,构成一个字典集。因此需要一个函数来建立这个字典。

library(tm)
#> Loading required package: NLP
library(jiebaR)
#> Loading required package: jiebaRD
library(cnreader)


#' generate COP with titles
#' 
#' save it to blogCop.Rds
#' 
#' @return returndes
#' @export 
#' @examples 
#' x=c(1,2,3) 
genBlogCOP<-function()
{
    initDict()
    
    #创建文集
    mcop=VCorpus(DirSource("./",pattern="*md"),
                 readerControl=list(reader=cnreader))
    
    #set the title for each blog
    
    for( idx in 1:length(mcop) )
    {
        blogid= stringr::str_extract(meta(mcop[[idx]])$origin,'\\d+')
        if( !is.na(blogid) ){
                    print(paste0("process ",blogid))
            title=rwp::getBlog(blogid)$title
                    print(paste("set title:",blogid,title))
            meta(mcop[[idx]])$title=title
        }else{
            title = meta(mcop[[idx]])$origin
                    print(paste("set title:",blogid,title))
            meta(mcop[[idx]])$title=title
        }
    }
    saveRDS(mcop,"./blogCop.Rds")
}

loadBlogCop<-function(path="")
{
    if( path== "" ){    
        path = "./blogCop.Rds"
    }
    cop=readRDS(path)
    cop
}


#' list blogs for a give catagory idx
#' 
#' description
#' 
#' @param res kmeans result
#' @param class_idx 1,2 etc
#' @return return a vector with the blog titles
#' @export 
#' @examples 
#'  res=kmeans(dtm,10)
#'  listBlogs(res,2)
listBlogs<-function(res,class_idx)
{
    items=res[[1]][ res[[1]] == class_idx ]
    cc=names(items)
    as.vector(plyr::maply(cc, function(x) {
                 #print(paste("get title for ", x))
                 #str(meta(mcop[[x]]))
                 meta(mcop[[x]])$title
            }))
}

#' wrapper for print all the catagories
#' 
#' description
#' 
#' @param res value
#' @param n value
#' @return returndes
#' @export 
#' @examples 
#' x=c(1,2,3) 
printCatogory<-function(res,n)
{
    dd=plyr::mdply(1:n, function(x) data.frame(类别=x,文章=paste(listBlogs(res,x),collapse="<br>")))
    row.names(dd) = NULL    
    rwp::blogtable(dd,escape=FALSE)
}

mcop=loadBlogCop()
dtm=DocumentTermMatrix(mcop)
res=kmeans(dtm,30)
printCatogory(res,30)
X1 类别 文章
1 1 国家统计局国家数据结构
pandoc filter
2 2 2012nVidia 显卡
3 3 美食DIY–麻花
美食DIY–豆沙酥
咱家千金出生啦!
美食DIY–青椒鸡肉丝
wordpress函数调用库
nutch + hbase + hadoop + solr
R 电子书籍整理
用R画地图
数据挖掘告诉你人们什么时候对美女最感兴趣
利用firefox开发工具中寻找事件
WooCommerce
sugar crm 中文版插件安装
github 常用命令
wordpress api (WP-API)
美食DIY–懒人猪蹄
美食DIY–菜鸟级曲奇饼干
美食DIY–自制红豆豆沙
美食DIY–自制豆沙果冻
美食DIY–干煸小鱼
4 4 hbase shell中如何查看nutch爬取的数据
5 5 wordpress的数据库结构
6 6 file://.//copyright.md
ARM 处理器
firefox 插件开发文档
霍夫曼编码和算术编码简单比较
wordpress中的分类及链接处理函数
搜图片的好地方GO
ASK搜索引擎
图片搜索之百度识图
window启动程序配置
tcpdump/windump 和 tcp数据包
x86汇编备忘
windows 下安装lisp
进程的属性
ExE 文件格式 PE
wireshark 中抓取本机同某台机器的通讯
科莫湖
pic1
vim 的taglist 插件
美食DIY–自制番茄酱
openGL 4.3 PS实例
opengl 4.3 sample 怎样使用uniform变量
国务院部委及相关信息
关于MACD和价格的背离
丙烯
换了个主题
twentyfourteen 页面结构
firefox 开发者工具
公用密钥加密
SSL 握手过程
firefox socket tracing
bash 超级漏洞[转载]
几何布朗运动及参数估计
天荒坪抽水蓄能电站
latex under ubuntu
metapost 画图工具 及手册
利用web2py进行快速数据库开发
WordPress中文论坛比较
ubuntu latex 以及中文支持
nutch 2.x 蜘蛛抓来的数据
nutch 2.x index
为nutch配置solr
D-LINK 韧体更新
为solr配中文分词
飞到月亮上的公鸡
为solr中文分词添加停用词
美食DIY–毛毛虫面包
gnuplot 线型和字体设置
fBasics in R
来一个预测吧 :)
RSI的分布和大盘趋势
在网页中插入数学公式的方法
几本量化交易相关书籍
用R语言做数据分析:回归分析(一)
用聚类分析来分析各省的经济结构
关于百度指数的抓取
firefox插件(add-on)的安装
windows下的开源开发环境MinGW
Captcha和自动化操作
ubuntu 14.04 为php安装imap扩展
WordPress版权声明插件
github 挂了
wordpres升级步骤
ubuntu下利用iso制作可启动的u盘
给自己建一个git server
git 命令进阶
WordPress SEO相关
R包之tm:文本挖掘包
为tm开发一个中文reader
jiabaR 让tm支持中文处理
用jiebaR进行关键字抽取
R 中用diagram包绘制流程图
WordPress Query概论
视频编解码的基本概念
视频编码之空间模型
视频编码之熵编码
为WordPress添加谷歌自定义搜索
美食DIY–苦瓜鸡蛋
7 7 markdown语法及pandoc扩展
用knitr动态生成markdown文件的内容
用knitr动态生成markdown文件的内容
用pandoc把markdown转换为html
标准版和pandoc版的markdown
R + markdown简介
8 8 通过wordpress debug插件,显示filter调用过程
WordPress代码之apply_filters
WordPress Filter之概论
9 9 CSS 参考
lisp under ubuntu
为多系统安装grub2
在linux下用dd迁移windows系统
OpenGL 纹理贴图
关于firefox编译调试
build curl on nss
python sample
ubuntu下的android应用开发
ubuntu 下的nginx和php
R语言手册
开发自己的第一个R包
mongodb under ubuntu
ubuntu 14.04上安装的包
ubuntu12升级到14.04过程实录
利用parted查看分区列表
ubuntu 15.10 安装过程及其上的软件包
在wordpress中接入qq登录
用R的igraph包创建和绘制流程图
win7上安装ubuntu15.10的虚拟机
通过wpdb访问WordPress数据库
10 10 jquery 选择器
11 11 bmp file read c++ class
12 12 drupal 6源码阅读(2)
drupal概念
用debug_backtrace来打印drupal中theme函数的调用堆栈
继续看theme之page
13 13 file://.//aa.rmd
file://.//about.md
file://.//china_population.rmd
file://.//mysql_commands.md
drupal 6源码阅读(1)
drupal 6源码阅读(3)
drupal6中的theme函数及主题结构
drupal hook_menu和添加一个新页面
美食DIY–油条
哇啦哇啦的爹
洛阳铲和一些相关书籍
vi 命令/技巧
Tegra2 和 Tegra 3
电脑和电话
os-develop
source code for clib
有用的工具strace
macro info in gdb
如何避免vim粘贴时自动缩进
80×86编程的参考书
景德镇
变长参数的宏
linux kernel online doc
debussy 快速上手教程
dump fsdb看波形step by step
试试drupal
程序员
如何成为一个好的木匠
百度mp3的链接地址
mp3 fileformat
Assembly language Step by Step – programming with Linux
读understanding the linux kernel 2nd
drupal 6.20 安装时register_globals问题
龙虎山带图游记
开源浏览器WebKit
采集工具总是有用的
gnu源代码之MAKE
cookie 放在哪里
curl source code
python 开发应用程序
将程序添加到资源管理器的右键菜单
找项目和开发项目的好地方
中文分词项目(python)
C/C++ 代码阅读
用printf 输出64位整数
make debug
怎样定义一个项目
jpg decode in python
linux module info
免费的 C/C++ 集成开发环境
语言快速参考
bash快速参考
逗号十一个月了
文档数据库的规模
wordpress 主题制作(1)
硬盘参数及速度(二)
发现一个关键字在百度排第一
vim多窗口快捷操作
逗号日记11个月7天啦
wordpress中的多重循环
wordpress 主题制作 (2)
11个月13天
gdb 调试长调用参数
在地址栏运行javascript
最受欢迎的网站
小宝学站立了
interlace 隔行扫描 逐行扫描
WordPress所有的action和filter列表
firefox plugin和extension的区别
小家伙一岁了
第一个firefox extension
命令行运行php
自动登录ftp的bash脚本
ubuntu10.04 下安装sun java jre
通过wordpress的gettext来修改按钮字符串
Linux screen
为数码照片添加日期
perl中使用pipe(管道)
在perl中使用signal
视频格式 NTSC PAL SECAM 1080i 1080p 电影
再看一次drupal6中的theme函数
让ftp的mget不要提示Y/N
递归下载ftp站的某个目录
ctags for drupal
drupal 6中的menu机制
如何避免ctags跳到第一个匹配的tag
drupal中数据库的设计
deinterlace 简单介绍
drupal的模块
drupal6中_theme以及hooks的建立过程
在批处理文件中分割字符串
windows下自动登陆ftp的批处理文件
怎样清除drupal cache
windows下设置别名(alias)
drupal6中theme处理流程小结
联通又断我的网(头条更新被影响)
perl tags
vim ctags文件格式
利用pushd和dirs在linux下迅速切换目录
分解任务
WordPress的搜索算法
正则表达式特殊字符(perl)
ubuntu无法启动
XML 特殊字符
别人的东西我不碰
小家伙游海洋水族馆
关于网络文章的收集
怎样判断一个文件中的中文编码方式
怎样把文件转换为utf-8格式
处理中文的脚本
GB2312/GBK/GB18030 和汉字的Unicode编码
php 支持的编码格式
Unicode 和 ISO 10646
汉字编码简单小结下
页面中占位符
汉字到拼音的转换
搜狗实验室的资料
小说页面内容抽取
simple_html_dom 换行符丢失
流鼻涕,咳嗽,晚上低烧中
git/subversion 中的libgcrypt.so 错误
google code submit
咳嗽中,鼻涕经常过河。。。。
visual studio 2008 下载
WordPress 处理流程简介 (LOOP)
排序算法简介
wordpress中添加自定义参数
关于浏览器
颜色列表和颜色空间
windows自动化脚本
鼠标和键盘录制程序
pe/coff和几个工具
pack struct in c/cpp
关于c/cpp中struct的大小
lisp c and php
OpenProcess in windows
SetWindowsHookEx does not work for some games
batch 遍历目录下的文件
perl中获取时间
perl重定向STDOUT
反编译日记(一)
用WordPress做相册
反编译日记二
反编译日记三
ollydbg快捷键
setjmp 和longjmp
糟糕的C/C++习惯
functor in c++ 标准库
bitset in C++ 标准库
设计模式之单件
归并排序
快速排序
nvidia 支持CUDA的显卡
GTX690
GDB 查看内存/指针
perl hash 排序
如何查看ubuntu 内核版本
WordPress 代码之 add_filter
ubuntu 下nvidia驱动安装
vim 多文件搜索并实现自动跳转
如何防止副屏退出全屏
vim 代码折叠
Vim 窗口间切换
vim 获取当前文件名
有用的ctag用法
如何为某一个命令单独修改环境变量
如何识别C++编译以后的函数名(demangle)
怎样打印函数调用堆栈
怎样获得动态链接库的装载地址
再谈C++代码阅读
youtube 关键字
GDB Debug Core dump
GDB 找不到源代码
都是强制重启惹得祸,千万别强制关ubuntu
ubuntu 12.04 device not managed
关于U盘量产
程序性能分析之Valgrind
gdb 去掉 type to continue
有用的GDB命令,用于代码分析、阅读
关注书目
OpenGL 编程指南阅读计划
stock transaction window
OpenGL之视图和颜色
OpenGL 光照 抗锯齿 雾 多边形偏移
中国A股交易手续费算法
股票买卖checklist以及成长股
克明面业 2012年报精读
OpenGL 帧缓冲区(第10章)
OpenGL选择和反馈
OpenGL 着色语言 (Shader Language)
GL高级技巧(14章)
OpenGL编程指南和OpenGL超级宝典
GLSL 3.30实例
openGL4.3 标准阅读计划
三大费用之财务费用
opengl 基础(glspec4.3第二章)
数据流模型和事件模型(glspec4.3 ,chapter 3,4,5)
缓存(buffer)对象
program and Shader (glspec4.3 chapter 7)
glspec的阅读到此为止
OpenGL红宝书出第八版了
ubuntu下查询 OpenGL版本
opengl 矩阵变换
opengl4.3 uniform block & UNIFORM_BUFFER
常用电话
股票池
指标
烯烃和芳香烃
5大通用塑料
辽通化工的主要产品
如何参观宝钢
氨纶及聚氨酯
巨化股份和鲁西化工
双良节能
环保类个股
乙二醇
甲醇
药品分类
有机功能基
煤化工
天然气化工
石油化工
碱和玻璃
重要的有机化工原料
稀土行业
线索
钛白粉
糖、DNA和脂肪(酸)
细胞、分子、基因、肿瘤
环氧丙烷

三精制药主要产品
隆基股份
丙烯酸
柠檬酸
豆粕
玉米
WordPress变论坛
染料
聚氨酯产业链
上海华谊控股的上市公司
环氧树脂
阻燃剂
买了个烤箱
新型煤化工
TDI 生产公司
东方财富数据浏览
日常用品化学成分
美食DIY–粉蒸塔菜粉蒸肉
博物馆
LED
关于短线抄底
纤维
gdb batch mode
apache httpd debug
韩国泡菜的做法
股票历史数据导出
MACD与选股
重型机械行业
央企航空航天系旗下的上市公司
央企船舶系旗下上市公司
央企兵器系旗下上市公司
央企电子系上市公司
有机物
MACD背离公式
松节油
航空航天
中国航天
关于VI的帮助
失败的蛋糕
VI 表达式替换
油脂肥皂和糖
基金净值及买入赎回计算方法
有机化工企业,按碳原子个数分
聚醚多元醇
三苯和三烯
天然气和液化石油气
丙烷脱氢项目
尼龙66
鞋底原液
javascript, php & jason
上海乳业博物馆
恐惧生孩子中
vim 表格编辑
沙隆达
再接再厉做蛋糕
vi filter
命令行发送带附件的email
纪录片
广告联盟影响加载速度的问题
重新开放评论
php匹配汉字的问题
wordpress 固定链接问题
电动打蛋器
上海变电站
打算学习一下这个主题的CSS
CSS3的font-face
推荐一个网站OpenGameArt
国富论笔记
国富论笔记之资本利润
关于阿里云
视频处理器带宽简单分析
利用gdb来获得某个文件中定义的函数
关于编程的效率问题
设计一个主题
CSS block和inline
wordpress 函数调用
valgrind 之callgrind
ubuntu 安装AMP
css background-position
scp 不输密码
htmlentities汉字乱码
添加相关文章
ubuntu发送邮件
ubuntu 添加用户
ubuntu ftp server setup
上图的论文数据库
bp神经网络C代码
ssl handshaker failure
ubuntu 安装chrome
firefox sec_error_unknown_issuer
export cookies
shell for urlencode
gnuplot usage
按列排序 sort
按列求和 gawk
北仑电厂
人工智能
智能Agent及其结构
Agent世界状态的表示
搜索求解及无信息搜索
搜索求解之启发式搜索策略
启发函数
openerp on ubuntu 12.04
神经网络和图像识别
firefox necko
firefox 导出post data
SSL debugging in firefox
加密算法
debug openssl + curl
单行的bash 脚本
提高网页加载速度
ubuntu 安装flashplayer
PK11 log
OCSP协议
AUS server for firefox
wireshark 过滤某些IP
wireshark for ssl
庆祝一下
libxml2
聚会安排
time_t and tm
df/du 显示磁盘使用量不一致
mysql dev in c/c++ under ubuntu
正弦函数拟合
ubuntu MOV等视频播放
数据库总是挂
do {..} while(0)
pdf 操作库
ollydbg
ubuntu下android 模拟器安装
jabber/XMPP
ubuntu 修改密码失败
xp安装时找不到硬盘
Ubuntu root密码丢失
监督学习及分类算法
用bash操作socket
用 bash写的端口扫描程序
bash 漏洞继续
od 消息断点[转]
windows下控件与主窗口的消息
ubuntu 下的看图软件
随机变量的期望,方差,协方差
统计量及抽样分布
分布假设检验
python + gnuplot
ubuntu 安装numpy scipy
怎样使用python的help
python numpy中的cov,var,std
[节选] 王垠《完全用Linux工作》
SDXC卡 DV
python debug
行业指数系列
gnuplot 多图
latex to pdf and ps to jpg
Latex中文文档
python 多线程
wordpress latex 插件
关于apache的mods_rewrite
linux 一句话精彩问答
linux常用命令
分大衣的故事
安卓的程序结构
python 启动并监视另一个进程
fastcgi
apache的进程控制
R
Cross-Origin Request Blocked
ajax in web2py
关于版税和翻译费
几种javascript代码
web2py grid delete
python dos2unix
关于股票的价格监控
在R中用quantmod包获取股票历史数据
R读取 excel文件
R 画图到文件
R 中的因子和水平
R batch mode 和文件输出
R 读取数据框
python 读取写入excel
common lisp中获取帮助
clisp 中获得shell命令的输出
[转载]glibc 漏洞
ubuntu 可安装包查找 – apt-cache
阿里云上安装vnc
solr配置(续)
jar文件打开方法
全文检索基本原理
分布式hbase集群搭建(序)
nutch2.x中的urlfilter
再说一下ssh不输密码的问题
美食DIY–胡萝卜面包
关于下载老版本的hadoop
hadoop 网页接口
python gb2312 => utf8
svn 的常用命令
假设检验
关于股市预测的故事
还是solr+nutch+hbase
第一个可以工作的搜索引擎
python html 抓取和解析
python 子串
python 解析excel2003/2007
zoo in R
贴一段R代码
时间序列zoo中数据的对齐问题
R数据框中重命名列名
R语言读取网页中的表格–readHTMLTable
R data.frame 数据筛选
R CMD BATCH options[转载]
python 二维数组排序
R 备忘
windows下安装python模块
赤池信息准则 AIC
TTR中的技术指标
凯利公式
R 中绘制双y轴图形
python 处理二进制文件
帕累托分布和列维分布
相对论是如何产生的
西夏
动量和动量反转
quantstrat包
apache2 流量控制
微博分享按钮
发病室上性心动过速第一次急诊
beta系数
四种重要的离散型概率分布
心脏射频消融术全过程
WordPress改变固定链接不能访问
ubuntu下中文文件名乱码
R 安装XML的问题
数据挖掘概述
R中的数据集
行业集中度
用R语言做数据分析:回归分析(二)
跟踪R包的下载次数
生成R文档模板的vim插件
开发自己的R包–提高篇
recordmydesktop 声音设备的设置
ubuntu 备份
rJava安装
关联分析算法
健康饮食–芹菜胡萝卜汁
ocr工具
在firefox add-on中使用XPCOM
mongodb选出指定列
又是Kmeans, 这次是文章聚类
自定义WordPress 的 sidebar
bat 程序中调用外部程序并等待
windows下的拨号程序rasdial
github 上的项目
VBA实例–excel抓取页面上的数据【转】
vim 编辑和修改二进制文件
github上的vim插件及插件管理工具
vim 编辑中文时使用vim命令
增加分页导航
vim中文显示为乱码
用R画中国地图(2)—rcnmap
提交R包到CRAN的步骤
为R设置缺省的CRAN镜像网站
R包之plyr
GOOGLE排名和浏览器有关?
关于GOOGLE的收录速度
图书折扣
配了台机器
perl之UNIVERSAL类和can方法
生成在线书籍
开源的分词算法
R中的三种赋值语句及其区别
在wordpress中接入微博登录
利用devtools开发R包的流程
Javascript 游戏
markdown 高级语法
使用R包magrittr简化你的R程序
config xpdf for windows
哪些R包比较重要 ?
wordpress中添加小挂件(Widget)
R社区最有影响力的开发者
jiebaR中添加自定义词汇
R社区最有影响力的开发组织
plyr操作数据框的一个实例
生孩子该准备些啥
一个svn提交失败的问题
再说WordPress中添加小挂件widget
头条更新恢复正常
时间模型和预测
MPEG-4和H.264简介
cache基础知识
你知道包子是怎么变大的吗?
WordPress和Drupal
哈了个小蚁窝!可以在院子种种花,种种草啦!
hello world
据说今天是啥姐妹节,呵呵,瞅瞅,俺的小姐妹是怎么祝福俺的呀!
drupal layers
drupal节点分类数据库以及路径
drupal源码阅读方法
file://.//preface.md
file://.//README.md
file://.//wordpress_cli.md
14 14 通过Rmarkdown包调用knitr和pandoc
15 15 ubuntu下 tensorflow 初探
16 16 单机上的hadoop/hdfs
两台机器上的HDFS
hbase集群on hadoop
hadoop 1.1.2 setup
为hadoop配置mapreduce
WordPress中添加自定义参数
17 17 scrapy 爬虫
scrapy 爬虫(2)
18 18 priority_queue in c++ 标准库
stack in c++ 标准库
list in c++ 标准库
next_permutation in c++标准库
for_each in c++ 标准库
Linux 多线程实例
多线程文件处理实例
堆排序
组合枚举问题
函数调用图 call-graph
opengl 着色器中预先定义的变量 (GLSLLang spec4.3 chapter 7)
利用GDB生成C程序的函数调用图
二叉树变双向链表
dumpbin 输出实例
19 19 nginx 下的cgi
20 20 sugar crm
美食DIY–酥饼(老婆饼)
美食DIY–自制豆腐脑
美食DIY–包子
21 21 文章关键字抽取
22 22 gdb debug 信息 stabs 格式
23 23 晒晒怀孕后败回家的书
感兴趣的地名
24 24 磁盘速度问题
CPU 加法速度测试
CPU乘法速度测试
25 25 bookdown
用pandoc把markdown转化为pdf文档
利用多篇markdown文件生成pdf书籍
26 26 file://.//rstatscn_page.md
27 27 进口图书
删除perl数组中的重复元素
OpenGL 状态管理和绘制几何物体
PTA 精对苯二甲酸以及纤维
粘胶
28 28 xpath示例
29 29 nutch2.x in ubuntu
nutch solrdedup
solr 常用命令
30 30 wordpress 3.1 代码 index.php(一)
wordpress 3.1 代码 index.php(二)
php xdebug
WordPress之template-loader


本文地址: http://www.bagualu.net/wordpress/archives/6229 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注