设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 专业 applewat 娱乐 服务
当前位置: 首页 > 大数据 > 正文

R语言做文本挖掘 Part2分词处理

发布时间:2021-05-13 23:46 所属栏目:[大数据] 来源:网络整理
导读:?? 转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】 在RStudio中安装完相关软件包之后,才能做相关

??

转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html

Part2分词处理

【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】

在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!

1.?????? RWordseg功能

说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍。

分词

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??
[[1]]

[1] "如果""你"?? "因为" "错过太阳而"?

[8] "流泪"

[[2]]

也会星星"

可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。

加词删词

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. insertWords("错过")??
  2. segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??
推荐文章
热点阅读