R语言做文本挖掘 Part2分词处理(3)

发布时间：2021-05-13 23:46 所属栏目：[大数据] 来源：网络整理

导读：[plain] view plain copy print ? removeStopWords?-?function(x,stopwords)?{?? temp?-?character(0)?? index?-?1?? xLen?-?length(x)?? while?(index?=?xLen)?{?? if?(length(stopwords[stopwords==x[index]])?1)

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

removeStopWords?<-?function(x,stopwords)?{??
temp?<-?character(0)??
index?<-?1??
xLen?<-?length(x)??
while?(index?<=?xLen)?{??
if?(length(stopwords[stopwords==x[index]])?<1)??
temp<-?c(temp,x[index])??
index?<-?index?+1??
}??
temp??
}??

removeStopWords <- function(x,stopwords) {
temp <- character(0)
index <- 1
xLen <- length(x)
while (index <= xLen) {
if (length(stopwords[stopwords==x[index]]) <1)
temp<- c(temp,x[index])
index <- index +1
}
temp
}

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

hlzjTemp2?<-lapply(hlzjTemp,removeStopWords,stopwords)??
hlzjTemp2[1:2]??

hlzjTemp2 <-lapply(hlzjTemp,stopwords)
hlzjTemp2[1:2]

"? ???""???? "HWRAJGA"

跟hlzjTemp[1:2]的内容比较可以明显发现“的”这样的字都被去掉了。

4.?????? 词云

词云是现在很常见的一种分析图，把这些词语放在一张图中，频次来显示词语的大小，这样就能很直观看出那些词语出现得比较多，在舆情分析中经常被用到。

下面的过程是将分词结果做一个统计，计算出每个词出现的次数并排序，然后取排名在前150的150个词语，用wordcloud()方法来画词云。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

words?<-?lapply(hlzjTemp2,strsplit,"?")??
wordsNum?<-?table(unlist(words))??
wordsNum?<-?sort(wordsNum)?#排序??
wordsData?<-?data.frame(words?=names(wordsNum),?freq?=?wordsNum)??
library(wordcloud)?#加载画词云的包??
weibo.top150?<-?tail(wordsData,150)?#取前150个词??
colors=brewer.pal(8,"Dark2")??
wordcloud(weibo.top150$words,weibo.top150$freq,scale=c(8,0.5),colors=colors,random.order=F)??

words <- lapply(hlzjTemp2," ")
wordsNum <- table(unlist(words))
wordsNum <- sort(wordsNum) #排序
wordsData <- data.frame(words =names(wordsNum),freq = wordsNum)
library(wordcloud) #加载画词云的包
weibo.top150 <- tail(wordsData,150) #取前150个词
colors=brewer.pal(8,"Dark2")
wordcloud(weibo.top150$words,random.order=F)

R语言做文本挖掘 Part2分词处理

该品牌微博的内容有很明显的特征，品牌名“海澜之家”出现的次数远大于其他词语；其次出现频度比较高的词语是“链接”，“旗舰店”，“时尚”，“新品”，“修身”，“男装”，可以大概看出这个该品牌专注于男装，该微博账号经常做新品推荐，可能会提供服装链接到它的旗舰店；另外还能看到“全能星战”，“奔跑吧兄弟”这样的电视节目，稍微了解一下就知道，这是海澜之家这两年赞助的两个节目，所以在它的微博中出现多次是很正常的。

原始数据就不共享了，大家可以另外找数据尝试。

有任何问题欢迎指正，转载请注明来源，谢谢！

【免责声明】本站内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。