R语言做文本挖掘 Part2分词处理(3)
发布时间:2021-05-13 23:46 所属栏目:[大数据] 来源:网络整理
导读:[plain] view plain copy print ? removeStopWords?-?function(x,stopwords)?{?? temp?-?character(0)?? index?-?1?? xLen?-?length(x)?? while?(index?=?xLen)?{?? if?(length(stopwords[stopwords==x[index]])?1)
[plain]
view plain
copy
print
?
跟hlzjTemp[1:2]的内容比较可以明显发现“的”这样的字都被去掉了。 ? 4.?????? 词云 词云是现在很常见的一种分析图,把这些词语放在一张图中,频次来显示词语的大小,这样就能很直观看出那些词语出现得比较多,在舆情分析中经常被用到。 下面的过程是将分词结果做一个统计,计算出每个词出现的次数并排序,然后取排名在前150的150个词语,用wordcloud()方法来画词云。 [plain] view plain copy print ?
该品牌微博的内容有很明显的特征,品牌名“海澜之家”出现的次数远大于其他词语;其次出现频度比较高的词语是“链接”,“旗舰店”,“时尚”,“新品”,“修身”,“男装”,可以大概看出这个该品牌专注于男装,该微博账号经常做新品推荐,可能会提供服装链接到它的旗舰店;另外还能看到“全能星战”,“奔跑吧兄弟”这样的电视节目,稍微了解一下就知道,这是海澜之家这两年赞助的两个节目,所以在它的微博中出现多次是很正常的。 原始数据就不共享了,大家可以另外找数据尝试。 有任何问题欢迎指正,转载请注明来源,谢谢! 【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。 |
推荐文章
热点阅读