R语言做文本挖掘 Part2分词处理(2)
[plain]
view plain
copy
print
?
1 names 明星官方推荐,词库来源于网友上传 ??????????????????????????????????????????????????????Path 1 E:/programFiles/R/R-3.1.2/library/Rwordseg/dict/names.dic 在不需要自己添加的词典时,还可以删除。 [plain] view plain copy print ?
<0 行>(或0-长度的row.names) 以上这些是基本的介绍,RWordseg还有更多的功能,请查看其中文文档。 ? 2.?????? 对某品牌官微做分词 数据来源是某服装品牌的官方微博从2012年到2014年末的微博。数据的基本内容结构如下图示,看内容大概能猜出来是哪个品牌了吧。 首先安装跟服装相关的词典,同样是从搜狗输入法的词库中下载的两个服饰类的词典,下载地址http://pinyin.sogou.com/dict/cate/index/397,这个地址下的前两个词库。 [plain] view plain copy print ?
明星 2 pangu Text 3 fushi 服饰 4?? ali 服饰 下一步是将数据读入R中,可以看到一共有1640条微博数据,注意数据的编码格式,readLines默认读取格式是gbk格式的,读取格式不对时会乱码。 [plain] view plain copy print ?
接下来就是做分词了,要先去除数据中可能存在的数字和一些特殊符号,然后分词。 [plain] view plain copy print ?
[19] "防水效果使得实用性更[25] "高极具春日吸睛[31] "亮点春季海澜之家男士休闲[37] "西服韩版西装外套"???? "HWXAJAA" 小编修身薄款连帽暖心防风保暖撞色线条年轻走亲访友出行选择活力过冬轻松冬季热卖正品羽绒服"???? "HWRAJGA" 可以看到微博内容都已经被做过分词处理了,这个过程很简单,但实际上可能需要多次查看分词处理结果,有些词库中不存在所以被截开了的词需要被添加进去,从而让分词效果达到最好。 ? 3.?????? 去停词 分词已经有结果了,但是分词的结果中存在很多像,“吧”,“吗”,“的”,“呢”这些无实际含义的语气词,或者是“即使”,“但是”这样的转折词,或者是一些符号,这样的词就叫做停词。要做进一步的分析可能需要去掉这些停词。 先自己整理一个停词表,这个停词表是我自己找的,包含一些常见的停词,然后根据实际内容中出现的一些无实际分析意义的词语,就可以作为我们的停词表了,网上能找到别人已经整理好的停词表。 [plain] view plain copy print ?
??? "哎哟唉俺俺们"? ?????"按按照吧????? V157?????? V158?????? V159?????? V160?????? V161?????? V162?????? V163 吧哒把罢了被本本着比????? V164?????? V165?????? V166?????? V167?????? V168?????? V169?????? V170 ?? ?"比方比如鄙人彼彼此边别????? V171?????? V172?????? V173?????? V174?????? V175?????? V176?????? V177 别的别说并并且不比不成不单????? V178?????? V179?????? V180?????? V181?????? V182?????? V183?????? V184 不但不独不管不光不过不仅不拘????? V185?????? V186?????? V187?????? V188?????? V189?????? V190?????? V191 不论不怕不然不如" ????"不特不惟不问????? V192?????? V193?????? V194?????? V195?????? V196?????? V197?????? V198 不只朝朝着趁趁着乘冲????? V199????? V1100 ????? "除除此之外" 【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。 |