R语言做文本挖掘 Part2分词处理(2)

发布时间：2021-05-13 23:46 所属栏目：[大数据] 来源：网络整理

导读：[plain] view plain copy print ? listDict()?? listDict() ? ?Name Type????????????????????????? Des 1 names 明星官方推荐，词库来源于网友上传 ??????????????????????????????????????????????????????Path 1

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

listDict()??

listDict()

? ?Name Type????????????????????????? Des

1 names 明星官方推荐，词库来源于网友上传

??????????????????????????????????????????????????????Path

1 E:/programFiles/R/R-3.1.2/library/Rwordseg/dict/names.dic

在不需要自己添加的词典时，还可以删除。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

uninstallDict()??

uninstallDict()

3732 words were removed! ... The dictionary 'names' wasuninstalled!

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

listDict()??

listDict()

[1] Name Type Des? Path

<0 行>(或0-长度的row.names)

以上这些是基本的介绍，RWordseg还有更多的功能，请查看其中文文档。

2.?????? 对某品牌官微做分词

数据来源是某服装品牌的官方微博从2012年到2014年末的微博。数据的基本内容结构如下图示，看内容大概能猜出来是哪个品牌了吧。

R语言做文本挖掘 Part2分词处理

首先安装跟服装相关的词典，同样是从搜狗输入法的词库中下载的两个服饰类的词典,下载地址http://pinyin.sogou.com/dict/cate/index/397，这个地址下的前两个词库。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

installDict("D:\\R\\sources\\Dictionaries\\fushi.scel",dictname?=?"fushi")??
installDict("D:\\R\\sources\\Dictionaries\\Ali_fushi.scel",dictname?=?"alifushi")??
listDict()??

installDict("D:\\R\\sources\\Dictionaries\\fushi.scel",dictname = "fushi")
installDict("D:\\R\\sources\\Dictionaries\\Ali_fushi.scel",dictname = "alifushi")
listDict()

? ?Name Type

明星

2 pangu Text

3 fushi 服饰

4?? ali 服饰

下一步是将数据读入R中，可以看到一共有1640条微博数据，注意数据的编码格式，readLines默认读取格式是gbk格式的，读取格式不对时会乱码。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

hlzj?<-readLines("d:\\R\\RWorkspace\\orgData.txt",encoding?="UTF-8")??
length(hlzj)??

hlzj <-readLines("d:\\R\\RWorkspace\\orgData.txt",encoding ="UTF-8")
length(hlzj)

[1] 1640

接下来就是做分词了，要先去除数据中可能存在的数字和一些特殊符号，然后分词。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

hlzjTemp?<-?gsub("[0-9０１２３４５６７８９?<?>?~]","",hlzj)??
hlzjTemp?<-?segmentCN(hlzjTemp)??
hlzjTemp[1:2]??

hlzjTemp <- gsub("[0-9０１２３４５６７８９ < > ~]",hlzj)
hlzjTemp <- segmentCN(hlzjTemp)
hlzjTemp[1:2]

?[1] "新品推荐时尚迷彩面料设计?[7] "为"?????? "简约单西注入[13] "非同凡响野性"??? ?"魅力良好"?????

[19] "防水效果使得实用性更[25] "高极具春日吸睛[31] "亮点春季海澜之家男士休闲[37] "西服韩版西装外套"???? "HWXAJAA"

小编修身薄款连帽暖心防风保暖撞色线条年轻走亲访友出行选择活力过冬轻松冬季热卖正品羽绒服"???? "HWRAJGA"

可以看到微博内容都已经被做过分词处理了，这个过程很简单，但实际上可能需要多次查看分词处理结果，有些词库中不存在所以被截开了的词需要被添加进去，从而让分词效果达到最好。

3.?????? 去停词

分词已经有结果了，但是分词的结果中存在很多像，“吧”，“吗”，“的”，“呢”这些无实际含义的语气词，或者是“即使”，“但是”这样的转折词，或者是一些符号，这样的词就叫做停词。要做进一步的分析可能需要去掉这些停词。

先自己整理一个停词表，这个停词表是我自己找的，包含一些常见的停词，然后根据实际内容中出现的一些无实际分析意义的词语，就可以作为我们的停词表了，网上能找到别人已经整理好的停词表。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

stopwords<-?unlist(read.table("D:\\R\\RWorkspace\\StopWords.txt",stringsAsFactors=F))??
stopwords[50:100]??

stopwords<- unlist(read.table("D:\\R\\RWorkspace\\StopWords.txt",stringsAsFactors=F))
stopwords[50:100]

? ?? ? V150?????? V151?????? V152?????? V153?????? V154?????? V155?????? V156

??? "哎哟唉俺俺们"? ?????"按按照吧????? V157?????? V158?????? V159?????? V160?????? V161?????? V162?????? V163

吧哒把罢了被本本着比????? V164?????? V165?????? V166?????? V167?????? V168?????? V169?????? V170

?? ?"比方比如鄙人彼彼此边别????? V171?????? V172?????? V173?????? V174?????? V175?????? V176?????? V177

别的别说并并且不比不成不单????? V178?????? V179?????? V180?????? V181?????? V182?????? V183?????? V184

不但不独不管不光不过不仅不拘????? V185?????? V186?????? V187?????? V188?????? V189?????? V190?????? V191

不论不怕不然不如" ????"不特不惟不问????? V192?????? V193?????? V194?????? V195?????? V196?????? V197?????? V198

不只朝朝着趁趁着乘冲????? V199????? V1100

????? "除除此之外"

【免责声明】本站内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。