设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 专业 applewat 娱乐 服务
当前位置: 首页 > 大数据 > 正文

文本挖掘:情感分析详细步骤(基础+源码)(3)

发布时间:2021-01-24 03:33 所属栏目:[大数据] 来源:网络整理
导读:得到了如图3中weight的数列,为了与原来的文本分类进行比较,需要简单知道每个文本的情感偏向,得分0则偏向为1,得分0,偏向为-1,这时候引入了一个辅助列,dictlabel来进行这样的操作。 dictlabel[dictresult$weigh

得到了如图3中weight的数列,为了与原来的文本分类进行比较,需要简单知道每个文本的情感偏向,得分>0则偏向为1,得分<0,偏向为-1,这时候引入了一个辅助列,dictlabel来进行这样的操作。
dictlabel[dictresult$weight > 0] <- 1是辅助列运算的精华语句。


3、模型评价

  1. ###模型评价??

  2. temp?<-?unique(testterm[,?c("id",?"label")])??

  3. dictresult?<-?join(dictresult,?temp)??

  4. evalue?<-?table(dictresult$dictlabel,?dictresult$label)??


最后可以和原先的分类进行混淆矩阵评价。从结果查看,并不是很精确。
从执行的过程中我们也发现,很多不具有情感色彩的词被定义为了情感词,例如的、了、还、在、我、都、把、上等字词,这些字词都是高频字词,而我们的计算方法按照出现频次重复计算,所以导致上面的结果偏差很大。
暂时的改进办法:修改优化词典,去除这类词汇,或者更改为去重计算,即一条评论中某词无论出现多少次都只计算一次权重。

via:http://blog.csdn.net/sinat--26917383/article/details/51313336

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读