文本挖掘：情感分析详细步骤（基础+源码）(3)

发布时间：2021-01-24 03:33 所属栏目：[大数据] 来源：网络整理

导读：得到了如图3中weight的数列，为了与原来的文本分类进行比较，需要简单知道每个文本的情感偏向，得分0则偏向为1，得分0,偏向为-1，这时候引入了一个辅助列，dictlabel来进行这样的操作。 dictlabel[dictresult$weigh

得到了如图3中weight的数列，为了与原来的文本分类进行比较，需要简单知道每个文本的情感偏向，得分>0则偏向为1，得分<0,偏向为-1，这时候引入了一个辅助列，dictlabel来进行这样的操作。
dictlabel[dictresult$weight > 0] <- 1是辅助列运算的精华语句。

3、模型评价

###模型评价??
temp?<-?unique(testterm[,?c("id",?"label")])??
dictresult?<-?join(dictresult,?temp)??
evalue?<-?table(dictresult$dictlabel,?dictresult$label)??

最后可以和原先的分类进行混淆矩阵评价。从结果查看，并不是很精确。
从执行的过程中我们也发现，很多不具有情感色彩的词被定义为了情感词，例如的、了、还、在、我、都、把、上等字词，这些字词都是高频字词，而我们的计算方法按照出现频次重复计算，所以导致上面的结果偏差很大。
暂时的改进办法：修改优化词典，去除这类词汇，或者更改为去重计算，即一条评论中某词无论出现多少次都只计算一次权重。

via：http://blog.csdn.net/sinat--26917383/article/details/51313336

【免责声明】本站内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。