设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 娱乐 服务 百度 表达
当前位置: 首页 > 大数据 > 正文

LinkedIn文本分析平台:主题挖掘的四大技术步骤(2)

发布时间:2021-01-24 06:44 所属栏目:[大数据] 来源:网络整理
导读:需要为整个文件集合产生一个单独的主题列表。LinkedIn引入了文件频率这个参数来进行整个文件集合的主题TF-IDF值的计算。 主题挖掘的业务价值 乍眼一看,这套多模块的流水线处理系统中任何模块都可以单独工作,但会

需要为整个文件集合产生一个单独的主题列表。LinkedIn引入了文件频率这个参数来进行整个文件集合的主题TF-IDF值的计算。

主题挖掘的业务价值

乍眼一看,这套多模块的流水线处理系统中任何模块都可以单独工作,但会有人担心无预过滤的TF-IDF计算会产生干扰和不准确的主题;不过,LinkedIn使用该系统对论坛讨论、组信息更新、博客中的用户意见文本进行主题挖掘,实践效果很好。

LinkedIn不需要人工的预览内容就可以简单地实现主题生成,同时根据文件来源的不同可以产生不同的主题。比如,账号使用者抱怨的主题可能有“主要账号”、“次要账号”、“合并账号”、“关闭账号”、“复制账号”等;简历浏览者可能关心的主题是“删除联系人”、“通讯录”、“导入联系人”、“发送邀请”和“待处理邀请”。最终,这些主题会以轮子视图的形式呈现出来,轮子内圈是实体词主题,外圈是每个实体词对应的动作。

生成主题之后,对用户抱怨反馈按照这些主题进行分类,客户服务代表据此辨别整理主题的各种情绪,从而便于用户反馈的搜索或者内容总结的生成。

此外,主题随时间的变化情况还可以用来开展趋势算法的研究。这样可以在网络媒体和社区反馈中获取重要信息。最后,还可以使用主题进行文本分类,从而降低信息维度、提高处理效率。

查看英文原文:Voices Part II: Technical Details for Topic Mining

原文链接:http://www.infoq.com/cn/news/2016/07/technical-details-for-topic


了解更多,请点击“阅读原文”

投稿、合作请发送邮件至contact@dataunion.org

LinkedIn文本分析平台:主题挖掘的四大技术步骤

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读