设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 专业 applewat 娱乐 服务
当前位置: 首页 > 大数据 > 正文

推荐 :从大数据中挖掘什么(2)

发布时间:2021-01-11 11:05 所属栏目:[大数据] 来源:网络整理
导读:我们观察到的第一个现象是“同一查询同一副主题(one subtopic per search)”。用户每次进行查询时,往往只考虑一个副主题,要搜副总裁的Harry Shum,就不会搜演员的Harry Shum,反之亦然。这一点会反映在用户的日

我们观察到的第一个现象是“同一查询同一副主题(one subtopic per search)”。用户每次进行查询时,往往只考虑一个副主题,要搜副总裁的Harry Shum,就不会搜演员的Harry Shum,反之亦然。这一点会反映在用户的日志点击数据上。在同一次搜索中,用户点击的多个网页链接往往集中在同一个副主题上。将某一查询的大量的点击数据汇集起来,根据链接是否常在同一次搜索中被共同点击,可以将它们聚类,就可以挖掘到该查询的副主题,这时,链接的每个类对应一个副主题。

? ??

第二个现象是“加关键词明确副主题(Subtopic Clarification by Additional Keyword)”,也可以用于副主题挖掘。用户在查询时,会主动明确副主题,在主查询词的后面(或前面)加上关键词,如“harry shum microsoft”,“harry shum jr”。属于同一副主题的网页链接往往在被加同样关键词的查询中点击,根据链接是否在加同样关键词查询中被点击,可以将它们聚类,得到的类也对应于副主题。

? ??

我们的方法能够根据以上两个现象挖掘出查询的每个副主题,副主题由网页链接、以及附加关键词表示。利用特殊的数据结构,可以将Bing的三个月日志数据在一天内进行一次高效的挖掘。对于高频查询,可以得到非常精准的挖掘结果(详见[4])。可以看出,大数据确实能够发挥巨大作用。

? ??

另一方面,我们的方法对低频查询无法适用,因为没有足够的点击数据,也就是说会遇到长尾挑战[5]。用户的行为数据大多遵循幂率分布(power law distribution),现在基于统计的数据挖掘方法对尾部数据依然是束手无策。


4.总结

大数据挖掘关键是决定挖什么,这比决定怎么挖更为重要。收集数据时,应该尽量设想挖掘的场景,尽量多方面地记录、采集数据;收集数据后,应该尽量将数据整合在一起;数据挖掘前,应该悉心观察数据,以帮助判断挖掘什么样的知识。只有这样,大数据挖掘的价值才能得以体现。

? ??

大数据挖掘极具威力,但也有局限性,会遇到长尾挑战。结合事先给定的知识进行挖掘,或许是解决长尾挑战的一条出路。纽约时报记者能从搜索查询数据中挖掘出用户的身份,也是因为用了基于常识的推理。机器要变得具有同样的智能,需要采用相同的手段。

? ??

大数据时代刚刚开始,相信今后在各个领域,各种应用中,大数据挖掘都会推动创新,对技术发展带来巨大影响。这一点确实令人振奋。

本文内容来自:李航博士的新浪博客;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


公众号推荐(长按二维码关注):您身边的汽车资讯

推荐 :从大数据中挖掘什么

商务合作|约稿 请加qq:365242293?。


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID :?ecshujufenxi?)互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

推荐 :从大数据中挖掘什么

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读