设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 专业 娱乐 服务 百度
当前位置: 首页 > 大数据 > 正文

互联网金融之量化投资深度文本挖掘——附源码文档(3)

发布时间:2021-01-16 12:06 所属栏目:[大数据] 来源:网络整理
导读:运行结果: 四、模块效率性能总汇 根据上表所示的各模块平均时间效率估计的结果,可以得到如下结论: ▲ 在三个数据源中,所有模块个股新闻的平均运行时间是最长的,研究报告次之,而股票 ? ? ?论坛是耗时最少的 ▲

运行结果:

互联网金融之量化投资深度文本挖掘——附源码文档



四、模块效率性能总汇

互联网金融之量化投资深度文本挖掘——附源码文档


根据上表所示的各模块平均时间效率估计的结果,可以得到如下结论:
▲ 在三个数据源中,所有模块个股新闻的平均运行时间是最长的,研究报告次之,而股票 ? ? ?论坛是耗时最少的
▲ 所有模块的时间消耗主要都关键词的搜索上,模块的平均耗时和模块进行的关键词搜索 ? ? ?次数成正比
▲ 关键词词频模块 sigWordSeq 进行了一次词频检索,因此和检索模块SearchFiles 的平 ? ? ? ?均耗时相当
▲ 关键词网络模块 WordNet_stock 同样只进行了一次关键词检索,但是在计算关联股票 ? ? ? ?TF-IDF 指标是需要耗费一定的时间,因此平均耗时略长于单次的检索

▲ 关键词网络模块 WordNet 由于需要进行对 20 个一级词的搜索,因此耗费的时间是最长 ? ? ?的。另外, 由于三个数据源中【 个股新闻】的数据量最大,运行 WordNet 一旦遇到高 ? ? ?频词会消耗大量的时间,需要格外注意。

  • 本文基于光大文本挖掘系统框架概述全文。

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读