设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 专业 娱乐 applewat 服务
当前位置: 首页 > 大数据 > 正文

【4】构建基于scikit-learn的文本挖掘学习系统

发布时间:2021-01-24 07:33 所属栏目:[大数据] 来源:网络整理
导读:转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html 配置开发环境 构建基于scikit-learn的文本挖掘学习系统 1. 下载和安装 python-2.7.8 for win322. 下载和安装 numpy-1.9.0-win32-superpack-python2.73. 下载和安装 scipy-0.14.0-win32-superpa

转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html

配置开发环境

构建基于scikit-learn的文本挖掘学习系统

1. 下载和安装 python-2.7.8 for win32
2. 下载和安装 numpy-1.9.0-win32-superpack-python2.7
3. 下载和安装 scipy-0.14.0-win32-superpack-python2.7
4. 下载和安装 matplotlib-1.1.0.win32-py2.7
5. 下载和安装 结巴分词:jieba-master,解压后运行 python setup.py install(参考网站: https://github.com/fxsjy/jieba)
6. 下载和安装 scikit-learn-0.15.2.win32-py2.7
7. 解压scikit-learn-master,从example目录获取例子文件

运行Demo 程序

  1. 测试scikit-learn默认例子文件
    打开例子 文件 plot_classifier_comparison.py
    执行python 程序
    输出图片:

    这里写图片描述

scikit-learn安装成功!

  1. 测试结巴分词:
    代码如下:
#encoding=utf-8
import sys  
import jieba

reload(sys)  

sys.setdefaultencoding('utf-8')  

seg_list = jieba.cut("我来到北京清华大学",cut_all=True)  
print "Full Mode:","/ ".join(seg_list)  # 全模式


seg_list = jieba.cut("我来到北京清华大学",cut_all=False)  
print "Default Mode:","/ ".join(seg_list)  # 精确模式


seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print ",".join(seg_list)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print ",".join(seg_list)

结果:

Building Trie...,from C:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache c:\users\jackycaf\appdata\local\temp\jieba.cache
loading model cost 2.55099987984 seconds.
Trie has been built succesfully.
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他,来到,了,网易,杭研,大厦
小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,,,后,在,日本,京都,大学,日本京都大学,深造

点评

上面流程是直接转载NLP论坛里面的帖子,内容一看就是新手写的,python文本处理工具很多,比如NLTK,目前已经集成了中文的Stanford分词。上面的配置是最简单的自己的处理文本的环境

python文本处理工具可以参考我之前的帖子

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读