设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: 专业 娱乐 服务 百度
当前位置: 首页 > 大数据 > 正文

【3】 文本挖掘方法论

发布时间:2021-01-24 07:32 所属栏目:[大数据] 来源:网络整理
导读:转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究目的的决策

转自 NLP论坛

http://www.threedweb.cn/thread-1284-1-1.html
http://www.threedweb.cn/thread-1285-1-1.html
http://www.threedweb.cn/thread-1286-1-1.html

文本挖掘流程

这里写图片描述

第1阶段:确定研究目的

像任何其他项目一样,文本挖掘的研究开始于研究目的的决策。这需要深入了解业务情况,研究的目的是什么。为了实现这样的认识和精确定义的目的,我们必须评估问题(或机会)的实质。通常情况下,为了开发基础系统,我们必须密切与领域专家互动,包括对系统结构,限制和可用资源的深入评估。只有这样,我们才能制定出一套切实可行的目标来确定研究的方向。

第2阶段:一旦这项研究的目的是确定,探索可用性和数据的性质,我们在特定研究范围内准备评估可用性,可获得性,以及必要的数据的适用性。此阶段的任务包括以下内容:

* 文本数据源的标识(基于数字化的还是基于纸质的;组织内部的或组织外部的)
* 数据的可访问性和可用性评估
* 收集的初始数据集
* 数据的丰富性的探索(例如,它有需要的文本挖掘研究的信息内容?)
* 数据的数量和质量的评估。一旦探测得出了积极的结果,下一阶段是从各种来源收集和集成大量数据,在研究中使用。

第3阶段:准备数据 && 第4阶段:开发和评估模型

第3阶段及第4阶段是数据挖掘和文本挖掘的最显著差异之处。事实上,许多人认为,文本挖掘无非是在数据收集和处理阶段比数据挖掘的更艰苦。在图5.2B,阶段2和3展示了阴影框,显示出更细致,深入的描述。这些在阶段6之后讨论。

第5阶段:评估结果

一旦模型被开发出来,就要准确评估其质量。从数据分析的角度来看,我们必须验证执行操作的正确性。例如,我们必须验证取样是否得当,那么可以重复上述步骤来验证。然后,(也只有这样)才能继续向前部署。采取执行流程中的综合评价,有助于减轻的错误传播到决策过程中,否则可能导致对业务不可逆的损害。通常情况下,当分析师处于这些阶段时,他或她可能忘了主要业务问题,开始把学习摆在首位。这种评估步骤是为了使流程阶段有更多的时间,以确保开发并验证模型真正实际解决业务问题,并实现目标。如果这一评估得出的结论,一个业务目标或多个不满意,或者还有的是,还没有被充分考虑一些重要的商业问题,我们应该返回并移动到该流程的部署阶段之前以纠正这些问题。

第6阶段:部署结果

一旦模型和建模过程中顺利通过评估,它们就可以被部署(即投入使用)。这些模型的部署可以是简单的形成一份报告,通过解释引起决策者对研究结果的注意,也可以很复杂,例如建立一个新的商业智能系统来应用这些模型(或将其纳入现有的商业智能系统),所以它们可以被重复地用于更好地进行决策。随着时间的推移,一些模型将失去他们的准确性和相关性。他们应该可以被新数据周期性地更新(或精化)。这可以通过执行新的分析方法,每隔一段时间重新创建模型,或更完美地,商业智能系统本身可被设计成通过相关数据的更新来自动精炼模型。虽然开发能够自我评价和自我调节的复杂系统,是一个具有挑战性的任务,一旦完成,其结果将是非常令人满意的。

数据准备和开发、评估模型

这里写图片描述

图5.2A和5.2B展示了文本挖掘的流程。通过第3阶段和第4阶段。图5.3提出了文本挖掘的方法,从功能架构的角度来看是一个高层次的内容图。该图展示了流程的范围,特别强调了接口和环境。本质上,它绘制了流程的边界来明确表明文本挖掘过程所包含(和/或排除)的内容。

在知识发现的背景下,文本挖掘的主要目的是从非结构化(文本)数据,以及结构化和半结构化数据(如有关的问题正在解决)中提取新的,有意义的和可操作的知识/信息更好辅助决策。在图5.3(盒子上的左边缘)的输入箭头是基于文本的知识发现流程块。非结构化,半结构化或结构化的数据都被收集,存储,并提供给流程。输出箭头(框右边缘)表示指定上下文的知识产品,可以用于决策。进入框上边缘的约束条件(或控制)箭头表示软件和硬件的限制,或隐私方面的问题,以及以自然语言方式呈现的文本处理方面的难点。进入框内的底部是启用模块,它代表了软件工具,高速计算机,领域知识,和自然语言处理(NLP)的方法。

这里写图片描述


图5.4显示,图5.3可以分解成三个相互联系的子过程,我们称之为“活动。”每个都有输入,完成了一些转换过程,并生成各种输出。如果由于某种原因,子进程的输出不是预期或出现不能令人满意的水平,反馈回路重定向信息流程到之前任务,允许调整和更正。

第三阶段,第1步:建立语料库

第3阶段的活动1是收集所有相关的正在处理的问题的文件(参见图5.4)。数据的质量和数量都是数据挖掘和文本挖掘项目中最重要的元素。有时在文本挖掘的项目中,文档集合是现成的,伴随着项目的说明(在一个特定的产品或服务的顾客评论,例如,进行情感分析)。但通常的文本挖掘需要识别并使用手动或自动的方法收集特定问题的文档集合(例如,web爬虫可以定期摘录几个网站,收集相关的新闻)。数据收集可以包括文本文件,HTML文件,电子邮件,网帖和短期票据。除了正常的文本数据,可以包括使用语音识别算法转录的语音记录。

一旦收集完成,文本文件就可以转化和组织为计算机可处理的方式,并转换为相同的格式(如ASCII文本文件)。数字化的文本文件可以存储在一个文件夹中,也可以以网页集合的形式放到在一个特定的域列表中。许多市售的文本挖掘软件工具可以接受网页作为输入,并将其转换成一个文本文件进行处理。可选地,文本文件也可以在文本挖掘软件之外准备,那么可以表示为输入到文本挖掘应用。

第三阶段,第2步:预处理的数据

在此活动中,将数字化并且组织好的文档(语料库)用于创建数据结构化的表示,通常被称为词条-文档矩阵(TDM)。通常,TDM包括表示文件的行和表示词条的列构成。词条和文档之间的关系被表征为索引,这是关系的测度,如在文档中出现的词频。图5.5显示了TDM的简化示例。

第2步的目标是把组织好的文档(语料库)列表转换成一个TDM,这里单元被填充为最合适的索引。我们在这里所做的假设是,文件的??“意义”可以用该文件中出现的词条列表和词频来表示。那么,表征文档时,所有的条件都同样重要吗?显然,答案是否定的。一些词条,例如冠词,助动词,是几乎所有语料库文档都使用的词条,它们没有有意义的功能,因此应被排除在索引之外。这些词的列表俗称停用词表,这往往在具体研究领域由该领域专家专门鉴定。在另一方面,在文件被索引时,我们可以选用一组预定义的停用词列表,这类词条列表惯例上被称为字典。此外,同义词和特定的短语(例如,“最高法院”)也可以以词典的形式提供,这样的索引条目将会更准确。图5.6示出了TDM与其它四个任务的更详细视图。

 任务1

第一个任务产生停用词(或者包含词条)以及同义词和特定短语。

任务2

由词干或词形还原创建词条列表,这是词条最简单的形式(即词根)。词干的例子是用于识别和索引不同的语法形式或约简动词词条。例如词干可以确保模型,建模和模拟被识别为词的模型。以这种方式,词干会明显降低词条的数量,并增加一些词条的频率。词根有两种常见的类型:
1.屈折词干:这旨在规范语法上的变化,如现在/过去时态和单/复数变化等(这在计算语言学上被称为形态分析)。不同的语言在难易程度上显著的不同。
2.词干到根:这旨在消除屈折性或派生的前缀和后缀,形成词根的形式。

任务3

创建TDM。在任务3中,语料库的数字二维矩阵表示被创建,这是TDM生成的第一种形式,包括以下三个步骤:

  • 指定所有文件作为矩阵中的行
  • 识别所有的在语料库中的独特的词条(如它的列),但不包含在停用词列表中的
  • 计算每个词的每个文档的出现次数(作为其单元值)

如果语料库包括一个相当大数目的文件(这是通常的情况),则是很常见的TDM为具有非常大的词条。处理这样一个大的矩阵可能是耗时的,而且,更重要的是,它可能会导致提取不准确的模式。大型矩阵和耗时的操作这些危险情况导致如下两个问题:

  • 什么是文本挖掘项目最优处理的索引最佳表示?
  • 如何把矩阵的维度降低到一个更易于管理的大小,以方便更快捷有效的处理?

要回答第1个问题,我们必须评估各种形式的索引表示。一种方法是词频的转换。一旦输入文档被索引并且初始词频(由文件)被计算,可以执行一些额外的转换来概括和聚集所提取的信息。原词的频率反映了每个文档中相对突出的词。具体而言,文档词条出现的较大词频可能是该文件内容最好的描述符。然而,词条的计数是正比于文件描述符的重要性本身不是一个合理的假设。例如,即使在文件A中词条的频率三倍高于文件B中,不一定就能推论出这个词对于文档B三倍重要于文档A。

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读