人工智能机器学习架构师高级初学者中级开发

文本挖掘及其商业应用

Niladri_Biswas

4.76/5 (9投票s)

2014年9月23日

CPOL

48分钟阅读

51894

文本挖掘及其商业应用

引言

当今组织在日常业务运营中会遇到文本数据（包括半结构化和非结构化数据）。数据来源可以是电子文本、呼叫中心日志、社交媒体、公司文档、研究论文、申请表、服务记录、电子邮件等。这些数据可能可用，但由于缺乏对组织所拥有的信息财富的认识，或者缺乏分析这些数据并获得有用见解的方法或技术，因此仍未被充分利用。

组织拥有或可以拥有的任何形式的信息都是一种资产，可以通过利用这些信息进行决策来获取有关其业务的见解。这些数据可能包含有关其客户、合作伙伴和竞争对手的信息。有关客户的数据可以为他们提供关于如何更好地为客户提供服务的见解，并增加他们的客户群。有关其合作伙伴的数据可以提供关于如何与合作伙伴保持更好关系的见解，并建立新的有价值的关系。有关其竞争对手的数据可以帮助他们保持领先地位。然而，并非组织拥有的所有数据都被用于获取这些见解。原因是这些数据的大部分不是结构化的，并且难以像处理结构化数据（使用传统方法）那样处理这些数据以获得有用且期望的见解。此外，这种具有潜在商业、经济和社会价值的海量数据预计在不久的将来会以更快的速度增长。因此，使用可以挖掘这些潜力、揭示隐藏价值的技术变得极其重要。这就是文本挖掘/分析技术发挥作用并有助于从这些数据中发现有用且有趣的知识的地方。企业使用此类技术来分析客户和竞争对手数据以提高竞争力。

摘要

由于组织今天面临的数据泛滥问题，文本挖掘变得越来越重要。这篇白皮书旨在概述文本挖掘及其组成部分、技术以及在各种商业应用中的用途。本文描述了文本挖掘以及其重要性逐年增加的原因。随后，将介绍文本挖掘的通用流程框架，并描述其不同组成部分、子组成部分、商业应用以及市场上可用的文本挖掘工具的简要描述。

文本挖掘通常被认为起源于数据挖掘；然而，一些技术来自信息科学和信息可视化等各种其他学科。文本挖掘通过使用数据挖掘、机器学习、自然语言处理 (NLP)、信息检索 (IR)、信息提取 (IE) 和知识管理 (KM) 等技术来解决信息过载问题。文本挖掘涉及文档集合的预处理（文本分类、特征/术语提取等）、中间表示的存储、分析这些中间表示的技术（如分布、分析、聚类、趋势分析和关联规则）以及结果的可视化。

什么是文本挖掘？

简单地说，文本挖掘是从文本数据中发现知识，或探索文本数据以揭示有用但隐藏的信息。然而，许多人对文本挖掘的定义略有不同。以下是一些定义：

“文本挖掘的目的是以各种方式利用文本文档中包含的信息，包括……发现数据中的模式和趋势、实体之间的关联、预测规则等。”（Grobelnik 等人，2001 年）。

“另一种看待文本数据挖掘的方式是将其视为探索性数据分析过程，从而获得迄今为止未知的信息，或解答当前未知的问题。”（Hearst，1999 年）。

文本挖掘，也称为文本数据挖掘或文本分析，是从文本数据源中发现高质量信息的过程。将文本挖掘技术应用于解决特定业务问题的称为商业文本分析或简称为文本分析。文本挖掘技术可以帮助组织从其拥有的丰富文本信息中获得有价值的商业洞察。

文本挖掘通过使用多种技术将文本数据转化为结构化格式。它包括识别和收集文本数据源，使用自然语言处理 (NLP) 技术，如词性标注和句法分析，实体/概念提取，识别命名特征（如人、地点、组织等），消歧，建立不同实体/概念之间的关系，模式和趋势分析以及可视化技术。

文本挖掘框架

下图 1 描绘了一个通用的文本挖掘框架。文本数据来自各种文本数据源。然后使用以特征识别和提取为中心的预处理技术，将来自文本数据源的非结构化数据转换为更明确结构化的中间格式。文本挖掘还利用了其他计算机科学领域中与管理自然语言文本相关的技术和方法，例如信息检索和信息提取。知识发现组件通常包括应用模式发现和趋势分析算法，以从中间格式的文本数据中发现有价值的信息。呈现层组件包括用于模式浏览功能的 GUI，还包括用于创建和查看趋势和模式的工具。

文本挖掘框架组件

下面将描述文本挖掘框架中的不同阶段

1. 文本数据源

文本数据存在于许多内部和外部数据源中，例如电子文本、呼叫中心日志、社交媒体、公司文档、研究论文、申请表、服务记录、电子邮件等。

2. 预处理

预处理任务包括从不同数据源收集数据的方法。这是识别用于挖掘和分析的文本信息的第一步。预处理任务对数据应用各种特征提取方法。预处理任务包括不同类型的技术，用于将原始的、非结构化的、原始格式的数据转换为结构化的、中间的数据格式。知识发现操作在结构化的中间数据上进行。

为了将非结构化数据准备成结构化数据格式，需要与传统数据挖掘系统不同的技术，在传统数据挖掘系统中，知识发现是在结构化数据源上进行的。存在各种预处理技术，并且可以组合使用这些技术，以从原始文本数据创建结构化数据表示。因此，可以根据原始文本数据的类型使用不同技术的组合。

a. 文本清理

文本清理是从文本源中清理噪声文本的过程。在短信、电子邮件、在线聊天、新闻文章、博客和网页中可以找到有噪声的文本数据。此类文本可能存在拼写错误、缩写、非标准术语、缺失标点符号、误导性的大小写信息，以及错误的开头、重复和特殊字符。

噪声可以定义为电子文本的表面形式与原始、预期或实际文本之间的任何差异。在短信服务（SMS）以及 Twitter、聊天和讨论板以及社交网站等在线论坛中使用的文本经常会失真，主要是因为接收者能够很好地理解更短形式的单词，并且还可以减少发送者的时间和精力。大部分文本是为了人类理解而创建和存储的，计算机处理这些文本并不总是那么容易。随着各种社交通信媒体中噪声文本数据的增加，清理此类文本变得有必要，而且是因为现成的 NLP 技术通常会因稀疏性、词汇外单词以及此类文本中的不规则句法结构等多种原因而无法正常工作。

一些清理技术包括

移除停用词（删除“a”、“the”、“and”等非常常见的词）。

词干提取（组合具有相同语言根源或词干的单词的方法）。

i. 移除停用词

停用词是在文本数据处理之前或之后过滤掉的词。并非所有工具都使用一个明确的停用词列表，即便使用。一些工具会特意避免删除它们以支持短语搜索。文本中最常见的停用词是“the”、“is”、“at”、“which”和“on”。当查找包含这些词的短语时，这些停用词有时会造成问题。一些搜索引擎会删除查询中最常见的单词，以提高性能。

ii. 词干提取

词干提取是根据词的词干、基础或词根形式（通常是书面词形式）来减少屈折（或有时是派生）词的过程。词干不必与单词的词根形态相同；通常，相关的词映射到同一个词干就足够了，即使这个词干本身不是一个有效的词根。自 1968 年以来，计算机科学领域一直在研究词干提取算法。许多搜索引擎将具有相同词干的单词视为同义词，作为一种查询扩展，称为词语合并。

例如，英语的词干提取器应该识别字符串“cats”（可能还有“catlike”、“catty”等），其根为“cat”，并将“stemmer”、“stemming”、“stemmed”识别为基于“stem”。一个词干提取算法将单词“fishing”、“fished”、“fish”和“fisher”简化为根词“fish”。另一方面，“argue”、“argued”、“argues”、“arguing”和“argus”简化为词干“argu”（说明词干本身不是单词或词根的情况），但“argument”和“arguments”简化为词干“argument”。

词干提取程序通常被称为词干提取算法或词干提取器。存在几种类型的词干提取算法，它们在性能和准确性以及如何克服某些词干提取障碍方面有所不同。

b. 分词

分词是将文本片段分解成更小的片段（如单词、短语、符号和其他元素）的过程，这些片段称为 token。整个句子也可以被视为一个 token。在分词过程中，可以移除一些字符，如标点符号。然后，这些 token 成为文本挖掘中其他过程（如解析）的输入。

分词主要依靠简单的启发式方法，通过遵循几个步骤来分隔 token：

Token 或单词由空格、标点符号或换行符分隔。
根据需要，可以包含或不包含空格或标点符号。
连续字符串中的所有字符都属于 token。Token 可以仅由字母字符、字母数字字符或数字字符组成。

Token 本身也可以是分隔符。例如，在大多数编程语言中，标识符可以与算术运算符一起使用，而无需空格。虽然这看起来是一个单词或 token，但语言的语法实际上将数学运算符（一个 token）视为分隔符，因此即使多个 token 聚集在一起，它们仍然可以通过数学运算符进行分隔。

分词是处理文本的第一步。如果不识别 token，就很难从文本中提取有用的高级信息。每个 token 都是一个类型的实例，因此 token 的数量远高于类型的数量。例如，在上一句话中，“the”这个词出现了两次。这两者都是“the”这个类型的实例，它在句子中出现了两次。严格来说，人们应该始终参考类型的出现频率，但习惯上也会谈论 token 的频率。对于熟悉语言的人来说，识别字符流中的 token 会更容易。但另一方面，由于缺乏对语言的理解，计算机很难做到这一点。这是因为某些字符有时被视为 token 分隔符，有时则不是，这取决于应用程序。我们假定空格、制表符和换行符始终是分隔符，不计为 token。它们通常统称为空白字符。字符（）<>!?" 始终是分隔符，也可能是 token。字符.,:-' 根据其环境，可能为分隔符，也可能不为分隔符。数字之间的句点、逗号或冒号通常不被视为分隔符，而是数字的一部分。任何其他逗号或冒号都是分隔符，也可能是 token。句点可以是缩写的一部分（例如，如果它在两侧都有大写字母）。当后面跟着一个空格时，它也可以是缩写的一部分（例如，Dr.）。然而，其中一些实际上是句子的结尾。句点是句子结尾还是不是句子的结尾这个问题将在后面讨论。出于分词的目的，最好将任何模糊的句点视为单词分隔符，也视为 token。撇号也有多种用法。当它前面和后面是非分隔符时，它应该被视为当前 token 的一部分（例如，isn't 或 D'angelo）。当后面跟着一个明确的终止符时，它可能是内部引号的结束，也可能表示所有格（例如，Tess'）。前面有终止符的撇号明确是内部引号的开始，因此可以通过跟踪内部引号的打开和关闭来区分这两种情况。破折号是终止符和 token，如果前面或后面有另一个破折号。两个数字之间的破折号可能是减号或分隔符（例如，555-1212 作为电话号码）。最好将不与另一个破折号相邻的破折号视为终止符和 token，但在某些应用程序中，将其视为普通字符可能更好，双破折号除外。

c. 词性标注

词性标注，也称为语法标注或词类消歧，是将文本中的单词分配给特定的词性（如名词、动词、代词、介词、副词、形容词或其他词汇类别标记）的过程。标注算法的输入是自然语言句子中的单词字符串和一个指定的标签集（有限的词性标签列表）。输出是每个单词的唯一词性标签。

标签在语音识别、自然语言解析和信息检索等自然语言应用中起着重要作用。

词性标注比仅有一份单词及其词性列表要难，因为有些单词在不同时间可以代表多种词性，并且有些词性复杂或不发音。这在自然语言中非常普遍，与人造语言相比，人造语言中的大部分词形都是模棱两可的。例如，“dogs”被认为是复数名词，但也可以是动词：“The sailor dogs the barmaid”。

执行语法标注将表明“dogs”是动词，而不是更常见的复数名词，因为单词中必须有一个是主语动词，而“sailor”后面的名词读数可能性较小。“Dogged”，另一方面，可以是形容词或过去式动词。一个单词可以代表的词性差异很大。

隐马尔可夫模型 (HMM) 是最早用于消歧词性的模型之一。

d. 句法分析

句法分析是根据一定的语法规则对单词、短语或句子字符串执行句法分析的过程。句法分析会发现文本中的结构，并用于确定文本是否符合预期的格式。它涉及将文本分解成不同的元素，并识别不同元素之间的句法关系。句法分析的基本思想是创建一个给定自然语言文本中的句子的语法结构或解析树，以确定句子是如何分解为短语的，短语是如何分解为子短语的，一直到所用单词的实际结构。为了解析自然语言文本，使用两种基本语法：成分语法和依存语法。

成分语法通过将句子分解为重复的短语或语法分组元素的序列来帮助创建语法结构。许多成分语法区分名词短语、动词短语、介词短语、形容词短语和从句。根据语法的规则，每个短语可能由零个或更小的短语或单词组成。每个短语在句子中都扮演着不同的语法结构角色，例如，名词短语可能被标记为句子的主语。

另一方面，依存语法则根据不同元素或单词之间直接的一对一关系来创建句子的语法结构。依存关系将动词视为语法结构的中心，所有其他词语元素或词语都直接或间接依赖于动词。

e. 信息提取

信息提取识别文本数据中的关键短语和关系。这是通过一种称为模式匹配的过程完成的，该过程在文本中查找预定义的序列。信息提取会推断文本中所有已识别的人物、地点和时间之间的关系，以提取有意义的信息。对于处理大量的文本数据，信息提取非常有用。收集有意义的信息并将其存储在数据存储库中，用于知识发现、挖掘和分析。下面将描述一些信息提取技术。

i. 主题跟踪

主题跟踪系统会跟踪用户及其个人资料以及特定用户查看的文档，从而找到用户可能感兴趣的相似文档。此系统有助于让用户识别他们可能感兴趣的特定类别，还可以根据用户的阅读历史来识别用户的兴趣。

主题跟踪在行业内的许多商业领域都有应用。通过主题跟踪系统，组织可以查找与其竞争对手及其产品相关的新闻，这有助于他们跟踪竞争性产品和市场状况，以及跟踪自己的业务和产品。在医疗行业，主题跟踪可以帮助医疗专业人员找到新的治疗方法和医学进展。

iii. 摘要

文本摘要，顾名思义，就是对详细文本进行总结。摘要最重要的部分是减小文本大小，同时不扭曲整体含义，也不删除文本中的要点。这有助于仅从摘要文本中获取有用信息。

在摘要中，最常用的技术之一是句子提取，它通过给句子添加权重并识别关键短语来确定特定句子的位置，从而提取文本中的重要句子。

文本摘要在尝试确定冗长文档是否满足用户需求并且值得进一步阅读方面非常有用。通常，当人类总结文本时，我们会阅读整个选集以获得充分的理解，然后写一个总结来突出其要点。对于大型文本，文本摘要软件处理和总结文档所需的时间，就相当于用户阅读第一段所需的时间。

iii. 分类

文本分类，也称为文本分类，是将一组自由文本文档分组到预定义类别的任务。这是通过识别文本文档中的主要主题来完成的。文本文档可以根据主题和其他属性（如文档类型、作者、体裁等）进行分类。

分类不处理文本文档中包含的实际信息。然而，它会计算文本中出现的单词，并根据计数来识别文本文档涵盖的主要主题。域特定词典用于分类，通过查找同义词和相关术语来识别关系。分类还根据文档在特定主题上的内容多少来对文本文档进行排名。

分类可以应用于许多商业领域。例如，拥有客户支持部门的公司，旨在回答客户关于不同主题的查询，可以使用分类来按主题对文本文档进行分类，从而可以更快地访问相关信息并快速回答用户查询。

iv. 特征/术语选择

文本分类的一个主要困难是特征空间的高维性。特征选择方法可用于通过删除文本分类或分类所需的特征来降低数据集的维度。特征选择是文本分类或分类的重要组成部分。特征空间由文本文档中出现的唯一术语（单词或短语）组成。文本文档集合中有许多这样的唯一术语，对于中等大小的文本集合，可能有数万甚至数十万个术语。具有大量此类术语对于文本分类没有用。减少术语集可以使分类更有效，并改善泛化误差。

因此，特征选择方法在减小特征空间大小和生成较小数据集方面具有优势，从而使文本分类算法能够以较低的计算要求运行。

v. 实体提取

实体提取，也称为命名实体识别或命名实体提取，是信息提取的一个子任务，用于识别文本中的原子元素并将其分类到预定义的类别中，如人物、地点、组织和产品。这些通常是专有名词，构成“谁”和“哪里”。然而，可能还有其他有趣的命名实体，如日期、地址、电话号码和网站 URL。根据您要实现的目标，提取此类命名实体的能力可能至关重要。

您可以使用一个具有统计模型的系统来查找您正在寻找的实体，如人物、地点或组织。例如，组织名称和个人姓名都是专有名词，系统可以很好地猜测某个名称的类型，是地点（希尔顿黑德）、人物（帕里斯·希尔顿）还是组织（希尔顿酒店）。

vi. 概念提取

概念回答了“正在使用哪些重要概念？”的问题。概念是文本中包含的一个词或短语，通过它可以识别文本集合的上下文。识别文本中的概念是分类/归类的 S0 种方法。社交媒体、技术、商业是可以在文本中识别的概念示例。例如，您可以识别一篇关于“技术”的文本对话，或一组讨论“政治”的文本。为了确定一段文本实际上是否与某个特定概念有关，或者它只是描述与该概念相关的内容，概念分类器会附加分数。

类别和概念之间存在父子关系。一个类别可以关联多个概念。例如，如果“化学”是一个类别，那么原子结构、化学键、气体等将是与“化学”类别相关联的概念。因此，通过识别概念，您可以分析您的公司，并找出您的公司所讨论的更广泛的背景，例如，“技术”。

vii. 主题提取

主题是文档中的主要思想。主题可以是具体概念，如 Oracle 公司、爵士乐、足球、英格兰或纳尔逊·曼德拉；主题可以是抽象概念，如成功、快乐、动机或统一。主题也可以是世界范围内常见的组合，如化学、植物学或水果。

主题是具有上下文相关性分数的文本中的名词短语或单词。主题提取告诉您文本中使用的重要单词或短语。提取后的主题会根据上下文相关性进行评分。主题与分类器的区别在于，主题告诉您正在使用的确切短语或单词，而分类器则识别广泛的主题。

主题在发现目的方面非常有用。主题将允许您实际看到对话中存在一个新的方面，这可能很重要，而您的分类器将无法捕捉到。

主题在揭示文本中的实际上下文方面做得非常好。随着上下文评分信息的添加，主题在从文本中查找重要上下文以及比较一段时间内相似文本方面更加有用。

viii. 聚类

聚类被定义为将对象组织成组的过程，并且每个组中的对象在某种程度上与其他组中的对象相似。因此，簇是对象的集合，这些对象彼此相似，而与其他簇中的对象不相似。聚类有助于识别未标记文本集合中的结构。

聚类技术用于对集合中的相似文档进行分组，但它与分类不同之处在于它是在实时对文档进行聚类，而不是使用预定义的主题。

聚类工具通过识别哪些文档是相关的，哪些是不相关的，来帮助用户快速缩小文档范围。

聚类可以通过使用各种算法进行，这些算法在它们对簇的定义以及如何有效地找到它们方面存在显着差异。

3. 知识发现（挖掘和分析）

预处理（信息检索和信息提取）是文本挖掘中发现知识的重要组成部分，正如从上一节关于预处理（信息检索和信息提取）中可以理解的。通过信息提取，我们可以以相当高的准确度从已识别的实体以及文本集合中不同实体之间的关系中挖掘知识。然而，提取的信息可以通过使用传统的挖掘技术/算法进一步分析，以发现更有用的信息。如果需要发现的知识直接从要挖掘的文本集合中表达出来，那么仅信息提取就可以作为一种有效的方法来发现文本集合中的知识。然而，如果文本集合包含与现实相关的数据而不是概念知识，那么使用信息提取将其转换为结构化形式并存储在数据库中，然后使用传统挖掘工具来识别提取数据中的趋势和模式可能是有益的。

预处理任务在将文档集合中的原始非结构化文本数据转换为更易于管理的级别表示方面发挥着重要作用，文本挖掘系统的核心功能在于分析集合中文档之间的概念共现模式。文本挖掘系统依赖于算法和启发式方法来考虑文档之间的概念分布、频繁集和各种关联，以使用户能够发现文档集合整体所反映的概念的性质和关系。例如，从各种新闻文章中，您可以发现许多关于政治家 X 和“丑闻”的文章。这显然表明政治家 X 的负面形象，因此提醒他的经理们采取新的公共关系宣传活动。再例如，您可能会遇到许多关于公司 Y 及其产品 Z 的文章，这可能表明公司 Y 的兴趣发生了转变。这种关注点的转变可能值得其竞争对手注意。在另一个例子中，可以通过理解以下模式来识别两个蛋白质 P1 和 P2 之间的潜在关系：

a) 多篇文章提及蛋白质 P1 与酶 E1 相关；

b) 几篇文章描述了酶 E1 和 E2 之间的功能相似性，而没有提及任何蛋白质名称；

c) 多篇文章将酶 E2 与蛋白质 P2 联系起来。

在所有这三个例子中，信息都不是由任何单个文档提供的，而是由集合的整体提供的。文本挖掘模式分析方法力求发现文本集合整体所反映的概念之间的共现关系。

在文本挖掘中，趋势分析依赖于文本集合中文档的日期和时间戳，以便对一个时期的一组文档和另一个时期的一组文档进行比较。跨文档子集进行趋势分析试图回答某些类型的问题。

例如，

两个时期之间（由两个不同的文档子集表示）的新闻主题的总体趋势是什么？
两个时期的新闻主题是否几乎相同，还是差异很大？
能否识别新兴和消失的主题？
两个时期中是否有主题保持相同的出现水平？

正如上面的问题所示，“新闻主题”是个体，是文档集合中的特定概念。不同类型的趋势分析试图比较不同时期文档子集中文档中这些概念的频率（即出现次数）。数据挖掘衍生的其他几种类型的分析可用于支持趋势分析，如短暂关联发现和偏差检测。

文本挖掘系统中挖掘过程围绕着促进查询创建的算法，以在文本文档集合中发现模式。挖掘组件包括多种方法，用于发现给定文本文档集合或文档集合子集中概念出现模式。文本挖掘中最常见的模式类型是分布（和比例）、频繁和近乎频繁的集合以及关联。

文本挖掘系统还提供了发现多种模式类型的功能，以便用户能够在一个给定的概念或一组概念的显示之间切换不同类型的模式，从而提供最丰富的文本数据集合的探索性访问。

4. 呈现/可视化

浏览是文本挖掘系统支持的关键功能之一。许多文本挖掘系统支持动态和基于内容的浏览，因为浏览是由特定文档集合中的实际文本内容引导的，而不是由预期或预定义的结构引导的。浏览通过以层次结构的形式提供概念模式的图形表示来帮助用户，以帮助组织概念以进行调查和分析。

浏览也应该是可导航的。文本挖掘系统为用户提供了从大量文本文档集合中提取的大量概念集。因此，文本挖掘系统必须为用户提供跨这些概念移动的工具，以便用户可以选择集合的“全景”视图，或者深入研究特定且可能非常稀疏识别的概念关系。

文本挖掘系统使用可视化工具来促进导航、概念模式的探索和图形表示，以表达复杂的数据关系。如今，文本挖掘系统严重依赖高度交互式的图形表示，允许用户拖动、拉动、单击或以其他方式直接与概念模式的图形表示进行交互。

文本挖掘系统中的呈现层作为执行知识发现算法的前端，因此在提供更友好的呈现用户界面方面付出了巨大的努力，并提供了更强大的执行这些算法的方法。这些方法可能需要开发专用的查询语言来支持特定类型的模式发现查询的高效参数化和执行。

此外，如今文本挖掘系统被设计为向用户提供对其查询语言界面的直接访问。文本挖掘前端还可以为用户提供使用聚类工具进行概念聚类的功能，用户可以创建概念或概念关系的自定义配置文件，以创建更丰富的交互式探索知识环境。

最后，一些文本挖掘系统为用户提供了创建和操作细化约束的功能，这将有助于生成更易于管理和更有用的结果集以供浏览，以及用于创建、塑造和参数化查询。通过包含下拉菜单、单选按钮或上下文或查询敏感列表等图形元素，可以使这些细化约束的使用更加用户友好。

5. 领域和背景知识

文本挖掘系统中的概念不仅属于特定文档的描述性属性，而且通常还属于领域。在文本挖掘的背景下，领域可以定义为一个专门的兴趣区域，在该区域中可以开发信息本体、词典和分类法。领域可以包括非常广泛的主题（例如，生物学）或更狭窄的专业领域（例如，基因组学或蛋白质组学）。除此之外，还有其他领域文本挖掘的应用领域，包括金融服务（具有重要的子领域，如公司金融、证券交易和商品）、世界事务、国际法、反恐研究、专利研究和材料科学。许多文本挖掘系统可以使用这些领域的正式外部知识源的信息，从而在很大程度上改进其预处理、知识发现和呈现层操作的各个方面。在文本挖掘预处理任务中，领域知识可以用于增强概念提取和验证活动。访问背景知识在开发更有意义、一致和标准化的概念层次结构方面起着重要作用。高级文本挖掘应用程序，通过本体和词典关联特征，可以在预处理操作中创建更完整的文档集合表示，并支持增强的查询和细化功能。事实上，在文本挖掘系统中，不同的组件可以利用背景知识中包含的信息。背景知识是分类和概念提取方法的重要补充，也可以用于增强核心挖掘算法和浏览操作。此外，面向领域的信息作为搜索细化技术的主要基础之一。此外，背景知识可能用于在知识发现操作中构建有意义的约束。同样，背景知识也可能用于制定允许用户在浏览大型结果集时获得更大灵活性的约束。

商业应用

文本挖掘可用于以下商业领域：

出版和媒体。
电信、能源和其他服务行业。
信息技术部门和互联网。
银行、保险和金融市场。
政治机构、政治分析家、公共管理和法律文件。
制药和研究公司以及医疗保健。

我们将描述一些在特定商业领域广泛使用的商业应用。

a. 知识和人力资源管理

以下是该领域的一些应用：

i. 竞争情报

今天的组织非常渴望了解他们在市场上的表现，相对于他们向客户提供的产品和服务。他们希望收集关于自身的信息，以找出是否有必要根据市场需求以及市场提供的机会来重新组织和调整他们的战略。除此之外，他们还对收集有关市场和竞争对手的信息感兴趣。他们还必须管理大量数据，处理和分析这些数据以获得有用的见解并制定新计划。竞争情报的目标是从各种相关数据源中提取相关信息。一旦收集了材料，就会将其归入类别以开发数据库，并分析数据库以获得针对公司战略的特定和关键信息。

典型的查询涉及产品、竞争对手的投资领域、市场上的现有合作伙伴关系、相关的财务指标以及具有特定能力特征的公司员工姓名。在拥有文本挖掘系统之前，组织会有一个部门专门负责持续监控信息（财务、地缘政治、技术和经济），并通过人工操作来回答来自不同业务领域的问题。手动整理文件以满足用户需求和偏好并将其整理成可操作的报告的过程非常耗时，并且当需要频繁更新时，其工作量会大大增加。随着文本挖掘系统的引入，与手动操作员先前取得的成果相比，投资回报是显而易见的。

ii. 人力资源管理

文本挖掘技术也用于战略性地管理人力资源，主要应用于分析员工意见、监测员工满意度水平以及阅读和存储简历以进行新员工选拔。在人力资源管理领域，文本挖掘技术通常用于通过对非正式文件进行系统分析来监测公司的健康状况。

b. 客户关系管理 (CRM)

CRM 领域的文本挖掘最广泛应用于客户消息内容管理和分析相关领域。此类分析通常旨在自动将特定请求路由到相应的服务，或为最常见的问题提供即时答案。服务研究已成为计算机科学和 IT 进步应用的绿色领域。

CRM 实践，特别是联系中心（呼叫中心），已成为知识管理、分析和数据挖掘领域创新的热点。在当今联系中心中，从各种来源生成的非结构化文本文档在数量上呈爆炸式增长。公司越来越希望理解和分析这些内容，以获得运营和业务洞察。客户，作为产品和服务的最终消费者，正受到越来越多的关注。

围绕客户的商业分析应用催生了客户体验管理、客户关系管理和客户服务质量等领域。这些对于竞争增长，甚至有时是生存，都变得至关重要。具有此类客户焦点的应用在服务公司中尤为明显，特别是在 CRM 实践和联系中心。

c. 市场分析

市场分析中的文本挖掘主要用于监控客户意见，识别潜在新客户，分析竞争对手，并通过分析新闻评论和其他相关来源来确定组织的形象。大多数组织会进行电话营销和电子邮件活动来获取新客户。随着文本挖掘系统的引入，组织能够回答与更复杂的市场场景相关的查询。

数据挖掘技术帮助我们从各种数据库中提取有用的信息。数据仓库在数值信息方面取得了成功，但在处理文本信息方面却失败了。21 世纪已经让我们超越了网络上的有限信息量。这在某种程度上是件好事，因为更多信息可以提供更大的认识和更好的知识。网络上有关于市场营销的信息，例如行业白皮书、与市场相关的学术出版物、行业期刊、市场新闻文章、评论，甚至还有关于客户需求和公众意见。

文本挖掘技术可以帮助营销专业人士利用这些信息来获得有用的见解。

市场分析包括以下内容：

分析的数据源在哪里？

信用卡交易、会员卡、折扣券、客户投诉电话，以及（公共）生活方式研究。

目标营销

查找具有相同特征（兴趣、收入水平、消费习惯等）的“模型”客户群。

确定客户随时间的购买模式。

单人账户转为联名账户：结婚等。

跨市场分析

产品销售之间的关联/相关性。
基于关联信息的预测。
财务规划和资产评估。

d. 保修或保险索赔、诊断医疗访谈等。

在某些商业领域，大部分可用信息是未定义文本形式的。例如，在保修或保险索赔过程中，申请人会被保险代理人面试，代理人会记录与索赔相关的所有细节，形式为简要描述。同样，在患者医疗访谈中，陪同人员会记录患者健康问题的简要描述；或者当您将车辆送去维修站维修时，服务人员会记录您提出的问题以及需要维修的内容。然后将这些笔记以电子方式收集并输入文本挖掘系统。可以利用这些信息来识别某些车辆常见的有问题和投诉的集群。同样，在医疗领域，可以从收集的关于患者疾病症状的开放式描述中提取有用的信息，这可能有助于实际的医疗诊断。

e. 情感分析

情感分析或观点挖掘是一项自然语言处理或信息提取任务，有助于提取作者在文档集合中表达的赞成或反对的观点或感受。通常，情感分析的目标是获得作者对几个主题的看法，或文档中包含的整体上下文极性。作者的观点可能源于他/她拥有的知识、他/她写作时的情绪状态，或者作者想向读者传达的意图情绪。

在情感分析中，可以在文档级别通过对文档文本中表达的观点的极性进行分类来获得情感，也可以在句子或实体特征级别来查找所表达的观点是积极、消极还是中性。此外，还可以根据作者表达的情绪状态（如高兴、沮丧和恼怒）进行情感分类。情感分析还可以基于作者表达的主观或客观观点进行。情感分析识别文本中带有某种情感的短语。作者可能谈论一些客观事实或主观观点。区分两者是必要的。SA 找出情感指向的对象。一篇文本可能包含许多实体，但必须找出情感指向的实体。它识别情感的极性和程度。情感被分类为主观（事实）、积极（表示作者的幸福、快乐或满意状态）或消极（表示作者的悲伤、沮丧或失望状态）。

捕获情感的另一种方法是使用评分方法，其中情感根据其积极性、消极性或客观性程度进行评分。在这种方法中，一段文本被分析，然后对文本中包含的概念进行后续分析，以理解情感词以及这些词与概念的关系。然后，根据情感词与相关概念之间的关系，为每个概念赋予分数。

情感分析，也称为客户之声，在客户购买决策中起着重要作用。过去几年，互联网使用量呈指数级增长，大量用户在互联网上分享他们的观点，这是出于商业目的使用情感分析的推动因素。消费者经常在社交网站上分享他们对企业、产品和服务的态度、反应或观点。消费者在做出购买决策时，自然会受到在线资源（如评论网站、博客和社交网站）上表达的观点的影响。因此，情感分析可用于营销，以了解消费者态度和趋势；用于产品评论的市场；以及用于社交媒体，以了解对近期热门话题的普遍看法。

商业应用的算法/模型

本节介绍用于某些商业应用的多种算法/模型。

a. 聚类算法

聚类模型可用于客户细分、分析行为数据、识别客户群并根据数据模式提出解决方案。聚类算法包括：

i. K-均值

这是一种高效且可能是最快的聚类算法，可以同时处理长（大量记录）和宽（大量数据维度和输入字段）的数据集。它是一种基于距离的聚类技术。要形成的簇的数量是用户预先确定的。通常应尝试并评估多种不同的解决方案，然后再批准最合适的。它最适合处理连续聚类字段。

ii. TwoStep

顾名思义，这种可扩展且高效的聚类模型分两步处理记录。第一步是预聚类，对数据进行一次传递，并将记录分配给有限数量的初始子簇。在第二步中，通过层次聚类将初始子簇进一步分组，形成最终的细分。它通过自动聚类建议聚类解决方案：根据特定标准，算法可以自动确定最佳簇数量。

iii. Kohonen 网络/自组织映射

Kohonen 网络基于神经网络，通常会生成一个二维的簇网格或地图，因此得名自组织映射。Kohonen 网络通常比 K-均值和 TwoStep 算法需要更长的训练时间，但它们提供了不同的聚类视图，值得尝试。

b. 获客模型

获客模型可用于识别具有与现有有价值客户相似特征的潜在盈利客户。

c. 交叉销售和追加销售模型

这些模型可用于识别有购买潜力购买推荐的相似或升级产品的现有客户。客户流失模型可用于识别最有可能离开关系的客户。

d. 分类算法

分类算法可用于获客/交叉销售/追加销售/客户流失模型，包括：

i. 神经网络

神经网络是强大的机器学习算法，它们使用复杂的非线性映射函数进行估计和分类。

这些模型估计连接预测变量（输入层）到输出的权重。将具有已知结果的输入记录呈现给网络，并根据观察到的结果评估模型预测。观察到的错误用于调整和优化初始权重估计。

ii. 决策树

决策树通过递归地分割初始总体来工作。对于每次分割，它们会自动选择最显著的预测变量，即能最好地分离目标字段的预测变量。通过连续分区，它们的目标是产生“纯”的子段，在输出方面具有同质行为。它们可能是最受欢迎的分类技术。它们受欢迎的部分原因在于它们产生透明且易于解释的结果，从而深入了解所研究的事件。

iii. 逻辑回归

这是一种强大且成熟的统计技术，用于估计目标类别的概率。它类似于简单线性回归，但用于分类结果。它使用广义线性模型并计算回归系数，这些系数代表预测变量对目标字段类别概率的影响。逻辑回归结果以连续函数的形式表示，该函数估计属于每个目标结果的概率。

iv. 贝叶斯网络

贝叶斯模型是概率模型，可用于分类问题以估计事件发生的可能性。它们是图形模型，提供了属性关系的视觉表示，确保了透明度，并解释了模型的逻辑。

e. 关联模型

关联模型可用于识别通常一起购买的相关产品，以及识别可以一起销售的产品。通过使用关联分析，如果客户购买了某个特定产品，就可以向他们提供相关产品。关联算法包括：

i. Apriori

Apriori 是学习关联规则的经典算法。Apriori 设计用于处理包含事务（例如，客户购买的商品集合，或网站频繁访问的详细信息）的数据库。Apriori 算法的目的是查找不同数据集之间的关联，并从大量数据中提取有用信息。例如，通过关联规则可以获得这样的信息：购买特定产品的客户也倾向于同时购买相关产品。

ii. 序列模型

序列建模技术用于识别事件/购买/属性随时间变化的关联。序列模型考虑了行为/购买的顺序，并可以识别事件序列，例如当某些事件按特定顺序发生时，某个特定事件发生的概率会增加。这些技术还可以作为预测客户下一个预期“举动”的手段。

文本挖掘工具

在本节中，我们将介绍市场上一些商业和开源文本挖掘工具的特性、使用的技术和商业应用。

a. 商业文本挖掘工具

文本挖掘工具	特性、技术和应用
Angoss	Angoss 使用实体和主题提取、主题分类、情感分析和文档摘要等技术。此工具将非结构化、基于文本的分析的输出与结构化数据合并，以提供额外的预测变量，从而改进预测模型和关联分析。Angoss 帮助企业从其数据中发现有价值的见解和情报，同时提供关于要追求的最佳和最有利可图机会的清晰详细建议，以提高销售、营销和风险绩效。其应用领域包括：客户细分、客户获取、交叉销售/追加销售最佳推荐、渠道绩效、客户流失/忠诚度以提高客户保留和忠诚度、提高销售生产力等。
Attensity	此工具能够从非结构化数据中提取事实、关系和情感，并为社交客户关系管理提供社交分析和参与应用程序。此工具使用自然语言处理技术来处理博客、在线论坛和社交媒体中的集体智能，调查和电子邮件中的客户之声，客户体验管理，电子服务，研究和电子发现风险与合规性以及情报分析。
Autonomy	此工具使用聚类、分类和模式识别（基于贝叶斯推理）技术。应用领域包括企业搜索和知识管理。
Basis	此工具使用词语/token/短语/实体搜索、实体提取、实体翻译和 NLP 技术进行信息检索、文本挖掘和搜索引擎。此工具使用人工智能技术来理解不同语言的文本。Basis 工具广泛用于法证分析，并有助于从硬盘或闪存卡等数据存储设备以及智能手机等设备中识别和提取线索。
Clarabridge	Clarabridge 使用自然语言 (NLP)、机器学习、聚类和分类等技术。此工具广泛用于 CRM 和情感分析。
Cogito	Expert systems 旗下的 Cogito 产品系列使用自然语言搜索、自动分类、数据/元数据提取和自然语言处理等技术。应用领域包括 CRM、产品开发、营销等。
IBM SPSS	IBM SPSS 文本分析工具使用先进的 NLP 技术，如多语言情感、事件和事实提取、分类等。SPSS 广泛用于社会科学的统计分析。其应用领域包括市场研究、健康研究、调查、营销等。
Inxight (SAP)	Inxight 使用自然语言处理、信息检索、分类和摘要以及聚类技术。此工具能够识别词干、词性、名词短语。它还可以识别文本中的实体和语法模式，如事实、事件、关系和情感。Inxight 用于分析呼叫中心和在线客户聊天会话中的客户互动，这种分析可以更早地发现客户不满以及产品和定价问题，从而更快地采取主动的产品变更和客户沟通。Inxight 的文本分析还用于发现电子邮件中的风险领域，例如违反内部或外部规定政策的私人或敏感数据离开组织。
Lexalytics	Lexalytics 使用自然语言处理技术从文本中提取实体（人物、地点、公司、产品等）、情感、引语、观点和主题（通常是名词短语）。Lexalytics 文本分析引擎用于社交媒体监控、客户之声、调查分析、制药研发和其他应用。
Megaputer	Megaputer 提供语言和语义信息检索、文档聚类和分类、摘要、实体提取、模式可视化等技术。Megaputer 的应用领域包括：调查分析、呼叫中心分析、投诉分析、竞争情报、市场细分、交叉销售分析、欺诈检测、风险评估等。
SAS Text Miner	SAS Text Miner 是 SAS Enterprise Miner 环境的一个附加组件。SAS 使用信息检索、信息提取、分类和摘要技术从文本中提取有用信息。SAS Text Miner 的功能包括：词干提取；自动识别多词术语；日期、货币、百分比和年份等各种实体的标准化；词性标注；组织、产品、社会安全号码、时间、头衔等实体的提取；支持同义词；特定语言的分析。SAS Text Miner 的应用领域包括：过滤电子邮件；按主题将文档分组到预定义类别；路由新闻项；对数据库中的研究论文、调查数据以及客户投诉和评论进行聚类分析；根据商业新闻公告预测股市价格；根据客户评论预测客户满意度；根据呼叫中心日志预测成本。
VantagePoint	VantagePoint 是用于从几乎任何结构化文本数据库中发现知识的桌面文本挖掘软件。它使用自然语言处理技术来提取词语/短语以及它们之间的既有关系。它使用共词文献计量学/共现统计数据来查找关系。VantagePoint 使您能够快速找到谁、什么、何时和何地，从而使您能够澄清关系并找到关键模式——将您的信息转化为知识。
DiscoverText	DiscoverText 是一个基于云的协作文本分析解决方案，能够生成关于客户、产品、员工、新闻、公民等的宝贵见解。凭借数十种强大的文本挖掘功能，DiscoverText 软件解决方案提供了快速准确地做出更好决策的工具。DiscoverText 的概念提取和独特的积极学习功能可以处理海量社交媒体、数千份调查回复、客户服务请求流、电子邮件或其他电子文本。
Eaagle	Eaagle 是一家提供领先文本挖掘技术的软件公司，服务于 CRM、营销和研究专业人士。Eaagle 是一项在线服务，能够自动、客观地分析和分类原文，无需任何先决条件，并生成图表、词云等自动报告，以及一份专有的、与移动浏览器兼容的报告，您的客户可以在 iPad 或智能手机上查看。Eaagle Full Text Mapper 可自动映射数据，使您能够按主题分析全文本数据集，并生成自定义报告。

b. 开源文本挖掘工具

文本挖掘工具	特性、技术和应用
Gate	GATE（General Architecture for Text Engineering）是一款用于自然语言处理和语言工程的开源工具箱。Gate 使用信息提取和机器学习技术从文本中提取有用信息。Gate 的信息提取组件 ANNIE 包括分词器、词典、句子分割器、词性标注器、命名实体转换器和共指消解器。一些应用领域包括药物研究、癌症研究、招聘和决策支持。
RapidMiner	RapidMiner 的 Text Extension 提供了统计文本分析所需的所有操作符。您可以从不同的数据源或数据集加载文本，使用大量的不同过滤技术进行转换，最后分析您的文本数据。Text Extension 支持多种文本格式，包括纯文本、HTML 或 PDF。它还提供标准过滤器，用于分词、词干提取、停用词过滤或 n-gram 生成。
OpenNLP	Apache OpenNLP 库是一个基于机器学习的工具包，用于处理自然语言文本。它支持最常见的 NLP 任务，如分词、句子分割、词性标注、命名实体提取、短语提取、语法分析和共指消解。
Carrot2	Carrot2 是一个开源的搜索结果聚类引擎。它可以自动将少量文档（例如搜索结果或文档摘要）聚类到主题类别中。除了两个专门的搜索结果聚类算法外，Carrot2 还提供了现成的组件，用于从各种来源获取搜索结果。
NLTK	NLTK（The Natural Language Toolkit）是用于 Python 编程语言的符号和统计自然语言处理 (NLP) 的库和程序套件。NLTK 包括图形演示和示例数据。NLTK 旨在支持 NLP 或相关领域的研究和教学，包括经验语言学、认知科学、人工智能、信息检索和机器学习。NLTK 已成功用作教学工具、个人学习工具以及用于原型开发和构建研究系统的平台。
编程语言“R”	编程语言“R”在 tm 包中为文本挖掘应用程序提供了框架。

参考文献

1. 《文本挖掘手册——非结构化数据分析的高级方法》— Ronen Feldman, James Sanger。

2. 《挖掘文本挖掘的力量》— Weiguo Fan, Linda Wallace, Stephanie Rich, and Zhongju Zhang。

3. 《文本挖掘技术与应用调查》-- Vishal Gupta, Gurpreet S. Lehal。

4. 《噪声文本的无监督清洗》— Danish Contractor, Tanveer A. Faruquie, Venkata Subramaniam。

5. 《文本分析——初学者指南》— Agnoss。

6. 《文本分析——情感提取——衡量内容的语气》— Agnoss。

7. 《人工生成噪声用于清洗噪声文本的实验》— Phani Gadde, Rahul Goutam, Rakshit Shah, Hemanth Sagar, L. V. Subramaniam。

8. 《文本分类特征选择的比较研究》— Yiming Yang, Jan O. Pedersen。

9. http://searchbusinessanalytics.techtarget.com/definition/t ext-mining。

10. http://guides.library.duke.edu/content.php?pid=383688&s id=3143978。

11. http://en.wikipedia.org/wiki/Stop_words。

12. http://en.wikipedia.org/wiki/Stemming。

13. http://consultingblogs.emc.com/manjunathasubbarya/arc hive/2011/03/04/stemming-and-lemmatization.aspx。

14. http://www.techopedia.com/definition/13698/tokenizatio n。

15. http://en.wikipedia.org/wiki/Tokenization

结论

文本挖掘是一项新兴的技术领域，仍处于早期阶段，并具有固有的复杂性，与任何新兴技术在相关术语和概念标准化之前的情况类似。由于文本挖掘涉及处理不同文本中的不同问题，因此目前没有一种公认/确定的定义来涵盖所有内容。同样，市场上提供的各种文本挖掘工具差异很大，并且采取的路径略有不同。一些基本的文本挖掘技术，如实体提取、实体之间的关系、分类、聚类、摘要等，已经经过大量的研究和学习，能够有效地从纯文本中揭示有用的信息。然而，互联网上可用的大量信息带来了更多的挑战和机遇，这个领域还需要进行更多的研究和学习。由于文本挖掘也被认为是数据挖掘的姊妹技术，一些主要供应商，已经具备数据挖掘能力，正在将文本挖掘与数据挖掘相结合，以延长从数据中发现知识的价值。自动文本挖掘技术要达到与人类在文本数据中发现知识的能力相媲美，还需要很长的路要走，即使在不使用任何特定领域知识的情况下也是如此。