网站首页 > 云计算 > 云计算技术 NLP小白入门篇：莫愁前路，一文读懂语料预处理正文

NLP小白入门篇：莫愁前路，一文读懂语料预处理

admin 2020/09/07 云计算技术 293℃

�[db:标签]�[db:标签]��语言处理是人工智能的皇冠上的宝石，语料库预处理是自然语言处理的基础。

机器能和人类交流吗？你能像人类一样理解文本吗？这是人工智能最初的想象。如今，自然语言处理技术可以作为人和机器之间的桥梁。环顾生活，我们可以享受自然语言处理技术带来的便利，如语音识别、机器翻译、问答系统等。

这些技术似乎难以理解，但它们都有规则可循。当你理解了算法的基本原理，你可能会突然意识到，嗨！不难理解。

现在您可以跟随这篇文章来探索如何构建自然语言处理技术(语料库预处理)的基础。在接下来的文章中，我们将逐步介绍自然语言处理中的特征提取和最新算法的解释。

语料库，顾名思义，就是我们通常所说的文本，具有描述性特征的文本可以归入语料库。然而，该原始文本不能直接用于训练模型，因此需要预处理。

语料库的预处理方法主要包括数据清洗、分词、词性标注、停用词等。

corpus cleAning

corpus cleaning意味着在语料库中保留有用的数据并删除噪音数据。常用的清洗方法有:手工去除复制、对齐、删除、贴标签等。

以下面的文字为例。本文不仅包含中文字符，还包含非常规字符，如数字、英文字符和标点符号，这些都是没有意义的信息，需要清理。

与上述情况一样，清理方法主要是通过正则表达式。您可以编写一个简短的Python脚本来解决这个问题。代码如下:

清洗后的结果:

除了上述需要清洗的表格外，噪声数据还包括文本重复、错误、缺失、异常等。清理方法包括手工处理，或开发小工具和编写一个简短的小程序，所有这些都可以用于数据清理。

分词

清除数据后，您可以继续下一步:文本分词。文本分割，即把文本分割成单词。常用的分词方法有基于规则和基于统计的分词方法，统计样本内容来自一些标准的语料库。

例如，在“小明住在朝阳区”这句话中，我们期望语料库统计后的分词结果是“小明/住在朝阳区”，而不是“小明/住在朝阳区/朝阳区”。那么如何做到这一点呢？

从统计学的角度来看，它可以通过条件概率分布来求解。对于一个新句子，我们可以通过计算各种分词方法对应的联合分布概率，找到最大概率对应的分词方法，即最优分词。到目前为止，研究人员已经开发了许多实用的分词工具，这些工具很容易使用。如果您对分词没有特殊要求，可以直接使用这些分词工具。

各种分词工具的列表。

词性标注是指为切分结果中的每个单词标注正确词性的过程，即确定每个单词是名词、动词、形容词还是其他词性。

词性标注有许多重要的功能。

首先，消除歧义。有些词在不同的上下文或用法中有不同的含义。例如，在这两句话中，“狗的名字是快乐的”和“我今天很快乐”，“快乐”意味着不同的事情。我们可以通过词性标注来区分它们。

第二，加强基于单词的特征。以上面的句子为例。如果不进行词性标注，两个“快乐”词将被视为词频为2的同义词，这将在后续分析中引入错误。

此外，词性标注还具有标准化、形态恢复和有效去除停用词的功能。

常用的词性标注方法包括基于规则和基于统计的算法，如最大熵词性标注和隐马尔可夫模型词性标注。

接下来，让我们看一个词性标注的例子。你也可以自己试试:http://ictclas.nlpir.org/nlpir/“去阻止文字”当我们人类收到信息时，我们会过滤掉无效的信息和有用的信息。对于自然语言来说，停止单词是一个明智的操作。不管是汉语还是英语，一篇课文都有一些无意义的词，如连词、虚词和语气词，如“得”、“把”、“但是”等

但是我们应该仔细决定删除什么样的停止词。

下图列出了一些常用的非索引字表。您可以参照要求选择要删除的停止字。

词频统计

词频统计是统计分词后文本的词频，目的是找出对文本影响最大的词，是文本挖掘的重要手段。统计这些词的出现频率可以帮助我们理解文章中强调的是什么，进而便于后续模型的构建。

例如，我们可以统计一下四大名著之一《《红楼梦》》中的前28个字，结果如下:

从上图中，我们可以看出《《红楼梦》》中哪个人物的篇幅最大，哪个人物曹雪芹比较注意。尽管我们不是红学专家，但我们可以从统计词频中分析一些关键信息。

“高楼从地面升起”，对于这座自然语言处理的摩天大楼来说，理解其背后的实现原理可能有助于你更好地理解其建造过程。

NLP小白入门篇：莫愁前路，一文读懂语料预处理

猜你喜欢