网站首页 > 云计算 > 云计算技术 NLP小白入门篇:莫愁前路,一文读懂语料预处理 正文

NLP小白入门篇:莫愁前路,一文读懂语料预处理

admin 2020/09/07 云计算技术 293℃

[db:标签][db:标签]语言处理是人工智能的皇冠上的宝石,语料库预处理是自然语言处理的基础。

机器能和人类交流吗?你能像人类一样理解文本吗?这是人工智能最初的想象。如今,自然语言处理技术可以作为人和机器之间的桥梁。环顾生活,我们可以享受自然语言处理技术带来的便利,如语音识别、机器翻译、问答系统等。

这些技术似乎难以理解,但它们都有规则可循。当你理解了算的基本原理,你可能会突然意识到,嗨!不难理解。

现在您可以跟随这篇文章来探索如何构建自然语言处理技术(语料库预处理)的基础。在接下来的文章中,我们将逐步介绍自然语言处理中的特征提取和最新算法的解释。

语料库,顾名思义,就是我们通常所说的文本,具有描述性特征的文本可以归入语料库。然而,该原始文本不能直接用于训练模型,因此需要预处理。

语料库的预处理方法主要包括数据清洗、分词、词性标注、停用词等。

corpus cleAning

corpus cleaning意味着在语料库中保留有用的数据并删除噪音数据。常用的清洗方法有:手工去除复制、对齐、删除、贴标签等。

以下面的文字为例。本文不仅包含中文字符,还包含非常规字符,如数字、英文字符和标点符号,这些都是没有意义的信息,需要清理。

与上述情况一样,清理方法主要是通过正则表达式。您可以编写一个简短的Python脚本来解决这个问题。代码如下:

清洗后的结果:

除了上述需要清洗的表格外,噪声数据还包括文本重复、错误、缺失、异常等。清理方法包括手工处理,或开发小工具和编写一个简短的小程序,所有这些都可以用于数据清理。

分词

清除数据后,您可以继续下一步:文本分词。文本分割,即把文本分割成单词。常用的分词方法有基于规则和基于统计的分词方法,统计样本内容来自一些标准的语料库。

例如,在“小明住在朝阳区”这句话中,我们期望语料库统计后的分词结果是“小明/住在朝阳区”,而不是“小明/住在朝阳区/朝阳区”。那么如何做到这一点呢?

从统计学的角度来看,它可以通过条件概率分布来求解。对于一个新句子,我们可以通过计算各种分词方法对应的联合分布概率,找到最大概率对应的分词方法,即最优分词。到目前为止,研究人员已经开发了许多实用的分词工具,这些工具很容易使用。如果您对分词没有特殊要求,可以直接使用这些分词工具。

各种分词工具的列表。

词性标注是指为切分结果中的每个单词标注正确词性的过程,即确定每个单词是名词、动词、形容词还是其他词性。

词性标注是指为切分结果中的每个单词标注正确词性的过程,即确定每个单词是名词、动词、形容词还是其他词性。

词性标注有许多重要的功能。

首先,消除歧义。有些词在不同的上下文或用法中有不同的含义。例如,在这两句话中,“狗的名字是快乐的”和“我今天很快乐”,“快乐”意味着不同的事情。我们可以通过词性标注来区分它们。

第二,加强基于单词的特征。以上面的句子为例。如果不进行词性标注,两个“快乐”词将被视为词频为2的同义词,这将在后续分析中引入错误。

此外,词性标注还具有标准化、形态恢复和有效去除停用词的功能。

常用的词性标注方法包括基于规则和基于统计的算法,如最大熵词性标注和隐马尔可夫模型词性标注。

接下来,让我们看一个词性标注的例子。你也可以自己试试:http://ictclas.nlpir.org/nlpir/“去阻止文字”当我们人类收到信息时,我们会过滤掉无效的信息和有用的信息。对于自然语言来说,停止单词是一个明智的操作。不管是汉语还是英语,一篇课文都有一些无意义的词,如连词、虚词和语气词,如“得”、“把”、“但是”等

但是我们应该仔细决定删除什么样的停止词。

下图列出了一些常用的非索引字表。您可以参照要求选择要删除的停止字。

词频统计

词频统计是统计分词后文本的词频,目的是找出对文本影响最大的词,是文本挖掘的重要手段。统计这些词的出现频率可以帮助我们理解文章中强调的是什么,进而便于后续模型的构建。

例如,我们可以统计一下四大名著之一《《红楼梦》》中的前28个字,结果如下:

从上图中,我们可以看出《《红楼梦》》中哪个人物的篇幅最大,哪个人物曹雪芹比较注意。尽管我们不是红学专家,但我们可以从统计词频中分析一些关键信息。

“高楼从地面升起”,对于这座自然语言处理的摩天大楼来说,理解其背后的实现原理可能有助于你更好地理解其建造过程。

网站地图