[db:标签][db:标签]语言处理是人工智能的皇冠上的宝石,语料库预处理是自然语言处理的基础。
机器能和人类交流吗?你能像人类一样理解文本吗?这是人工智能最初的想象。如今,自然语言处理技术可以作为人和机器之间的桥梁。环顾生活,我们可以享受自然语言处理技术带来的便利,如语音识别、机器翻译、问答系统等。
这些技术似乎难以理解,但它们都有规则可循。当你理解了算法的基本原理,你可能会突然意识到,嗨!不难理解。
现在您可以跟随这篇文章来探索如何构建自然语言处理技术(语料库预处理)的基础。在接下来的文章中,我们将逐步介绍自然语言处理中的特征提取和最新算法的解释。
语料库,顾名思义,就是我们通常所说的文本,具有描述性特征的文本可以归入语料库。然而,该原始文本不能直接用于训练模型,因此需要预处理。
语料库的预处理方法主要包括数据清洗、分词、词性标注、停用词等。
corpus cleAning
corpus cleaning意味着在语料库中保留有用的数据并删除噪音数据。常用的清洗方法有:手工去除复制、对齐、删除、贴标签等。
以下面的文字为例。本文不仅包含中文字符,还包含非常规字符,如数字、英文字符和标点符号,这些都是没有意义的信息,需要清理。
与上述情况一样,清理方法主要是通过正则表达式。您可以编写一个简短的Python脚本来解决这个问题。代码如下:
清洗后的结果:
除了上述需要清洗的表格外,噪声数据还包括文本重复、错误、缺失、异常等。清理方法包括手工处理,或开发小工具和编写一个简短的小程序,所有这些都可以用于数据清理。
分词
清除数据后,您可以继续下一步:文本分词。文本分割,即把文本分割成单词。常用的分词方法有基于规则和基于统计的分词方法,统计样本内容来自一些标准的语料库。
例如,在“小明住在朝阳区”这句话中,我们期望语料库统计后的分词结果是“小明/住在朝阳区”,而不是“小明/住在朝阳区/朝阳区”。那么如何做到这一点呢?
从统计学的角度来看,它可以通过条件概率分布来求解。对于一个新句子,我们可以通过计算各种分词方法对应的联合分布概率,找到最大概率对应的分词方法,即最优分词。到目前为止,研究人员已经开发了许多实用的分词工具,这些工具很容易使用。如果您对分词没有特殊要求,可以直接使用这些分词工具。
各种分词工具的列表。
词性标注是指为切分结果中的每个单词标注正确词性的过程,即确定每个单词是名词、动词、形容词还是其他词性。
词性标注是指为切分结果中的每个单词标注正确词性的过程,即确定每个单词是名词、动词、形容词还是其他词性。
词性标注有许多重要的功能。
首先,消除歧义。有些词在不同的上下文或用法中有不同的含义。例如,在这两句话中,“狗的名字是快乐的”和“我今天很快乐”,“快乐”意味着不同的事情。我们可以通过词性标注来区分它们。
第二,加强基于单词的特征。以上面的句子为例。如果不进行词性标注,两个“快乐”词将被视为词频为2的同义词,这将在后续分析中引入错误。
此外,词性标注还具有标准化、形态恢复和有效去除停用词的功能。
常用的词性标注方法包括基于规则和基于统计的算法,如最大熵词性标注和隐马尔可夫模型词性标注。
接下来,让我们看一个词性标注的例子。你也可以自己试试:http://ictclas.nlpir.org/nlpir/“去阻止文字”当我们人类收到信息时,我们会过滤掉无效的信息和有用的信息。对于自然语言来说,停止单词是一个明智的操作。不管是汉语还是英语,一篇课文都有一些无意义的词,如连词、虚词和语气词,如“得”、“把”、“但是”等
但是我们应该仔细决定删除什么样的停止词。
下图列出了一些常用的非索引字表。您可以参照要求选择要删除的停止字。
词频统计
词频统计是统计分词后文本的词频,目的是找出对文本影响最大的词,是文本挖掘的重要手段。统计这些词的出现频率可以帮助我们理解文章中强调的是什么,进而便于后续模型的构建。
例如,我们可以统计一下四大名著之一《《红楼梦》》中的前28个字,结果如下:
从上图中,我们可以看出《《红楼梦》》中哪个人物的篇幅最大,哪个人物曹雪芹比较注意。尽管我们不是红学专家,但我们可以从统计词频中分析一些关键信息。
“高楼从地面升起”,对于这座自然语言处理的摩天大楼来说,理解其背后的实现原理可能有助于你更好地理解其建造过程。
猜你喜欢
- 2022-06-16 推荐证书—云计算技术与应用(云计算工程师)
- 2022-06-16 阿里云的技术水平,已领先云计算全行业3年以上
- 2022-06-16 云计算与物联网的关键技术
- 2022-06-16 《中国云计算产业发展白皮书》发布 人工智能技术促产业升级改造
- 2022-06-16 小ME知识讲堂:云计算技术的现状、特点与问题
- 2022-06-16 育碧公布全新云计算技术 称其将创造新游戏类型
- 2022-06-16 云计算和大数据啥关系,有啥区别,哪个发展前景好?
- 2022-06-16 云计算的关键特性:资源弹性扩展、动态伸缩,这个能力是必选项!
- 2022-06-16 云计算核心技术架构论坛(一):构建高可用、高扩展、易运维的云架构
- 2022-06-16 Cloud“规划了50个新区域”:云计算重新崛起
- 最近发表
- 随机tag