黑马程序员技术交流社区

标题: 【上海校区】NLP自然语言基础(一) [打印本页]

作者: 梦缠绕的时候    时间: 2018-6-26 09:40
标题: 【上海校区】NLP自然语言基础(一)

1.NLP的常见领域:分词,词性标注,命名实体识别,句法分析,语义识别,垃圾邮件识别,拼写纠错,词义消歧,语音识别,音字转换,机器翻译,自动问答……

如果对自然语言处理的应用场景不太了解,可以去腾讯的中文语义平台简单玩几个例子就熟悉了。

2.NLP的发展现状


根据stafford教授Dan Jurafsky的介绍:

3.NLP与算法类型问题


比如,词性标注,垃圾邮件识别,褒贬分析,拼写纠错等问题都可以归结成简单的分类问题。这就好用我们之前掌握的机器学习分类方法去很好地处理。

又比如,对于机器翻译,语音识别,音字转换等等领域,都可以抽象成运用隐马尔科夫模型去处理,而这本身是一个更加复杂的分类问题。

4.NLP分词,编辑距离

中文分词比英文分词难的多,对于英文,分词比较直观。一般被空格区分开来的就是不同的词。

编辑距离(Minimum Edit Distance,MED),又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。
允许的编辑操作包括:

一个简单的示意图如下:




我们可以使用动态规划算法解最小编辑距离,其形式化定义如下:




通过这种方法,给字符串之间定义了一个量化的“距离”的概念,而且很有解释力。

在机器学习中,有了“距离”就可以做很多事情。比如判断两个字符串的相似性,做一些分类、聚类的工作。

在工程上,编辑距离可以用来提供用于拼写纠错的侯选单词。比如我用英文输入法输入一个“girlfriand”的单词。但是词库中没有“girlfriand”这个词。则可以寻找与“girlfriand”编辑距离为1或2的其他字符串,如“girlfriend”、“girlfriends”,作为纠正拼写错误的候选词。剩下的问题就是判断哪个侯选词的作为纠正词的概率更高而已。

5.NLP与分类问题





有时候管多选题叫做软分类,单选题叫硬分类



作者: 吴琼老师    时间: 2018-7-5 16:46





欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2