注册/登录
移动端
 
首页 > 留学资讯 > 澳洲留学 > 悉尼大学COMP5046:自然语言处理高分讲解

悉尼大学COMP5046:自然语言处理高分讲解

作者:海马 发布时间:2023-11-23 11:09

自然语言处理(NLP)是指计算机程序理解人类口语和书面语言(即自然语言)的能力。它是人工智能(AI)的一个组成部分。NLP 已有 50 多年的历史,源于语言学领域。它在医学研究、搜索引擎和商业智能等多个领域都有广泛的实际应用。自然语言处理(NLP)

一、关于COMP5046

本单元介绍计算语言学以及用于自动处理自然语言(如英语或中文)的统计技术和算法。它将回顾理解统计自然语言处理(NLP)所需的核心统计和信息理论以及基础语言学。统计自然语言处理应用广泛,包括信息检索和提取、问题解答、机器翻译、文档分类和聚类。

本单元将探讨自然语言对计算建模的关键挑战,以及关键 NLP 子任务的最新方法,包括标记化、形态分析、词义表示、语音部分标记、命名实体识别和其他信息提取、文本分类、短语结构解析和依赖解析。您将在实验和作业中完成其中的许多子任务。本单元还将研究注释过程,该过程是为统计 NLP 系统创建训练数据的核心。作为完成实际 NLP 任务的一部分,您将对数据进行注释。

二、自然语言处理是如何工作的?

自然语言处理能让计算机像人类一样理解自然语言。无论是口头语言还是书面语言,自然语言处理都是利用人工智能接收现实世界的输入信息,对其进行处理,并以计算机能够理解的方式加以理解。就像人类有不同的传感器,比如耳朵可以听,眼睛可以看,计算机也有程序可以阅读,麦克风可以收集音频。就像人类有大脑来处理输入信息一样,计算机也有程序来处理各自的输入信息。在处理过程中,输入会被转换成计算机能够理解的代码。

自然语言处理主要分为两个阶段:数据预处理和算法开发。

数据预处理包括准备和 "清理 "文本数据,以便机器能够对其进行分析。预处理将数据转换成可操作的形式,并突出文本中的特征,以便算法能够使用。有几种方法可以做到这一点,包括:

标记化。这是将文本分解成更小的单位来处理。

删除停滞词。这是从文本中删除常用词,从而保留能提供最多文本信息的独特词。

词母化和词干化。这是将单词还原为词根形式进行处理。

语音部分标记。这是指根据词的语篇(如名词、动词和形容词)对词进行标记。

三、自然语言处理为何重要?

企业需要使用大量非结构化的文本数据,因此需要一种高效处理这些数据的方法。在线创建并存储在数据库中的大量信息都是人类的自然语言,而直到最近,企业还无法有效地分析这些数据。这就是自然语言处理的用武之地。

从以下两句话中可以看出自然语言处理的优势:"云计算保险应成为每份服务水平协议的一部分",以及 "良好的服务水平协议可确保一夜好眠--即使是在云中"。如果用户依靠自然语言处理进行搜索,程序会识别出云计算是一个实体,云是云计算的缩写形式,SLA 是服务级别协议的行业缩写。

这些都是人类语言中经常出现的模糊元素,而机器学习算法历来不擅长解释这些模糊元素。现在,随着深度学习和机器学习方法的改进,算法可以有效地解释它们。这些改进拓展了可分析数据的广度和深度。

海马课堂专业课程辅导做出以下新改变啦:
⏩试听课全面升级,不满意退50%,
⏩课程辅导产品升级,赠送考前保障呦
⏩辅导不满意可以随心退!
海马课堂,3500+严选硕博学霸师资,针对学生的薄弱科目和学校教学进度,匹配背景相符的导师,根据学生情况进行1V1专属备课,上课时间灵活安排,中英双语详细讲解课程中的考点、 难点问题,并提供多方位的课后辅导,辅助学生掌握全部课程知识,补足短板。

相关热词搜索:

阅读原文:https://www.highmarktutor.com/news/16504_62.html

版权作品,未经海马课堂 highmarktutor.com 书面授权,严禁转载,违者将被追究法律责任。

热门课程推荐

hmkt088

欢迎咨询