week3-9 Survey of major AI application areas (optional) 人工智能主要应用领域调查(可选)

3-9-0.png

今天的AI正成功应用于图像和视频数据,语言数据,语音数据以及许多其他领域。

在本视频中,您将看到应用于不同应用领域的人工智能调查,我希望这可能会引发一些关于如何能够在某一天将这些技术用于您自己的项目的想法。

让我们来看看。

3-9-1.png

3-9-2.png

3-9-3.png

3-9-4.png

3-9-5.png

3-9-6.png

深度学习的主要成就之一就是计算机视觉。

我们来看一下计算机视觉应用的一些例子。

图像分类和对象识别是指将这样的图像作为输入,并告诉我们图片中的内容。

在这种情况下,它是一只猫。

我不仅仅是识别猫,我已经看到人工智能算法能够识别花的特定类型,人工智能能够识别特定类型的食物,能够将输入图像并将其归类为对象类型,并且这种算法在所有应用中都有用。

一种具有很大吸引力的特定类型的图像分类是面部识别。

这就是当今人脸识别系统的工作方式。

用户可以注册他们脸部的一张或多张图片以显示AI看起来像什么。

给定一个新的图像,AI系统可以说这是同一个人?

这是你吗?

或者这是一个不同的人,以便它可以决定一个决定,解锁门或解锁手机,解锁笔记本电脑或其他根据人的身份。

当然,我希望脸部识别只会以尊重个人隐私的方式使用,我们下周也会更多地讨论人工智能的问题。

不同类型的计算机视觉算法称为对象检测。

因此,不是仅仅尝试对对象进行分类或识别,而是试图检测对象的出现。

例如,在建造一辆自动驾驶汽车时,我们已经看到了AI系统如何将这样的图片作为输入而不仅仅是说是或否,是否有车。

是或否,是否有行人,但实际上告诉了汽车的位置以及此图像中行人的位置,并且物体检测算法也可以作为输入图像那样,只是说,不,我没有找到任何车辆或那个图像中的任何行人。

因此,不是拍摄图片并标记整个图像的图像分类,而是一个物体检测算法将我们输入图像并告诉我们图像中的不同对象在哪些对象的类型。

图像分割更进了一步。

给定这样的图像,我们输出的图像分段算法,它告诉我们不仅仅是汽车和行人的位置,而是告诉我们每一个像素,是这辆汽车的这个像素部分还是行人的这个像素部分。

因此,它不仅仅在对象周围绘制矩形并进行检测,而是在它找到的对象周围绘制精确的边界。

因此,例如,在阅读x射线时,它将是一种图像分割算法,可以查看x射线扫描或人体的其他图像,并仔细分割出来,肝脏或心脏的位置或此图像中的骨骼位置。

计算机视觉也可以处理视频和跟踪的一个应用程序。

在这个例子中,它不仅仅是检测这个视频中的跑步者,而且还在视频中跟踪跑步者是否随着时间的推移而移动。

因此,红色框下面的那些小尾巴显示该算法正在跟踪视频中几秒钟内运行的不同人。

因此,在视频中跟踪人物和汽车以及其他移动物体的能力有助于计算机找出事情的进展。

例如,如果您正在使用摄像机跟踪野生动物,比如说鸟儿在飞来飞去,那么跟踪算法也可以成为帮助您追踪视频帧的个体鸟类。

这些是计算机视觉的一些主要领域,也许其中一些对您的项目有用。

人工智能和深度学习在自然语言处理方面也取得了很大进展。

自然语言处理或NLP是指AI理解自然语言,意味着您和我可能用来相互交流的语言。

一个例子是文本分类,其中AI的工作是输入一段文本,例如电子邮件,并告诉我们这个电子邮件的原因或类别是什么,例如垃圾邮件或非垃圾邮件。

还有一些网站会输入产品说明。

例如,你可能会写,我有一个二手手机销售,并自动找出列表是产品的产品类别。

那么,这会是更硬的手机或电子产品,或者如果你写,我有一件新的T恤出售然后它会自动列在衣服上。

一种受到很多关注的文本分类是情感识别。

例如,情感识别算法可以将餐厅的评论作为输入,食物是好的并且自动地试图告诉我们该评论可能获得多少个星星。

食物是好的,因为相当不错的评论可能是四个过度的明星评论。

然而,如果有人写服务很糟糕,那么情绪识别算法应该能够告诉我们这可能是一个一星评价。

第二种类型的NLP或自然语言处理是信息检索。

网络搜索可能是您在文本查询中键入的信息检索的最着名的示例,您希望AI帮助您查找相关文档。

许多公司还将拥有内部信息检索系统,您可以在其中使用界面来帮助您在公司的文档集中搜索与您可能输入的查询相关的内容。

名称实体识别是另一种自然语言处理技术。

让我们用一个例子来说明它。

假设你有这句话,你想在句子中找到所有人的名字。

所以,伊丽莎白女王的第二个人是保罗·麦卡特尼爵士。

因此,伊丽莎白女王,第二个晚上保罗麦卡特尼为白金汉宫提供音乐服务,这将是一个名称实体识别系统,将所有人的姓名限制在这样的句子中。

如果你想找到所有的位置名称,所有地名都在这样的句子中,命名实体识别系统也可以这样做。

名称实体识别系统还可以自动提取公司名称,电话号码,国家/地区名称等等,如果您有大型文档集并且您想要自动查找公司名称,或者所有公司名称一起出现或者所有人的名字,那么名称实体识别系统将是您可以用来做的工具。

另一个主要的AI应用程序是机器翻译。

因此,例如,如果您在日语中看到这句话,AI [音频不清晰]。

然后希望机器翻译系统可以输入并输出翻译AI在电力中。

本幻灯片中的四个项目:文本分类,信息检索,名称实体识别和机器翻译,是有用的NLP应用程序的四个主要类别。

如果您与NLP团队合作,您也可以听到他们谈论解析和部分语音标记技术。

让我告诉你这些是什么。

我们来看一个例句,“垫子上的猫”。

一个词性标记算法将遍历所有单词并告诉你这些单词中哪些是名词,这些单词中哪些是动词,依此类推。

例如,在英语语言中,猫和席子就是名词。

因此,我们会将这两个词标记为名词。

根据英语语言理论,这个词是一个决定因素。

不要担心,如果你以前从未听说过一个限定词,这是英语语言理论中的一个词,而on on这个词是一个介词。

因此,部分演讲者会将这些单词标记为这样。

好吧,你为什么关心?

如果你正在为餐馆评论构建一个句子分类器,那么一个词性标记算法就能告诉你哪些是名词,哪些是动词,哪些是形容词,哪个是副词,等等,因此,帮助你的AI系统找出哪个词更受关注。

例如,你应该更多地关注名词,因为这些看起来像是重要的词。

也许是动词。

当然,形容词,好的,坏的,美味的词都是形容词,你的AI系统可能会忽略决定者。

就用户实际感受到餐馆的感觉而言,这些词可能不那么重要。

讲话系统的一部分通常不是最终的应用程序。

你几乎没有在早上醒来,并想:“男孩,我希望我可以得到所有的句子在我的句子标签。“

通常有一个重要的预处理步骤。

在较长的AI管道中通常有一个重要的中间步骤,其中第一步是语音标记或解析,我们将在一秒钟内进行跟踪,然后后续步骤是类似于句子分类或机器翻译的应用程序,或者网络搜索。

现在,什么是解析器?

鉴于这五个单词,解析器有助于将这些词组合成短语。

例如,猫是短语,垫子是短语。

因此,解析器会在单词的上方绘制这些行,然后将这些单词放在一起。

在垫子上是另一个短语。

最后,两个短语,猫,以及在垫子上,这两个短语然后组合形成整个句子。

所以,我用这句话画上了这个东西,告诉你什么词会说什么,以及不同的词如何相互关联。

虽然解析算法也是另一种最终用户产品,但它通常是帮助其他AI算法的常用步骤。

这就是分类标签的翻译方式,等等。

现代人工智能,特别是深度学习也彻底改变了软件处理音频数据的方式。

演讲如何在电脑中代表?

这是我的一个朋友说的短语机器的听力波形。

这里的x轴是时间,垂直轴是麦克风录制的。

麦克风的记录是微小的变化,气压的变化非常快,你的一年和你的brainthen解释为声音。

该图显示了作为时间的函数,横轴,空气压力如何响应有人说文字机器学习而变化非常快。

语音识别的问题,也称为语音到文本,是将这样的情节作为输入,并弄清楚有人说的话是什么的问题。

许多语音识别的最新进展源于深度学习。

一种特定类型的语音识别是触发字检测或唤醒字检测。

您在之前的视频中看到了这一点,其中AI系统检测到触发词或唤醒词,例如Alexa,或者Hey Google,或者嘿设计。

演讲者ID是一个专门的语言问题,其任务是倾听别人说话并弄清楚演讲者的身份。

正如面部识别有助于通过拍照来验证您的身份,演讲者ID也可以通过向您说话来帮助验证您的身份。

最后,语音合成,也称为文本转语音或TTS也具有很大的吸引力。

文本到语音是输入用文本写的句子并将其转换为音频文件的问题。

有趣的是,虽然文本到语音缩写为TTS,但我并不经常看到语音缩写为STT。

一个简单的例子。

让我们来看看这句话,“快速的棕色狐狸越过懒狗。“

这是一个有趣的句子,你经常看到NLP人使用,因为这句话包含从A到Z的每一个字母。

所以,那就是ABC,直到X,Y和Z.

您可以查看此句中出现的所有26个字母。

有些字母出现不止一次。

如果你将这个句子解析为TTS系统,那么你可能会得到像这样的音频,快速的棕色狐狸跳过懒狗。

现代TTS系统的声音越来越自然,越来越像人类。

AI也适用于机器人技术中的许多应用,你已经在自动驾驶汽车中看到了一个例子。

在机器人技术中,termperception意味着根据你拥有的感觉,无论是相机,还是雷达,还是激光雷达,找出你周围的世界。

右侧显示的是自动驾驶汽车的3D激光扫描或激光雷达扫描,以及中间在汽车附近检测到的自动驾驶汽车的车辆。

运动规划是指为您的机器人寻找路径。

所以,如果你的车要转左转,那么运动规划师可能会计划一条路径以及一辆车的速度,以便左转弯。

最后,控制是指向您的方向盘电机,油门踏板和制动电机等电机发送命令,以使汽车顺畅地沿着您想要的路径行驶。

在这张幻灯片中,我将重点介绍机器人技术的软件和AI方面。

当然,为机器人技术构建硬件也有很多重要的工作要做。

但很多工作AI的感知,运动规划和控制都集中在软件而不是机器人的硬件上。

除了这些主要的应用领域,机器学习也被广泛使用。

您在此视频中看到的示例主要涉及非结构化数据,如图像,音频和文本。

机器学习至少应用于结构化数据,这意味着您在早期视频中看到的这些数据表。

但是因为图像之类的非结构化数据很容易被人类理解,所以当我们谈论识别猫的AI系统时,任何人都会非常普遍,非常容易理解和理解。

因此,大众媒体对非结构化数据的AI进展比对结构化数据的AI更为重要。

结构化数据也往往对单个公司更具体。

因此,人们难以理解或理解,但结构化数据上的人工智能或结构化数据的机器学习正在创造巨大的经济价值以及AI的结构化数据。

我希望通过对人工智能应用领域的这一调查,让您感觉到人工智能成功应用于今天的各种数据,这甚至可以激发您想到这些应用领域中的一些如何对您自己的项目有用。

现在,到目前为止,我们花费最多时间谈论的一种AI技术是有监督的学习。

这意味着从标记数据中学习输入,输出或A到B映射,其中您为AI系统提供A和B.

但那并不是那种唯一的技术。

实际上,“监督学习”这个术语几乎引发了无监督学习的问题,或者你也可能从媒体文章中听到关于强化学习的新闻。

那么,这些其他技术是什么?

在下一个视频,本周最后一个可选的视频,我们将对人工智能技术进行调查,我希望通过这个可能你会看到其他一些人工智能技术和监督学习是否对你的项目也有用。

让我们继续本周的最终视频。

讲师:Andrew Ng
课程:https://www.coursera.org/learn/ai-for-everyone

iOSDevLog wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!