week1-3 What is data? 什么是数据?

1-3-0.png

您可能听说过数据对于构建AI系统非常重要。

但是,真正的数据是什么?让我们来看看。

让我们看一下数据表的一个例子,我们也提供了一个数据集。

1-3-1.png

1-3-2.png

1-3-3.png

1-3-4.png

如果您正在尝试设置如何为正在购买或出售的房屋定价,您可能会收集这样的数据集,这可能只是一个电子表格,就像一个MS excel数据电子表格,其中一列是房子的大小,比如说平方英尺或平方米,第二列是房子的价格。

因此,如果您正在尝试构建AI系统或MachineLearning系统来帮助您设置房屋价格或弄清楚房屋的价格是否合适,您可能会认为房屋的大小是A而且房屋的价格是B,并且有一个AI系统学习输入到输出A到B的映射。

现在,你可能会说:“好吧,我们还会收集有关这栋房子卧室数量的数据,而不仅仅根据房屋大小定价。”

在这种情况下,A可以是前两列,而B可以只是房子的价格。

因此,给定数据表,给定数据集,实际上取决于您,直到您的业务用例来决定什么是A,什么是B.

数据通常是您的业务的唯一数据,这是一个农村国家机构可能会帮助定价房屋的数据集的示例。

由您决定什么是A,什么是B,以及如何选择A和B的定义以使其对您的业务有价值。

再举一个例子,如果你有一定的预算,而你想要决定你能买得起的房子的大小,那么你可能会认为输入A是某人花了多少钱而B只是平方英尺的房子大小,那个A和B的完全不同的选择告诉你,给定一定的预算,你应该看看房子的大小是多少。

这是数据集的另一个例子。

假设您想构建一个AI系统来识别图片中的猫。

我不确定你为什么要这样做,但也许是有趣的移动应用程序,你想要标记猫的图片。

因此,您可能会收集数据集,其中输入A是一组不同的图像,输出B是标记,上面写着“第一张图片是猫,不是猫。

这是一只猫,这不是一只猫“并且有一个AI输入一张图片 A和输出B有没有猫,所以你可以标记你的照片或你的移动应用程序上的所有猫图片。

在机器学习传统中,机器学习实际上有很多人。

我认为有些这是从我离开谷歌大脑团队时开始的,我们发布的结果有点臭名昭着的Google猫,其中一个AI系统可以通过观看YouTube视频来检测猫。

但是从那时起,在谈论机器学习时,有一种传统的习惯是将猫作为一种运行样本,并向所有爱好者们道歉。

我也爱狗。

因此,数据很重要。

但是你如何获得数据?

你如何获得数据?

嗯,getdata的一种方法是手动标记。

例如,您可能会在这里收集一组这样的图片,然后您可能会自己或者让其他人浏览这些图片并标记每个图片。

所以,第一个是猫,第二个不是猫,第三个是猫,第四个不是猫。

通过手动标记这些图像,您现在可以获得用于构建猫探测器的数据集。

要做到这一点,你实际上需要超过四张图片。

您可能需要数十万张图片,但手动标记是获取A和B两者的数据集的经过验证的真实方式。

geta数据集的另一种方法是观察用户行为或其他类型的行为。

因此,举例来说,假设您运营一个在线销售网站的网站。

因此,电子商务或电子商务网站,您可以以不同的价格向用户提供商品,您可以观察他们是否购买了您的产品。

因此,只需购买或不购买您的产品,您就可以收集这样的数据集,您可以存储用户ID,用户访问您网站的时间,以及您向用户提供产品的价格无论他们是否购买它。

因此,只需使用您的网站,用户就可以从您那里生成这些数据。

这是一个观察用户行为的例子。

我们还可以观察其他东西的行为,例如机器。

如果您在工厂中运行大型机器并且想要预测机器是否有故障或者有故障,那么只需观察机器的行为,就可以像这样记录数据集。

有机器ID,机器温度,机器内有压力,然后机器故障。

如果您的应用程序是防止维护,假设您想要弄清楚机器是否即将发生故障,那么您可以选择此作为输入A并选择输出B作为输出B以试图判断机器是否即将发生故障在哪种情况下,您可以对机器进行预防性维护。

获取数据的第三种也是非常常见的方法是从网站下载或从合作伙伴处获取数据。

由于开放的互联网,有很多,你可以免费下载,从计算机视觉图像数据集到自动驾驶汽车数据集,到语音识别数据集,到医学成像数据集等等。

因此,如果您的应用程序需要一种类型的数据,那么您只需从网上下载以保持注意力和版权,那么这可能是开始使用该应用程序的好方法。

最后,如果你和一个合作伙伴一起工作,说你正在和一个工厂合作,那么他们可能已经收集了一个大的数据集,机器和温度,并且对机器的压力并不是他们能给你的。

数据很重要,但也有点过分炒作,有时也被滥用。

让我直接介绍两种最常见的误用或者对数据进行思考的不良方法。

当我谈到大公司的封条时,他们中的一些人甚至对我说:“嘿Andrew,给我三年时间建立我的IT团队,我们收集了这么多数据。

然后三年后,我将拥有这个完美的数据集,然后我们将做AI。“

事实证明这是一个非常糟糕的策略。

相反,我推荐给每个公司的是,一旦你开始收集一些数据,继续开始展示它或将其提供给AI团队。

因为通常,AI团队可以向您的IT团队提供反馈,了解哪些类型的数据可以选择以及哪些类型的IT基础架构可以继续构建。

例如,可能一个 AI团队可以查看您的工厂数据和数据,“嘿,你知道吗?如果你可以从这个大型制造机器收集数据,不仅是每十分钟一次,而是每一分钟一次,那么我们可以为你建立预防性维护系统做得更好。“

因此,在IT和AI团队之间有这种来回的相互作用,我的建议通常会尝试早些时候从AI获得反馈,因为它可以帮助您指导您的IT基础架构的开发。

第二,滥用数据。

不幸的是,我看到一些CEO读到了使用趋势的重要性,然后说:“嘿,我有这么多数据。当然,AI团队可以使它变得有价值。“

不幸的是,这并不总能奏效。

更多的数据通常比较少的数据更好,但我不会因为你拥有许多兆兆字节或几千兆字节的数据而让它成为可能,因此AI团队实际上可以提供有价值的数据。

因此,我的建议是不要将数据投入AI团队并假设它很有价值。

事实上,在一个极端的案例中,我看到有一家公司在医学上获得了一大堆其他公司,在论文中,假设他们的数据非常有价值。

现在,几年后,据我所知,工程师还没有弄清楚如何获取所有这些数据并实际创造价值。

所以,有时候它会起作用,有时却不起作用。

但是,他们不会为了数据而过度投资只是获取数据,除非你还要让AI团队去看一下。

因为,他们可以帮助您思考实际上最有价值的数据。

最后,数据很混乱。

您可能已经在垃圾中听到了垃圾话,如果您有不良数据,那么AI将会学到不准确的信息。

以下是数据问题的一些示例。

假设您拥有房屋大小,卧室数量和价格的数据集。

您可以使用不正确的标签或不正确的数据。

例如,这栋房子可能不会以0美元的价格出售。

1只需1美元。

或者,数据也可以具有丢失值,例如我们在这里有一大堆未知值。

因此,您的AI团队需要弄清楚如何清理数据或如何处理这些不正确的标签和所有缺失的值。

还有多种数据类型。

例如,有时您会听到图像,音频和文本。

这些是人类发现它很容易解释的数据类型。

这是一个术语。

这被称为非结构化数据,并且有某些类型的AI技术可以与图像一起识别猫或音频以识别语音或文本,或者理解该电子邮件是垃圾邮件。

然后,还有像右边那样的数据集。

这是结构化数据的示例。

这基本上意味着数据存在于一个巨大的电子表格中,处理非结构化数据的技术与处理结构化数据的技术略有不同。

但AI技术可以很好地适用于这些类型的数据,非结构化数据和结构化数据。

在这段视频中,您了解了什么是数据,您还看到了hownot滥用数据,例如过度投资IT基础架构,希望它在将来对AI有用,但我们实际上在检查它们是否真的如此对于你想要构建的AI应用程序非常有用。

最后,你看到的数据很混乱。

但是,一个优秀的AI团队将帮助您解决这些问题。

现在,当人们抛出像AI,机器学习,数据科学这样的术语时,AI就会有一个复杂的术语。

我想在下一个视频中做的是与您分享这些术语的实际含义,以便您能够自信而准确地与他人讨论这些概念。

让我们继续下一个视频。

讲师:Andrew Ng
课程:https://www.coursera.org/learn/ai-for-everyone

iOSDevLog wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!