与机器学习项目不同,数据科学项目的输出通常是一组可操作的见解,一组可能导致您以不同方式执行操作的见解。
因此,数据科学项目的工作流程与机器学习项目不同。
让我们来看看数据科学项目的一个步骤。
作为我们的运行示例,假设您想要优化销售渠道。
假设您经营电子商务或在线购物网站销售咖啡杯,以便用户向您购买咖啡杯,通常会有一系列步骤。
首先,他们会看到我们的网站,看看不同的咖啡杯报价,然后最终,他们必须进入产品页面,然后他们将不得不穿上他们的购物车,然后去购物车页面,然后他们终于要结账了。
因此,如果您想优化销售渠道以确保尽可能多的人了解这些步骤,您如何使用数据科学来帮助解决这个问题?
让我们看看数据科学项目的关键步骤。
第一步是收集数据。
因此,在我们看到的网站上,您可能拥有一个数据集,用于存储不同用户何时访问不同的网页。
在这个简单的例子中,我假设你可以找出用户来自的国家,例如,通过查看计算机的地址,称为IP地址,并弄清楚他们来自哪个国家。
但实际上,您通常可以获得有关用户的更多数据,而不仅仅是他们来自的国家。
第二步是分析数据。
您的数据科学团队可能会对影响销售渠道绩效的因素有很多想法。
例如,他们可能会认为海外客户会被国际运输成本吓跑,这就是为什么很多人都会去结账页面而不是实际结账的原因。
如果这是真的,那么您可能会考虑是否将运输成本的部分纳入实际产品成本,或者您的数据科学团队可能会认为数据中存在明显的假期。
也许更多的人会在假日购物,因为他们正在购买礼物,或者更少的人会在假期购物,因为他们待在家里,而不是有时从他们的工作电脑购物。
在一些国家,可能会有一些时间的情况,在那里观察午睡,所以休息时间就像下午休息一样,在线购物者可能会减少,而且大豆的销售可能会下降。
然后,他们可能会建议您在午睡期间减少广告费用,因为那时人们会更少上网购买。
因此,一个优秀的数据科学团队可能会有很多想法,所以他们会尝试很多想法,或者会说多次迭代以获得良好的见解。
最后,数据科学团队将这些见解提炼到较少数量的假设,这些假设是关于哪些方面可能进展顺利,哪些方面可能会变得很糟糕,以及少数建议的行动,例如将运输成本纳入产品成本而不是将其纳入产品成本单独的订单项。
当您采取一些建议的操作并将这些更改部署到您的网站时,您就会开始获取新数据,因为用户在午睡时不同地宣传或者有不同的检查策略时会表现出不同的行为。
然后,您的数据科学团队可以继续收集数据,我们会定期分析新数据,看看他们是否能够提出更好的假设,以及随着时间的推移采取更好的行动。
因此,数据科学项目的关键步骤是收集数据,分析数据,然后建议假设和行动,然后继续获取数据并定期重新分析数据。
让我们采用这个框架并将其应用于一个新问题,以优化制造生产线。
因此,我们将采取这三个步骤,并在下一张幻灯片中使用它们。
假设您经营的工厂每月生产数千个咖啡杯,您希望优化生产线。
因此,这些是制造咖啡杯的关键步骤。
第一步是混合粘土,所以要确保加入适量的水。
第二步是采用这种粘土来塑造杯子。
然后你必须添加釉料,所以添加着色,保护盖。
然后你必须加热这个杯子,我们称之为烧窑。
最后,你会检查马克杯,以确保马克杯中没有凹痕,并且在将它送给顾客之前它没有破裂。
因此,一个常见的问题制造是优化该生产线的产量,以确保尽可能少的损坏的咖啡杯生产,因为那些是你扔掉的咖啡杯,导致时间和材料浪费。
数据科学项目的第一步是什么?
我希望你记得从最后一张幻灯片开始,第一步是收集数据。
因此,例如,您可以保存关于您混合的不同批次粘土的数据,例如谁提供粘土以及混合了多长时间,或者粘土中含有多少水分,您添加了多少水。
您可能还会收集有关您制作的不同批次杯子的数据。
那批次的湿度是多少?
窑内的温度是多少?你在窑里烧了多久?
鉴于所有这些数据,您将要求数据科学团队分析数据,他们将像以前一样,迭代许多时间以获得良好的见解。
所以,他们可能会发现,例如,每当湿度太低而且温度太高以至于杯子里有裂缝,或者他们可能会发现因为下午的温暖,你需要调整湿度和温度,这取决于一天中的时间。
根据您的数据科学团队的见解,您可以获得关于如何改变操作和生产线以提高生产线生产率的假设和行动的建议。
部署更改后,您将获得可以重新分析的新数据,以便他们可以继续优化您的生产线的性能。
总而言之,数据科学项目的关键步骤是收集数据,分析数据,然后建议假设和行动。
在这个视频和最后一个视频中,您看到了一些机器学习项目和数据科学项目的例子。
事实证明,机器学习和数据科学正在影响几乎所有单一的工作职能。
我想在下一个视频中做的是向您展示这些想法如何影响许多工作职能,包括您的工作职能,当然也包括您的许多同事。
让我们继续下一个视频。
讲师:Andrew Ng
课程:https://www.coursera.org/learn/ai-for-everyone