文章

数据科学基金会-分类和回归

58biwei
58biwei <数据科学基础-分类和回归

大数据之旅必须在某处开始。我在与微软技术学家交谈时的观察是,虽然大数据令人着迷,但他们不知道从哪里开始。我们应该首先学习Hadoop吗?r?蟒蛇?

在我们跳进工具之前,让我们了解数据科学如何工作以及可以从中获得的内容。到目前为止,您了解预测分析(或机器学习)是商业智能的相对较新的分支。而不是询问我们的业务/部门/员工如何表演(最近,与历史趋势相比),我们现在正在寻求预测未来将在过去收集的数据将来发生的事情。我们可以在非常粒度的水平下做到这一点。我们可以识别“哪种东西”将表现出“哪种方式。”一些例子:哪些客户可能取消其订阅计划,交易是欺诈性的,工厂地板上的哪种机器即将失败。

有几种方法可以应用统计学和数学来回答这些问题。在这篇博文中,我将重点关注两个数据科学任务:分类和回归。

分类用来预测一件东西属于一小组类中的哪一个。理想情况下,这些阶级是一个小群体,并且相互排斥(男性或女性,共和党或民主党,合法或欺诈)。它们不需要是“非此即彼”的,但以这种方式来考虑它们是最容易的。

与分类密切相关的任务是预测事物被分类的概率。这就是所谓的类概率估计。例如,我们可以以72.34%的确定性确定一项交易是“合法的”。

从分类中可以获得什么?有许多标志性故事的转发公司在到达之前期待业务问题 -然后采取行动。我最喜欢的是story Signet Bank,它的信用卡部门不盈利,原因是“坏”客户拖欠贷款,而“好”客户流失到能够提供更好条款和条件的更大的金融机构。答案在当时是革命性的,那就是对他们的客户数据进行分类。他们把“好”和“坏”分开,把“坏”的分开,用奖励和激励来培养“好”的。今天,我们称之为第一资本金融公司

回归另一方面,用于估计某些件的某些变量的一些数值的任务。例如,“我应该预期为特定商品支付多少钱?”或者“在人类之前,温度会在我家中的热门变成热量?”这通常与类概率估计混淆。分类与回归有关,但它们有不同的目标。分类是为了确定是否会发生某些事情。回归是为了确定会发生多少东西。

从回归中可以获得什么?在制造业中,了解使用特定机器部件的使用量是非常有用的,在性能下降到低于可接受的公差水平之前。任何金融服务公司都经常为价格证券和期权进行。

在我的下一篇博客中,我将讨论与“买这个的顾客,也买那个的顾客”相关的其他数据科学任务。

继续与我们的团队进行对话
请与我们联系。

联系我们