文章

做数据科学家恐惧他们的工作?

58biwei
58biwei <数据科学家是否害怕自己的工作?

2016年11月,最后一次选举发生了什么?相反,发生了什么事分析师在最后一次选举中?几乎所有民意调查和新闻报道预测都有希拉里克林顿,由唐纳德特朗普的一个舒适的边缘领导。在每次选举中,我可以回忆过去几年,数字暗惊的人对他们的预测非常准确 - 至少在谁赢得谁将获胜,如果不是实际的数值结果。但是,这不是2016年总统种族的情况。

但这不是第一次发生的事情。1936年,富兰克林德拉诺罗斯福击败了阿尔弗雷德兰洪,很多人文学摘要,一本杂志,收集了两百万百万张邮件的调查 - 大约在当时投票人口的5%。另一方面,乔治·盖洛普预测了罗斯福胜利,只有3,000采访。差异,根据文章作者,这是文学摘要的邮件列表来自车辆注册记录。这种影响结果如何?1936年,不是每个人都能负担得起汽车,因此文学摘要样本不是人口真正代表性的样本。这被称为采样偏差,其中用于收集数据点的非常方法引入了收集的数字的自身力。另一方面,盖洛普的访谈与投票公众更具符合行动。

文章引用上面也引入了波士顿的“街头凹凸”智能手机应用程序,它使用手机的加速度计来检测坑洼......作为波士顿的公民......开车,他们的手机自动通知市政厅需要修复路面。“真是个好主意!还是呢?该应用程序仅收集来自A)所拥有的人的数据,B)愿意下载应用程序,而C)经常开车。较贫穷的社区几乎被排除在等式中。同样,样本偏置的一个例子。

最后的案例,而不是挑选波士顿,但我最近听说数据科学家分析了Twitter饲料的积极和负面情绪,不得不考虑到术语“邪恶,”作为积极的情感力量,但仅适用于更大的波士顿。显然,形容词并不意味着该国的其余部分假设是什么意思。

随着抽样偏见,来自分析数据的错误结论的另一个驱动因素是“无证混淆。”假设,例如,您希望查看哪些咖啡人更好,从星巴克或Dunkin'Donuts。对于这个'实验',我们只在咖啡本身感兴趣,没有别的。So we have each shop prepare several pots with varying additions like ‘cream only’, ‘light and sweet’, ‘black no sugar’, etc. We then take these to a neutral location and do a side-by-side blind taste comparison. From our taste results we draw some conclusions as to which coffee is more preferred by the sample population. But unbeknownst to us, when the individual shops prepared their various samples of coffee, one shop used brown sugar and one used white sugar, or one used half-and-half while the other used heavy cream. The cream and sugar are now both undocumented confounders of the experiment, possibly driving results one way or the other.

那么,回到选举中,今年的政治分析师是如何错过的?在不了解他们的抽样方法,我愿意建议某些形式的样本偏见或混淆可能会发挥作用。是众所周知的'仅限小区问题'再次(没有土地线的家庭不太可能被Pollsters达成)?他们是否考虑过,特朗普使用Twitter作为向其追随者提供声音字节的手段,绕过主流媒体的内容过滤器?其他一些因素也许尚未认识到?随着技术的进步和社会趋势变形随着时间的推移,必须政治投票和数据分析方法。

Pollsters和数据科学家正在不断炼制他们的收集,补偿因素和模型方法,以消除任何形式的样本偏见,以便更接近“真相”。我的猜测是选举分析师最终会发现他们出错的地方。毕竟,在下一场总统比赛开始之前,他们已经有三年才能解决。哎呀,他们可能开始在选举后一天的所有数据晃动!

一个人需要意识到这一点数据科学就是这样,一个科学而不是可以简单地进入的东西,而不知道纪律的复杂性。试图这样做,没有完全了解样本偏见,无证混乱和一系列其他因素会导致你走向错误的结论,AKA'失败'。历史表明,对于任何科学,在突破前有许多失败的实验。实验室科学家需要谨慎行事,并坚持严格的议定书,以防止他们的工作从外部污染物毁灭。对于持续地改进收集方法和模型的数据科学家来说,同样的数据科学家也是如此。

那么“数据科学”为您的企业努力呢?您是否尝试根据有限的数据集和基本的Excel技能预测结果,然后想知道为什么您无法从您的分析模型中发出任何意义?您需要帮助识别和消除样本偏见,占这些讨厌的“无证混淆”的讨论?这些日子,社交媒体情绪分析是一个大的嗡嗡声,有很多潜力为公司与自己混合性能指标。但许多人只是不知道如何完成它,或者害怕成本。

在Bl必威电子umshapiro,我们的顾问团队不断地查必威伙伴看与之相关的最新趋势和技术数据收集和分析。与选举投票相关的一些相同的原则可以通过预测分析和需求计划应用于您的组织。使用Microsoft的Azure Framework,我们可以快速开发一个原型解决方案,可以帮助您的组织的数据报告和预测到下一个级别。

继续与我们的团队进行对话
请与我们联系。

接触我们