怎样才能成为一名优秀的数据科学家?优秀的数据科学家应该是具有扎实统计背景的软件工程师,或者喜欢编程的统计学家。我是一名有扎实统计背景的软件工程师。我想在这个博客里分享我的统计知识,重点是每个软件工程师/统计学家都需要知道的重要的基础任务。
在上一篇文章中,我介绍了最基本的知识:分类和回归。在这篇博文中,我想谈谈一些统计性质的,也可以用于数据质量练习的方法。它们是相似匹配和聚类。这两种方法都有助于寻求减少数据重复的数据质量和数据治理团队,也有助于在缺乏权威数据的情况下预测正确的属性值。
相似度匹配是一项基础性的任务,为以后的分类和回归活动提供支持。这里,我们试图根据这些数据成员的已知属性识别类似的数据成员。例如:一家公司可能会使用相似度匹配来寻找与他们最好的客户非常相似的新客户——他们可以被作为特价或其他客户保留策略的目标。或者,公司可以从供应商的原材料数据中寻找相似之处,以优化成本。
聚类是另一个基础任务,因为它可以作为进一步练习的基础。聚类试图找到数据实体的自然分组,而不必由特定目的驱动。结果可以作为决策的输入,机器学习:我们应该向这些客户提供什么产品或服务?是否有足够大的人口来进行具体的市场营销?
在下一篇文章中,我将继续根据特征和目的来区分数据科学任务。很多任务都是相关的,所以我们会讨论一些已经讨论过的补充。
请使用下面的表格提交您的查询或问题,我们将很快与您联系。