在制造业中,原料越好,产品越好。同样的话数据科学在这种情况下,如果没有数据科学的原始材料,团队就无法发挥效力。在这个领域,数据是产生预测的原材料。然而,仅靠原材料是不够的。监督机器学习团队的业务人员必须要求应用最佳实践,否则对机器学习的投资将产生可疑的商业结果。这些最佳实践可以总结为我们的数据科学五大规则。
为了说明,让我们假设我们的团队正在处理的数据科学问题与制造车间设备的预测性维护有关。我们的团队正致力于帮助公司预测设备故障,以便在设备影响生产过程之前更换设备。
题
尖锐的问题是具体而明确的。电脑不会欣赏细微差别。如果问题是:“组件X准备好失败了吗?”“这个问题也不需要考虑原因。计算机不会问为什么——它们根据相关性来计算概率。“组件X会过热吗?”这是一个认为高温会导致设备故障的人提出的问题。一个更好的问题是:“组件X会在接下来的30分钟内失败吗?”
在正确的水平测量
监督学习需要计算机可以学习的真实例子。您用来生成成功的机器学习模型的数据必须演示发生故障的情况。它还必须演示设备继续顺利运行的示例。我们必须能够明确识别失败事件的事件,否则,我们将无法培训机器学习模型来正确对数据进行分类。
确保你的数据准确无误
失败真的发生了吗?如果没有,机器学习模型不会产生准确的结果。计算机是天真 - 他们相信我们告诉他们的东西。数据科学团队应该更加持怀疑态度,特别是当他们相信经过几个月的假开始后他们已经取得了突破性的发现。数据科学领导人应该避免陷入似乎提供新洞察力的模型的非理性旺盛。与任何科学努力一样,测试您的假设,从您开始创建模型的观察的准确性和可靠性开始。
确保您的数据已连接
用于训练模型的数据可能是匿名的,因为与机器故障紧密相关的因素是测量,而不是标识符。但是,一旦模型已准备好使用,新数据必须连接到现实世界 - 否则,您将无法采取行动。如果您没有“事物”的中央权威记录,您可能需要在您之前开发主数据管理解决方案物联网采用预测维护机学习可以屈服。此外,应连接您对预测的响应。一旦获得了失败的预测,管理层就应该已经知道需要发生什么 - 使用洞察力来采取迅速的行动。
确保你有足够的数据
数据越多,预测的准确性就越高。确保你有足够的正面和负面结果的例子,否则很难确定你真的从练习中获得了信息。
预测性维护的好处以及机器学习的其他应用正在被任何地方的企业接受。对于一些,这个过程可能看起来有点神秘,但它不必。目标是创建一个模型,当美联储现场数据时,提高了该过程中涉及的人类的决策。为实现这一目标,数据科学团队需要正确的数据和正确的业务问题来解决。管理层应努力确保在投资数据科学活动之前,确保这五个问题回答了他们的满意度。
不确定你是否有正确的原材料?联系我们关于你的机器学习野心我们的技术团队正在构建连接物联网的下一代预测分析解决方案。我们正在帮助客户完成数字化转型的每一步。