“如果你能衡量你所说的东西,并用数字表达出来,你就对你的主题有所了解;但如果你不能衡量它,你的知识是贫乏的,不能令人满意的。”
这句话出自19世纪的威廉·汤姆森,1圣开尔文男爵(Baron Kelvin)常常被解释为一个更吸引人的短语,在现代商业中仍然适用:
“如果你无法衡量,你就无法管理它。”
企业衡量各种各样的东西,以便更好地管理他们的业务。它们衡量客户在其产品上花了多少钱,哪些产品的利润最高,以及订单确认后需要多长时间将产品交付给客户。只要你能说出它的名字,肯定就会有人或某些企业在衡量它。
但是对业务的度量仅仅是将信息交付给管理被度量的内容的人员。这就是业务报告发挥作用的地方。报告提供所测量项目的整合。一般来说,一个经理在组织中的地位越高,他或她的报告就越需要统一。
在过去的几十年里,计算机化数据库技术得到了发展,使企业能够以高效的电子格式存储数据,也就是数据库。企业依赖于从用户那里获取数据的数据库系统。这些“前端”系统通常被称为“在线事务处理”系统(OLTP)。除了数据输入和捕获功能之外,大多数事务系统还提供了一些报告功能。即使是最基本的报告也可以提供整合和一些上下文。例如,“上个季度我们卖出了多少与预期相反的产品?”但是,即使是最好、最复杂的OLTP系统,由于以下原因之一,也会有一些报告缺陷。
开发了“数据仓库”的概念来打击其中一些问题。数据仓库可以被认为是具有高卷报告和分析的另一个数据库,作为其主要目的,而不是行逐行数据检索和操作。它们通常包含已由事务系统管理的数据副本,但它们是为高效批量检索和报告而设计和索引的。在以下部分中,我们将在报告和分析方面探讨OLTP系统的一些可能的缺点,并了解数据仓库的实现如何缓解它们。
OLTP系统可以非常复杂。例如,考虑运行航空公司的票务,旅客寄宿和行李跟踪过程所需的数据库结构的复杂性。这是这种复杂性和细节,往往是在高级报告中的垮台。票务代理人可能能够告诉您下一次航班上有多少空座位,但要找到今年所有航班的空座位数量,而储存总量(丢失机会的衡量标准)可能需要几个分钟或数小时才能编译。
数据仓库可以利用聚合的数据集来加快响应时间。按天、周或月汇总数据将大大减少报告时间。
通常,从前端系统中清除老化的数据。如果没有这种定期的“清理”,为了达到一个特定记录而需要进行的大量数据可能会变得令人望而却步。在大多数情况下,这些历史数据在删除之前被归档,并存储在其他表、数据库甚至完全不同的系统上。这样一来,报告历史数据就变得困难了。
数据仓库中数据的这种定期清除很少需要并且经常皱起眉头。趋势报告,例如季节或一年中的月份,如果有更多年份到平均值,那么更准确。全球气候数据库看看千年季节的季节性温度平均值!
要从OLTP系统中的数百万行中提取出单行,需要一个特定的索引结构。想象一个典型的白页电话簿,它按城镇、姓氏和名字进行索引。使用这样的索引结构来查找所有名字叫约翰的人,这怎么可能呢?
另一方面,数据仓库采用多个索引来允许此类数据搜索。本地库最有可能拥有至少两套卡目录:一个由作者和一个受主题。每组卡目录都可以被认为是货架上书籍的指数。
非直观和复杂的数据库结构
数据仓库通常是OLTP对等物的精简版。源系统中的所有东西很少在数据仓库中被跟踪。由于这个原因,数据仓库中的表和表中的字段或列通常更少。此外,与OLTP系统中的一项相关的多个表通常可以由数据仓库中的单个表表示。为客户使用一个表,为产品使用一个表,而不是为每个表使用几个或几十个表,这会使报表设计人员的工作更容易。
没有其他来源的见解
OLTP系统擅长他们所做的事,但有时他们不做足够的事情来产生真正有意义的报告。追踪和监控制造工厂性能的系统可能会收集大量数据点,但原材料的价格可能不是其中之一。
另一方面,数据仓库可以从一些其他外部来源(如供应链)收集价格波动,并将其与性能数据放在一起,从而更有代表性地反映工厂的成本效益。
历史变革丢失了
大多数OLTP系统不存储对基础数据的历史更改(基础数据是业务的名词:谁和什么,而不是多少)。客户可以从一个居住州迁移到另一个居住州,所有的OLTP系统记录都位于该客户当前居住的地方。然后,该客户的所有事务都与该客户现在居住的位置相关联,而不是与事务发生时他们居住的位置相关联。
为了解决这个问题,在前面的示例中,数据仓库将有两行来表示一个客户,一行用于客户移动之前,另一行用于客户的新住所。这允许数据仓库准确地报告真实的历史数据,因为可以认为事务停留在它发生的位置,而不是转移到新的位置。
在线交易处理系统在当今的商业世界中几乎无处不在,尽管大多数商业用户将用它们不同的商业名称来称呼它们。但是业务经理经常对这些系统感到失望,因为它们报告大量数据的速度很慢,缺乏过去几个月或几年的数据,难以理解定制的报告,缺乏特定的片段,对于历史更改或任何组合都不准确。
该解决方案是一个适当设计的数据仓库,用于速度,全面,完整性,以及一句话,真正的业务分析。在数据仓库主题的未来分期付款中,我们将深入了解数据仓库如何解决上述一些问题的详细信息。