主常用的8种数据分析方法类的方法有哪些?

不同的群体会基于不同的目的使用相同的数据。参考数据和主数据帮助企业进行持续的协调一致的数据维护工作,改善和提升数据质量。关联图:一、概念参考数据管理是对定义的数据域中关联的数据值进行管理,包括标准化术语、代码值、唯一标识符,以及其他数据取值所需的业务定义等。可以对使用数据域值对跨数据列的业务进行控制管理,进行数据分类和目录整理。通过参考数据可以有效建立业务数据间的关联关系,以便提供不同业务相关方的360度信息视图,以及更有效的报表和分析。主数据管理是对主数据值进行控制,实现跨系统的数据一致性、共享。是对和新业务实体的真实情况最准确、及时的控制,并提供版本管理。不同的业务场景和组织中,不同的术语可能都会用来表示参考数据和主数据管理,参与者有必要对这些数据进行清晰的定义。参考数据与主数据是不一样的:1)参考数据更多的是对数据进行分类或目录整编的数据。参考数据值依托于业务规则定义或者国标、行标定义的。比如订单状态、地区、邮编等。编者注:书中对参考数据的举例主要是单据状态、州代码、分层次数据等。从日常工作中来理解,参考数据其实可以理解为对业务的分类抽象,可能这些数据是代码标准值,也可能是字典数据,也可能是枚举类型的数据,但其核心其实是为了业务处理,查询分析,建立多维度视图而提出的概念。如果对参考数据的标准化和共享性要求较高,可以将其定为主数据。2)主数据是对事实的“黄金”记录,提供了关于业务实体最权威、最准确的数据。编者注:本书中都是对一个对象的实例化的理论思想。因此,主数据在我们日常工作中的概念是一个唯一的数值。但是对于本书来说,其实它的对象是唯一明确的,它的实例化可能会出现多条记录。而主数据管理是确保这个对象实例化最准确的一个数值,避免产生多个。常见的主数据包括:当事人主数据:个人、组织、客户、合作伙伴、竞争对手等,基于不同当事人主体在不同的行业和领域会有其当事人主数据的独特性,比如教育行业,关注的是学生和教师。针对不同当事人主体可能会有不同的专业系统进行管理,比如CRM(客户关系管理)、HRM(人力资源管理)等;财务主数据:业务单元、成本中心、利润中心、总账账户、预算、计划和项目数据等。通常使用ERP(企业资源规划)充当财务主数据的管理中心。财务主数据关注的是财务数据的改变如何影响例如预算、计划等企业管理工作,不同版本的财务结构对组织的影响;产品主数据:一个组织的内部产品或服务,或整个行业的(包括竞争对手)的产品和服务。可以是结构化的或非结构化的,它可能包括产品或服务的基本信息,也可能包含其装配组件清单、零件/原材料、版本、修订、价格、折扣条款、配套产品、设计文件、图像、配方、标准操作规程等内容。产品生命周期管理PLM是对产品从概念阶段开始,到其交付的过程管理。不同行业对PLM的管理诉求不同;位置主数据:提供跟踪和分享不同地理信息的能力。在这类数据中,参考数据和主数据的概念并不清晰。(书中提到的是位置参考数据是指国家、省市区等标准代码,位置主数据则是针对某个当事人的地址和位置、地理定位坐标等信息)二、活动通过上面的内容可以看到,其实定义为参考数据还是主数据,并非泾渭分明。特别是对跨应用的系统来说,参考数据和主数据的整合往往决定了数据质量的高低。一般来说,通过一个个主题区域分析数据如何设计,是管理参考数据和主数据的有效手段。对于一个组织来说,需要通过以下活动来管理参考数据和主数据:1、识别参考数据和主数据的来源及贡献者首先要理解参考数据和主数据的需求,然后跟踪这些数据的血缘关系,用以确定数据的起始、中间过程。明确数据的生产者、维护者和消费者。这样可以对数据上下游有深刻的理解,以便在源头就捕获高质量的数据。2、定义和维护数据整合架构No4提到的有效的数据整合架构可以控制数据的共享访问、复制和数据流向,以确保数据质量和数据一致性。对于参考数据和主数据来说,数据整合架构尤为重要,可以避免数据在不同应用孤岛间的冗余和不一致性。参考数据和主数据整合的基本方案有三种:1)集中统一管理:代码管理系统(也就是我们平时所说的主数据管理系统)可以是多种参考数据集提供记录的系统,数据库是记录数据库。如下图:记录数据库作为参考数据的“中心”向其他“分支”应用和数据库提供参考数据。应用系统可以直接读取参考数据和主数据,也可以通过订阅、复制、发布的方式获取数据记录。记录数据库的数据来源除了通过代码管理系统生产外,也可能来自于外部数据源,比如书中举例的保险公司索赔系统。通过索赔系统和自己系统的数据整合,可以更加完整的反映保单的当前状态。2)分主题域管理:每个主数据域都有自己专用的记录系统。比如人力资源记录雇员数据,CRM记录客户数据,ERP记录财务和产品数据。每个系统的数据库都作为某类主数据的权威数据中心。如下图:各个记录系统管理某个主题的权威数据,只有通过参考记录或主记录,才可以复制给到其他应用或数据仓库、数据集市等使用。3)运转中心:拥有多个权威数据中心的数据整合环境非常复杂。运转中心的设计是为了解决管理不同权威主题域数据的整合难题。运转中心的设计是让每个记录数据库把其权威的参考数据和主数据提供给操作性数据存储(ODS)系统,再有ODS做为参考数据和主数据的中心向其他应用提供数据。同样可以通过读取(甚至是直接做为自己的数据库)、订阅、复制、发布等方式获取数据。ODS不仅仅做为记录传递数据,自身也具备数据管理职能,可以核对来自于一个系统的新增数据和更新是否与其他系统的数据存在冲突。数据仓库可以保存ODS的数据变更历史,ODS成为数据标准管理的核心,降低了数据抽取的复杂度,减少数据转换、清洗和核对的处理时间。数据整合架构的通用数据整合服务示意图:数据整合服务可以有效的协调参考数据和主数据不一致的问题,通过建立主数据标准,使得参考数据和主数据可以有效的标准化和共享。因此在数据整合服务中,应包括:变更请求处理:包括评审和批准;对外部获取的参考数据和主数据进行数据质量检查;数据质量规则和匹配规则要保持一致性;数据处理的模式、有关映射/转换/程序和工作的元数据、审计/错误解决方案和性能监控数据、复制数据的方式(订阅、发布、读取等)均采用一致的模式;3、实施参考数据和主数据解决方案由于需求的多样性、复杂性和不稳定性,实施参考数据和主数据的解决方案必然需要一个过程。组织应当在架构、业务优先级和实施计划路径的指导下,采取迭代和增量方式来实施解决方案。使用代码管理系统,可以在业务数据管理专员的统一控制下,维护一套具有权威性的参考数据和主数据。但是在实际应用过程中,很少能确保所有参考数据和主数据都能纳入到完整的数据管理范围内。不论什么情况(原因)下,都会存在缺乏管理的参考数据和主数据。参考数据和主数据的解决方案实际上是要结合组织特性、业务需求的数据管理方法论。可以通过数据整合架构、解决方案,以及二者两结合的方式来建立有效的参考数据和主数据管理策略。4、定义和维护数据匹配规则匹配的目的是消除冗余,提高数据质量。数据匹配是将多个系统中对于同一个人、群组和事物的数据通过比对、合并、连接等关联起来,提供更丰富全面的数据信息。这也是主数据管理面临的最大难题和挑战。在主数据日常管理和维护中,数据匹配是通过基于应用推理规则建立的数据匹配引擎来实现的,这依赖于清晰的匹配规则,包括不同置信水平的匹配接受度(有些匹配需要极高的信任度,有些则可采用较低的信任度)等。匹配决策不可能完全正确,因此保持匹配历史信息非常重要,以便在发现匹配不正确的情况下撤销匹配。通过对匹配率等指标的分析来监控匹配规则的效果和影响,同时做为优化匹配规则的依据。针对不同的业务场景,可以使用不同的流程建立匹配规则:重复识别匹配原则,重点关注一组特定的用于确定实体和识别合并机会的字段,但不自动合并,由业务数据管理专员评审后执行;匹配合并规则:重点关注记录的匹配并将这些记录的数据合并为一个唯一和全面的记录。至少有一个数据库的数据是可信记录,以它为基准关联其他数据库,并通过其他数据库对记录进行补充,用以替代缺失或者不准确的数值;匹配链接规则:确定主数据的相关记录,建立交叉引用关联,而不更新被交叉引用的数据记录。这个规则容易实现,且更易于恢复数据原貌。匹配合并规则非常复杂,有两个问题需要注意:1)整合数据的操作复杂性;2)数据错误操作的还原成本。主数据的置信水平随时间发生变化,要定期重新评估匹配和并和匹配链接的规则。可以通过数据匹配引擎提供的数据值统计相关性来帮助建立新的置信水平。5、定义“黄金”主数据值黄金数据是被认为最准确、最新,提供给跨应用使用的相关数据值,具备标准化和一致性。确定黄金数据的方法:通过分析确定数据的质量,应用数据质量规则和匹配规则,以及在获取、建立和更新数据的应用系统中嵌入数据质量控制过程。1)执行数据质量规则:针对使用的数据和业务规则进行编辑检查;创建、录入新数据时,通过数据标准进行搜索检查。可以为用户推荐已经存在的相关联数据,如果没有,则创建新数据;检查数据的准确度是否达到要求,不满足应予以提示。同时,提供例外情况记录的通道,以备审计和优化数据质量使用;2)建立数据质量衡量方法:设置数据质量预期(标准);评估数据质量的改善,分析确定出现数据质量问题的根本原因;通过数据分析活动以及业务规则符合程度,验证评估的数据质量结论;3)数据清洗活动:提供术语和缩写标准化功能,将不同的词语和缩写转换为标准词汇或缩写;需要注意的是,不同的词汇使用同一个缩写的问题,这样很难将缩写逆向转换为术语词汇;在数据整合活动中,嵌入数据质量规则可以使得任何数据源的数据均使用同一组校验和标准化的规则;4)消除冗余数据应用匹配规则将已经规范化和清洗后数据中的重复数据进行处理;6、定义和维护层次及关联关系对主数据记录之间的关系进行创建和维护。这些关系包括:所有权关系、普通到特殊的分类(关系)、全部和部分组合,也可能是一些值得去是别的其他非层次关系。7、计划和实施新数据源的整合包括但不限于:从不同的源头接收和响应新数据采集的请求;使用数据清洗和数据分析工具执行数据质量评估服务;评估数据整合的复杂性和成本;试点数据采集和匹配规则的影响;确定数据质量负责人;确定数据质量指标;8、复制和分发参考数据与主数据参考数据和主数据可以通过直接读取或复制的方式供其他应用使用。相较于读取方式,通过复制方式,应用可以确保参照的完整性。数据整合过程就是要确保参考数据和主数据能够及时被复制和分发到这些应用的数据库中。参考数据通常会在内容管理中做为搜索的标准,在非结构化文档中它则是通过建立索引来加快搜索。9、管理参考数据和主数据的变更在受控的主数据环境中,需要由特定的人员担任业务数据管理专员的角色,承担建立、更新、作废参考数据的工作,并在某些情况下完成主数据的类似操作。以确保数据的高质量。参考数据的变更影响可大可小,应该通过有效的管理来控制参考数据变化带来的影响:废止的参考数据,需要及时通知应用环境。应用环境中原有历史数据的关联不受影响,但新数据必须参照新的有效数据;要建立新旧参考数据的联系,不仅要说明历史数据的结构和汇总方法,还要描述新数据的结构和汇总方法;要仔细评估变更带来的影响,对于关系变化可能影响现有的数据整合和数据聚合规则的,其涉及到的元数据变更也需要进行控制;主数据管理和变更,需要改变数据的管理(控制)方。这需要建立参考数据和主数据的变更需求的接收和响应渠道。包括:要求添加新数据(或新的数据源);数据内容(或数据质量)存疑,需要进行调整、更改或澄清;业务定义和数据结构变更引起的数据规范变更;三、指导原则实施参考数据和主数据管理职能的6个指导原则:共享的参考数据和主数据属于整个组织,而非特定应用系统或部门;参考数据和主数据管理是一个持续的数据质量改进计划,其目标不可能在一个单独项目中完成;业务数据管理专员是控制参考数据值的负责人。业务数据管理专员和数据专家共同协作以提高参考数据和主数据的质量;黄金数据是组织尽最大努力所确定的适合关联环境的、最准确、最新的相关数据值。新数据可能证明先前的假设是错误的。因此需要谨慎的应用匹配规则,并确保所做的任何操作都是可逆的;只从记录数据库(唯一的主数据管理数据库)复制主数据值;变更管理流程:请求、沟通,在某些情况下批准后方可实施变更;四、过程总结详见链接:五、组织和文化的影响主数据管理的解决方案需要对相关方进行持续的关注,不同的利益相关者其需求、期望、态度,以及对数据质量的关注度也不尽相同。数据专业人员应充分了解相关方的需求,做好引导和谈判工作,促进各方形成共同的理解。参考数据和主数据的质量管理是一个长期的工作,必然需要改变一些传统的工作方式和流程,这需要因地制宜,针对组织对数据质量的期望和需求设计相关管理和变更规则。实施参考数据和主数据的管理,需要有效的数据治理和数据管理做支撑,并非仅仅是一个数据整合工具,需要明确数据管理工作的各类角色,以及为数据管理作出决策的组织。

我要回帖

更多关于 常用的8种数据分析方法 的文章