记得以前看一本书上说一个关于科学家的书有哪些死后脑子放在容器保存了一百年,这是真事还是故事?

【与数据同行】已开通综合、数據仓库、数据分析、产品经理、数据治理及机器学习六大专业群加微信号frank 为好友后入群。新开招聘交流群请关注【与数据同行】公众號,后台回复“招聘”后获得入群方法

数据管理领域是信息技术发展中的一个新兴领域,随着互联网、全球化和信息化的快速发展数據管理的重要性日益显现。数据管理是把业务和信息技术融合起来所必需的一整套技术、方法及相应的管理和治理过程它的特殊定位决萣了它涉及的知识体系面广且深,而要把其中各知识领域和它们之间的相互关系梳理和解释清楚并不是一件容易的事情DAMA国际通过对业界數据管理最佳实践的分析总结,出版了《DAMA-DMBOK2数据管理知识体系指南(第2版)》本书给出数据管理的职能、术语和最佳实践方法的标准行业解释,提供数据管理总体框架为数据管理发展提供了重要的理论基础。

International,以下简称“DAMA”)是一个全球性数据管理和业务专业志愿人士组成嘚非营利协会致力于数据管理的研究和实践。DAMA国际自1980年成立以来一直致力于数据管理的理论研究、实践、教训及相关知识体系的建设,在数据管理领域累积了极为深厚的知识沉淀和丰富经验

几十年来,DAMA组织众多数据管理领域的国际级资深专家编著深入阐述数据管理各领域的完整知识体系。作为最终体现DAMA的数据管理知识体系[DAMA-DMBOK2:Data Management Body of Knowledge.2 nd Edition],中文版为《DAMA数据管理知识体系指南(第2版)》,第二版英文版在2017年出版

《DAMA數据管理知识体系指南(第2版)》一书中文版由机械工业出版社在国内出版,即将于5月底上市全书由国际数据管理协会中国分会多名会員志愿共同翻译完成,这是一项里程碑式的工作

本书是国际数据管理协会(DAMA International)对过去30多年数据管理领域知识和实践的一个总结,由会员們花了多年时间和业界专家反复讨论撰写而成

它是市场上唯一综合了数据管理方方面面的一部权威性著作。目前市场上有关数据某一专門领域的著作并不鲜见但把数据管理各领域作为一个完整的知识体系来讨论的据我所知却仅此一本,而这正是本书的一个主要独特之处

DAMA-DMBOK2理论框架由车轮图(由11个数据管理职能领域)和环境因素六边形图(由7个基本环境要素)”共同构成“DAMA数据管理知识体系”(纵轴为数據管理的11个职能领域,横轴为7个环境要素)每项数据职能领域都在7个基本环境要素约束下开展工作。

图2. DAMA数据管理知识体系

  • 《DAMA-DMBOK2 职能框架》萣义了 11 个主要的数据管理职能并通过 7 个环境元素对每个职能进行描述。如下的矩阵以图示方式给出此框架

  • 数据管理职能包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理、数据质量管理。

  • 基本环境要素:目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术

《DAMA-DMBOK2 指南》的每 一章介绍一个数据管理职能,讨论此职能的 7 个环境元素根据所讨论的具体问题, 每章的讨论深入程度有所不同每一章都遵循如丅的统一结构,包括:

(1)对该职能的简要介绍包括关键术语的定义、关联图和业务目标列表。

(2)概念和活动的描述:包括相关的交付成果负责的角色和组织,最佳实践常用程序和方法,配套技术等有一些章节中会为每一个子职能单独定义概念和活动。

(3)一段綜述:包括一个重申指导原则的列表一个重述该职能相关活动、交付成果和责任角色的表格,以及关于组织和文化问题的简要讨论

(4)推荐读物列表:给出了可选读的书籍和文章,以供参考

《DAMA-DMBOk2数据管理知识体系指南》(即《DAMA—DMBOK2指南》)一书,进一步推动数据管理行业的发展本指南的目的是为数据管理科学提供明确的概述,并不试图成为数据管理的百科全书或是就所有数据管理相关事情的全面论述。相反本指南简要介绍了数据管理相关概念,并确定了数据的管理目标、职能和活动的主要交付成果、角色、原则、技术和组织文化方面的問题它简要介绍了被人们普遍接受的良好规范以及重要的可选方法。

《DAMA数据管理知识体系指南(第2版)》的主要10大用途和目标是:

  • 对数據管理职能达成一个普遍适用的看法共识,让不同的读者了解有关数据管理的本质和重要性

  • 提供常用的数据管理职能、交付成果、角銫和相关术语标准的定义,帮助数据管理专员和数据管理专业人士了解自己的角色和职责

  • 帮助机构制定企业数据战略。确定数据管理的指导原则帮助建立数据管理领域的共识。

  • 指导实施和改进数据管理职能的工作、广泛采用的方法和技术以及重要的可选办法指南中不涉及具体的技术供应商或产品。

  • 简明扼要地识别共同的组织和文化问题

  • 澄清数据管理的范围和界限。

  • 引导读者接触更多的资源来加强对數据管理的理解

  • 提供数据管理有效性和成熟度评估的基础。

  • 指导高等教育系统开发和提供数据管理课程内容

  • 帮助数据管理专业人士准備 CDMP 考试。

笔者认为以下12大读者群体适合阅读该书:

  • 企事业单位信息化主管领导(CIO)。

  • 企事业单位数据管理主管领导(CDO)

  • 企事业单位数据管悝团队及专、兼职数据管理人员、数据相关项目的解决方案提供者。

  • 企事业单位各业务职能部门数据管理专员

  • 会计事务师所的从业人员

  • 咨询公司的风险、合规、管理、数据治理从业人员。

  • 律师事务所在合规、权益等方面的律师及从业人员

  • 经过认证的和有抱负的数据管理專业人士

  • 负责开发和提供数据管理课程的教育工作者。

  • MBA和信息管理专业本科及以上学生

  • 政府领域数据管理领域的研究人员。

同时《DAMA数據管理知识体系指南(第2版)》切入点比较全面和系统,适合于高校MBA或者计算机专业本科或者以上的教科书

DMBOK2相对DMBOK1有8方面的变化,详细阐述如下:

DMBOK1去掉了“数据开发”章节增加了“数据建模和设计”和“数据集成和互操作”,同时增加“数据处理伦理规范”、“大数据和數据科学”、“数据管理成熟度评估”、“数据管理组织和角色期望”、“数据管理和组织变革管理”章节

图4. DAMA-DMBOK在不同版本车轮图变化比较圖

数据治理嵌入各知识领域

(1)数据治理不仅独立作为一章进行介绍更是在每个知识领域章节中,专门增加一节介绍该领域内涉及到治悝的内容

(2)强调数据治理融入系统设计和开发过程中,让数据治理成为保证系统质量和数据质量的有力保障,其贯彻系统建设全过程數据治理落地性更强。

数据架构数据建模和设计两部分内容重要性加强了,数据标准包括在数据模型设计中强调数据设  计及在设计过程中落标。

(1)从事后治理向事先管控转变从被动治理向主动治理转变,从理论向实战落地转变从单纯的治理向治理+服务扩展,从传統数据向大数据转变

(2)强调风险管理和企业文化因素,每个知识领域增加“实施指南”一节,包括风险评估各个领域实践过程中可能遇箌的风险和应对建议

(1)数据治理嵌入到业务开展、系统建设、数据应用流程中,治理概念脱虚向实

(2)在介绍11个知识体系过程中,烸个部分都分别详细介绍了落地方法及工具情况便于落地。

(3)每个知识领域增加“实施指南”一节,针对现状的评估、企业文化变革方媔提供了建议和思考

“实战和方法”,“主要交付物”两部分内容  合并为交付管理增设工具内容;

图5. DAMA环境因素六边形变化对比图

  • 图上增加显示了人、过程和技术分类;

  • “实践和方法”替换为“工具”;

  • 六边形内容变化“实战和方法”,“主要交付物”两部分内容  合并为茭付管理增设工具内容。DMBOK1以理论知识体系为主在“实战和方法” “主要交付物”两部分,强调的是方法论而DMBOK2强调交付和工具的重要性;

该框架从数据管理的指导目标开始获取价值,因此与数据全生命周期相关派生价值需要生命周期管理。从数据生命周期出发数据治理贯穿于整个数据开发过程。

图6. DAMA数据管理功能框架

图7. DAMA功能领域依赖关系图

数据治理必须嵌入到业务开展、系统建设、数据应  用流程中並通过工具来支撑使用,工具的介绍篇章及份额明显增加

对数据管理专业人士也可用作业务参考。全书共17章分别是:

  1.   数据治理(Data Governance):通过建立一个能够满足企业需求的数据决策体系,为数据管理提供指导和监督这些权限和责任的建立应该考虑到组织的整体需求。(参見第3章)

  2.  数据架构(Data Architecture):定义了与组织战略协调的管理数据资产的“蓝图”指导基于组织的战略目标,指定符合战略需求的数据架构(参见第4章)

  3. 数据建模和设计(Data Modeling and Design):以数据模型(data model.)的精确形式,进行发现、分析、展示和沟通数据需求的过程(参见第5章)

  4. 数据存储囷操作(Data Storage and Operations):以数据价值最大化为目标,包括存储数据的设计、实现和支持活动以及在整个数据生命周期中,从计划到销毁的各种操作活动(参见第6章)

  5.  数据安全(Data Security):这一活动确保数据隐私和安全,数据的获得和使用必须要有安全的保障(参见第7章)

  6. 数据集成囷互操作(Data Integration and Interoperability):包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程。(参见第8章)

  7. 文档和内容管理(Document and Content Management):用于管理非结構化媒体的数据和信息的生命周期过程包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档(参见第9章)

  8. 参考數据和主数据管理(Reference and Master Data Management):包括核心共享数据的持续协调和维护,使关键业务实体的真实信息以准确、及时和相关联的方式在各系统间得箌一致使用。(参见第10章)

  9. 数据仓库和商务智能(Data Warehousing and Business Intelligence):包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告從数据中获得价值(参见第11章)

  10. 元数据管理(Metadata Management):包括规划、实施和控制活动,以便能够访问高质量的集成元数据包括定义、模型、數据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)。(参见第12章)

  11. 数据质量管理(Data Quality Management):包括规划和实施质量管理技术以测量、评估和提高数据在组织内的适用性。(参见第13章)

除了有关知识领域的章节外DAMA-DMBOK车轮图以外的内容,包含以下主题章節:

  1. 数据处理伦理(Data Handling Ethics):描述了关于数据及其应用过程中数据伦理规范在促进信息透明、社会责任决策中的核心作用。数据采集、分析囷使用过程中的伦理意识对所有数据管理专业人士有指导作用(参见第2章)

  2. 大数据和数据科学(Big Data and Data Science):描述了针对大型的、多样化数据集收集和分析能力的提高而出现的技术和业务流程。(参见第14章)

  3. 数据管理成熟度评估(Data Management Maturity Assessment):概述了评估和改进组织数据管理能力的方法(参见第15章)

  4. 数据管理和组织变革管理(Data Management and Organizational Change Management ):描述了如何计划和成功地推动企业文化变革,文化的变革是将数据管理实践有效地嵌入组织Φ必然结果(第17章)

第一章、数据管理主要内容

(1)数据管理9大核心原则

图9. 数据管理9大核心原则

  • 数据是有独立属性的资产:数据是一种資产,但相比其他资产其在管理方式的某些方面有很大差异。对比金融和实物资产其中最明显的一个特点是数据资产在使用过程中不會产生消耗。

  • 数据价值能够并且应该通过经济术语来表达:将数据称为资产意味着它有价值虽然有技术手段可以测量数据的数量和质量,但还未形成这样做的标准来衡量其价值想要对其数据做出更好决策的组织应该开发一致的方法来量化该价值。他们还应该衡量低质量數据的成本和高质量数据的好处

  • 管理数据意味着管理数据的质量:确保数据符合应用的要求是数据管理的首要目标。为了管理质量组織必须确保他们了解利益相关者对质量的要求,并根据这些要求度量数据

  • 管理数据需要元数据:管理任何资产都需要首先拥有该项资产嘚数据(员工人数,账户号码等)用于管理和如何使用的数据都叫元数据。因为数据无法拿在手中或触摸到要理解它是什么以及如何使用它,需要以元数据的形式定义这些知识元数据源于与数据创建、处理和使用相关的一系列流程,包括架构、建模、管理、治理、数據质量管理、系统开发、IT和业务运营以及分析

  • 管理数据需要计划:即便是小型组织也可能有复杂的技术和业务流程蓝图。数据在多个地方被创建且因为使用需要在很多存储位置间移动。需要一些协调工作来保持最终结果的一致需要从架构和流程的角度进行规划。

  • 管理數据是跨职能的工作:它需要一系列的技能和专业知识因此单个团队无法管理组织的所有数据。数据管理需要技术能力、非技术技能以忣协作能力

  • 数据管理需要企业级视角:虽然数据管理存在很多本地应用程序,但它必须能够有效地被应用于整个企业

  • 数据是流动的,數据管理必须不断发展演进以跟上数据创建的方式、应用的方式和消费者的变化。

  • 数据管理是全生命周期的管理:数据是有生命周期的因此数据管理需要管理它的生命周期。因为数据又将产生更多的数据所以数据生命周期本身可能非常复杂。数据管理实践活动需要考慮数据的整个生命周期

(2)知识领域语境关系图

图10. 知识领域语境关系图

  • 描述了知识领域的细节,包括与人员、流程和技术相关的细节咜们基于产品管理(供应者、输入、活动、交付成果和消费者)的SIPOC图的概念。

  • 语境关系图将活动放在中心这些活动生产了满足利益相关鍺需求的可交付成果。每个语境关系图都以知识领域的定义和目标开始

  • 驱动目标(中心)的活动分为四个阶段:计划(P)、开发(D)、操作(O)和控制(C)。

  • 在左侧流入活动中是输入和供应商右侧从活动中流出是交付成果和消费者。参与者列在活动下方

  • 底层是影响知識领域各个方面的工具、技术和度量标准。

第1阶段:组织购买包含数据库功能的应用程序这意味着组织以此作为数据建模、设计、数据存储和数据安全的起点。要使系统在其数据环境中运行还需要做数据集成和交互操作方面的工作。

第2阶段:一旦他们开始使用应用程序他们将发现数据质量方面的挑战。但获得更高质量的数据取决于可靠的元数据和一致的数据架构它们说明了来自不同系统的数据是如哬协同工作的。

第3阶段:管理数据质量、元数据和架构需要严格地实践数据治理为数据管理活动提供体系性支持。数据治理还支持战略計划的实施如文档和内容管理、参考数据管理、主数据管理、数据仓库和商务智能,这些黄金金字塔中的高级应用都会得到充分地支持

第4阶段:该组织充分利用了良好管理数据的好处,并提高了其分析能力

(1)数据处理伦理语境关系图

描述构成数据管理伦理的基本原則阐述数据伦理处理方法如何帮助组织避免数据的非正常使用及由此带来的对客户、声誉或更广大群体的危害。

图12. 数据处理伦理语境关系图

尊重他人: 这个准则反映了对待人类最基本的伦理要求即尊重个人尊严和自主权。

行善原则:这条准则有两个要素:第一不伤害;苐二,将利益最大化、伤害最小化

公正:这一准则认为待人公平和公正

(3)建立合乎伦理道德的数据处理文化

建立合乎伦理道德的数据處理文化需要理解现有实践定义预期行为将它们编入策略和道德规范,并提供培训和进行监督以强制执行预期行为,与管理数据和妀变文化相关的其他举措一样这一过程需要强有力的领导层的推动。

合乎伦理道德的数据处理显然包括遵守法律它也会影响组织内部囷外部对数据的分析、 解释和利用方式,重视伦理道德行为的组织文化不仅 要有行为准则还要确保有清晰的沟通和治理机制,以支持那些意识到不道德行为或风险的员工

图13. 伦理风险模型

  • 组织需要以合乎伦理道德的方式处理数据,否则就有风险就有可能失去客户、员工、合作伙伴和其他利益相关方的信任;

  • 数据伦理植根于社会的基本原则和伦理道德的基本述求;

  • 与数据相关的监管基于这些相同的原则和偠求,但监管不能涵盖所有意外情况因此,组织必须考虑到自己行为的伦理道德规范;

  • 组织应该为它们处理数据培养道德责任文化这鈈仅是为了符合合规要求,同时也是本来就应该做的正确的事;

  • 合乎伦理道德的数据处理最终将为组织提供竞争优势因为它是信任的基礎。

第三章、数据建模和设计

(1)数据建模与设计语境关系图

数据建模与设计:数据建模是发现、分析和确定数据需求的过程然后用一種用称为数据模型的精确形式表示和传递这些数据需求。这个过程是循环迭代的可能包括概念、逻辑和物理模型。

图14. 数据建模与设计语境关系图

第八章、数据集成和互操作

定义:管理和整合在应用系统和组织内部或者应用系统与组织之间传输的数据。

图15. 数据集成和互操莋语境关系图

第十四章、大数据和数据科学

大数据不仅是指数据量大也包括数据的种类(结构化的和非结构化的,文档(documnents)、文件(files)、音頻、视频、流数据等), 以及数据产生的速度那些从数据中探究并研发预测模型、机器学习模型、规范性模型和分析方法、并将研发结果蔀署供相关方进行分析的人,被称为数据关于科学家的书有哪些

大数据和数据科学:多种不同类型的数据集合(大数据)和分析(数据科学,解析可视化),都是为了洞察和解决分析初始时未知的问题

图16. 大数据和数据科学语境关系图

随着大数据被加载到数据仓库和商務智能环境中,数据科学技术被用来为组织提供前瞻性的视图(“挡风玻璃”)使用不同种类的数据源,实现预测能力、基于模型的实時分析能力能够为组织未来的发展方向提供更深刻的洞察能力。

图17. 收敛信息三角型

要想利用大数据就需要改变数据的管理方式。大多數数据仓库都基于关系模型而大数据一般不采用关系模型组织数据。大多数数据仓库依赖于ETL(提取、转换和加载)的概念大数据解决方案,如数据湖则依赖于ELT的概念——先加载后转换。更加重要的是数据的生产速度和容量带来了挑战,需要在数据管理的各个关键领域中采用不同的方法如集成、元数据管理和数据质量评估。

第十五章、数据管理成熟度评估

成熟度模型通过描述各阶段能力特点来定义荿熟度的级别当一个组织满足某阶段能力特征时,就可以评估其成熟度等级并制定一个提高能力的计划。它还可以帮助组织在等级评估的指导下进行改进与竞争对手或合作伙伴进行比较。在每一个新等级能力评估会变得更加一致、可预测和可靠。当能力呈现出与等級不符的特征时等级会得到提升。但能力水平有既定顺序不能跳过任何等级。

图19. 数据管理成熟度评估语境关系图

CMM通常定义五至六个成熟度级别每个级别有各自的特性,从初始级到优化级数据管理成熟度评估框架被划分为离散的数据管理主题,框架焦点和内容取决于咜们是用于通用行业还是特定行业

图20. 数据管理成熟度模型示例

第十六章、数据管理组织和角色期望

大多数组织正面临着越来越多的数据。这些数据格式多样化、数量庞大并来源于不同的渠道。由于数据的数量和种类的增加加剧了数据管理的复杂性。与此同时数据消費者要求更快速、更方便地访问数据,他们希望理解并使用数据以便及时地解决关键业务问题。数据管理和数据治理组织需要足够灵活才能在不断发展的环境中有效地工作。因此需要澄清关于所有权、协作、责任和决策的基本问题。

本章将描述在组建数据管理或数据治理组织时应该考虑的一组原则。它同时涉及数据治理和数据管理因为数据治理为数据管理组织执行活动提供指导和业务背景。两者嘟没有完美的组织结构虽然数据治理和数据管理组织应该遵循一些公共原则,但是很多细节依赖于组织所在行业的驱动因素和组织自身嘚企业文化

图21. 评估数据管理组织运营模式

运营模式是改进数据管理和数据治理实践的起点。引入运营模式之前需要了解它如何影响当湔组织以及它可能会如何发展。由于运营模式将帮助政策和流程的定义、批准和执行因此确定最适合组织的运营模式是至关重要的。

评估当前的组织结构是集中的、分散的还是混合的、层级化的或相对扁平的?描述相关部门或区域的独立性他们的运作几乎是自给自足嘚?他们的要求和目标是否有很大的差异最重要的是,尝试确定决策是如何做出的(例如民主或强制性指令),以及如何实施这些决筞

第十七章、数据管理和组织变革管理

成功的数据管理实践需要:

  • 根据信息价值链调整数据责任制度,以此来学习横向管理

  • 将垂直的(筒仓)数据责任制度转变为共享的信息管理工作。

  • 将局部业务关注点或IT部门工作中的信息质量演变为整个组织的核心价值

  • 将对信息质量的思考从"数据清洗与数据质量记分卡”提升转变为组织的基本能力。

  • 对不良数据管理引发的代价和规范化数据管理带来的价值进行衡量

组织变革管理专家约翰·科特(John P. Kotter)总结了一套基本的“变革法则”,这些法则描述了为什么变革并不容易在变革过程之初就认识到这些问题有助于取得成功。

  • 组织不变革人就变: 不是因为新组织宣布成立或新系统实施上线就要变革。人们认识到变革带来的价值而发生行為变化时变革就会发生。改进数据管理实践和实施正式数据治理流程将对组织产生深远的影响人们需要改变数据处理的方式,以及在數据相关活动中的互动方式

  • 人们不会抗拒变革,但抵制被改变:人们无法接受看起来武断或独裁的变革如果他们始终参与变革、定义變革,并且他们理解推动变革愿景以及知道变革发生的时间和方式,他们就更有可能愿意进行变革数据相关举措的变革管理部分涉及箌团队合作,以在组织层面建立起对数据管理实践改进后价值的理解

  • 事情之所以存在是惯性所致:事情的现状可能是因为好的历史原因。在过去某个节点有人定义了业务需求、定义了流程、设计了系统、编写了策略、或者确立了当前恰好需要变革的商业模式。了解当前數据管理实践的起源将有助于组织规避历史错误。

  • 除非有人推动变革否则很可能止步不前:如果想有所改进,就必须采取新措施

  • 如果不考虑人的因素,变革将很容易: 变革在"技术"层面上的实现通常是很容易的挑战来自于如何处理人与人之间的自然差异。

大数据时代的箌来让“数据即资产”成为最核心的产业趋势。在这个“数据为王”的时代企业发展兴衰的决定性因素,已不是一城一池的争夺也鈈是土地、人力、技术、资本这些传统意义上的生产要素,而是曾经被一度忽视的"数据资产"

数据成为资产的关键在于数据挖掘分析,需偠以资产化的方式进行数据治理实现“应用和管理”稳步前进。只有通过数据的整合达到企业数据的上下贯通,横向融合才能更好嘚做好数据资产的运营。

数据治理已成为企事业单位精细化管理不可或缺的基础只有切实落实好数据治理工作,才能提升企业数据质量、实现数据价值升华真正成为企业应对市场挑战的助推力。

今天来说说交流群里一位群友问嘚Python题目刚开始由于没有电脑,我也没有运行出来之后查阅了一下资料才知道里面的知识还挺多的。废话不多说我们直接开始。


题目:写出下面程序运行结果

第一眼看不就是匿名函数吗?但是仔细想想匿名函数在平时的开发中没怎么用所以也忘的差不多了。例如那個m(2)当时就不懂是啥意思了

好,我们就来看看这个题目首先第一段代码:

这是一个典型的列表推导式,简而言之就是在列表中推导计算並且将计算的结果放入列表上面这串代码我们可以写成:

● 我的神!用Python竟然还能做一个文字套娃 ● 2020年5月编程语言排行榜,Python竟然排老三 ● 峩珍藏的一些好的Python代码技巧|上篇 ● 我打赌,学会这6招谁再敢笑你的Python程序慢!

点击阅读原文,阅读菜鸟B站7个原创视频

我要回帖

更多关于 关于科学家的书有哪些 的文章

 

随机推荐