如何正确理解大数据?

  如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。

  1.。“”如何与大数据相关?即使是一个通用术语,但大数据分析使其在当代更受青睐和流行。

  2.分析。年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进一步分析自己在食物、衣服、娱乐等方面具体花费占比呢?那你便是在做“分析”了。你正从一堆原始数据中来吸取经验,以帮助自己为来年的消费做出决策。如果你正在针对整个城市人群对Twitter或Facebook的帖子做同样的练习呢?那我们便是在讨论大数据分析了。大数据分析的实质是利用大量数据来进行推断和讲故事。大数据分析有3种不同到的类型,接下来便继续本话题进行依次讨论。

  3.描述性分析。刚刚如果你告诉我,去年你的信用卡消费在食物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、剩下的就是杂七杂八的事项,这种便是描述性分析。当然你还可以参考更多的细节。

  4.预测分析。如果你根据过去5年的信用卡历史记录来进行分析,并且划分具有一定的连续性,则你可以高概率预测明年将与过去几年相差无几。此处需要注意的细节是,这并不是“预测未来”,而是未来可能会发生的“概率”。在大数据预测分析中,数据科学家可能会使用类似机器学习、高级的统计过程(后文将对这些术语进行介绍)等先进的技术去预测天气、经济变化等。

  5.规范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(级食品、服装、娱乐等)对自己的整体支出产生巨大的影响。规范分析建立在预测分析的基础之上,包含了“行动”记录(例如减少食品、服装、娱乐支出),并分析所得结果来“规定”最佳类别以减少总体支出。你可以尝试将其发散到大数据,并设想高管们如何通过查看各种行动的影响来做出数据驱动的决策。

  6.批处理。虽然批量数据处理在大型机时代就早已出现,但大数据交给它更多大数据集处理,因此赋予了批处理更多的意义。对于一段时间内收集到的一组事务,批量数据处理为处理大量数据提供了一种有效的方法。后文将介绍的Hadoop便是专注于批量数据处理。超越批处理的世界:流计算 使用Spark SQL构建批处理程序。

  8. 云计算。显而易见云计算已经变得无所不在,所以本文可能无须赘述,但为了文章的完整性还是佐以介绍。云计算的本质是在远程服务器上运行的软件和(/或)数据托管,并允许从互联网上的任何地方进行访问。

  9. 集群计算。它是一种利用多台服务器的汇集资源的“集群”来进行计算的奇特方式。在了解了更多技术之后,我们可能还会讨论节点、集群管理层、负载平衡和并行处理等。

  10. 黑暗数据。依我看来,这个词适用于那些吓得六神无主的高级管理层们。从根本上来说,黑暗数据是指那些被企业收集和处理但又不用于任何有意义用途的数据,因此描述它是“黑暗的”,它们可能永远被埋没。它们可能是社交网络信息流、呼叫中心日志、会议笔记,诸如此类。人们做出了诸多估计,在60-90%的所有企业数据都可能是“黑暗数据”,但无人真正知晓。

  11. 数据湖。当我第一次听到这个词的时候,我真的以为有人在开愚人节的玩笑。但它真的是个术语!数据湖是一个原始格式的企业级数据的大型存储库。虽然此处讨论的是数据湖,但有必要再一起讨论下数据仓库,因为数据湖和数据仓库在概念上是极其相似的,都是企业级数据的存储库,但在清理和与其他数据源集成之后的结构化格式上有所区别。数据仓库常用于常规数据(但不完全)。据说数据湖能够让用户轻松访问企业级数据,用户真正按需知道自己正在寻找的是什么、如何处理并让其智能化使用。拥抱开源技术的前提——认识数据湖 你知道数据湖泊(DATA LAKE)吗?

  12. 数据挖掘。数据挖掘是指利用复杂的模式识别技术从大量数据中找到有意义的模式、提取见解。这与我们前文讨论的使用个人数据做分析的术语“分析”密切相关。为了提取出有意义的模式,数据挖掘者使用统计学(是呀,好老的数学)、机器学习算法和人工智能。

  13.数据科学家。我们谈论的是一个如此热门的职业!数据科学家们可以通过提取原始数据(难道是从前文所说的数据湖中提取的?),处理数据,然后提出新见解。数据科学家所需具备的一些技能与超人无异:分析、统计、计算机科学、创造力、故事讲述和理解业务环境。难怪他们能获得如此高的薪水报酬。

  14.分布式文件系统。由于大数据太大而无法在单个系统上进行存储,分布式文件系统提供一种数据存储系统,方便跨多个存储设备进行大量数据的存放,并有助于降低大量数据存储的成本和复杂度。

  15. ETL。ETL分别是extract,transform,load的首字母缩写,代表提取、转化和加载的过程。 它具体是指“提取”原始数据,通过数据清洗/修饰的方式进行“转化”以获得 “适合使用”的数据,进而“加载”到合适的存储库中供系统使用的整个过程。尽管ETL这一概念源于数据仓库,但现在也适用于其它情景下的过程,例如在大数据系统中从外部数据源获取/吸收数据。我们需要什么样的ETL?

  工程师要不要写ETL?——教你构建高效的算法/数据科学部门 ETL的经验总结

  16. Hadoop。人们一想起大数据就能立即想到Hadoop。 Hadoop(拥有可爱的大象LOGO)是一个开源软件框架,主要组成部分是Hadoop分布式文件系统(HDFS),Hadoop部署了分布式硬件以支持大型数据集的存储、检索和分析。如果你真的想给别人留下深刻的印象,还可以谈谈YARN(Yet Another Resource Schedule,另一个资源调度器),正如其名,它也是一个资源调度器。我由衷佩服这些为程序命名的人。为Hadoop命名的Apache基金会还想出了Pig,Hive和Spark(没错,它们都是各种软件的名称)。这些名字难道不让你感到印象深刻吗?

  17. 内存计算。一般来说,任何可以在不访问I / O的情况下进行的计算预计会比需要访问I/O的速度更快。内存内计算是一种能够将工作数据集完全转移到集群的集体内存中、并避免了将中间计算写入磁盘的技术。Apache Spark便是一种内存内计算系统,它与I / O相比,在像Hadoop MapReduce这样的系统上绑定具有巨大的优势。

  18. IOT。最新的流行语是物联网(Internet of things,简称IOT)。IOT是通过互联网将嵌入式对象(传感器、可穿戴设备、汽车、冰箱等)中的计算设备互连在一起,并且能够发送/接收数据。IOT产生了大量的数据,这为呈现大数据分析提供了更多的机会。

  19.机器学习。机器学习是为了设计一种基于提供的数据能够进行不断学习、调整、改进的系统的设计方法。机器使用预测和统计的算法进行学习并专注于实现“正确的”行为模式和简见解,随着越来越多的数据注入系统它还在不断进行优化改进。典型的应用有欺诈检测、在线个性化推荐等。

  20.MapReduce。MapReduce的概念可能会有点混乱,但让我试一试。MapReduce是一个编程模型,最好的理解方法是将Map和Reduce是看作两个独立的单元。在这种情况下,编程模型首先将大数据的数据集分成几个部分(技术术语上是称作“元组”,但本文并不想太过技术性),因此可以部署到不同位置的不同计算机上(即前文所述的集群计算),这些本质上是Map的组成部分。接下来该模型收集到所有结果并将“减少”到同一份报告中。 MapReduce的数据处理模型与hadoop的分布式文件系统相辅相成。

  21.NoSQL。乍一听这像是针对传统关系型数据库管理系统(RDBMS)的面向对象的SQL(Structured Query Language, 结构化查询语言)的抗议,其实NoSQL代表的是NOT ONLY SQL,意即“不仅仅是SQL”。 NoSQL实际上是指被用来处理大量非结构化、或技术上被称作“图表”(例如关系型数据库的表)等数据的数据库管理系统。NoSQL数据库一般非常适用于大型数据系统,这得益于它们的灵活性以及大型非结构化数据库所必备的分布式结构。

  22.R语言。有人能想到比这个编程语言更糟糕的名字吗?是的,’R’是一门在统计计算中表现非常优异的编程语言。如果你连’R’都不知道,那你就不是数据科学家。(如果你不知道’R’,就请不要把那些糟糕的代码发给我了)。这就是在数据科学中最受欢迎的语言之一的R语言。

  24.流处理。流处理旨在通过“连续”查询对实时和流数据进行操作。结合流分析(即在流内同时进行连续计算数学或统计分析的能力),流处理解决方案可以被用来实时处理非常大的数据。

  25. 结构化和非结构化数据。这是大数据5V中的“Variety”多样性。结构化数据是能够放入关系型数据库的最基本的数据类型,通过表的组织方式可以联系到任何其他数据。非结构化数据则是所有不能直接存入关系数据库中的数据,例如电子邮件、社交媒体上的帖子、人类录音等。

对于很多编程语言来说,程序都必须要有一个入口,比如 C,C++,以及完全面向对象的编程语言 Java,C# 等。如果你接触过这些语言,对于程序入口这个概念应该很好理解,C 和 C++ 都需要有一个 main 函数来作为程序的入口,也就是程序的运行会从 main 函数开始。同样,Java 和 C# 必须要有一个包含 Main 方法的主类来作为程序入口。

而 Python 则有不同,它属于脚本语言,不像编译型语言那样先将程序编译成二进制再运行,而是动态的逐行解释运行。也就是从脚本第一行开始运行,没有统一的入口。

一个 Python 源码文件除了可以被直接运行外,还可以作为模块(也就是库)被导入。不管是导入还是直接运行,最顶层的代码都会被运行(Python 用缩进来区分代码层次)。而实际上在导入的时候,有一部分代码我们是不希望被运行的。

举一个例子来说明一下,假设我们有一个 const.py 文件,内容如下:

我们在这个文件里边定义了一些常量,然后又写了一个 main 函数来输出定义的常量,最后运行 main 函数就相当于对定义做一遍人工检查,看看值设置的都对不对。然后我们直接执行该文件(python const.py),输出:

现在,我们有一个 area.py 文件,用于计算圆的面积,该文件里边需要用到 const.py 文件中的 PI 变量,那么我们从 const.py 中把 PI 变量导入到 area.py 中:

可以看到,const 中的 main 函数也被运行了,实际上我们是不希望它被运行,提供 main 也只是为了对常量定义进行下测试。这时, if __name__ == '__main__' 就派上了用场。把 const.py 改一下:

然后再运行 area.py,输出如下:

再运行下 const.py,输出如下:

这才是我们想要的效果。

if __name__ == '__main__' 就相当于是 Python 模拟的程序入口 。Python 本身并没有规定这么写,这只是一种编码习惯。由于模块之间相互引用,不同模块可能都有这样的定义,而入口程序只能有一个。到底哪个入口程序被选中,这取决于 __name__ 的值。

__name__ 是内置变量,用于表示当前模块的名字,同时还能反映一个包的结构。来举个例子,假设有如下一个包:

目录中所有 py 文件的内容都为:

由此可见, __name__ 可以清晰的反映一个模块在包中的层次。其实,所谓模块名就是 import 时需要用到的名字,例如:

如果一个模块被直接运行,则其没有包结构,其 __name__ 值为 __main__ 。例如在上例中,我们直接运行 c.py 文件(python a/b/c.py),输出结果如下:

所以, if __name__ == '__main__' 我们简单的理解就是: 如果模块是被直接运行的,则代码块被运行,如果模块是被导入的,则代码块不被运行

实际上,这个问题还可以衍生出其他的一些知识点,例如 __main__.py 文件与 Python 的 -m 参数。

Python 的 -m 参数用于将一个模块或者包作为一个脚本运行,而 __main__.py 文件则相当于是一个包的”入口程序“。

首先我们需要来看看 python xxx.pypython -m xxx.py 的区别。两种运行 Python 程序的方式的不同点在于,一种是直接运行,一种是当做模块来运行。

先来看一个简单的例子,假设有一个 Python 文件 run.py,其内容如下:

我们用直接运行的方式启动(python run.py),输出结果(为了说明问题,输出结果只截取了重要部分,下同):

  • 1、 加上 -m 参数时会把当前工作目录添加到 sys.path 中,而不加时则会把脚本所在目录添加到 sys.path 中
  • 2、 加上 -m 参数时 Python 会先将模块或者包导入,然后再执行

大数据时代,以移动互联网、物联网、云计算等为代表的新一代信息技术快速的发展,人们的学习习惯和行为方式发生变化,人类进入了碎片化学习时代。
随着新一代信息技术的发展,信息来源渠道多元化发展,而大数据为碎片化学习提供了巨量可利用的碎片资源。大数据时代的资源环境被寓意为一堆杂乱无章、排列无序的知识碎片。面对无限碎片信息构建的信息化学习环境,传统意义上的“系统化”资源应用模式被打破。学习者需要用全新的思维方式,认识复杂多变的大数据环境而带来的学习上的变化。
上网人数迅猛增加带动了“平民文化”的兴起。大量的网民组成了微资源开发的主力军。在网络世界里,专家、学者、普通大众、政府官员之间消除了权威界限。人人都有言发,创造了互联网领域巨量的微资源。这些微资源相对于书籍、报刊等,其资源间是零散、无序和互不关联的碎片知识,严重阻碍了人们对知识的获取。在一些专业学科领域,诞生了专业开发团队,他们开发了“微课”“微视频”等大量微资源。这些资源为碎片化学习提供了丰富的优质资源。
大数据时代促使了新媒体的诞生。相对于报刊、广播、电视等传统媒体形态,大数据时代的新媒体是指新信息技术环境下,如数字广播、数字报纸等媒介。尤其是移动媒体的出现,为随时随地上网提供了便利,使学习者的“闲置”时间得到了充分利用。工作或生活之余,休闲或坐公交、地铁途中,利用移动媒体,学习者有意识地碎片化学习,久而久之可以获得一笔可观的“零碎时间”。
碎片化时间内获取的知识是零散、无序和互不关联的碎片,单个碎片的价值意义并不高,需要学习者对其“再加工”。“再加工”是碎片化知识到新知识体系嬗变的过程。大数据时代解决知识碎片化之道是帮助学习者建构新的知识体系。碎片知识犹如人体各个部件,脱离了知识体系这个生命整体,任何部件都会失去原有意义。
如何将碎片化知识与已有知识融合,建构新知识体系?在碎片化学习过程中,学习者需要利用新媒介挖掘碎片知识并对其进行整理、剔除、汲取、加工等操作,实现知识碎片到知识点有意义的重组,并完成知识点到新知识体系嬗变的过程。此过程中主要完成对碎片知识的归类与管理,剔除对个体新知识体系建构无意义的知识碎片。在整理与剔除过程中,也要汲取新的知识作为补充。由于知识碎片的离散性,在知识点、新知识体系建构过程中,系统化思维起着至关重要的作用,贯穿整个过程的始末。
(摘编自王承博等《大数据时代碎片化学习研究》)
在各类应用软件推动下,数字阅读日渐普及。数据显示,全民阅读正呈现蓬勃发展态势。2018年,我国大众阅读用户规模和专业阅读用户规模分别达到4.3亿和1417.9万。“数字阅读作为全媒体时代的新型阅读方式,从应运而生到蓬勃发展、蔚然成风,极大丰富了人们的阅读体验和精神文化生活。如今,我们已经身处‘一屏万卷’的数字阅读时代,数字阅读还将继续保持高速发展的良好态势。”中宣部出版局副局长冯士新说。
2019年是5G商用之年,大数据、人工智能等新型技术必将对数字内容产业产生积极影响。专家认为,随着技术升级,数字阅读服务将更加精细和多元。未来,面对用户多样化需求,数字阅读产业将为用户提供多层次、专业化、智能化、有声化和场景化等更加全面的服务。伴随新兴技术发展,智能接收设备类型逐渐丰富,将会出现更多消费场景,更好满足消费者需求。
(摘编自《5G:打开数字阅读大市场》)
“5分钟读完一本名著”“3分钟看完一部电影”“10分钟带你了解历史”……类似的短视频节目如今在网络上大行其道,从点击量和点赞量看,受众不少。显然此类节目击中了人们的痛点:一方面渴望文化与娱乐,一方面没有时间或者舍不得花时间。于是能够“速成”的办法就格外受欢迎。但是,这种典型的快餐文化很可能会让你欲速不达、南辕北辙——时间和精力没少花,但收获寥寥。
快餐文化的特点当然是快,但代价是剥离了丰富的内容,只剩下光秃秃干巴巴的几条梗概。看了这些节目,你可以知道故事脉络、记住几个人名,但作品中原有的丰富的细节、细腻的情感、精彩的故事全都与你无缘了。以往人们都认为互联网拯救了碎片化时间,使得人们可以随时随地地利用碎片化时间提高效率。但现实是碎片化反客为主,越来越多的人习惯于用碎片化的时间去阅读碎片化的内容。但企图用短短几十秒的视频来获取信息,其实并不成功。
如何更好地利用互联网这一工具为人类服务,需要我们严肃思考、认真对待。而今之计,只有对碎片化阅读保持高度清醒,用沉静取代浮躁,用踏实取代肤浅,才能避免快餐文化的不良影响。
(摘编自《对碎片化阅读保持高度清醒》)
1. 下列对材料相关内容的理解和分析,正确的一项是(   )
A. 传统意义上的“系统化”资源应用模式被打破后,碎片化学习时代来临,这意味着学习者的思维方式亟待转变。
B. 数字广播等新媒体的诞生使随时随地上网成为可能,从而为学习者高效完成“碎片化学习”提供了切实保证。
C. 材料二用强有力的数字证明我国已进入数字阅读时代,特别是5G技术的运用将使人们的阅读体验更加丰富多元。
D. 材料三从“阅读速度快”与“获取知识散”两个方面论证了快餐文化的不良影响,这与材料二的观点正好相反。
2. 下列不能作为论据来论证材料三观点的一项是(   )
A. 由于手机的影响,我们的注意力时刻处于一种高度紧张的、不断试图寻找刺激的状态。当你的心中填满了各种刺激源的时候,注意力不涣散、整个人不浮躁那反倒稀奇了。
B. 碎片化阅读虽有助于尽快获取多元信息,但会妨碍人们对一些问题的深层思考。如果缺乏特定目的,即使花费大量时间,不断延展阅读领域,也难以汇聚成深度的认识。
C. 虽然我们不能回到孔孟时代悬梁刺股地读书,但也不能都躺在乔布斯的怀里看微博。网络带来了方便,但也使我们的阅读变成了无目标、无中心、无深思的“三无”浏览。
D. 上海一直都是时尚与现代化的前沿阵地,在阅读习惯上也紧扣时代脉搏,81%的上海读者会看电子书,上海读者碎片化阅读倾向和对电子阅读的接受度,均高于全国水平。
3. 结合,上述材料,根据教材第四单元《信息时代的语文生活》,下面对“大数据时代”的相关表述,不正确的一项是(   )
A. 网络具有“全媒体性质”,人们以往创造的所有信息呈现方式几乎都可以进人互联网。比如迁移到网络上的书刊、报纸广播、电视等传统媒体。
B. 网络促生了“人——机——人”的交际模式,为人类建造了一个与现实空间相对立的虚拟空间,与此同时,网络语言也形成了一个相对独立的文字世界。
C. 网络时代应该多关注农村、西部等地区的信息化发展以及离退休老人、家庭妇女等较少上网的群体,加强其现代信息技术教育,消弭信息鸿沟。
D. 目前,网络发展如火如荼。一旦它成为我们生活中须臾不可分离的东西,我们极有可能被网络所奴隶,这个问题,应引起我们的警觉和思考。
4. 材料一是如何展开论证的?请简要说明。
5. 碎片化时代,我们该如何阅读?请结合材料提几点建议。

1. C    A项,“传统意义上的‘系统化’资源应用模式被打破”与“碎片化学习时代来临”无先后关系;
B项,“提供了切实保证”错,“新媒体诞生”只能使学习者的“闲置”时间得到利用,要想“高效”完成“碎片化学习”,学习者必须有意识地学习并对其进行“再加工”,因此“提供了切实保证”错。
D项,“正好相反”不当,材料二和材料三是从不同角度分析论证的,不存在观点相反的问题。
2. D    D项,陈述了上海市数字阅读的普及程度,材料三论述了快餐文化的危害,提出应对碎片化阅读保持高度清醒的观点,D项与材料三观点无关。
3. B   B项,“相对立”错,原文内容为“虚实两个空间的重合度越来越高,形成了‘虚中有实,实中有虚’的新特点”。“网络语言形成了一个相对独立的文字世界”说法太绝对。
4. (1)开始由阐述“大数据时代”这一背景,引出对“碎片化学习”的研究分析;(2)接着论述“平民文化的兴起”和“新媒体的诞生”为“碎片化学习”提供资源和便利;(3)最后论述如何进行“碎片化学习”。  
5. (1)构建全新思维方式,认识复杂多变的大数据环境带来的学习上的变化。(2)有意识地进行碎片化学习,并对“碎片化知识”进行再加工,构建新知识体系。(3)对碎片化阅读保持高度清醒,多抽出时间进行深度阅读。

党的十九大报告指出为把我国建设成为富强民主文明和谐关丽的社会主义现代化强国而奋斗。美丽的范畴,不单是指绿水青山,更是好的精神气象、社会风貌、城市形象和生态环境;美丽

探讨文学美的发现和发展史,就要观察产生美学观念的原因。作者的特殊的心理因素会产生特殊的美学观念,进而创造特殊形态的美。许多美学观念,本是时代趣味的演绎或呈现,例如

请系上保险绳 女老师正在神采飞扬地讲课。学生们大睁着眼睛,如一群饥饿的小鸟,正翘首期盼着鸟妈妈的哺育,又像一株株干枯的禾苗,正渴望着雨水的滋润。 刘雅的目光本来也是紧

大陈的风 一 大陈的风从前冷。冬日,历山白雪皑皑,北风从珠坑口吹过来,但童年的我望着院子天井上空成堆成堆的鹅毛大雪压下来,却丝毫不觉得冷,因为脚底下有母亲早已生好的炭

母亲的刺绣时光 宫佳 ①母亲是一个心灵手巧的人,一针一线,在她灵巧的手里,会变化出生动形象的图。母亲不懂什么叫刺绣艺术,她只知道忙完了家务,捏起银针在变化无穷的案绣工

材料 近日,各地涌现出一批网红县长,他们在各类新媒体平台直播售卖本地土特产,帮助农户和企业解决销售难题,受到众多网民好评。当前,以移动互联网、大数据、人工智能、区块

我要回帖

更多关于 关于大数据的来源以下理解正确的是 的文章