如何对梯子游戏玩的倾家荡产大数据进行分析??? ????

君,已阅读到文档的结尾了呢~~
[Word]如何进行大数据分析及处理?
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
[Word]如何进行大数据分析及处理?
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口1025人阅读
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1. 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
大数据的技术
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
大数据的处理
1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3. 大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4. 大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:15208次
排名:千里之外
转载:18篇
(1)(1)(3)(1)(2)(5)(1)(2)(5)(1)
(window.slotbydup = window.slotbydup || []).push({
id: '4740881',
container: s,
size: '200,200',
display: 'inlay-fix'&p&修改于日&/p&&p&上市公司2016年的年报已经披露完毕,更新一下数据。&/p&&p&excel 文件&/p&&p&链接: &a href=&///?target=http%3A///s/1hsC9X6O& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1hsC9X6&/span&&span class=&invisible&&O&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: cjby (如果失效提醒一下就好哟)&/p&&p&以A股上市公司作为样本,统计计算了2009年至2016年的净利润汇总数据(剔除了没有2009年年报的公司)&/p&&p&让我们来看看各行各业都怎么样&/p&&p&首先,这是全部上市公司净利润总计&/p&&img src=&/v2-21e9bd6cb77f98a02f543ba61ab2a162_b.png& data-rawwidth=&165& data-rawheight=&53& class=&content_image& width=&165&&&p&还不错呢&/p&&p&经过、2016这三年,我们先看看哪些行业的利润严重缩水&/p&&p&黑色金属采矿业&/p&&img src=&/v2-11de9e0f1d95ec7c10436_b.png& data-rawwidth=&175& data-rawheight=&55& class=&content_image& width=&175&&&p&可以看到,整个行业已经连续亏损了3年,而且亏损还在扩大,实际上,整个资源采集类公司的日子过得都不怎么好,至少年报上数字体现了这一点&/p&&p&开采辅助活动&/p&&img src=&/v2-db89fcffc24_b.png& data-rawwidth=&169& data-rawheight=&56& class=&content_image& width=&169&&&p&有色金属采矿业&/p&&img src=&/v2-9e1e89fa316d30ba345cdc_b.png& data-rawwidth=&176& data-rawheight=&56& class=&content_image& width=&176&&&p&石油和天然气开采业 &/p&&img src=&/v2-dfa4b7a7d41d8a4c4a758e6_b.png& data-rawwidth=&174& data-rawheight=&56& class=&content_image& width=&174&&&br&&p&还有一些行业明显的不景气,比如专用设备制造业&/p&&img src=&/v2-10a427f5dd245d22f4df177c8ba316d4_b.png& data-rawwidth=&171& data-rawheight=&51& class=&content_image& width=&171&&&br&&p&皮革、毛皮、羽毛及其制品和制鞋业 汇总&/p&&img src=&/v2-fdfee8a24c1cc46caa6562_b.png& data-rawwidth=&170& data-rawheight=&54& class=&content_image& width=&170&&&br&&p&铁路运输业&/p&&img src=&/v2-2feb0e07daa5fdb8f3fc61cb2e1eb595_b.png& data-rawwidth=&174& data-rawheight=&58& class=&content_image& width=&174&&&br&&br&&p&哪些行业是2016年才开始下滑的呢?&/p&&p&电力、热力生产和供应业 汇总&/p&&img src=&/v2-4d3fb884a67ad5e7a1e590_b.png& data-rawwidth=&168& data-rawheight=&55& class=&content_image& width=&168&&&p&据我所知,由于电价的定价权不在电力公司手里,而且煤的价格处于高位,所以电力公司的业绩开始下滑,预计2017年的前三季度仍然无法扭转这种下滑的趋势。&/p&&br&&p&印刷和记录媒介复制业&/p&&img src=&/v2-34b5ab85b70cec1d4f0ec46_b.png& data-rawwidth=&170& data-rawheight=&54& class=&content_image& width=&170&&&br&&p&差不多没有了。&/p&&p&喔不,还有一个行业,叫“中国联通”&/p&&img src=&/v2-1ebd131a9e561b5b95da31a_b.png& data-rawwidth=&173& data-rawheight=&55& class=&content_image& width=&173&&&p&这一家公司把全行业的净利润都给坑了……&/p&&br&&p&实际上,大部分行业并没有想象的那么糟糕,很多只是增长放缓或者V型反转。这让我想起马云的一句话,不是实体经济不行了,是你的实体经济不行了……&/p&&p&首先我们来看看房地产&/p&&p&房地产业&/p&&img src=&/v2-e0fe5aa665_b.png& data-rawwidth=&165& data-rawheight=&52& class=&content_image& width=&165&&&p&只是在2014年稍微下滑了一丢丢,2014年房地产的确是不算很景气的,但也为后来2年房价的突飞猛进买下了伏笔。这样我想起了股市中的一个传说,横有多长,竖有多高。&/p&&p&相比不景气的铁路运输,道路运输业要好得多&/p&&img src=&/v2-7afdb04d3ce5bf8da9f93_b.png& data-rawwidth=&172& data-rawheight=&57& class=&content_image& width=&172&&&p&估计铁路运输很多都是运送资源类材料的,采矿业不景气,连累的铁路运输。而道路运输则是一些高价值的产品或者游客,受影响程度小一些。&/p&&p&再比如汽车制造业&/p&&img src=&/v2-a5b6bc0bcfbfe9fe65b7dc42_b.png& data-rawwidth=&165& data-rawheight=&54& class=&content_image& width=&165&&&p&还好呀&/p&&br&&p&大块头银行业&/p&&img src=&/v2-d841f0bf172cb_b.png& data-rawwidth=&171& data-rawheight=&56& class=&content_image& width=&171&&&p&只是增长放缓而已&/p&&br&&p&食品制造业&/p&&img src=&/v2-c96bcef0ceb69fe32606ec7eaac18f3c_b.png& data-rawwidth=&169& data-rawheight=&53& class=&content_image& width=&169&&&br&&p&医药制造业&/p&&img src=&/v2-b0c414e9f5aa5e4ca3a6b9_b.png& data-rawwidth=&169& data-rawheight=&59& class=&content_image& width=&169&&&br&&br&&p&先说这么多吧,详情可以把excel表格下载下来看看,很多行业没有想象的那么糟糕。&/p&&br&&p&------------------------------2016年11月份版本-------------------------------------------------------&/p&&p&时间如梭,2016年就快要过去了,这个答案在这放了一年,不知道是否有所帮助。如果派上用场那是最好不过的~
既然挖了这个坑,那么看样子可能是要一直填了……算是做一点微薄的贡献。
现在2016年的三季报也已经出来了,更新一下~
数据截止到2016年Q3
excel 文件链接
链接: &a href=&///?target=http%3A///s/1jILPWaU& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1jILPWa&/span&&span class=&invisible&&U&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: p2ni
(如果失效提醒一下就好哟)&/p&&p&关于此类统计的缺陷:
统计上市公司公布的净利润来衡量经济的整体形势是有一定缺陷的。
1.很多民营经济体不是A股上市公司,且这些民营经济体的体量也是非常庞大的。
2.很多互联网领域的公司没有上市或没有在A股上市,如BAT。&/p&&p&关于此类统计的优势:
1.统计A股全部上市公司的利润数据,仍然能很好的反映出中国经济的形势,是一个可以通过低成本获得的有效的代表。
2.上市公司的年报是必须经过会计事务所审计通过的,虽然仍有局部造假现象,但是整体可信度仍是较高的。
3.中国金融业的中流砥柱大多是上市公司,他们参与到了经济中的诸多环节,透过它们的数据,可以很好的弥补缺陷中的第1条。&/p&&br&&p&具体哪些行业还可以,通过查看excel表格是最清晰全面的。&/p&&p&举几个例子,保险业的&b&中国平安&/b&:&/p&&img src=&/v2-14f397ca62a1428cfb2ea802d12ebc40_b.png& data-rawwidth=&144& data-rawheight=&55& class=&content_image& width=&144&&&p&今年的三季报已经和去年年报净利润持平了!真是强得可以~&/p&&p&“道路运输业”汇总:&/p&&img src=&/v2-bcb10cdfba1a7_b.png& data-rawwidth=&141& data-rawheight=&54& class=&content_image& width=&141&&&br&&br&&p&依旧按部就班,缓慢前行。
类似的还有“纺织服装”;“汽车制造业”&/p&&p&广播电视电影和影视录音制作业汇总:&/p&&img src=&/v2-abe1bcfc0f6def48751acf5b6e5941f5_b.png& data-rawwidth=&144& data-rawheight=&56& class=&content_image& width=&144&&&p&依旧强劲的增长着。&/p&&p&互联网和相关服务业汇总:&/p&&img src=&/v2-20ecc149f0248_b.png& data-rawwidth=&140& data-rawheight=&54& class=&content_image& width=&140&&&p&虽然BAT不在里面,但是依然可以展示互联网的爆发出的巨大威力。&/p&&p&银行们:&/p&&img src=&/v2-add783e720ef1b0cc9ac27_b.png& data-rawwidth=&141& data-rawheight=&52& class=&content_image& width=&141&&&p&银行是真稳,监管最严格的行业。经济下行使银行不良贷款比率在增加,不过我相信,只要经济不崩,不良贷款用它们的利润消化几年就解决了……&/p&&p&饮料行业中的龙头依然很强势:&/p&&p&贵州茅台:&/p&&img src=&/v2-da047ebb2f5dbaddd1f42_b.png& data-rawwidth=&144& data-rawheight=&54& class=&content_image& width=&144&&&br&&br&&p&承德露露:&/p&&img src=&/v2-c908a66996ccce37e63d8_b.png& data-rawwidth=&146& data-rawheight=&54& class=&content_image& width=&146&&&br&&br&&p&农副食品加工业不错:&/p&&img src=&/v2-572b38e91c5b363ce4954347aabf3497_b.png& data-rawwidth=&140& data-rawheight=&54& class=&content_image& width=&140&&&br&&p&嘿嘿,食品制造业:&/p&&img src=&/v2-6e1a8e4b5a3d006e09da474b2e34c402_b.png& data-rawwidth=&146& data-rawheight=&55& class=&content_image& width=&146&&&p&食品制造业的公司举例:&/p&&p&涪陵榨菜:&/p&&img src=&/v2-cb7faa0b57b6_b.png& data-rawwidth=&139& data-rawheight=&53& class=&content_image& width=&139&&&br&&p&汤臣倍健:&/p&&img src=&/v2-35464eb2eeed45c39a811_b.png& data-rawwidth=&140& data-rawheight=&56& class=&content_image& width=&140&&&br&&p&光明乳业:&/p&&img src=&/v2-f8a5da68dee_b.png& data-rawwidth=&143& data-rawheight=&54& class=&content_image& width=&143&&&br&&p&伊利股份:&/p&&img src=&/v2-65afc3d1ed497c558d171ac99aa9be34_b.png& data-rawwidth=&144& data-rawheight=&57& class=&content_image& width=&144&&&br&&p&海天味业:&/p&&img src=&/v2-2f88cb04fb88_b.png& data-rawwidth=&142& data-rawheight=&57& class=&content_image& width=&142&&&br&&p&卫生行业:&/p&&img src=&/v2-a6bb63f7faeca0f7b6cab1_b.png& data-rawwidth=&143& data-rawheight=&55& class=&content_image& width=&143&&&br&&p&相关举例,爱尔眼科:&/p&&img src=&/v2-8b60b8e87fa6a3a9edb53d_b.png& data-rawwidth=&142& data-rawheight=&53& class=&content_image& width=&142&&&br&&br&&p&医药行业:&/p&&img src=&/v2-d3c7d9aeef6ce22f7581a12dec4befc9_b.png& data-rawwidth=&145& data-rawheight=&55& class=&content_image& width=&145&&&br&&p&就说这么多吧~
感觉有些行业也开始回暖了~
我尽量使用大家都耳熟能详的公司来举例,实际上并不是公司都这么好,有些公司的好使通过对竞争对手的打击来实现的,如果行业中的竞争者过多,那么通常就是以失败者的出局(比如被并购)而结束。这一过程的本质就是资源配置的优化过程(或者叫经济的转型),这个过程虽然看起来很残酷,但是长远来看绝对是有利于经济长足发展的。&/p&&br&&p&-----------------------------------分割线--------------------------------------------------------------------------------
以下内容是针对2015年年报的版本&/p&&br&&br&&br&&br&&p&更新于日
excel 文件链接
链接: &a href=&///?target=http%3A///s/1jHGji66& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1jHGji6&/span&&span class=&invisible&&6&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 2kx5
文件总失效,于是乎改了文件名,改成哈希值总该可以吧~
最新更新于日
5月了,各大公司的年报都已经出来了,做一个具有可比性的新的报告。之前2015Q3已经被我用2015年的年报数据来代替了。可比性大大增强,而且效果也更好了,至于结论,和上一版差不多,先不多写了,至于哪些行业还行,哪些行业不行看净利润迷你图就很清晰~ 需要数据的童鞋。&/p&&p&分为两个sheet,一个源数据,一个汇总页。
欢迎下载~如链接失效可私聊提醒~&/p&&p&——————————日版本———————————————————&/p&&p&多图预警!&b&总结性语言在分割线以下!&/b&
忙里偷闲,专门为题主做个表格,主要也是因为这个问题我还是比较感兴趣的。我抓取了我国全部A股上市公司的所属行业字段和净利润字段,做了一个净利润走势图(盈利为蓝黑色,亏损为暗红色,2015Q3为浅蓝色,注意,2015Q3与前面的数据没有可比性,可以考虑乘以4/3之后再做比较),时间跨度从2009年到2015年Q3,只要对行业字段加一个分类筛选,根据净利润走势图,就能清楚的看出哪些行业还可以,哪些行业正在萎缩了。废话少说,上图。不过图太大,我还是选取部分吧,我尽量列举大家熟悉的行业和大家熟悉的公司。想看excel原文件和觉得图片看不清的童鞋可以去本答案开头找腾讯微云网盘链接。对了,数据来源:东方财富 Choice 金融终端。&/p&&p&先来第一个:保险业,请看~&/p&&img src=&/d4b24b961c01a3bb7a634c4a796c1182_b.png& data-rawwidth=&1214& data-rawheight=&452& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/d4b24b961c01a3bb7a634c4a796c1182_r.png&&&br&&p&第二个:道路运输业&/p&&img src=&/bb99f5f11a622ee_b.png& data-rawwidth=&1214& data-rawheight=&772& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/bb99f5f11a622ee_r.png&&&br&&p&后面的为了方便大家看,我加了个排序,按照2015Q3来排序(降序)&/p&&p&第三个:电力、热力等&/p&&img src=&/dbcaf9aeea9_b.png& data-rawwidth=&1214& data-rawheight=&772& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/dbcaf9aeea9_r.png&&&br&&p&第四个:电信&/p&&img src=&/a9d67cbf86_b.png& data-rawwidth=&1214& data-rawheight=&772& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/a9d67cbf86_r.png&&&br&&p&第五个:房地产业&/p&&p&我只列万科和保利啦&/p&&img src=&/cfadb524e5ffa09fa5f84adb8f3216e4_b.png& data-rawwidth=&1214& data-rawheight=&292& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/cfadb524e5ffa09fa5f84adb8f3216e4_r.png&&&br&&p&第六个:纺织服装纺织业,列到报喜鸟好啦,海澜,森马,贵人鸟,七匹狼,报喜鸟,这些大家应该都认识吧。&/p&&img src=&/ffcaf4acbad2b_b.png& data-rawwidth=&1214& data-rawheight=&1652& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/ffcaf4acbad2b_r.png&&&br&&p&为了节省篇幅,我尽量列更具有代表性的行业好啦&/p&&p&第七个:文娱行业必须列一个,万达肯定大家都知道&/p&&img src=&/8256eab0a816cdfc2f9d14d_b.png& data-rawwidth=&1214& data-rawheight=&612& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/8256eab0a816cdfc2f9d14d_r.png&&&br&&p&第八个:航空和机场&/p&&img src=&/b33d31773cf1bcb44253e6b_b.png& data-rawwidth=&1214& data-rawheight=&772& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/b33d31773cf1bcb44253e6b_r.png&&&br&&p&第九个:造水泥玻璃的&/p&&img src=&/97af8b566d271b22f260_b.png& data-rawwidth=&1214& data-rawheight=&532& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/97af8b566d271b22f260_r.png&&&br&&p&第十个:炼钢的,再次提醒,我选择都是按净利润排名的,也就是净利润排在前面的,可以理解为行业龙头,要是看排在后面的,我猜你懂的,有兴趣可以下载此表格看一下。&/p&&img src=&/5d51afb2b68de9edee1697_b.png& data-rawwidth=&1214& data-rawheight=&452& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/5d51afb2b68de9edee1697_r.png&&&br&&p&第十一个:采矿业,你没看错,全行业只有四家2015Q3净利润为正。&/p&&img src=&/c3fe0c40c9ac5_b.png& data-rawwidth=&1214& data-rawheight=&612& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/c3fe0c40c9ac5_r.png&&&br&&p&第十二个:很热的互联网&/p&&img src=&/52ae60ba172a38b94eea58ede7d1cfe5_b.png& data-rawwidth=&1214& data-rawheight=&772& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/52ae60ba172a38b94eea58ede7d1cfe5_r.png&&&br&&p&第十三个:银行!!!不服不行,咳,本人持有银行股,防止我吹牛逼,自卖自夸,所以看看就好。&/p&&img src=&/3aedb9c2673ff6efcb71c_b.png& data-rawwidth=&1214& data-rawheight=&772& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/3aedb9c2673ff6efcb71c_r.png&&&br&&p&第十四个:酿酒的,酒在2013年就进入冬天了,俺说的是白酒。&/p&&img src=&/39a987816fbae62c6a2fd96ab63830ef_b.png& data-rawwidth=&1214& data-rawheight=&692& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/39a987816fbae62c6a2fd96ab63830ef_r.png&&&br&&p&第十五个:煤炭,这个看过新闻的都应该知道吧&/p&&img src=&/98f97c1a8eefcf_b.png& data-rawwidth=&1214& data-rawheight=&692& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/98f97c1a8eefcf_r.png&&&br&&p&第十六个:汽车制造,这个也看看就好,道理和第十三个一样。&/p&&img src=&/c91cf8864831eaa547aaf1b61b791395_b.png& data-rawwidth=&1214& data-rawheight=&612& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/c91cf8864831eaa547aaf1b61b791395_r.png&&&br&&p&第十七个:石油相关&/p&&img src=&/b360f415becde_b.png& data-rawwidth=&1214& data-rawheight=&692& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/b360f415becde_r.png&&&br&&p&第十八个:生产的东西是能吃的&/p&&img src=&/e9f0c54f0dc5faa8a5cdecd_b.png& data-rawwidth=&1214& data-rawheight=&692& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/e9f0c54f0dc5faa8a5cdecd_r.png&&&br&&p&第十九个:铁路船舶制造业&/p&&img src=&/4ade1dbeb64b_b.png& data-rawwidth=&1214& data-rawheight=&532& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/4ade1dbeb64b_r.png&&&br&&p&第二十个:土木工程&/p&&img src=&/7d5b7181e7aad2e32df847f1255af89f_b.png& data-rawwidth=&1214& data-rawheight=&612& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/7d5b7181e7aad2e32df847f1255af89f_r.png&&&br&&p&第二十一个:制药的&/p&&img src=&/0a8f9e18e76f47fafa91_b.png& data-rawwidth=&1214& data-rawheight=&532& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/0a8f9e18e76f47fafa91_r.png&&&br&&p&第二十二个:炼有色金属的&/p&&img src=&/c797c23eb4e151f1dbd0e_b.png& data-rawwidth=&1214& data-rawheight=&612& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/c797c23eb4e151f1dbd0e_r.png&&&br&&p&再列最后一个,亮点总是在最后。&/p&&p&券商们:&/p&&img src=&/af16f27713_b.png& data-rawwidth=&1214& data-rawheight=&692& class=&origin_image zh-lightbox-thumb& width=&1214& data-original=&/af16f27713_r.png&&&br&&p&哈哈,炒股的童鞋啊,券商的利润,都是股民贡献的。&/p&&br&&br&&br&&p&之前我列的都是行业内净利润靠前的公司,所以大家可能会有误解,如果打开excel表看看那些处在行业中不太有竞争优势的公司,就能很明显的看到其净利润的锐减。&/p&&p&实际上,仅仅使用上市公司来判断行业的发展与否是有些片面的,因为我国国家并不是所有行业都能上市,能上市的都是一些比较大的行业,比方说,最近才有第一家驾校公司准备登陆A股上市,那在这之前,类似的行业就没有相关的数据了。但是想要获得非上市公司的数据又比较困难,所以用上市公司的数据来代替也是无可厚非的。&/p&&p&为了更清晰准确的表达不同行业的净利润走势,答者做了如下处理&/p&&p&1.选取自2009年至2015Q3均有净利润数据的公司。
2.对一个大类行业的净利润进行求和处理,然后分类汇总。
3.制迷你图。&/p&&p&这样,就能清晰的看出来不同行业的发展了,可惜的呢,就是2009年之后新上市的公司就没有统计在内了,如果统计了这些就会是数据失真了,因为上市公司越来越多,再把行业净利润求和肯定是会偏大的。&/p&&p&这是分类汇总的统计结果:&/p&&img src=&/5bcb019d725d5de26b1cc0df_b.png& data-rawwidth=&1335& data-rawheight=&6160& class=&origin_image zh-lightbox-thumb& width=&1335& data-original=&/5bcb019d725d5de26b1cc0df_r.png&&&br&&br&&p&对于那些体量比较大的行业,数据的参考价值还是很大的。
从图中可以发现,下列行业的净利润出现了明显的萎缩:
1.房地产业
2.非金属矿物制造业(水泥玻璃等)
3.公共设施管理
4.黑色金属采矿、冶炼(主要指铁、还有铬和锰),这些公司的净利润是锐减的,甚至到负,说明炼钢业是明显的产能过剩。
5.化学纤维制造业
6.酒等饮料制造业,酒类行业,从2012年的反腐开始,就步入了漫长的冬季,我指的是白酒,啤酒行业还好,有兴趣的可以看看青岛啤酒,顺便说一句,啤酒产业是一个有趣的产业。
7.开采辅助业,整体行业净利润锐减
8.煤炭开采,锐减。我跟踪过中国神华(我国煤炭巨头)的年报,煤炭开采,是真的不乐观,甚至连累的以煤炭为主的部分运输业
9.农林牧渔,这个体量不大,所以并不准,只能说明,在经济不好的年份,这些公司似乎都想来个大洗澡。顺便说一句,这些公司是是审计起来非常麻烦的公司,也是最容易进行财务造假的公司,知道獐子岛吧,呵呵……,我建议投资者除非很了解这些公司,否则轻易不要投资。
10.皮革、毛皮、羽毛、鞋等
11.软件信息,他们说不好,这类公司净利润本来就不稳定。
12.石油开采、冶炼等,净利润锐减。
13.铁路运输业,净利润下滑,向上看第8条,第8条就是第13条的铺垫。
14.有色金属的采矿、冶炼,不多说,和钢一样,产能过剩严重,还污染环境。
15.渔业,同9
16.专用设备制造业,这个不是很懂,我猜是经济形势不好,公司削减固定资产的购买了吧,毕竟很多企业产能都是饱和甚至过剩的。
17.最后一条,总计,这几乎可以代表我国的经济总量。&/p&&p&有好多童鞋问我数据是从哪里来的,在这里我就再强调一下:
数据来自 &b&东方财富choice 金融终端&/b&,这虽然是付费软件,但是凭手机号注册可以免费试用15天,对于要写论文的同学是一个很大的帮助,两个手机号就能用1个月了,在这期间内抓紧把要下的数据下好,导出excel,应该够的。&/p&&br&&br&&br&&br&&p&我新加了分类汇总,在sheet 1,原数据在sheet0;我感觉我是不是可以增加一个话题叫excel啦,哈哈,不过,excel功能强大,我只是会用冰山一角而已,还要多学习~我想如果用数据透视表应该能看得更清晰把,可我不太会……&/p&&br&&p&这个是不是可以有个赞~哈哈~&/p&
修改于日上市公司2016年的年报已经披露完毕,更新一下数据。excel 文件链接:
密码: cjby (如果失效提醒一下就好哟)以A股上市公司作为样本,统计计算了2009年至2016年的净利润汇总数据(剔除了没有2009年年报的公司)让我…
强烈推荐两门公开课,难度很低,讲得非常好。学完了应该可以直接上手干活。&br&&br&1.
BerkeleyX: CS190.1x Scalable Machine Learning &b&&a href=&///?target=https%3A//courses.edx.org/courses/BerkeleyX/CS190.1x/1T2015/info& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CS190.1x Course Info&i class=&icon-external&&&/i&&/a&&/b&&br&这门课是伯克利开的,教机器学习基础、Python Spark实现。我很懂机器学习,但不懂spark和python,花了1周多时间看完视频、做完作业。如果没机器学习基础的话几周应该够了。学完了可以用spark处理大数据,做分类、推荐系统。&br&&ul&&li&在墙内搭建虚拟机环境有困难,装不好可以参照帖子 &a href=&///?target=http%3A///discussion/7761/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&不用翻墙和等几小时,搞定VM安装&i class=&icon-external&&&/i&&/a&&/li&&li&要是怎么装都不成功,原因很可能是没有开Intel Virtualization,需要进BIOS设置一下。我们好几个人都遇到这问题了。&/li&&li&这个里面的视频很卡,但是可以下载。希望有好心人下载传网盘或者优酷~&br&&/li&&/ul&&b&更新:新的课已经开始了,这次的不需要在本地装虚拟机,直接用databricks的服务器就好,方便很多。而且这次是半年内上一系列的Spark课程,有兴趣可以全学了。&/b&&br&链接:&a href=&///?target=https%3A//courses.edx.org/courses/course-v1%3ABerkeleyX%2BCS105x%2B1T2016/info& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CS105x Course Info&i class=&icon-external&&&/i&&/a&&br&&br&&br&&br&2. 斯坦福公开课:&br&Convolutional Neural Networks for Visual
Recognition &a href=&///?target=http%3A//cs231n.github.io/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CS231n Convolutional Neural Networks for Visual Recognition&i class=&icon-external&&&/i&&/a&&br&&p&优酷视频: &a href=&///?target=http%3A///u/UMzQ0MDE4MDUwNA%3D%3D/playlists& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&优酷网-中国第一视频网,提供视频播放,视频发布,视频搜索&i class=&icon-external&&&/i&&/a&&/p&&p&这是我见过的讲神经网络最清楚最简单的课程,lecturer口才极好,英语说的清晰,配套的讲义说得更清楚明白。如果连作业一起做了,应该有能力用deep learning的工具做一些图像和视觉的工作。&/p&&ul&&li&课程讲义里有使用Python、IPython做数值计算的快速入门&a href=&///?target=http%3A//cs231n.github.io/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CS231n Convolutional Neural Networks for Visual Recognition&i class=&icon-external&&&/i&&/a&&/li&&li&作业需要用Python 2,不能用Python 3,除非你乐意像我一样花时间把print全加括号,把cPickle全改成Pickle,还要设置Pickle的编码:&a href=&///?target=http%3A///questions//pickle-incompatability-of-numpy-arrays-between-python-2-and-3& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Pickle incompatability of numpy arrays between Python 2 and 3&i class=&icon-external&&&/i&&/a&&/li&&/ul&&br&&br&&p&初学者想要深入学习的话,可以顺着两门课的内容、扩展材料继续挖下去。&/p&&br&&p&多说一句,不要报任何班。机器学习牛人要么忙着科研,要么是赚钱太容易,所以几乎没人开培训班来赚钱。有名的培训班,比如J***这样的都是不入流的,以其昏昏使人昭昭。&/p&
强烈推荐两门公开课,难度很低,讲得非常好。学完了应该可以直接上手干活。 1. BerkeleyX: CS190.1x Scalable Machine Learning
这门课是伯克利开的,教机器学习基础、Python Spark实现。我很懂机器学习,但不懂spark和python,花了1…
建议来百度基础架构部分布式计算组实习下~&br&--------------------------------举个例子吧---------------------------&br&我有20个整数,一把全装进内存,调用个sort,完事了。&br&我有2GB那么多的整数,一把全装进内存……恩恩,如果机器不那么破,勉强也完事吧。&br&我有20GB那么多的整数,对,往你家PC里多插几条8GB的内存条试试?&br&那我现在有200GB那么多的整数……看你丫的怎么装内存,哈哈哈哈哈哈!&br&吓尿了吧!?写外排序?你写啊!It's ONLY the beginning!很多人可是连内存里的快排都写不出的哦~&br&&br&200GB算个啥大数据啊,苍老师的合集都不止咳咳……&br&&br&OK,显然我们已经意识到1台机器装不下了。咋办?多找几台机器呗。多找几台机器意味着啥啊?分布式计算懂不懂,连分布式都不懂说个毛大数据啊!!!&br&&br&好,现在有200GB的整数,排个序吧……呃,给你10台机器吧。&br&1)这200GB的整数,如何分配?&br&2)这10台机器之间如何通讯?没错,我不止坑了你去写外排序,我还得坑你去玩网络编程。&br&3)假设每一台机器上的数据都已经完全排好,如何多快好省地把各自排序好的结果merge在一起?&br&4)如何设计有效的merge逻辑减少10台机器之间的网络IO。&br&5)别以为10台机器不需要维护,万一在排序的时候其中一台机器挂了,怎么办?具体包括但不限于:他在挂之前有响应其他机器发给他的request吗?他在挂之前自身的任务完成了多少了?假设这台机器在挂的时候正在跟隔壁的机器互相传输数据肿么办?&br&6)谁去监听这10台机器的健康?或者是其他机器怎么知道某台机器挂了?如果是连接超时,怎么知道是网络阻塞还是目标机真的挂了?&br&7)如果某台机器真的挂了无法恢复,又或者由于隔壁的黄大牛要打魔兽了劫走了一台(集群升级,集群中的节点被临时撤走的事常有哦),如何把那台机器上那20GB的数据分给其余的9台?&br&&br&如果数据不是200GB,而是2TB,2PB……&br&1)这么大的数据,这么大的集群,同一时间挂掉的机器数量可能会很多。如果这个集群用来做存储(例如百度云),怎么保证用户的数据不丢失?&br&2)如果这个集群用来做离线计算,怎么设计调度程序提高每台机器的资源利用率,减少集群内的网络IO和尽可能地提高每台机器的响应速度?&br&3)我希望集群是可扩展的,最好架构能支持我只要简单地增加机器数目就能扩充集群的计算和存储能力,这个架构要怎么设计?&br&&br&&b&建议题主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等内容。&/b&&br&&br&&b&传统行业的数据,收集和分析慢,互联网时代特别是移动互联网时代,数据收集和分析都变得更快更智能,仅此而已吧。&/b&&br&&br&只所以题主会这么说,是因为题主作为局外人,能看到的就只有这些表面的最直观的现象。一句简单的“数据分析变得智能了更快了”的背后,实际上是无数人付出的勤奋、创造力、勇敢还有艰辛!
建议来百度基础架构部分布式计算组实习下~ --------------------------------举个例子吧--------------------------- 我有20个整数,一把全装进内存,调用个sort,完事了。 我有2GB那么多的整数,一把全装进内存……恩恩,如果机器不那么破,勉强也完事吧。…
谢邀。&br&&br&&br&刚休假回来忙着加班就看到这么有 bigger 的问题,怎么能不怒答一发。&br&&br&&br&&i&来点入门的吧(因为我就是入门水平啊)&/i&&br&&br&&ul&&li&&b&错把相关性当成因果性
correlation vs. causation&/b&&/li&&/ul&经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了。这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活、学习、工作中,时不时的就会有人犯这样的错误。&br&&br&&br&举个栗子&br&&div class=&highlight&&&pre&&code class=&language-text&&数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖人的胜率只有41.7%。
&/code&&/pre&&/div&根据这组数据,为了赢球,科比应该少出手?并不一定如此。有可能科比出手少的时候是因为队友状态好,并不需要他出手太多。也有可能是因为球队早早领先,垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好,需要他挺身而出。当然,以上也只是可能之一,具体是什么情况光靠这组数据并不能得出任何结论。&br&&br&&br&&img src=&/b0f8e873caf_b.png& data-rawwidth=&459& data-rawheight=&185& class=&origin_image zh-lightbox-thumb& width=&459& data-original=&/b0f8e873caf_r.png&&图片来源:&a href=&///?target=http%3A///wp-content/uploads/2014/12/correlation.png& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/wp-&/span&&span class=&invisible&&content/uploads/2014/12/correlation.png&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&-- 声明:非科比粉,路人偏黑。&br&&ul&&li&&b&幸存者偏差 survivorship bias&/b&&/li&&/ul&数据分析中看到的样本是“幸存了某些经历”才被观察到的,进而导致结论不正确。&br&&br&比如比尔盖茨、乔布斯、扎克伯格都没有念完大学,所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子,很多时候我们是看不到的。另一方面,他们是因为牛逼才退学,而不是退学才牛逼的,看,相关性/因果性真是限魂不散。&br&&br&&br&再比如 Uber 发现新用户有10块钱优惠券,但是平均评价却只有3星。相反,第二次再用的时候没有优惠券了,评价却高达4星半。这说明,不给优惠券用户评价会更高,果然用户虽然爱用优惠券,但内心还是觉得便宜没好东西的?很明显,幸存者偏差在这个例子里体现在那些打一星二星评价的用户,之后可能就没有第二次了。更明显的,这个例子是我瞎扯的。&br&&br&&br&&br&&img src=&/fc780146bef3bc7772388cfaeeab8de0_b.png& data-rawwidth=&681& data-rawheight=&670& class=&origin_image zh-lightbox-thumb& width=&681& data-original=&/fc780146bef3bc7772388cfaeeab8de0_r.png&&&br&图片来源:&a href=&///?target=http%3A//66./3a600f05e67d4995557ccb788e7db97b/tumblr_nnzx8oTLo91uqr0clo1_1280.png& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&66./3a6&/span&&span class=&invisible&&00f05e67d4995557ccb788e7db97b/tumblr_nnzx8oTLo91uqr0clo1_1280.png&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&br&&ul&&li&&b&样本跟整体存在着本质的不同&/b&&/li&&/ul&以知乎为例,会有种错觉人人年薪百万,985/211起,各种GFSBFM,天朝收入水平直逼湾区码工。然而一方面这是幸存者偏差,知乎大V们的发声更容易被看到(看,幸存者偏差也是阴魂不散)。另一方面,不要小瞧知乎跟天朝网民的差别,以及天朝网民跟天朝老百姓的差别--样本跟整体的差别。&br&&br&&br&类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。&br&&br&&br&&br&&img src=&/630a045adab0d5b04feee_b.png& data-rawwidth=&900& data-rawheight=&280& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&/630a045adab0d5b04feee_r.png&&&br&图片来源:&a href=&///?target=http%3A//i./yZQgZ.gif& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&i./yZQgZ&/span&&span class=&invisible&&.gif&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&ul&&li&&b&过于追逐统计上的显著性 statistical significance&/b&&/li&&/ul&统计101告诉我们,要比较两组数是否不同,最基本的一点可以看它们的区别是不是统计上显著。&br&&br&比如 Linkedin 又要改版了(我为什么要说又呢),有两个版本 A 和 B. 灰度测试发现,跟现有版本比起来,A 的日活比现有版本高20%,但是统计不显著。而 B 的日活跟现有版本虽然只高了3%,但是统计显著。于是 PM 拿出统计101翻到第二页说,来,咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说,等一下!并不是所有时候都选统计显著的那一个,咱们再看看版本 A 的数据吧(具体分析略过一万字)。&br&&br&很显然,这个例子也是我瞎扯的。&br&&br&&br&&img src=&/c9f232cf027ff_b.png& data-rawwidth=&736& data-rawheight=&218& class=&origin_image zh-lightbox-thumb& width=&736& data-original=&/c9f232cf027ff_r.png&&图片来源:&a href=&///?target=https%3A//s-media-cache-/736x/a2/3c/db/a23cdb849c2f0b25f9798cfd1f6fddda.jpg& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&s-media-cache-&/span&&span class=&invisible&&/736x/a2/3c/db/a23cdb849c2f0b25f9798cfd1f6fddda.jpg&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&ul&&li&&b&不做数据可视化,以及更可怕的:做出错误或者带误导性的数据可视化&/b&&/li&&/ul&比如
&a data-hash=&aa77defcaacb70& href=&///people/aa77defcaacb70& class=&member_mention& data-editable=&true& data-title=&@谢科& data-hovercard=&p$b$aa77defcaacb70&&@谢科&/a& 这个回答里提到的&br&&a href=&/question//answer/& class=&internal&&「数据会说谎」的真实例子有哪些? - 谢科的回答&/a&&br&&br&&img src=&/b5abc9b5a561c520ee33_b.png& data-rawwidth=&590& data-rawheight=&443& class=&origin_image zh-lightbox-thumb& width=&590& data-original=&/b5abc9b5a561c520ee33_r.png&&&br&&div class=&highlight&&&pre&&code class=&language-text&&在趋势图中,为了说明增长趋势多明显,把Y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把Y轴从0开始看的话,会显得基本没有差距。
&/code&&/pre&&/div&&br&&img src=&/ed63202ffc229d4b9dbda_b.png& data-rawwidth=&400& data-rawheight=&328& class=&content_image& width=&400&&&br&图片来源:&a href=&///?target=https%3A////business-commerce-data-big_data-data_specialist-bar_graphs-data_chart-jcen1296_low.jpg& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/lowres&/span&&span class=&invisible&&./business-commerce-data-big_data-data_specialist-bar_graphs-data_chart-jcen1296_low.jpg&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&(一下步就是要编排一个 twitter 的例子了23333,因为数据分析表明,有 twitter 公司这样的例子读起来会更有趣)&br&&br&&br&&ul&&li&&b&数据分析提供的结果和建议不具有可行性&/b&&/li&&/ul&twitter通过分析文本数据发现。。。&br&&br&算了,我编不出来,由此可见,不具有可行性的结果虽然是“理论正确‘的分析结果,然并卵。。。&br&&br&&img src=&/fac734e86cc9bf8dda660fc988ab5a21_b.png& data-rawwidth=&598& data-rawheight=&186& class=&origin_image zh-lightbox-thumb& width=&598& data-original=&/fac734e86cc9bf8dda660fc988ab5a21_r.png&&&br&图片来源:&a href=&///?target=https%3A///media/BlSiygoCEAEJC8S.png& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/media/BlS&/span&&span class=&invisible&&iygoCEAEJC8S.png&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&ul&&li&&b&不做数据分析&/b&&/li&&/ul&别笑,据以前的校内后来的人人现在不知道叫什么的 PM 说,这是真的。(开个玩笑,人人的同仁要是介意的话我删掉) &br&&br&-- 此片应有人人小秘书配图&br&&br&&ul&&li&&b&最后的大招:如何解释 p-value&/b&&/li&&/ul&具体我就不讲了, 讲错了我明天还怎么面对老板和同事啊。 &br&有兴趣解释 p-value 的欢迎留言。&br&&img src=&/be1db4cc38da7_b.png& data-rawwidth=&590& data-rawheight=&420& class=&origin_image zh-lightbox-thumb& width=&590& data-original=&/be1db4cc38da7_r.png&&&br&图片来源:&a href=&///?target=http%3A//3./-y_hvRb5anNc/VTGkru5LZeI/AAAAAAAABNo/GAVvAbPS-CQ/s1600/worship.gif& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&3./-y_hv&/span&&span class=&invisible&&Rb5anNc/VTGkru5LZeI/AAAAAAAABNo/GAVvAbPS-CQ/s1600/worship.gif&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
谢邀。 刚休假回来忙着加班就看到这么有 bigger 的问题,怎么能不怒答一发。 来点入门的吧(因为我就是入门水平啊) 错把相关性当成因果性 correlation vs. causation经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多…
牙科行业。不论牙科医疗服务,还是其上游的设备耗材行业,过去五年的cagr都在25%以上,我估计今年也不会低。全国范围都是如此,二三线城市可能略高于一线。&br&&br&~~~~~~~~~~&br&2月6日更新&br&&br&我在全世界最大的牙科医疗器材公司做过7年高管,现在在牙科创业。下边是过去几年对牙科市场的认识的一个小总结。&br&&br&宏观上来讲,牙科市场与&b&消费升级,中产阶级扩大,和医疗健康&/b&三个大的话题相关;一直以来市场化程度就比较高;从国家政策,经济发展,和民众意识角度全都是利好因素;几乎没有大的发展阻碍障碍瓶颈等。&br&&br&1)中国牙科市场发展及预测:尽管整体经济放缓势必对牙科行业发展速度有负面影响,但是牙科市场相对而言反周期性较强。尤其是类似中国这种牙科行业刚刚开始发展的国家。所以我的预测是牙科在可预见未来仍会保持20%的年增长率。&br&&img src=&/83fc7ad859bfefea799a12_b.png& data-rawwidth=&753& data-rawheight=&452& class=&origin_image zh-lightbox-thumb& width=&753& data-original=&/83fc7ad859bfefea799a12_r.png&&&br&2)中美牙科市场对比悬殊:2015年中国的牙科市场是美国市场的约十分之一。中国牙科市场即使高速增长10年,仍不能达到美国今天的水平。&br&&br&&img src=&/3fc5e8ab9bf775dfbd29fac_b.png& data-rawwidth=&752& data-rawheight=&453& class=&origin_image zh-lightbox-thumb& width=&752& data-original=&/3fc5e8ab9bf775dfbd29fac_r.png&&&br&3)中国牙科行业不但落后于美国,也落后于国内其它产业。下边这个图需要稍微解释一下。纵轴是比例,横轴是几个不同的项目。牙科市场中国是美国的十分之一,GDP大概是三分之二,奢侈品大约持平,汽车销量大概是美国的1.4倍,人口是4.7倍,钢铁产量是9倍。换句话说,如果参照GDP/奢侈品/汽车销量数据,中国牙科市场还有很大潜力。&br&&br&&img src=&/38a05cdf15b6d_b.png& data-rawwidth=&753& data-rawheight=&452& class=&origin_image zh-lightbox-thumb& width=&753& data-original=&/38a05cdf15b6d_r.png&&&br&4)中国的汽车销量和奢侈品市场与美国相当,而牙科市场是美国的十分之一,说明牙科市场现在最大的问题不是支付能力,而是支付意愿。或者说民众的口腔保健意识,是制约市场发展的真正因素。在对待牙齿的态度上,50/60/70/80/90人群区别很大。基本规律是老一辈人总体而言不重视牙齿;70/80后也许自己不重视牙齿,但是开始注重下一代的牙齿;而90后对牙齿的态度则开始有点接近美国。即使在老年人当中,根管治疗正越来越多的取代拔牙;也有越来越多的老年人在牙齿缺失后选择种植治疗,而非传统的镶牙。&br&&br&可以想象在未来的10-20年中,随着80/90后逐渐成为社会中坚力量,社会整体口腔健康意识将会越来越强。而口腔健康,由于其社交性(牙齿不整齐,颜色不好,口臭等症状容易被旁人察觉),会随着人群中对于口腔足够重视的人数达到临界质量,而迅速成为多数人的基础需求。
牙科行业。不论牙科医疗服务,还是其上游的设备耗材行业,过去五年的cagr都在25%以上,我估计今年也不会低。全国范围都是如此,二三线城市可能略高于一线。 ~~~~~~~~~~ 2月6日更新 我在全世界最大的牙科医疗器材公司做过7年高管,现在在牙科创业。下边是过…
&b&数据分析真正要能够开花结果,关键还是在一个字-“人”上。今天我们就来聊聊怎么搞定数据分析中的“人”。&/b&&br&&br&&b&第一个“人”,搞定公司的管理层。&/b&&br&&br&让一个人改变其多年的习惯,是一件非常非常困难的事,尤其是一个依赖这种习惯曾经取得过成功的人。而管理层恰恰是由一群这样的人组成的。&br&传统企业的管理层治理公司,往往是依靠他们一直以来的经验和直觉,现在你需要让他们认可数据,依靠数据来进行公司的管理。这种自我否定和新习惯的养成是极具挑战性的。&br&&br&&br&我们公司的董事长就是这样的一个人。&br&&br&在最初的时候,当我拿着做好的分析看板和结论找到他时,他拒绝接受我的结论,给出的理由也非常可笑:“你做分析的基础数据不准确”。天啊,我分析的基础数据是从公司的生产系统直接获取的,怎么可能不准确?退一万步说,假如真的不准确,难道首先想到的不应该是修正数据,怎么可能想到先否定数据分析呢?&br&&br&我知道,他怕了!一个人长期以来的习惯和经验突然间被数据颠覆掉,这是他在面对着未知时的下意识抗拒。那么我该怎么办?当时我没有争辩,只是静静的退了出来,但是一整套的计划却慢慢的浮现出来:&br&&br&一方面,我需要给他时间和空间去适应这一改变,很多事情不易操之过急。在接下来的时间里,我不断的给他灌输数据的重要性和外部的成功案例;同时,我也鼓励和引导他进行一些简单的数据分析,减少他的抗拒和不适,帮助他建立信心。&br&&br&另一方面,我开始启动对公司中心总层面的培训和启蒙。在其中寻找接受能力强的,有意愿的进行重点培养,并不断让他们将取得的成绩汇报给董事长,在整个高管群中形成讨论数据的风气。&br&&br&经过3个月的努力,现在在公司的高管领域,已经形成了讨论必以数据为基础的风气和习惯,董事长也变的非常非常重视和关注公司的数据。&br&&br&&b&第二个人,搞定你的竞争对手。&/b&&br&&br&在我决定要切入并接管公司的数据时,存在有两个竞争对手。一个是公司成立的数据中心,由董事长的女助理管理;另一个是信心中心的大数据研发团队,是一个四十来岁的总监管理。&br&&br&先说说数据中心吧。数据中心名义上统管整个公司的业务数据,是公司数据的管理者。其每日的工作就是通过excel整理数据,定时发给个业务部门。下面给个业务部门再结合自身的数据,用excel进行报表加工。这样做的效率奇慢,分析的维度和实时性也无法得到保证。&br&&br&这个部门我的定位就是竞争对手,赤裸裸的竞争对手。定位清楚以后,打法就非常清晰了。我直接切入给个业务部门,通过BI快速、直观、准确、灵活的体验,说服业务部门将它们使用的报表在BI上进行开发。与传统的excel开发相比,BI能够给用户更好的体验,很快得到业务部门的认可。&br&&br&这时故事的高潮才真正到来。也许是感觉到了BI的威胁,数据中心的老大找到了我,指责我未经允许去对接业务部门的数据需求,要求我以后只能对接他们。笑话!你做不好就不允许别人做吗?还要求我只能对接他们,凭什么?我直接联系了给个业务中心的老总,请他们支持我。因为我切切实实的给业务部门提供了帮助,他们都欣然同意。&br&&br&鼓起勇气向CEO预约了一个小时的汇报会议,拿着各个业务老总的支持,我最近的成绩,数据部门每日的工作,我给CEO做了一次汇报,充分的数据证明了我的价值和数据中心的无用。CEO直接解散了数据中心,我的团队承接了数据中心的职责和权力。&br&&br&这时还有一个大数据研发。其主要功能是负责整个公司的数仓开发,数据归集,数据清洗和报表开发。相对而言,我和它在报表层面有竞争,但BI还是需要数仓和清洗归集后的数据才可以进行数据分析。&br&&br&开始时,大数据研发团队非常的抵触。他们认为我们不是他们的需求方,拒绝为BI做一些工作。同时,这位数据总监抱着多一事不如少一事的混日子精神,非常非常不认可我主动担当,与业务部门充分合作的思路。他拒绝与我合作。&br&&br&在和平沟通无效的情况下,我只能绝地反击:首先,你不接我的需求?但你总不能不接业务的吧,那好我可以假手业务中心提出我的需求;其次,我开始在公司内部挑战大数据团队的价值,“数据是为业务服务的,你做的东西业务都不用,你价值何在?”,“你从来都不主动对接业务,一副大爷的样子等需求,还算是服务部门吗?”,“一个业务需求从提出到实现要3个月,业务哪里等的急?”。&br&&br&有业务部门的认可和撑腰,有切实可查的数据和问题,有鲜明对比的成绩和结果,他只能服从。&br&&br&此时此刻,我才真正在公司内部立住了脚跟。&br&&br&&b&第三个人,搞定你的直属老板。&/b&&br&&br&大家也发现了,我在工作中经常会和公司各个高管,内部给个同级部门一起沟通,甚至还经常会直接给董事长CEO汇报。这一切固然直接、高效,但也犯了一个职场大忌:越级汇报。而在这件事里,最受影响的就是我的直属领导:CTO。&br&&br&一旦让我的领导感觉受到挑战,我不但无法得到他的支持,甚至还会受到阻碍。因此,处理好与领导的关系就变的非常重要。我该怎么做呢?&br&&br&真正想要得到别人的支持,你必须先对对方有价值。我推动BI在公司发展时,我的领导加入公司3个月。他虽然在信息中心推动了不少工作,但并没有什么对业务很直接的感受。业务中心经常吐槽,信息中心那么多人,不知道天天在干什么。这个不正是他面临的挑战和困难吗?就从这里入手。&br&&br&作为一个和业务部门非常紧密的IT团队,我从不藏功,每每有业务部门对我表示感谢时,我都将领导放在第一位。业务部门的感谢邮件一封封的发给我的领导,一方面让他能够了解到我的工作成绩,另一方面也能够缓和业务中心对信息中心的质疑和挑战。可以说,当时我的团队是少有的能给信息中心争光的团队。这样的下属哪个领导不喜欢呢?&br&&br&得到了直属领导的认可和支持,让我在工作中再没有后顾之忧,能够向前冲的更加果决,更加勇猛。&br&&br&&b&第四个人,搞定我的团队。&/b&&br&&br&一个好汉三个帮,这句话是至理名言。一个人再能干,没有好的团队给你支撑,你能取得的成绩是非常有限的。在我决定推动BI的初期,我就非常注重这个问题。&br&&br&首先,我先确定了团队的目标、组成和发展计划。一个精兵强将的团队,首先需要一个清晰的目标。它能够让团队中的每一个人都知道自己为了什么事而努力。我为团队定下的目标就是:“数据驱动业务发展”。基于这一目标,我制定了团队的组织结构和招聘计划。&br&&br&这里要特别与诸位童鞋说明一下,往往一个团队在初期,每个成员的工作压力和强度都是非常大的。这个时候更需要让大家清晰而准确的知道未来计划是什么,可能遇到什么样的问题,有什么样的计划和策略等等。人类最怕的不是困难,而是未来的不确定性,这一点诸位一定要关注。&br&&br&话题拉回来,当组织和计划确定以后,最缺的就是人才的引进和招聘。其实在最初的时候,我就在各种会议中物色人才,在确定hire account 后,我与他们进行了多次的沟通,非常诚心的邀请人才的加入。我开的工资并不是最高的,但理想和情怀又怎是金钱能够衡量?&br&&br&当然,除了诗和远方,我们也需要面包和牛奶。为自己的下属争取升职加薪,应该说说每个领导都应该做的。但应该归应该,如何做却是非常有讲究的。&br&&br&首先,团队必须要能够出成绩。这个成绩必须是一个亮点,比如大大提升了公司的效率,或者推动了公司业务的发展等。记住,天天做老黄牛是很苦,但绝对不是成绩,不是亮点!只有突破性的成绩才能够说服老板为你买单,而对这个问题的理解需要让整个团队予以接受。&br&&br&其次,取得的亮点要完全无私的授予你的下属,千万不能私藏。有的领导非常喜欢居功,自己的功劳归自己,下属的功劳也归自己。这是非常短视的一种方式。因为作为一个团队的领导,这个团队取得的所有成绩本来就是你的,何必抱的那么紧?对于一个居功的领导,下属是不会努力工作的,反正做好都是你的,我干嘛要卖力?但如果能够把所有功劳归于下属,帮助他们成长和发展,每一个下属会像打了鸡血一样,这样的团队会非常恐怖!&br&&br&最后,一个好的领导就是一个好的导师。大家看仔细哦,是“导师”而不是“老师”。一个优秀的领导要能够挖掘和启蒙你下属的能力和天赋,帮助他们快速成长。当你成为一个人成长的导师时,你不但收获了一个优秀的下属,更收获了一个终身的朋友!&br&&br&在这样的思路下,跟着我的Beauty 一年内两次加薪,第一次20%、第二次45%。这样的幅度让所有人乍舌。而为的团队也由两个人快速成长为一个六人的分析团队,这所有的一切仅仅发生在半年内。&br&&br&&b&第五个人,搞定你的“外围”。&/b&&br&&br&前面的人群都是我的直接关系人,他们对我的影响较大,需要专门列出。但同时还有这样的一群人:他们与我的关系并非那么紧密,但他们群体庞大,却又非常分散。对于这群人我该如何对待呢?&br&&br&中国有句古语:“众口铄金,销肌毁骨”。意识就是说,只要大家都说你坏话,你就玩完了!其实这句话说的就是舆论的力量。而舆论力量的来源正是那些与你关系并不紧密的“外围”人群。他们可能并不知道你切实在做什么,对于你的印象处理来自于偶尔一两次的沟通,就主要来自于别人的口口相传。千万不要小看了舆论的力量,它们的走向非常关键!&br&&br&在日常工作中,你需要对外围人群保持谦逊。正如我前面提到的,这批人群对你的看法更多来自于偶尔一两次的交流,所以这部分的印象取决于你平时的风格。谦逊是每个中国人都喜欢的品格,面带微笑,说话客气点人是大家都喜欢的。当每个人都对你有好感时,人群的共识就将形成,这种共识到来的是一种舆论,非常正面的舆论。这种舆论将降低你成功的门槛,也会成为你最大的保障。&br&&br&当然,这里我讲的并不是带上一个虚伪的面具,而是一个人需要谦逊的品格。这需要很长时间的沉淀和修养,我也还在路上。&br&&br&当你能够搞定以上五个“人”时,恭喜你,距离成功只有一步之遥了。让我们一起看看我的团队半年间取得的一些成绩吧:&br&1、金融信用模型(类似于芝麻信用),为公司带来三亿低成本投资;&br&2、通过数据分析,为公司应收帐款&br&在一周内下降13%;&br&3、 为公司拉了42个每月百万级交易的客户;&br&4、帮公司减少了30+人/每天的数据处理工作;&br&5、N+小微客户的加入。&br&&br&&br&End
数据分析真正要能够开花结果,关键还是在一个字-“人”上。今天我们就来聊聊怎么搞定数据分析中的“人”。 第一个“人”,搞定公司的管理层。 让一个人改变其多年的习惯,是一件非常非常困难的事,尤其是一个依赖这种习惯曾经取得过成功的人。而管理层恰恰…
&p&这几天重温《西部世界》时不禁想:运用大数据,未来会帮助人、操纵人甚至制造人类社会吗?目前仍未知。剧情到最后还是落入了人性、自由的探讨,大数据的创造结果,最终被人性所映射的迷幻意识所撼动。&/p&&p&这其中除了人类迂回寻求的自豪感安全感,最近不断迸发的科幻题材作品,也都昭示了大数据时代的日新月异和不可预测。&/p&&p&要探讨大数据最核心的价值,大致有两个方向:一是人类学社会学上思维文明的进步,一是经济学上收益与效率的突飞猛进,而这种价值也可分为技术价值、商业价值、行业价值等等。&/p&&p&近年来 “大数据”所蕴藏的巨大潜力和能量在各行各业不断积蓄,整个数据行业的技术基础和实践能力也不断提升。它在经济社会逐渐发挥着新兴中流砥柱的作用。对大数据价值循序渐进的探讨,就很有必要适时引用到大数据的经典理论“三重门”加进理解。&/p&&p&“三重门”即“交易门”、“交互门”、“公开市场门”,循序渐进地指出大数据带给人类的几点核心价值。&/p&&p&&br&&/p&&p&&b&1.技术价值&/b&&/p&&p&&br&&/p&&p&大数据,根本上与数学、统计学、计算机学、数据学等基本理论知识无法分割,技术水平突飞猛进给数字领域带来最直接的跃进。&/p&&p&App研发应用、数据库编写应用等促进人类社会技术进步的价值都来源于大数据的发明和运营。&/p&&p&大数据不仅创造了新的计算方式、技术处理方式,更加为其他技术的研发、应用和落地提供基础,例如人工智能等。&/p&&p&大数据的“三重门”理论中“交易门”,则是大数据技术价值的核心映射。&/p&&p&“交易门”即客户与企业进行交易的数据,客户的交易行为通过企业内部系统留存,基本以“事后”数据为主。&/p&&p&“交易门”是推进企业数据驱动业务,与客户联系沟通、获得有效和分析数据的初级门槛,无论大数据获取能力如何发展,直接的交易信息永远都是第一有效和值得关注的。&/p&&p&淘宝的交易分析报告中提到,大额买单后的重购次单和同店重购次单比例分别为25.0%和16.8%,要明显高于普通买单的18.8%和10.7%,则表示在首次买单获取了对卖家服务和商品质量的信任后,次单完全存在放大金额的可能,并且比普通买单的可能要高得多。&/p&&p&由此引导卖家增进服务、坚守质量,并适时推出捆绑推荐,以求同类商品同店大额下单的几率。&/p&&p&&b&只有有了大数据的处理技术,交易行为才能够得到记录分析,企业的大数据技术研发、应用和落地才能拥有基础&/b&,以开发更新更适合时代的企业产业。&/p&&p&目前有很多传统企业盲目行走大数据的道路,但其实大数据技术能力并没有建立起来,例如目前很火的“马拉松宣传”,各种机构争相试验,然而真正获得了有效数据并得以分析利用的就很少,很多该做的“埋点”没有做,数据的统计也缺乏技术支撑。&/p&&p&这时大数据的技术价值就会显得尤为重要,且是所有价值的基础,一梁塌,全屋倒。&/p&&p&无法自主革新的企业会求助一些以提供大数据服务为产品的新型公司,也就催生了这种算法公司雨后春笋般的出现,例如北京春雨、数据堂、TalkingData、中科曙光等。至于这些公司如何为传统转型服务在后面会提到。&/p&&p&&br&&/p&&p&&b&2.商业价值&/b&&/p&&p&&br&&/p&&p&在实际的升级运行中,习惯于传统经营的企业也许经常会为这样几个基础的问题感到困惑:如何提升运营现状?目标客群是谁?有哪些特点?与竞品相比竞争优势在哪?现有经营问题又是什么?&/p&&p&而这些看似简单的问题背后却隐藏着海量数据的分析挖掘:客流数据、经营数据、以往活动相关数据、场内店铺信息、竞品数据,类此种种的深入透析才能帮助企业画像潜客、分析经营、建立会员体系、策划活动执行。&/p&&p&单就运营而论,数据作为一种度量方式,能够真实的反映运营状况,帮助企业进一步了解产品、了解用户、了解渠道进而优化运营策略是其快速发展的根本动因。&/p&&p&&b&通过数据分析的结果来驱动运营方式,最终能帮助运营者乃至企业决策者凭借数据和逻辑分析能力指导业务实践。&/b&&/p&&p&大数据的第二重“交互门”映射了其耀眼的商业价值。&/p&&p&“交互门”即花园里的数据,企业与客户的交互数据,例如用户浏览APP或网页痕迹、购物实体店脚印足迹等,这些数据本身代表的是客户单向的行为。&/p&&p&如果说直接的交易数据更多的是带给企业商品质量差异的反馈,那么这些行为数据能够带给企业的,则更多是用户的习惯喜好等差异反馈,让企业能够摸清用户的需求、倾向,以便更好的调整推荐、推出产品吸引潜在的客户。&/p&&p&大数据的商业价值让业务更高效、更精准、更低成本、更有据可依、更便于优化、更利于长远发展,带来不可计量的实际商业价值。&/p&&p&例如,步步高公司就是一个典型的通过大数据落地革新之后,重新容光焕发的传统企业,步步高涉及的运营范围已经很广,线下线上都饱满,然而这么多的流量数据并没有得到适时的采集、统计和分析。&/p&&p&于是同很多传统企业一样,步步高寻求了提供大数据服务更新的公司帮助,步步高找的TalkingData公司对步步高进行了资产的数字化整理,把线下线上的数据统一整合起来,展现给步步高全景的市场反馈,实现了全渠道的高效转化,跨越客户收益从0到1的距离。&/p&&p&大数据带来的商业价值不容小觑,TalkingData为步步高量身定制的全新活动评价指标体系,全渠道活动营销直接带来客流同比周末提升1.26倍;全场销售额同比周末提升1.47倍,主力店梅溪百货销售同比提升1.52倍;活动7天增长2.7万粉丝,日最高增长10160粉,活动日均增粉较平日提升56倍,较效果最好的元旦提升21倍。参与活动的粉丝转化率高达62.8%。&/p&&p&数据驱动已经成为现代企业的新兴业务增长力。&/p&&p&&br&&/p&&p&&b&3.行业价值&/b&&/p&&p&&br&&/p&&p&大数据的第三重门“公开市场门”则映射了其更为宏大的行业价值。&/p&&p&“公开市场门”即客户在一个开放市场中的各种行为数据,大部分其实不直接与特定企业行业相关,但它能够很大程度地引导企业各种业务的开展方向,为整个行业的走向提供社会趋向指导。&/p&&p&例如微信微博流量、区域偏好、移动数据、娱乐项目偏好等等数据,它能够勾勒客户的个人心理画像,展现行业发展在市场反馈中体现的影响,和人们的态度趋向。&/p&&p&举一个2015年大数据例子。据林克艾普数据挖掘后发现,2015年我国成年国民图书阅读率为58.4%,较2014年上升了0.4个百分点。从阅读量来看,2015年我国国民人均纸质图书阅读量为4.58本,与2014年相比增加了0.02本,但对比2013年的4.77本还有微弱下降。报纸和期刊阅读量分别为54.76期和4.91期,与2014年相比也出现了不同程度的下降。&/p&&p&假设你所在的企业不是图书业、报刊业甚至连文化业都不是,也许是电子产业、餐饮行业、服装行业等等,这则大数据信息与你的行业无直接相关,但可以从中得到的是广告投入的渠道选择变化。可能要从纸质广告投入中移出一部分给电子宣传。还有纸质图书的复兴趋势,也使得其他行业有了走“文化情怀道路”的试验可能。&/p&&p&如越来越多书店与咖啡馆的结合,衣服上与文艺作品人物有关的画饰,kindle等电子阅读方式的火爆。&/p&&p&另外,&b&移动数据越来越成为大数据领域关注的焦点。&/b&随着智能手机的普及,移动化及移动应用的数量不断扩大,移动端数据因此更加普及,与以往的业务数据不同,这些数据更加个人化,也更适合于各种不同场景的应用。&/p&&p&例如,媒体公司会选择在八点至九点上班高峰期人人埋头看手机的时候,发布流量文章;地图导航软件会在你去到一个新的城市时,推来城市的游玩攻略美食地图。&/p&&p&大数据技术要求要满足不同的应用场景,以将人们的生活各个方面用大数据无缝联合,推动各行各业的发展、演进和革命。&/p&&p&像前文提到的国内TalkingData这些领先的独立第三方移动数据服务平台,则可以用数据透析世界新玩法,帮助传统企业完成基于移动互联的数字化转型,从而使企业升级成为数据驱动的新时代企业,促进整体行业的革新,同时也深刻影响着每一个人的日常生活。&/p&&p&&br&&/p&&p&&b&4.社会价值&/b&&/p&&p&&br&&/p&&p&最后,不得不说的社会价值。要记得,无论科学技术如何发展,从人本主义的观点上来说&b&最终的目的都会落到“人”的身上,落到能否促进人类社会的进步,能否增进人的幸福&/b&。&/p&&p&大数据为人的生活带来的不仅只是便利,还有紧密的生活服务网络,当一切 都可以按照人们的喜好需求来计量,社会又会步入怎样的新时期呢,可以拭目以待。&/p&&p&&br&&/p&&p&总结来说,大数据的价值是时代性的价值,大数据是解决这个时代更新的方法,而非永恒不朽的论题。我们利用大数据创造了时代价值,最终它也要进步,甚至会被新兴的驱动力淘汰。但这,也正是大数据的价值之一。&/p&&p&&br&&/p&&p&&i&对未来感到迷茫和无所适从?微信搜索未来知识图谱(ID:futureknowledge),回复“投资未来”获取《未来五年,这7个行业将爆发性增长》&/i&&/p&
这几天重温《西部世界》时不禁想:运用大数据,未来会帮助人、操纵人甚至制造人类社会吗?目前仍未知。剧情到最后还是落入了人性、自由的探讨,大数据的创造结果,最终被人性所映射的迷幻意识所撼动。这其中除了人类迂回寻求的自豪感安全感,最近不断迸发的…
得颈椎病比较快并且在情人节没什么消费的人群,通常都喜欢买冲锋衣和机械键盘?
得颈椎病比较快并且在情人节没什么消费的人群,通常都喜欢买冲锋衣和机械键盘?
我是神策数据的创始人桑文锋,属于利益相关者,最近正好写了篇文章,聊一聊“埋点”到底要不要。原文见:&a href=&/p/?refer=sangwf& class=&internal&&在数据采集上的痛苦、幻想与失望 - 瓦利哥的机器岁月 - 知乎专栏&/a&&br&&img src=&/a521904ebafe92b427e1db_b.png& data-rawwidth=&900& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&/a521904ebafe92b427e1db_r.png&&&br&&p&随着移动互联网时代的兴起和数据量的大规模爆发,越来越多的互联网企业开始重视数据的质量。在我创业的这一年里,接触了 200 多家创业型公司,发现如今的企业对数据的需求已经不仅仅局限于简单的 PV、UV,而是更加重视用户使用行为数据的相关分析。&/p&&br&&p&做数据的同学都知道,在数据分析的道路上,数据采集是重中之重。数据采集的质量直接决定了你的分析是否准确。而随着企业对数据的要求越来越高,埋点技术也被推到了“风口浪尖”。所谓,埋的好是高手,埋不好反倒伤了自己。而在数据采集的道路上大家经常会遇到各种各样的问题,今天我们就来分析一下埋点是否需要。&/p&&br&&p&&strong&首先我把数据采集的问题归结为三类:&/strong&&/p&&blockquote&&p&1、不知道怎么采,包括采集什么数据以及用什么技术手段采集;&/p&&p&2、埋点混乱,出现埋错、漏埋这样的问题;&/p&&p&3、数据团队和业务工程团队配合困难,往往产品升级的优先级大于数据采集的优先级。&/p&&/blockquote&&p&上面这三类问题让数据团队相当痛苦,进而幻想弃用数据采集,而尝试新方案后,进而迎来的是更大的失望。这里我对这三类问题的现状及应对之策做一下分析。&/p&&br&&p&&b&? 不知道怎么采&/b&&/p&&br&&p&一般创业公司的数据采集,分为&strong&三种方式&/strong&:&/p&&br&&p&第一种直接使用友盟、百度统计这样的第三方统计工具,通过嵌入 App SDK 或 JS SDK,来直接查看统计数据。这种方式的好处是简单、免费,因此使用非常普及。对于看一些网站访问量、活跃用户量这样的宏观数据需求,基本能够满足。&/p&&br&&p&但是,对于现在一些涉及订单交易类型的产品,仅仅宏观的简单统计数据已经不能满足用户的需求了,他们更加关注一些深度的关键指标分析,例如:用户渠道转化、新增、留存、多维度交叉分析等。这个时候才发现第三方统计工具很难满足对数据的需求,而出现这样的问题并不是因为工具的分析能力薄弱,而是因为这类工具对于数据采集的不完整。 通过这种方式 SDK 只能够采集到一些基本的用户行为数据,比如设备的基本信息,用户执行的基本操作等。但是服务端和数据库中的数据并没有采集,一些提交操作,比如提交订单对应的成本价格、折扣情况等信息也没有采集,这就导致后续的分析成了“巧妇难为无米之炊”。&/p&&br&&p&通过客户端 SDK 采集数据还有一个问题就是经常觉得统计不准,和自己的业务数据库数据对不上,出现丢数据的情况。这是前端数据采集的先天缺陷,因为网络异常,或者统计口径不一致,都会导致数据对不上。&/p&&br&&p&第二种是直接使用业务数据库做统计分析。一般的互联网产品,后端都有自己的业务数据库,里面存储了订单、用户注册信息等数据,基于这些数据,一些常用的统计分析都能够搞定。这种方式天然的就能分析业务数据,并且是实时、准确的。&/p&&br&&p&但不足之处有两点:一是业务数据库在设计之初就是为了满足正常的业务运转,给机器读写访问的。为了提升性能,会进行一些分表等操作。一个正常的业务都要有几十张甚至上百张数据表,这些表之间有复杂的依赖关系。这就导致业务分析人员很难理解表含义。即使硬着头皮花了两三个月时间搞懂了,隔天工程师又告诉你因为性能问题拆表了,你就崩溃了。另一个不足之处是业务数据表的设计是针对高并发低延迟的小操作,而数据分析常常是针对大数据进行批量操作的,这样就导致性能很差。&/p&&br&&p&第三种是通过 Web 日志进行统计分析。这种方式相较于第二种,完成了数据的解耦,使业务数据和统计分析数据相互分离。然而,这种方式的问题是“目的不纯”。Web 日志往往是工程师为了方便 Debug 顺便搞搞,这样的日志对于业务层面的分析,常常“缺斤少两”。并且从打印日志到处理日志再到输出结果,整个过程很容易出错,我在百度就花了几年的时间解决这一问题。&/p&&br&&p&所以,以上三种方式虽然都多多少少解决了一部分数据采集的问题,但又都解决的不彻底。&/p&&br&&p&&b&? 埋点混乱&/b&&/p&&br&&p&聊完采集方法,再来说说关于埋点的管理。我曾经接触了一家做了七八年的老牌互联网公司,他们的数据采集有 400 多个点。每次数据产品经理提出数据采集的需求后,工程师就会按照要求增加埋点,然后交给数据产品经理去验证。数据产品经理在试用的时候也感觉不到异常,可等产品上线之后,才发现埋的不对,再进行升级发版操作,整个过程效率极低。我们发现,一个公司发展到了一定程度,没有专人去负责埋点管理工作,数据采集就完全没有准确性可据采集就完全没有准确性可言。甚至有时产品上线之后,才发现数据采集的工作没有做,也就是漏埋了。&/p&&br&&p&于是数据团队又开始幻想,既然埋点这么容易出问题,有没有可能不埋点?这就像寻找可以祈求风调雨顺的神灵。&/p&&br&&p&在 2010 年,百度 MP3 团队曾经做了一个叫 ClickMonkey 的产品,只要页面上嵌入 SDK,就可以采集页面上所有的点击行为,然后就可以绘制出用户点击的热力图,这种方式对于一些探索式的调研还是比较有用的。到了2013 年,国外有家数据分析公司 Heap Analytics,把这种方式更近一步,将 App 的操作尽量多的采集下来,然后通过界面配置的方式对关键行为进行定义,这样便完成了所谓的“无埋点”数据采集。使用这种方案,必须在产品中嵌入 SDK,等于做了一个统一的埋点,所以“无埋点”的叫法实际上是“全埋点”的代名词。&/p&&br&&p&另外,这种方式同样也只能采集前端数据,后端服务器和数据库中的数据,依旧是无可奈何的。并且,即便进行前端数据采集,也无法深入到更细粒度。比如提交订单操作,订单运费、成本价格之类的维度信息,都丢失掉了,只剩下“提交”这一个行为类型。&br&&/p&&br&&p&对于非技术人员,容易被这种方式的名称和直接优势所吸引,但很快又会发现许多深度数据分析需求无法直接满足,进而有种被忽悠的感觉,会感到失望。其实不止是非技术人员,即使是技术人员,也都会让我解释一下“可视化埋点”的原理,说明“无埋点”真是个有迷惑性又不甚清晰的概念,难以细究。&/p&&br&&p&这里说一下关键点:一是事先在产品上埋一个 SDK,二是通过可视化的方式,生成配置信息,也就是事件名称之类的定义,三是将采集的数据按照配置重命名,进而就能做分析了。&/p&&br&&p&&b&? 数据团队和业务工程团队的配合问题&/b&&/p&&br&&p&最后,我们再聊一聊数据采集中遇到的非技术性问题。一般来说,公司到了 A 轮以后,都会有专门的数据团队或者兼职数据人员,对公司的一些业务指标负责。即使为了拿到这些基本的业务指标,一般也要工程团队去配合做一些数据采集工作。这个时候雷军的“快”理念就起到作用了,天下武功唯快不破。于是所有事情都要给产品迭代升级让路,快的都没有时间做数据采集了。殊不知没有数据指标的支撑,又怎么衡量这个功能升级是不是合理的呢?互联网产品并不是功能越多就越好,产品是否经得起用户考验,还是要基于数据说话的,然后学习新知识,用于下一轮的迭代。&/p&&br&&p&数据团队和业务工程团队是平级的团队,而数据团队看起来总是给业务工程团队增加麻烦事儿,似乎也不能直接提升工程团队的 KPI,所以就导致需求不被重视,总是被更高优先级的事情挤掉,数据的事情难有进展。&/p&&br&&p&&strong&解决之道&/strong&&/p&&br&&p&前面给大家抛出了数据采集中常见的三类问题,下面我们来看一下应对之道。&/p&&br&&p&对于不知道数据怎么采的问题,首先从意识上要重视数据采集工作。数据的事情归结起来就两点:数据采集和数据分析。可不能只看到数据分析而忽略了数据采集。事实上我个人在百度做数据的几年里,最大的心得就是数据这个事情要做好,最重要的是数据源,数据源收集得好,就成功了一大半。数据采集的基本原则是全和细。全就是把多种数据源都进行采集,而不只是客户端的用户数据。细就是强调多维度,把事件发生的一系列维度信息,比如订单运费、成本价格等,尽量多的记录下来,方便后续交叉分析。&/p&&br&&p&其次,要有一个数据架构师,对数据采集工作负责,每次数据采集点的增加或变更,都要经过系统化的审核管理,不能顺便搞搞。最后,我这里要推荐 Event 数据模型(有兴趣的可阅读:&a href=&///?target=https%3A///manual/data_model.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据模型 | Sensors Analytics 使用手册&i class=&icon-external&&&/i&&/a&),针对用户行为数据,简化成一张宽表,将用户的操作归结为一系列的事件。&/p&&br&&p&对于埋点混乱的问题,前面提到的数据架构师的角色,要对这块的管理负责。如果前面完成对 Event 的梳理,这里的埋点就会清晰很多。另外还要推荐尽量从后端进行埋点,这样便无需多客户端埋点了。当然,如果有行为只在客户端发生,还是要在客户端进行埋点的。对于业务复杂的情况,只有负责人还不够。目前我们神策分析针对这个问题,推出了埋点管理功能,对于每个采集点的数据收集情况,都能够做到全盘监控,并且可以针对一些无效采集点进行禁用。总之是希望把这个问题尽量好的解决掉。&/p&&br&&p&对于数据团队和工程团队的配合问题,我这里是想说给创业公司的创始人听的。两个平行部门间的推动,是很难的。数据的事情一定要自上而下的推动,也就是创始人一定要重视数据,把数据需求的优先级提升,这样在项目排期时,能够把数据的需求同时做了。我们知道两军对战,情报收集工作的重要性。做产品也是一样,数据收集工作的重要性不言而喻。&/p&&br&&p&最后,期望越来越多的创始人,从拍脑袋决策逐步向数据驱动决策做出转变。&/p&
我是神策数据的创始人桑文锋,属于利益相关者,最近正好写了篇文章,聊一聊“埋点”到底要不要。原文见: 随着移动互联网时代的兴起和数据量的大规模爆发,越来越多的互联网企业开始重视

我要回帖

更多关于 梯子游戏技巧 的文章

 

随机推荐