分享

读书笔记之《深入浅出数据分析》

 Purefact 2015-10-21



论坛君
还记得昨天“每天一个数据分析师”第五期采访的萌妹纸Yuki吗?本文是她对《深入浅出数据分析》做的一个读书笔记,也可以说是一个精彩点提示,她评价说这本书最精彩是通过案例引导分析思路,对数据分析有兴趣的读者可以学习一下。



Chapter 1
数据分析引言:分解数据


需求:如何提升销量


主要内容:数据分析的流程,统计模型与心智模型


1、数据分析的流程:


确定:了解问题。客户将帮助你确定问题。

分解:分解问题和数据,让他成为更小的组成部分。找出高效的比较因子。

评估:根据了解到的情况,作出各种结论。数据分析的核心是有效的比较。

决策:重新组合结论,作出决策建议。作出自己明确的假设和结论。


2、统计模型取决于心智模型。心智模型一定要指出不确定因素。


3、数据分析的根本在于密切关注需要了解的数据。


4、数据报告中应该让客户详细浏览你的思考过程。

Chapter 2
实验:检验你的理论


需求:找出解决销量下滑的办法


主要内容:比较法、混杂因素、控制组


1、统计与分析的最基本原理之一就是比较法。数据只有通过相互比较才会有意义。比较越多,分析结果越正确。特别是对于观察研究。


2、观察研究法:被研究人自行决定自己属于哪个群体的一种研究方法。使用观察研究法时,应当假定其他因素会混杂你的结论。


3、当怀疑因果关系的走向时,请进行反方向思考,看看结果怎么样。如价值感的下降导致销量下降,换过来就是,销量下降导致价值感下降。


4、当涉及因果关系时,观察研究法并不是那么强大有力。


5、把所想到的事物之间的联系画出来。


6、混杂因素:研究对象的个人差异,他们不是试图比较的因素,最终会导致分析结果的敏感度变差。观察分析法充满混杂因素。


7、数据分析的重点在于分析的结论有意义。


8、拆分数据块,管理混杂隐私。拆分的数据块要具有同质性。


9、观察数据本身无法预示未来。


10、好的实验总是有一个控制组(对照组)。


11、控制组:也称作对照组。一组体现现状的处理对象,未经过任何新的处理。


12、历史控制法,同期控制法(后者比较好)。


13、妥善报告可能令人沮丧的消息。


14、从对象池中随机选择对象是避免混杂因素的好办法。

Chapter 3
最优化:寻找最大值


需求:寻找最佳的生产方案


主要内容:最优化问题、Solver求解器


1、无法控制的因素,可以控制的因素。


2、任何最优化问题都有一些约束条件和一个目标函数。


3、创建模型时,务必要规定假设中的各种变量的相互关系。

Chapter 4
数据图形化:图形让你更精明


需求:三种主页选择


主要内容:数据图形化、散点图、R语言、数据图形化


1、标签云:http://www.


2、体现数据:用数据思考。


3、面对大量数据:记住目标,目光停留在和目标有关的数据上,无视其他。


4、数据图形化的根本在于正确比较。


5、好的数据图形:展示了数据,做了有效的比较,展示了多个变量。


6、散点图:发现因果关系。X自变量,Y因变量。


7、图形多元化:R软件。


8、Edward Tufte:数据图形化。


9、描述数据图形时,需要论述可相互换用的两种因果模型。

Chapter 5
假设检验:假设并非如此


需求:何时开始生产新产品


主要内容:假设检验、证据的诊断性


1、观察数据变量的方法之一:看他们之间是正相关,还是负相关。


2、现实世界中的各种原因呈网络关系,而非线性关系。


3、假设检验的核心是证伪。


4、满意法:选出看上去最可信的第一个假设。


5、进行假设检验时,要使用证伪法,回避满意法。证伪法可以对各种假设保持敏锐,防止掉入认知陷阱。


6、诊断性:证据所具有的一种功能,能够帮助评估所考虑的假设的相对似然性。如果证据具有诊断性,就能帮助对假设的排序。

Chapter 6
贝叶斯统计:穿越第一关


需求:判断患病的概率


主要内容:条件概率、基础概率、贝叶斯规则


1、条件概率:以一件事的发生为前提的另一件事的发生概率。


2、基础概率:又叫事前概率。在根据试验结果分析之前,已经知道的概率。如果有基础概率,一定要考虑。


3、将概率转变为整数,然后进行思考,是避免犯错误的一个有效办法。


4、贝叶斯规则可以反复使用,注意每次使用时,要根据上一次的结果调整新的基础概率。


5、避免基础概率谬误的唯一方法就是对基础概率提高警惕,而且务必要将它整合到分析中去。

Chapter 7
主观概率:信念数字化


需求:解决分歧,统一决策


主要内容:主观概率、标准偏差、贝叶斯规则


1、主观概率:用一个数字形式的概率来表示自己对某事的确认程度。特别适合在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。


2、主观概率是一种向别人精确地传达你的想法和信念的富有启示性的表达方法。


3、标准偏差:量度分析点与平均值的偏差。STDEV函数。


4、贝叶斯规则是修正主观概率的好办法。

Chapter 8
启发法:凭人类的天性做分析


需求:工作成果评估


主要内容:启发法、快省树


1、启发法:(心理学)用一种更便于理解的属性代替一种难解的、令人困惑的属性。(计算机科学)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。从直觉走向最优化的桥梁。


2、快省树:描述启发法的图形。


3、固定模式都具有启发性。

Chapter 9
直方图:数字的形状


需求:要求加薪的策略


主要内容:直方图、铃形曲线


1、直方图:显示数据点在数值范围内的分布情况。


2、直方图不同区间之间的缺口即数据点之间的缺口。


3、铃形曲线:正态分布/高斯分布


4、只要峰的数目超过一个,就不能成为铃形。

Chapter 10
回归:预测


需求:加薪结果预测


主要内容:平均值图、散点图、相关性、相关系数


1、算法:为了完成某个计算而执行的任何过程。


2、只要两种变量成对出现并描述了数据中包含的人或事,就可以同时放在散点图中。


3、散点图的根本在于寻找变量之间的因果关系。


4、散点图和直方图的差别在于显示两种变量。


5、平均值图是一种散点图,显示出与X轴上的每个区间相对应的Y轴数值。


6、回归线是最准确地贯穿平均值图中的各个点的直线。


7、相关性:两种变量之间的线性关系。


8、回归线对于具有线性相关特点的数据很有用。


9、相关系数r:衡量相关性的强弱,范围为-1至1,0表示无相关性,1和-1表示两个变量完全相关。


10、相关性是否足够取决于实际的经验判断。任何软件都无法判别回归线是否有用。

Chapter 11
误差:合理误差


需求:让加薪预测更有效


主要内容:外插法、内插法、机会误差、均方根误差、回归分析的功能


1、外插法:用回归方程预测数据范围以外的数值。


2、内插法:对数据范围内的点进行预测。


3、如果使用外插法,要指定附加假设条件。


4、低劣的预测比不作预测更糟糕。


5、如果使用抽样数据,就要确保能代表整个数据集。


6、不合适的假设会使模型完全失效,甚至结果具有欺骗性。


7、机会误差:又叫残差。实际结果与预测结果之间的偏差。残差分析是优秀的统计模型的核心。


8、均方根误差描述的是回归线周围的分布情况,标准偏差描述的是平均值周围的分布情况。他们都是预测实际结果与典型预测结果之间可能有多大的差距。


9、线性回归一般用均方根误差公式描述误差,但是也有其他量度方法。


10、分割的根本目的是管理误差。


11、优秀的回归分析兼具解释功能和预测功能。

Chapter 12
关系数据库:你能关联吗?


需求:分析杂志销量


主要内容:数据库、RDBMS


1、数据库就是一系列相互有特定关系的数据。


2、数据库要求表格之间的关系都是量化关系。


3、关系数据库管理系统(RDBMS)每一行都有一个ID,确保表格之间量化关系不被破坏

Chapter 13
整理数据:井然有序


需求:整理收集到的凌乱数据


主要内容:整理数据、Excel分列功能、常用函数、正则表达式


1、数据分析和整理上的时间要多于数据分析的时间。


2、整理数据必须从复制原始数据开始,步骤如下:

1)保存原始数据副本。

2)设想数据集的最终外观。

3)区分混乱数据中重复出现的模式。

4)整理并重新构造。


3、Excel可以通过分隔符将数据分成多个列。(数据-分列)


4、常用函数:

Find:在单元格中的哪个位置查找搜索字符串

Left:取单元格左边的字符

Right:取单元格右边的字符

Trim:删除单元格中的空格

Len:求单元格的长度

Concatenate:取两个值,然后合并在一起

Value:以文本格式存储的数字的数值

Substitute:以指定的新文本替代单元格中不需要的文本


5、不要把较小的公式合并成一个大公式,而是拆成几个不同的单元格,再用一个最终的公式将所有单元格合并起来。


6、正则表达式:可以指定复杂的模式,以便匹配和替换文本字符串。是整理混乱数据的杀手锏。Excel并不适用正则表达式。

正则表达式包括三个部分:左括号,右括号和括号里面的所有内容。


7、如果出现数据重复,要判断是因为查询返回数据的方式,还是数据本身质量低劣。

附录:


1、需要补充的知识:

1)统计知识

2)Excel技巧

3)Edward Tufte的图形原则:

体现出比较、对比、差异

体现出因果关系、机制、理由、系统结构

体现出多元数据,即体现出1个或2个变量

将文字、数字、图片、图形全面结合起来

充分描述证据

数据分析报告的成败在于报告内容的质量、相关性和整体性

4)数据透视表

5)R社区

6)非线性与多元回归

7)原假设-备择假设检验

8)随机性

9)Google Docs

10)专业技能


2、R:www.r-project.org


来源:Yuki的数据分析笔记

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多