胖胖小龟宝 能静能动,能严肃能无厘头,近9年统计专业学习及实践经验。长期混迹于经管之家的计量经济与统计板块,也曾舞文弄墨,闲嗑唠叨,一不小心著成《从零开始学统计》一书,专注于用通俗易懂方式普及枯燥的统计知识。曾在上海某专业统计所从事一线调查与统计实践工作,积累了丰富的数据处理、数据分析经验。对于统计学及数据分析有着蜜汁兴趣,较擅长利用Eviews和SPSS软件对行业数据进行分析研究,多次参与区县级经济发展以及相关统计课题研究。 问1:今天我们很高兴邀请到经管之家最有影响力的统计达人之一“胖胖小龟宝“参加专访,经常逛论坛的朋友一定十分熟悉这个ID------她不仅为大家贡献了计多学习计量与统计的优秀专题,并且已解答了数千个学习疑难和知识盲点,她还是统计学畅销书《从零开始学统计》的作者,擅长以深入浅出的方式为大家呈现统计之美。大数据时代,从海量数据中撷取有用信息正变得十分有价值,每个人都应该学点统计学。首先,能否为大家分享下,您是如何走上统计学之路的?作为一名新手小白,您认为学习统计学应该如何上手呢? 答:走上统计学之路对我来说纯属一个意外,但冥冥之中也有一些注定。我想,好多童鞋在进入大学后会愕然发现,自己想象中的学科和现实中真实存在的学科完全是两回事,就像我当初填报志愿的时候,天真地以为统计学和会计学、审计学一样属于经管专业——你以为统计知识简单的数字加加减减,最多来个乘除了不起了;你也纳闷统计除了求个均值方差你还能怎样?但实际是,好吧,没有它不能参活一脚的,只有你没想到让它参活的! 意外在于:它完全不是我理解的那种统计学,但也幸好它不是,否则天生对于记账凭证无感的我真的没法坚持学下去。剖析了一下自己的性格,果然还是对“未知”更感兴趣啊!所以当我的导师带着神父那般仁慈的表情,想用言语安抚这群被打进“冷门”(当时真的算挺边缘的专业)的孩子时,他绝对不会想到那一番对统计学美好的憧憬在我们心中撩拨起多少的激情和躁动——事实证明,那是一位有高瞻远瞩的导师,对于专业发展的预判相当精准。 但要真的踏上统计之路,那应该是一种痛并快乐的经历。对于新手小白,我觉得激发兴趣很重要。之所以一路过来,我对统计始终抱有爱意,不离不弃,兴趣功不可没。 比如最开始学习概率,如果你对博彩有兴趣,那么概率论的学习可能就不那么枯燥了。当你学到回归分析,聚类分析的时候,如果能和有趣的案例结合一起,也就不乏味了。当然必要的数学功底还是要有的,题目还是要刷的——毕竟“考试”这只挡在成功道路上的拦路虎你还是要放大招击败的。这里我们来看下统计学主要的课程的结构图,先一睹可能会成为你胜利大道上的碍事“大怪”! 看到这张图,你是不是头皮有点发麻?没关系,其实大多数的课程应付起来还是小case的。如果能找到“通关秘诀”,那基本是一路长途无阻的。而这个通关秘诀么,我觉得就是研究软件——开挂学习了。统计学的软件有很多,从理论上说,只要能编程的软件都能运用于统计分析。所以我很推崇在学习阶段多用不同的软件来尝试。从我个人的感受上来说,软件没有好坏,只有适不适合。我从不认为SPSS就low,而SAS就逼格满满——我是不会承认自己是个颜控妹纸的! 用不同的软件带来的最大好处在于:它能有效帮助你掌握理论原理,增加实战经验。对于好不容易得到的案例数据,我们可以做些微调,可以是模型参数的微调,也可以是数据分布的调整,通过建模的结果比对,绝对能帮你看出很多不可描述的道道…… 问2:您在自己的新书中曾经提到这样的观点:拒绝枯燥乏味的理论与公式,揭示数据之下隐藏的统计学之美,真正提高统计思维能力。那么,在这么多年的学习旅途中,您遇到的最大的学习困难是什么?您又是怎样克服的呢?能否为大家分享下您的学习经验和技巧呢?这一路下来,您最大的感受是什么呢? 答:学习中遇到的困难嘛……我相信很多童鞋学习时间序列的时候应该会比较头疼,好吧,也许只有我一个人头疼。的确,这门学科应该是我学习过程中最为痛苦的一门了。无论是平稳性还是滞后期的选择,当时都困扰我很久——更不用说那费力的协方差推导问题……现在回忆起来都是苦不堪言。而软件方面也不是每一款都像SPSS那么友好的,对于R和SAS,我也经常会卡在一片字母代码中。无论是理论学习还是实际运用,我觉得克服难题的良方无非就是熟能生巧。推导不行,一步步慢慢来;程序不睬你或者直接撒丫子死循环,重新调整算法呗。在这些切切实实能看到的困难前,我们总能设法过关,真正能困住你前进脚步的障碍,往往是围困你思维的牢笼,比如建立正确的统计思维就是一个艰不拆的问题了。 统计思维,私以为理解“模糊即是精确”甚为重要。统计学不像数学,它是没有标准答案的。就拿我们最喜欢说的P值,选择哪一个置信度这种争论足以让我们友谊的小船永没在汪洋大海里。但其实现实中,对于这类问题完全不必太过纠结,你的统计分析只要能够自圆其说,有依有据就行啦,并没有那么非黑即白的对错之分。不过要能自圆其说也需要自身大量的知识储备和经验积累,在这方面,如果大家有条件可以自己设计问卷调查——比如使用问卷星等平台,做一次模拟的案例分析,这对于如何确定样本量,如何选择指标,如何调整分析途径都大有好处。问3:计量与统计相关的软件十分之多,让很多人在学习过程中产生了“选择困难症“,从Eviews、R、SAS、SPSS到MATLAB、STATA,再到许多个性化的小众软件。能否为大家分享一下,我们应该如何选择适合自己的软件呢?这些软件之间又有哪些区别呢? 答:对于一个“选择困难症”——比如我,在众多统计软件中选择一个深入学习,那分分钟就是要被逼死的节奏。幸好,当时我的导师没有把我往这条不归路上逼,因为——教多元的老师用SPSS,教时间序列的老师用R,等开始学回归分析了,老师又用Eviews(我不会告诉你时间序列老师和回归分析老师是同一人,对于为什么他要用两种软件分别教授这个问题我是拒绝回答的!),而SAS则是单列了一门课。在这其中,各位任课老师抖包袱般用了诸如Rat,Gauss,Gretl……你要参加一个建模比赛,Matlab和Stata不请自来……这些软件,我并不是每种都会,平时用的较多的应该是SPSS,Eviews,Excel……(脸上挂着蜜汁微笑),当然也会使使SAS和R。从使用友好程度来说,我大致将这些软件做了如下归类,归大家参考:总体而言,如果你的分析侧重截面和多元,那么SPSS/R/SAS会是不错的选择,其中如果不需要专业的调整参数,那么SPSS跑一下也就分分钟的事——不嫌弃的话可以一用。如果侧重时序分析的话,那么EVIEWS/STATA/MATLBA无疑是更好的工作伙伴。将EVIEWS作为入门是一个不错的选择,不过无论是时序还是截面,都建议大家可以略微涉及一些编程软件,码农和数据分析师往往是一个共存体——说多了都是泪啊!问4:您可否推荐一些平时充电学习专业知识的平台或途径?以及一些学习资源,包括图书、文献、牛人等等,并为大家点评和介绍一二呢? 答:说到网络化学习,各类学习平台如今太多了,从教授网络课程的网易云课程到专业论坛如经管之家,统计之都都是可以充电的好去处,在这里为大家整理四大类学习资源: 一、理论技能类: l 计量经济学/时间序列分析 Ø 古扎拉蒂《计量经济学基础》 Ø 伍德里奇《计量经济学导论:现代观点》 Ø 恩德斯《应用计量经济学:时间序列分析》 Ø 清华大学计量经济学(45讲)李子奈 Ø 厦门大学公开课:高级计量经济学 http://open.163.com/special/cuvocw/xiadagaojijiliangjingji.html l 抽样调查 Ø 华中师范大学公开课:社会调查——从经验走向科学 http://open.163.com/special/cuvocw/shehuidiaochajingyan.html
二、方法技能类: Ø 哈里斯堡社区大学公开课:统计学入门 http://open.163.com/special/opencourse/statistics.html Ø 江西财经大学公开课:爱上统计学 http://open.163.com/special/cuvocw/aishangtongjixue.html Ø 北京师范大学公开课:统计学导论 http://open.163.com/special/cuvocw/tongjixuedaolun.html Ø 可汗学院公开课:统计学 http://open.163.com/special/Khan/khstatistics.html
三、技术技能类: l R Ø R语言入门 http://www.imooc.com/learn/446 Ø R语言基础 http://www.imooc.com/learn/546 l Spss Ø spss教程 http://v.baidu.com/i/list?tag_id=2803&frp=search http://calcnet.cst./org/spss/toc.htm
四、数学技能类: l 概率论与数理统计 Ø 浙江大学:http://www.icourse163.org/course/ZJU-1001615010#/info Ø 哈尔滨工业大学:http://www.icourse163.org/course/HIT-1001518002#/info Ø 同济大学:http://www.icourse163.org/course/TONGJI-481002#/info l 线性代数: Ø 可汗学院公开课:线性代数 http://open.163.com/special/Khan/linearalgebra.html Ø 麻省理工公开课:线性代数 http://open.163.com/special/opencourse/daishu.html Ø 同济大学http://www.icourse163.org/course/TONGJI-481001#/info 但我个人更喜欢传统的文字学习法,细细琢磨方能回味无穷。对于书籍类的推荐,我列出以下的书单,供大家参考: l 正儿八经看教材: 一、统计学基础 1、《统计学》 David Freedman等著,魏宗舒,施锡铨等译 中国统计出版社 据说是统计思想讲得最好的一本书,读了部分章节,受益很多。整本书几乎没有公式,但是讲到了统计思想的精髓。 2、《Mind on statistics(英文版)》 机械工业出版社 只需要高中的数学水平,统计的扫盲书。有一句话影响很深:Mathematics as to statistics is something like hammer, nails, wood as to a house, it's just the material and tools but not the house itself。 3、《Mathematical Statistics and Data Analysis(英文版.第二版)》 机械工业出版社 这本书理念很好,讲了很多新的东西,把很热门的Bootstrap方法和传统统计在一起讲了。 4、《Business Statistics a decision making approach(影印版)》 中国统计出版社 5、《Understanding Statistics in the behavioral science(影印版)》 中国统计出版社 6、《探索性数据分析》中国统计出版社 大家好好看看陈希儒老先生做的序,可以说是对中国数理统计的一种反思。 二、回归分析 1、《应用线性回归》 中国统计出版社 2、《Regression Analysis by example (3rd Ed影印版)》 3、《Logistics回归模型——方法与应用》 王济川 郭志刚 高等教育出版社 不多的国内的经典统计教材。两位都是社会学出身,不重推导重应用。每章都有详细的SAS和SPSS程序和输出的分析。 三、多元分析 1、《应用多元分析(第二版)》 王学民 上海财经大学出版社 这本书的亮点不是推导,而是后面和SAS结合的部分,以及其中的一些想法。 2、《Analyzing Multivariate Data(英文版)》 Lattin等著 机械工业出版社 这本书有很多直观的感觉和解释,非常有意思。对数学要求不高,证明也不够好,但的确是“统计书”,不是数学书。 3、《Applied Multivariate Statistical Analysis (5th Ed影印版)》 Johnson & Wichem 著 中国统计出版社 四、时间序列 1、《商务和经济预测中的时间序列模型》 弗朗西斯著 Amazon 上五星推荐的书,讲了很多很新的东西也非常实用。 2、《Forecasting and Time Series an applied approach(third edition)》 Bowerman & Connell 著 五、抽样调查 1、《抽样技术》 科克伦著 张尧庭译 2、《Sampling: Design and Analysis(影印版)》 Lohr著 中国统计出版社 六、软件及其他 1、《SAS软件与应用统计分析》 王吉利 张尧庭 主编 2、《SAS V8基础教程》 汪嘉冈编 中国统计出版社 主要讲编程,没怎么讲统计。如果想加强SAS编程可以考虑。 3、《SPSS11统计分析教程(基础篇)(高级篇)》 张文彤 北京希望出版社 4、《金融市场的统计分析》 张尧庭著 广西师范大学出版社 l 剑走偏锋轻阅读 1.《从零开始学统计》 本书的作者正在敲打这段文字——是的,就是我唠叨出来的小作——我不会承认我在打小广告。这本书我个人对其定位是轻知识读物,适合初入统计学之门,或者用来回忆下统计知识。书中简述了统计学的发展史和成名史,也概述了统计学必要的理论知识和相关软件的操作——可供完成轻量级统计分析工作。 2.《女士品茶》 若说到统计学的科普书籍,这本书几乎是所有学过统计的人首推的一本。它不是一本女性读物,也不是一本介绍饮茶文化的书籍。它是一本名人故事集。每一个章节的内容,作者都是以某一个著名的统计学家的介绍为开端,并以此为支点开始介绍与之相关的人物的故事以及他们所做的富有创造性的工作,以此来描述20世纪科学界的统计革命。全书一共29个章节,萨尔斯伯格用分章节介绍了如何设计一个统计实验、平均数、估计值、概率、随机、相关系数、回归、参数、极值分布、假设检验、T检验、钟形曲线、置信检验、大数定律、中心极限定理等一系列统计学的术语和概念,全书没有一个数学符号,也没有一个数学公式,十分利于那些没有数学基础的人理解统计学的世界。 3.《统计陷阱》 作为一名有着深厚统计背景的新闻记者,通过广泛调查、收集案例,达莱尔·哈夫写下了这本揭开统计骗局的书。这是一本实用性很强同时适用面非常广的书。不需要多少的统计知识,我们每一个人都能将这本书看懂,完全不需要担心难以理解的问题。 这本书给了我们一种新的思想,一种思考问题的方法;当我们在生活中再遇到这样的问题时,我们将不会轻易相信结论,而会愿意通过几个问题来验证此结论是否可信,等等。而这些对于其他的问题也同样的有效。 4.《漫画统计学入门》 《漫画统计学》讲述的是一名叫琉衣的高中女生和她的家庭教师山本在统计补习课上发生的事情。而在这个补习的过程中,作者借由家庭教师山本之口将各种统计学的基础知识加入到了漫画的剧情当中,而琉衣则负责提出没有统计背景的人可能遇到的问题。 5.《机会的数学》 我们在生活中不时地要与偶然性打交道。不期而遇的偶然机会,可以帮助人们渡过难关,也可能使人陷入困境,甚至决定一个人一生的命运。偶然性看似不可捉摸,它能否成为科学研究的对象呢?我们说在一定程度上是可以的。本书的目的就是对此作一个通俗而不失科学性的讨论,主要着重于它在收集和分析数据上的应用。陈希孺写的这本科普书《机会的数学》,它用通俗生动的实例为数理统计学的应用做了最好的诠释。 还有一些与统计学有关的科普书籍,例如《统计学的世界》、《数理统计小史》、《统计学漫话》、C.R.劳的《统计与真理-怎样运用偶然性》、《从惊讶到思考》、《统计学概貌》、《数理统计学简史》等,这些统计学科普书籍也很有趣,久经考验。 问5:古罗马哲学家西赛罗曾说过“概率是生活的指南”;科幻小说作家威尔斯说:“对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要”-----您认为普通人应该如何培养统计学思维呢?以及应该掌握哪些必要的统计学工具呢?即使我们不以统计作为专业方向,那么也应该如何做好这方面的知识储备,以适应社会发展的形势呢? 答:我对统计思想的理解有两点:以小见大,有容乃大。相对于数学严密的逻辑演绎而言,统计学则更多的是归纳推理。比如,通常人们认为,统计结论都应该建立在数据服从正态分布的基础之上,但很多数据仅仅是近似服从。这么宽泛的条件,怎么能得到让人信服的结论?再比如要求精确地你是坚决执行一切调查皆普查,还是根据实际灵活采用抽样和普查结合呢?现实生活有太多不完美的情况,适当的舍弃一些精度,往往会更接近真相。无论你是否从事数据分析工作,有统计思维会让你对事物的理解加深,会对畸变的容忍放宽,从小来说是让你头脑清晰,思维多元;讲大了那就是对人生多样性也更为包容。要培养统计思维,多问些为什么,多假设一些例外情况是激发思考的好方法——未知是充满一切可能性的,而统计学本身就是挖掘未知的真相。在信息爆炸的时代,统计已经融入工作生活的方方面面,非专业人士适当储备一些统计基本知识那是必要也必须的。比如你至少该学会均值的几种计算,这能保证你不会跟风犯一些常识错误;而如果进一步学会一些相关分析,聊天的时候不经意蹦出“文本挖掘”等词汇,那逼格可就蹭蹭上去了——重要的是,这些知识既不难学也很实用,比如可以看看《从零开始学统计》有趣也有料!在统计工具上,个人觉得非专业人士只要好好利用excel中的数据分析模块就能满足你日常的分析需求——反正我知道你写简历的时候一定会把熟练运用office套装写上去的。如果仍有余力,那么考个CDA数据分析师也是不错的选择。 问6:随着大数据的火热,很多高校开设了数据分析相关专业,也有更多的人期待从事数据分析相关工作,您对希望从事数据分析工作的人有哪些建议?您认为应该从哪里入手,培养自己合理的知识结构和技能呢? 答:有志于从事数据分析,那必定得耐得住寂寞——反正你天天面对的都是数据、代码和码农……当然,你手上也得有两把刷子。时下流行的几款分析软件得会倒腾——起码让你的BOSS觉得你会倒腾。其次理论知识是必须备齐的,每一次的分析过程都是对知识点的考验,更何况你的BOSS可能也是专业出身,提个问题都能让你仿佛置身论文答辩现场。最后,我觉得很重要的一点是要会灵活机变。数据是千变万化的,惯用的模型也会耍性子跑不出理想结果,要学会对不同的数据事先预备多种分析方案,plan C?彩浅3;嵊玫降摹M样,还要把握分析的尺度,不是所有的数据都能用模型深挖到底,所有的方法都是解决问题的工具而已……一条道上把自己逼死可不是明智之举。如今线上线下的各类交流会越来越多,多多互动这是一个填补知识空白的好途径哟! 问7:您曾在上海某统计调查所从事一线的统计工作,能否与大家分享一下您在工作中做过的数据分析实例?您当时遇到过什么困难吗?解决思路是怎样的呢? 答:我遇到的最大困难应该都是和原始数据有关的,我觉得统计分析能否做好,最开始的数据搜集工作很重要。现实中经常碰到质量不佳的原始数据。如果数据量不大,我一般会自己审核一下,将异常情况比较明显的数据先做标记,交给相关小伙伴劳烦他们再核对下或找下原因。如果是数据量很大的情况下,我通常就会将异常值剔除了;或者将其作为备注信息——有时候异常值更能反映问题。 建模的时候也会碰到没有特别合适的模型,通常这类情况我都会考虑从其他角度入手,毕竟不是所有数据都能建个漂亮模型,也不是每次分析都需要建模。在平时的工作和学习中,反而越发觉得原本不受重视的描述性统计甚为重要——尤其是快信息时代,决策者关注的是结果,没空看你满篇的模型理论,这时候,一份精细的描述性统计报告就能完成要求。 问8:模型是理论的简化,也是思维的简约。但是建模对很多同学来说,也是一个比较困惑的难点,能否结合您的学习经历,为大家分享一下计量统计建模的经验呢?统计必然接触到大量的数据,能否和大家分享一下,您如何搜集数据呢?有哪些技巧和经验? 答:要说建模经验真的谈不上,只能大致聊聊自己的一些感悟吧: 在论坛经常看到一些提问,比如为什么我的模型软件跑不出来呢——数据量太少软件也很为难啊!又比如为什么类似的课题研究,我就得不出参考文献里的结论呢——人类大同,你我还都独一无二呢! 好了,其实在我回答的很多问题中,导致建模结果不佳的原因,我归纳下主要有以下几个: 1.数据量不够 可能是建立时序模型的时期数太短,也可能是自变量过多……我们都知道统计分析中的参数估计大多是需要大样本做基础保障的,如果数据量累计的不够,我们无法从样本推断总体。我个人感觉理想的数据比例是观测值是自变量的五倍以上。而做时序分析,无论自变量多少——哪怕一个,时期跨度也最好多于20期,别说数据分析啦,这人还得日久见人心对不?时期太短会让单位根检验,滞后期都较难执行。 2.变量选择不佳 变量的选择其实没有标准模式,一般来说只要自变量和因变量相关即可。但我们遇到的最多的问题就是自变量多重共线性严重。对于这个问题,有很多处理方法,比如逐步回归,主成分回归等。但我总觉得鱼和熊掌不可兼得,对于共线性强的自变量,要敢于做删减,甚至是替换——天涯何处无芳草!毕竟自变量自身的解释意义很重要,不能为了凑合模型而颠倒分析的主次。 3.模型选择不当 统计和计量的模型相当多,同样的数据我们用不同的模型可以得出多种结论,但模型也有适配性的。比如我们常用的因子分析,它其实更适用于截面类数据;而VAR必须要平稳的时序数据才可启动。在模型的选择上我们要多了解其建立的前提条件。 既然数据那么重要,那么如何采集呢?采集的方法有很多,如果需要经济类的数据,各类年鉴是很好的获取途径(包括各个行业协会发布的数据),但要注意统计口径——特别是发现同名指标但数值不同的,他们统计的方法可能不同,也可能是其中一个做过可比处理等。 经济和金融类的数据还可以从各类金融数据库获取——同样注意报表的囊括范围!调研类数据可以自己设计问卷来获取,当然有能力的可以直接采用爬虫来挖掘——不过这类数据一般都要经过清洗,否则数据质量难以保证! 总而言之,数据获取的途径很多,但要注意保持数据的一致性。 问9:在您的新书《从零开始学统计中》,我们注意到您一直在用生动、有趣、接地气的语言,为大家娓娓讲述统计学,复杂而枯燥的知识在您的笔下也变得十分立体生动,能否为大家分享一个统计学的学习框架图呢?帮助大家快速搭建一个知识体系? 答:统计学涉及的知识点众多,我们可以参考如下简单的结构框架图: 问10:在刚才的采访中,我们提了许多问题,最后一个问题,我们希望是开放式的,也希望您能尽情发挥。在访谈的最后,能否就您擅长的领域或感兴趣的领域,为我们分享一段精彩的评论或观点或寄语呢? 答:我赞同一句话:“这世界里没有绝对的对与错,只有立场不同”。你尽可拍砖吐槽,但我依旧坚定的赞同这句话——如果你真的学过统计,你会理解!
统计学是一门探索的学科,一百个人做同一个统计研究可能得出一百个结论。但同样的,统计学也带给你更多的提问机会。学好统计学并不难,只要你喜欢问为什么,也喜欢去回答为什么就可以了。这个世界上,只要你真心想学好,其实所谓的难,也就只是外衣罢了。相信我们每一个人都可以学好统计学! |
|