分享

【干货】通过2篇论文讲透科研中的数据分析应用

 CDA数据分析师 2024-10-16 发布于湖南

持证人简介

王明月

2年数据产品工作经验,管科博士生在读,CDA数据分析师二级持证人。

科研与数据分析师日常工作有所不同,但也有相似之处。科研的成果通常是论文,包括题目、摘要、关键词、引言、文献综述、数据与方法、结果、讨论、结论和参考文献。其中,红框标记的部分与数据分析紧密相关。除了综述性文章,几乎所有论文都需要数据和方法的支持,通过这些来得出结果并进行深入讨论,类似于数据分析中的策略性工作。


数据处理

在数据处理方面,科研中涉及数据采集、清洗和探索性分析。数据可以通过调查问卷、实验、实地调研或网络爬虫获取。获取后,需要进行清洗,然后进行描述性统计、数据可视化和变量相关性分析。


构建模型

数据处理后我们要构建模型,包括计量经济模型回归模型、时间序列模型、结构方程模型和优化模型等。这些构建模型的方法我是在CDA数据分析师二级备考中集中学习了一下,所以在做科研的时候,感觉特别游刃有余,CDA数据分析师二级教材对回归模型和时间序列模型有详细描述,真的建议不论本科生还是研究生都考一下CDA数据分析师,这对能力的提高帮助很大,扫码“CDA认证”小程序,获取数据分析资料。

在备考CDA数据分析师二级的时候,我对主成分分析和因子分析的理解加深了,之前我只是使用软件得出结果,但对其背后的计算公式、假设条件和应用前提了解不多。此外,科研中会用到博弈模型和网络分析模型,也建议大家去学习。

论文实例解析

论文1

我们来看一个例子,这是一篇关于特色农产品网络零售满意度影响因素的研究。文章的数据来源并非传统的调查问卷或访谈,而是通过网络爬虫技术获取的。研究者选择了25款产品,并以两个电商平台为数据源,使用Python编写爬虫程序收集了大量消费者评论数据。

数据分析阶段,首先进行了描述性统计,通常以表格形式呈现。随后进行了数据清洗,包括剔除无关数据和压缩重复性副词,如数字、字母、表情符号等。

CDA考试内容中有关于数据处理的章节,介绍了缺失值填充和重复值剔除的方法。

最终,研究者采用LDA主题模型对评论数据进行聚类分析,提取出影响网络零售满意度的主要因素,并据此提出改进建议。这篇文章的分析过程相对简单。

论文2

这一篇文章题目直译可能较为抽象,但它发表在知名期刊上,探讨了环境信息披露对供应链网络中绿色创新产出的影响。这篇文章是基于中国上市公司的实证分析,主要研究网络结构对企业绿色创新产出的影响。研究采用了负二项回归模型进行分析。数据主要来自国泰安数据库,涵盖了2012年至2019年A股上市公司的详细信息,包括供应链网络结构。研究强调了供应链网络结构对绿色创新产出的影响,并考虑了环境信息披露(EID)的条件效应。从国泰数据库中提取的数据包括了不同合作伙伴的详细信息,数据整理后得到研究所需的指标。

数据处理全流程:

在数据处理方面,研究者进行了数据清洗,这个过程包括了明确的步骤,类似于科研数据分析中常用的方法。研究者首先描述了获取的数据的时间范围和类型,包括A股上市公司的详细信息,如公司名称和股票代码。接着,从数据集中选取了每个企业的前五大供应商和前五大客户数据,并解释了选择这些数据的原因。

处理缺失值时,研究者提到,由于一些企业可能没有披露绿色创新数据,这些数据通常用绿色专利和新型专利数量来衡量。为了填补缺失值,研究者手动从官方网站、年报等权威报告中获取信息。这样做是为了避免因剔除缺失值而导致数据量减少,影响后续分析。尽管这一步骤工作量较大,但对于确保分析的准确性和完整性是必要的。

接着,它构建了自己的模型,包括核心解释变量、被解释变量、控制变量以及调节变量。使用负二项回归模型进行建模,建立了两个模型,一个不包括环境信息披露(EID)变量,另一个包括,以做对比。

这两个模型实际上是相同的,区别在于系数不同。不包括EID的模型作为基准模型,而包括EID的模型是主要模型。这个模型与传统的回归模型不同,因为它已经整理成了负二项回归模型的对数似然函数形式。

以前我使用软件进行操作时,对这些概念理解不深,但在CDA数据分析师二级教材中有详细解释,这有助于使我们的分析更稳健。CDA数据分析师二级教材中提到,不同的变量类型,如离散型或连续型,需要使用不同的方法,且必须适配。扫码“CDA认证”小程序,获取数据分析资料。


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多