分享

文献计量学系列10 :Lotka定律

 松哥精鼎统计 2020-10-23
导读

前几期,我们系统地介绍了特定学科的文献和作者指标体系,此2个指标体系是衡量一门科学发展的重要参数。文献发表量和作者数量是这2个指标体系的基础,二者之间的关系是文献计量学的重要研究内容之一。Lotka定律是最早且影响较为广泛的文献信息作者分布规律,其描述了文献数量和作者数量之间关系,本节将介绍Lotka定律及其修正。

、LotKa定律简介




Lotka定律是文献计量学经典定律之一,由著名科学计量学家Lotka1926年提出。Lotka通过对化学和物理学领域作者频率与论文数量的分布规律研究,发现发表2篇文章的作者数量大约是发表1篇文章作者数量的1/41/22);发表3篇文章的作者数量大约是发表1篇文章作者数量的1/91/32);发表n篇文章的作者数量大约是发表1篇文章作者数量的1/n2。因此,Lotka定律也称为反平方定律,数学公式为:

f(x):发表x篇文章的作者数占作者总数的比例;C为学科特征常数;a为参数,Lotka研究中C0.6079a = 2
后来学者探讨了Lotka定律的普遍意义,发现常数Ca数值并不是固定的,C0.6附近波动,a的范围从1.23.5,甚至更大。因此,实际研究中,确定Ca的值是Lotka分布数据拟合的关键。

、LotKa定律修正




   

Lotka在研究科学生产率中,发现少数发表文章较多的作者与他们发文量之间的关系不完全符合Lotka定律。Lotka当年根据目视进行删除,主观性太强。目前常见的处理方法包括:1)不删除;2)删除最高产的占作者总数1%的作者;3)删除作者总数平方根数量的作者(根据普莱斯定律)4)删除仅发表1篇论文的作者总数平方根数量的作者。
接下来,将探索在R语言中实现上述4种处理方式的Lotka定律。Bibliometrix包中Lotka函数能够实现原始的Lotka定律,获取Ca的值即不删除高产作者。自定义的新函数modified Lotka函数能够实现上述4处理方式。

三、Lotka定律及其修正






(一)数据准备

library(bibliometrix)library(tidyverse)D <- readFiles("E:\\精鼎统计\\savedrecs.txt")M <- convert2df(D, dbsource = 'wos', format = 'plaintext')results <- biblioAnalysis(M,sep = ";")#导入自定义函数source("E:\\精鼎统计\\modified Lotka.R")

(二)不处理(即不删除,原始数据)

L1 <- mutipleLotka(results)L1# $Beta #系数a# [1] 2.419273# # $C #常数C# [1] 0.536451# # $R2 # [1] 0.9421878# # $fitted# 1 2 3 4 5 # 0.5364509658 0.1002897214 0.0376048339 0.0187492033 0.0109277584 # 6 7 8 9 10 # 0.0070302387 0.0048418077 0.0035051710 0.0026360723 0.0020429488 # 11 12 13 14 15 # 0.0016222482 0.0013143059 0.0005658987 0.0004323909 0.0003819301 # # $p.value # k-s检验# [1] 0.1813004# # $AuthorProd# N.Articles N.Authors Freq# 1 1 876 0.7697715290# 2 2 156 0.1370826011# 3 3 45 0.0395430580# 4 4 30 0.0263620387# 5 5 8 0.0070298770# 6 6 5 0.0043936731# 7 7 5 0.0043936731# 8 8 5 0.0043936731# 9 9 2 0.0017574692# 10 10 1 0.0008787346# 11 11 1 0.0008787346# 12 12 1 0.0008787346# 13 17 1 0.0008787346# 14 19 1 0.0008787346# 15 20 1 0.0008787346# # $testplot# obs theo doc# 1 0.7697715290 0.536450966 1# 2 0.1370826011 0.134112741 2# 3 0.0395430580 0.059605663 3# 4 0.0263620387 0.033528185 4# 5 0.0070298770 0.021458039 5# 6 0.0043936731 0.014901416 6# 7 0.0043936731 0.010947979 7# 8 0.0043936731 0.008382046 8# 9 0.0017574692 0.006622851 9# 10 0.0008787346 0.005364510 10# 11 0.0008787346 0.004433479 11# 12 0.0008787346 0.003725354 12# 13 0.0008787346 0.001856232 17# 14 0.0008787346 0.001486014 19# 15 0.0008787346 0.001341127 20 test1 <- L1$testplot fig1 <- ggplot(test1, aes(x = doc))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+   theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank())  fig1

1 科学生产率(不删除高产作者)

(二)删除做高产的占作者总数1%的作者

L2 <- mutipleLotka(results, method = "percentage")test2 <- L2$testplotfig2 <- ggplot(test2, aes(x = doc))+ geom_line(aes(y = obs, color = "Observed"))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+ labs(x = "Publication", y = "Frequence of authors")+ theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank())fig2

2 科学生产率(删除最高产的占作者总数1%的作者)

(三)删除作者总数平方根数量的作者(根据普赖斯定律)

L3 <- mutipleLotka(results, method = "sqrtall")test3 <- L3$testplotfig3 <- ggplot(test3, aes(x = doc))+ geom_line(aes(y = obs, color = "Observed"))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+ labs(x = "Publication", y = "Frequence of authors")+ theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank())fig3

3 科学生产率(删除作者总数平方根数量的作者)

(四)删除仅发表1篇论文的作者总数平方根数量的高产作者

L4 <- mutipleLotka(results, method = "sqrtone")test4 <- L4$testplotfig4 <- ggplot(test4, aes(x = doc))+ geom_line(aes(y = obs, color = "Observed"))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+ labs(x = "Publication", y = "Frequence of authors")+ theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank())fig4

4 科学生产率(删除仅发表1篇论文的作者总数平方根数量的高产作者)

小结






本系列已持续10期,简单地介绍了文献计量学的基础与指标体系,系统地讲解了文献增长与作者分布规律,并自定义了多个函数,实现了更多的文献数据分析功能。为满足广大读者需求,我们将会把所有函数打包,创建R语言数据包,届时大家可以下载安装。后期,我们还将出视频教程,请大家持续关注。

参考




邱均平. 信息计量学(六),文献信息作者分布规律洛特卡定律. 情报理论与实践,2000, 23(6):475-478.
刘琳. 情报学文献作者分布规律研究(1991-2007). 情报科学,2008, 26(11): 1694-1698.

【赠人玫瑰,手留余香】

----------------------------------------------

文献计量学系列09:作者合作网络

文献计量学系列08:作者合作度量

文献计量学系列07:领域内作者H指数

文献计量学系列06:特定领域重要作者与影响力
文献计量学系列05:特定领域重要文献探索

文献计量学系列04:文献增长规律与指示意义

文献计量学系列03:文献计量学主要指标描述统计分析

文献计量学系列02:某领域文献检索、下载与导入

文献计量学系列01:bibliometrix包简介

     整理撰写不易,请点亮支持!


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多