【原】文献计量学系列10 ：Lotka定律

松哥精鼎统计 2020-10-23

展开全文

导读

前几期，我们系统地介绍了特定学科的文献和作者指标体系，此2个指标体系是衡量一门科学发展的重要参数。文献发表量和作者数量是这2个指标体系的基础，二者之间的关系是文献计量学的重要研究内容之一。Lotka定律是最早且影响较为广泛的文献信息作者分布规律，其描述了文献数量和作者数量之间关系，本节将介绍Lotka定律及其修正。

一、LotKa定律简介

Lotka定律是文献计量学经典定律之一，由著名科学计量学家Lotka于1926年提出。Lotka通过对化学和物理学领域作者频率与论文数量的分布规律研究，发现发表2篇文章的作者数量大约是发表1篇文章作者数量的1/4（1/2²）；发表3篇文章的作者数量大约是发表1篇文章作者数量的1/9（1/3²）；发表n篇文章的作者数量大约是发表1篇文章作者数量的1/n²。因此，Lotka定律也称为反平方定律，数学公式为：
f(x)：发表x篇文章的作者数占作者总数的比例；C为学科特征常数；a为参数，Lotka研究中C≈0.6079，a = 2。
后来学者探讨了Lotka定律的普遍意义，发现常数C和a数值并不是固定的，C在0.6附近波动，a的范围从1.2到3.5，甚至更大。因此，实际研究中，确定C和a的值是Lotka分布数据拟合的关键。

二、LotKa定律修正

Lotka在研究科学生产率中，发现少数发表文章较多的作者与他们发文量之间的关系不完全符合Lotka定律。Lotka当年根据目视进行删除，主观性太强。目前常见的处理方法包括：1）不删除；2）删除最高产的占作者总数1%的作者；3）删除作者总数平方根数量的作者（根据普莱斯定律）4）删除仅发表1篇论文的作者总数平方根数量的作者。
接下来，将探索在R语言中实现上述4种处理方式的Lotka定律。Bibliometrix包中Lotka函数能够实现原始的Lotka定律，获取C和a的值即不删除高产作者。自定义的新函数modified Lotka函数能够实现上述4种处理方式。
三、Lotka定律及其修正

（一）数据准备

library(bibliometrix)library(tidyverse)D <- readFiles("E:\\精鼎统计\\savedrecs.txt")M <- convert2df(D, dbsource = 'wos', format = 'plaintext')results <- biblioAnalysis(M,sep = ";")#导入自定义函数source("E:\\精鼎统计\\modified Lotka.R")

（二）不处理（即不删除，原始数据）

L1 <- mutipleLotka(results)L1# $Beta #系数a# [1] 2.419273# # $C #常数C# [1] 0.536451# # $R2 # [1] 0.9421878# # $fitted# 1 2 3 4 5 # 0.5364509658 0.1002897214 0.0376048339 0.0187492033 0.0109277584 # 6 7 8 9 10 # 0.0070302387 0.0048418077 0.0035051710 0.0026360723 0.0020429488 # 11 12 13 14 15 # 0.0016222482 0.0013143059 0.0005658987 0.0004323909 0.0003819301 # # $p.value # k-s检验# [1] 0.1813004# # $AuthorProd# N.Articles N.Authors Freq# 1 1 876 0.7697715290# 2 2 156 0.1370826011# 3 3 45 0.0395430580# 4 4 30 0.0263620387# 5 5 8 0.0070298770# 6 6 5 0.0043936731# 7 7 5 0.0043936731# 8 8 5 0.0043936731# 9 9 2 0.0017574692# 10 10 1 0.0008787346# 11 11 1 0.0008787346# 12 12 1 0.0008787346# 13 17 1 0.0008787346# 14 19 1 0.0008787346# 15 20 1 0.0008787346# # $testplot# obs theo doc# 1 0.7697715290 0.536450966 1# 2 0.1370826011 0.134112741 2# 3 0.0395430580 0.059605663 3# 4 0.0263620387 0.033528185 4# 5 0.0070298770 0.021458039 5# 6 0.0043936731 0.014901416 6# 7 0.0043936731 0.010947979 7# 8 0.0043936731 0.008382046 8# 9 0.0017574692 0.006622851 9# 10 0.0008787346 0.005364510 10# 11 0.0008787346 0.004433479 11# 12 0.0008787346 0.003725354 12# 13 0.0008787346 0.001856232 17# 14 0.0008787346 0.001486014 19# 15 0.0008787346 0.001341127 20 test1 <- L1$testplot fig1 <- ggplot(test1, aes(x = doc))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+ theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank()) fig1

图1 科学生产率（不删除高产作者）

（二）删除做高产的占作者总数1%的作者

L2 <- mutipleLotka(results, method = "percentage")test2 <- L2$testplotfig2 <- ggplot(test2, aes(x = doc))+ geom_line(aes(y = obs, color = "Observed"))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+ labs(x = "Publication", y = "Frequence of authors")+ theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank())fig2

图2 科学生产率（删除最高产的占作者总数1%的作者）

（三）删除作者总数平方根数量的作者（根据普赖斯定律）

L3 <- mutipleLotka(results, method = "sqrtall")test3 <- L3$testplotfig3 <- ggplot(test3, aes(x = doc))+ geom_line(aes(y = obs, color = "Observed"))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+ labs(x = "Publication", y = "Frequence of authors")+ theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank())fig3

图3 科学生产率（删除作者总数平方根数量的作者）

（四）删除仅发表1篇论文的作者总数平方根数量的高产作者

L4 <- mutipleLotka(results, method = "sqrtone")test4 <- L4$testplotfig4 <- ggplot(test4, aes(x = doc))+ geom_line(aes(y = obs, color = "Observed"))+ geom_line(aes(y = theo, color = "Theortical (B=2)"))+ labs(x = "Publication", y = "Frequence of authors")+ theme(legend.position = c(1,1), legend.justification = c(1,1), legend.background = element_blank(), legend.key = element_blank(), legend.title = element_blank())fig4

图4 科学生产率（删除仅发表1篇论文的作者总数平方根数量的高产作者）

小结

本系列已持续10期，简单地介绍了文献计量学的基础与指标体系，系统地讲解了文献增长与作者分布规律，并自定义了多个函数，实现了更多的文献数据分析功能。为满足广大读者需求，我们将会把所有函数打包，创建R语言数据包，届时大家可以下载安装。后期，我们还将出视频教程，请大家持续关注。

参考

邱均平. 信息计量学（六），文献信息作者分布规律—洛特卡定律. 情报理论与实践，2000, 23(6):475-478.

刘琳. 情报学文献作者分布规律研究(1991-2007). 情报科学，2008, 26(11): 1694-1698.

【赠人玫瑰，手留余香】

----------------------------------------------

文献计量学系列09：作者合作网络

文献计量学系列08：作者合作度量

文献计量学系列07：领域内作者H指数

文献计量学系列06：特定领域重要作者与影响力
 文献计量学系列05：特定领域重要文献探索