分享

基于零模型的开源社区大众生产合作网络结构研究

 新用户30775772 2023-12-18 发布于广东

华 南      报 (   科 学  )

15 2 期                   Journal of South China University  of Technology                         Vol.15      No.2

2013                                (Social Science Edition)                            Apr.  2013

·人类活动系统的复杂性与管理 ·

基于零模型的开源社区大众生产合作网络结构研究

曾进群杨建梅陈  泉李欣荣

( 华南理工大学 工商管理学院,广东 广州 510641)

摘  要: google code 开源社区为例,依据生产者合作关系按照复杂网络理论构建大众生产合作网络模型及合作 网络的零模型,实证了该网络的小世界无标度及同配性特性,并探测了三节点和四节点模体及社团结构,结果 发现该网络模体同步能力较强,开源社区合作涌现性可能与这些模体有着密切的联系,为开源社区大众生产研究

提供了新的视角

关键词: 零模型; 大众生产; 复杂网络; 拓扑结构

中图分类号: FO62.3C94          文献标识码: A           文章编号: 1009-055X(2013) 02-0029-06

引言

与以往的知识生产理论以企业组织作为研究对 象不同开源社区大众生产是一种全新的生产模 式,在这种模式中,大量的人彼此协作( 通常是通 过网络手段) 完成有价值的项目,且它具有两个非 常显著的特征一是在没有物质激励的条件下 量程序设计人员广泛参与 ; 二是在没有层级控制的 条件下参与者自发创造出质量卓越高度复杂的 项目从这些特征来看开源社区是一个典型的由 人类活动构成的复杂系统1这就决定其不能采取 简单还原论的研究方法而必须在了解个体行为及 其相互作用机制的基础上从整体的视角利用系统论的研究方法进行探讨近年来备受关注的复杂 系统研究表明大量复杂系统个体关系需要用网络 结构来描述这些网络结构存在着许多特殊的性 如小世界幂率度分布不同的匹配关系及社 团结构等且这些相互作用结构对系统宏观行为具有重要影响。2009 年,《Science》杂志以复杂系统


与网络( complex systems and  networks) 为主题,发 表一集专刊2其中,Barabasi 教授在文章中指出, 由于底层结构对于系统行为有着重大的影响除非 探讨网络结构否则没有办法去理解复杂系  理解复杂系统行为应该从理解系统相互作用的 网络结构开始对开源社区大众生产而言较好表 征合作者网络结构是理解开源社区大众生产行为的 重要基础

目前已经有不少的刻画复杂网络的拓扑结构各 个侧面特征的指标如结点度度分布平均距离 聚类系数邻结点平均度同配系数等等很多实 际网络的拓扑结构特征得到了研究很多网络 Internet 网络万维网生物代谢网食物网等的 度分布呈现幂律分布而非随机网络的 Poisson分布 ;  一些实际网络的平均距离比较小聚类系数 比较 ; 技术网络和生物网络更趋向于同配而社会网 络趋向于异配近年来有些学者也将复杂网络理 论引入开源社区大众生产合作网络结构研究文献 3]等利用复杂网络方法和自组织临界理论对开源

收稿日期: 2012 -10-06

* 基金项目: 国家自然科学基金项目资助(71273093)

作者简介:曾进群( 1976 ) ,男,江西九江人,华南理工大学工商管理学院博士生,研究方向为系统理论与管理决策

杨建梅( 1946 ) ,女,陕西西安人,博士,华南理工大学工商管理学院教授博导,研究方向为产业组织与系统复杂性 陈  泉( 1971 ) ,男,汉族,江西莲花人,华南理工大学管理学院博士生,电子科技大学中山学院经济与管理学院副教授,研究方向为复杂系统与管理决策李欣荣( 1985 ) ,男,华南理工大学工商管理学院硕士生,研究方向为系统理论与管理决策

社区的自组织演化问题进行了研究3从这些研究 来看复杂网络工具为开源社区大众生产研究提供 了新的视角对我们理解开源社区大众生产这种群 体行为起到很大的帮助但这些研究都仅仅是对建 立了大众生产合作网络的复杂网络模型而没有建 立其相应的零模型

所有这些从实际网络得到的拓扑特征哪些是随 机的,哪些是受到某种约束机制形成的呢?现实网 络的拓扑结构是真的如此独特还是它只是一个偶然 性的样本? 其实这样的问题在科学研究中普遍存我们观察到的现象是否真的受到某种变量影 受到某种机制影响还是它只是一种偶然性的集 零模型的作用就在于此零模型是在比较对象 难以直接获取的情况下根据统计学理论利用数值 算法或数理手段构建用于参照推断的数据分 复杂网络零模型对于揭示并正确判断其拓扑结 构有着极其重要的作用,文献[4][5]用随机化实 际网络构造零模型的方法研究了基因调节网捕食 神经网电路网和万维网发现了统计上显著 (P = 0.01) 的多个 3 结点和 4 结点模体4][5; 6 应用零模型研究了生物细胞内部的分子网络确认 了其异配性质并解释了细胞内部分子网络稳健而 不脆弱的原因正是这种异配性的存在6; 7][8 基于零模型研究社团结构的划分找出了实际网络 中具有统计意义的社团结构7][8

综上零模型已经成为探索复杂网络结构特征 的重要手段本文结合零模型方法与复杂网络模型,以 Google Code 开源社区为例,对开源社区大众生产合作网络进行研究文章主要分为以下几部 : 首先介绍开源社区大众生产合作网络的构建 其次介绍零模型的构建方法然后基于零模型确定 大众生产合作网络结构的特征参数并挖掘其结构与 行为的关系最后给出结论

复杂网络模型的构建

( )  Google Code 开源社区简介

Google Code 开源社区于 2005 年的 3 第一次 公开亮相,当时仅有8 API  (应用层) 的连接,经 过几年的发展谷歌开源已经成为一个开放的项目 托管平台能够提供版本控制问题跟踪下载托 管等工具 目前该开源社区提供的 API 接口数字已 经超过了 60 另外,还有超过 6 万个开源项目 在该社区扎根,每天有超过 17000 个代码确认


歌自己也有超过 800 个项目列于其中,包括An- droidChromeChrome OS GWT 这四个超过 100 万行代码的巨型项目

( ) 开源社区合作网络的度分布

Googel Code 开源社区抽取的全部 58762 有效项目作为研究对象9

网络模型构建的原则如下顶点 : 每一个项目 开发者( ID 表示) 为一个顶点 : 如果两个项 目开发者参与了同一个项目则在这两个开发者之 间连一条边这样得到的大众生产合作网络共有 67732 个顶点,253640 条边

在所有顶点中共有 31205 个节点的度值为 0 也就是说这些点为孤立点 除掉这些孤立点共有 36527 个顶点,其度分布如图 1 所示幂指数在[2 3],这说明该网络中存在较少的 HUB 节点和大量 度值很小的节点其同时具有鲁棒性和脆弱性

1    累计度分布曲线

零模型的构建

( ) 零模型中随机化网络的生成算法

文献[10]为了模拟实际网络,从度相关的角度 系统整理了复杂网络拓扑特性,引入 dK 级数 (dK-series) 的概念。d = 0、1、2、3 时分别表示节 点数和边数相 度序列相 联合度分布相同 ( 同配系数相同)和三结点连接方式相同( 聚类系数相同) 的随机图提出了生成 dK 阶随机图分布的 数值算法为生成高阶随机图提供了选择

在实际应用中,要构造出具有 d 阶所有随机化 网络几乎是不可能的一种解决办法是构造出具有 d 阶的典型网络,它是完全随机地从所有具有 d 的随机化网络中选取的一种常用的办法是针对给 定网络 G 采用随机重连算法来构造出与网络 G

有相同 d 阶特性的随机网络集

对于 0 阶零模型,采用 E -R 随机图作为参照 即保证随机网络与实际网络的节点数边数及 平均度不变生成随机网络集

对于 1 阶零模型( 即保持网络的 1 阶特性,网 络节点的度序列不变) ,采用随机重连算法进行构造,如图 2 所示,随机选定一对边,分别连着 k1 k2k3 k4,若 k1 k4k2 k3 无连边,则交换 连接 ; 如果有连边,则重新随机挑选一对边,这样 四个节点的度均保持不变故网络的节点度分布也保持不变

2  1 阶零模型的随机重连过程

( ) 基于零模型的复杂网络拓扑模式推

有了用数值方法生成的随机图总体样本可推 断实际网络的拓扑特征

一般地,假设我们关心实际网络的 j 拓扑结构 指标为 N(j) ,相应的零模型总体该指标的平均数 ? Nr (j) ? 。零假设可以设定为 :

对于 0 阶零模型,H0 : N(j) =?  Nr (j) ?  ( 1) 对于 1 阶零模型,H0 : N(j) ≤? N(j) ?    (2)

计算出零模型 j 指标的标准差 σ(j) ,构造差 异性统计量 Z 分数 :

Zj  =                                (3)

假设 Nr (j) 服从正态分布,那么 Zj  服从 student 分布,可以得到差异性统计量出现的概率 p,如果 p 小于设定的显著性水平比如 0.01,我们可以在统计 上推断实际网络 j 指标的性质

另外有时也用另外一种方式进行统计分析 即统计零模型总体中每一个随机网络的 j 指标值 Nri (j) 大于 N(j) 的次数 m,假设生成的网络数为 n,再根据两者的比值与选定的显著性水平进行比 较来推断实际网络 j 指标的性质


基于0 阶零模型的大众生产合作 网络结构分析

保持网络节点数边数及平均度不变按照零 模型的构建算法本文共构建了 1000 个随机化网络 按照上文的方法计算这个随机化网络集的集聚系数和平均最短路径长度的平均值各参数计算结 果如表 1 所示

1  静态参数对比表

静态参数

随机化网络

实际网络

P

节点数

36527

36527

-

平均度

13.3

13.3

-

集聚系数( CC)

3 × 10-5 ( 平均值)

0.928

0

平均最短距离(PL)

4.351( 平均值)

4.438

1

度分布

泊松分布

幂率分布

0

从计算结果及式( 1) 来看,实际网络的集聚系 数比生成的随机化网络的平均集聚系数大了约 30000 倍,拒绝原假设,可以认为实际网络的集聚 系数指标不是来自随机网络而平均最短路径大小 差不多可以接受原假设也就是说平均最短路径 并不是实际网络特有性质在随机网络中平均最短 路径也可以很小此外实际网络度分布形式为典 型的幂率分布,拒绝原假设,由此 0 阶零模型从统 计意义上证明了开源社区大众生产合作网络具有小 世界与无标度特性

Uzzi Spiro11在其研究中定义了小世界商数 来描述小世界性的显著程度,小世界商数 CC  ratio / PL ratio  ( 实际网络的 PL 随机网络的 PL 记为 PL ratio,实际网络的 CC 随机网络的 CC ,记 CC ratio,其中 PL 为最短路径长度CC 为平均 集聚系数) ,并指出小世界商数越大,小世界性越显著且小世界性对绩效有着显著性的影响本文 的开源社区大众生产合作网络小世界性商数为 30326,说明该合作网络小世界性非常显著在小 世界网络中由于较高的聚簇程度会促成节点间 相互的信任和更紧密的合作从而提高信息交流的 效率和准确度又由于较小的平均路径长度使得 节点可以方便的从远距离的节点处获取新鲜的 冗余的信息从而激发出灵感具有这种结构的社 会合作网络被广泛认为是可以提高信息交流传递效 率和质量能更好的激发节点的创造力进一步说 明开源社区大众生产能以惊人的速度创造出质量卓 高度复杂的项目可能与该合作网络显著的小世 界性有着极大关系














 

基于1 阶零模型的合作网络结构 分析

( ) 配对性

网络的凝聚性是高一阶的性质它与度分布以 及网络邻节点的连接方式( 度相关性) 紧密相关文献[12]将度高的节点倾向与度高的节点相互连 接或度低的节点倾向与度低的节点相互连接的现象 称为同配度高的节点倾向与度低的相互连接称为 异配,并定义了相关函数文献[6]重新定义了基 于零模型的两个参数 :


R(K1 K2 ) = N(K1 K2 ) /N(K1 K2 )    (4)

Z(K1 K2 ) = (N(K1 K2 ) -N(K1 K2 ) ) /ΔNr (K1 K2 )                                  (5) 其中K1 、K2  分别为节点的度值 ;

N(K1 K2 ) 为实际网络中度值为 K1 、K2  节点连 接的次数 ;

N(K1 K2 ) 为随机化网络集中度值为 K1 、K2 节点连接次数的平均值 ;

ΔNr (K1 K2 ) 为随机化网络集中度值为 K1 、K2 节点连接次数的方差

3  R(K1 K2 ) 分布图                    图 4    Z(K1 K2 ) 分布图

很少学者对大众生产合作网络的配对性进行研 保持度序列不变按照零模型的构建算法本文 共构建了 1000 个随机化网络集,对大众生产合作网络的配对性进行研究,从图 3、4 可以看出,比值 较大的区域主要集中在对角线附近也就是说大众 生产合作网络是典型的同配网络这也说明大众生 产者合作次数多的倾向于与合作次数多的合作

( ) 模体探测

网络模体是满足下列条件的子图5 : 该子图 在实际网络中出现的次数 Nreal 不小于某个下限 U  , 如 U = 4 。② 该子图在实际网络中出现的次数 Nreal 明显高于它在随机网络中出现的次数 Nrand 一般要求(Nreal-Nrand) >0.1Nrand 。③统计该子 图在随机网络中出现的次数与它在实际网络中出现 次数,按式(2 ) (3 ) 进行统计分析 当前研究表 网络模体有助于人们从局部结构上理解复杂网 络生长和演化机制

本文按照零模型的构建算法共构建了 1000 随机化网络集依据上文的模体的定义对开源社


区大众生产合作网络模体进行计算计算结果如表 2 所示

从计算结果来看开源社区大众生产合作网络 模体为有 3、7、8、9 号模体,那么为什么这些子图 在实际网络中出现的频率比随机化网络高得多呢? 本文认为可以从网络同步性及开源社区大规模协作 现象得到部分解释

同步是一种自然现象它通常指至少两个振动 系统相位间的协调一致现象关于同步现象最早的 研究可以追溯到1673 年惠更斯关于耦合单摆的同 步现象的观察实际上若干个耦合单元之间通过相互作用达到同步的现象在许多领域中屡见不鲜 在社会学领域中同步现象也被用作解释形成社会 集体行为的机理文献[13]对模体同步性进行研 究,结果如表 3 所示,比较表 2、3 发现,实际网络 中的探测出显著性模体是所有三节点四节点模体 中同步能力最强的四个开源社区合作涌现可能与 这些模体有着重要的联系

2  模体探测结果

模体编号

模体

Frequency[实际网络] mean-Freq[随机网络] Standard-Dev[随机网络]   Z-Score

p-Value

三节点

2

45.282%

99.985%

0.00036552

- 1496.6

1

3

54.718%

0.015091%

0.00036552

1496.6

0

四节点

4

85.853%

76.535%

0.088649

1.0511

0.09

5

2.5854%

23.253%

0.088184

- 2.3437

1

6

0.024066%

0.14986%

0.00059875

- 2.101

1

7

6.0924%

0.060856%

0.0016342

36.909

0

8

0.30148%

0.00059805%

2.2853e-005

131.66

0

9

5.1438%

2.8786e-006%

1.9791e-007

2.599e + 005

0

3    不同模体结构的耦合强度值( 文献[13])

#

Motif

λ*

NCR( % )

1

2

3

4

0.25

0.28

0.16

0.31

13.67

4.99

20.51

0.73

5

0.32

2.64

6

0.20

6.71

7

0.22

7.67

8

0.18

18.68

9

0.14

32.53

: λ*  数值越小同步能力越强,NCR Natural conservation rates( ) 社团结构探测

网络中的社团结构是指在社团内部节点之间 的联系非常紧密而社团之间的联系相对而言比较 稀疏寻找社团结构并对其进行分析是了解现实生 活中各种网络组织结构的一种很重要的方法并在 生物学计算机科学以及社会学等领域都有着广泛 的应用如社会网络中的社团结构使得人们能够清 晰地了解他们区别于其他社团的一些特质或者信仰 ; 在生物分子反应网络中聚合到一起形成功能 性模块的节点往往担当特定的角色或具有特定的功 14 但是如果我们找到的社团结构在同等条件 下随机网中也存在那么这些社团就应该归属伪社 而不是我们统计意义上的社团结构这些社团 结构对我们研究复杂网络的属性没有实际意义


文采用零模型方法7 对开源社区合作网络的社团 结构进行计算从计算结果来看整个网络存在层 次性,即存在社团中的社团,第一个层次可划分 社团 4922 个,但是与随机网比较仅仅只有 363 具有显著性水平也就是说大部分社团在随机网中 也存在,第二层次共有子社团 5571 个,且每个社团 都具有显著性水平,平均每个社团含 6.4 个节点, 独立节点( 未分入社团) 占0.0426,也就是说 Googel  Code 社区大众生产合作网络中合作者社团一般为6  - 7

结论

生产者之间关系是影响生产者行为的主要的因从大众生产合作网络中可以研究出生产者的行 为变化规律和网络的演化规律等生产者之间的良 性相互协作推动了产品的创建优化与完善对开 源社区来说生产者之间的合作关系直接决定了项目 的成败

本文以 Googel Code 社区所有项目为研究对象, 依据项目合作关系建立了开源社区大众生产合作网 络,并建立了相应的 0 、1 阶零模型利用 0 零模型从统计意义上证明了大众生产合作网络具有 小世界无标度特性利用 1 阶零模型证明了该网 络的同配性特性即度值大合作者的倾向于与度值大的连接这可能跟软件行业的技术有关不同背景生产者互相配合更能合理的完成任务

此外,本文还利用 1 阶零模型探测大众生产合

作网络的三节点和四节点模体及社团结构从探测 的模体来看这些模体都是同步能力较强的子图 开源社区大众生产合作涌现性跟这些模体有着紧密 的联系从社团结构来看,合作者网络存在社团 中社团现象,且具有显著水平的社团大小一般为 6 -7 人,下一步可以进一步对这些模体与开源社 区大规模协作的关系及社团所体现的意义进行进一 步的研究

参考文献:

1 杨建梅人类活动系统的复杂性与管理[J华南理工大学学



(责任编辑: 余树华)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多