华 南 理 工 大 学 学 报 ( 社 会 科 学 版 ) 第 15 卷 第 2 期 Journal of South China University of Technology Vol.15 No.2 2013 年 4 月 (Social Science Edition) Apr. 2013 ·人类活动系统的复杂性与管理 · 基于零模型的开源社区大众生产合作网络结构研究 曾进群,杨建梅,陈 泉,李欣荣 ( 华南理工大学 工商管理学院,广东 广州 510641) 摘 要: 以 google code 开源社区为例,依据生产者合作关系按照复杂网络理论构建大众生产合作网络模型及合作 网络的零模型,实证了该网络的小世界、无标度及同配性特性,并探测了三节点和四节点模体及社团结构,结果 发现该网络模体同步能力较强,开源社区合作涌现性可能与这些模体有着密切的联系,为开源社区大众生产研究 提供了新的视角。 关键词: 零模型; 大众生产; 复杂网络; 拓扑结构 中图分类号: FO62.3,C94 文献标识码: A 文章编号: 1009-055X(2013) 02-0029-06 一、引言 与以往的知识生产理论以企业组织作为研究对 象不同,开源社区大众生产是一种全新的生产模 式,在这种模式中,大量的人彼此协作( 通常是通 过网络手段) 完成有价值的项目,且它具有两个非 常显著的特征,一是在没有物质激励的条件下,大 量程序设计人员广泛参与 ; 二是在没有层级控制的 条件下,参与者自发创造出质量卓越、高度复杂的 项目。从这些特征来看,开源社区是一个典型的由 人类活动构成的复杂系统[1],这就决定其不能采取 简单还原论的研究方法,而必须在了解个体行为及 其相互作用机制的基础上,从整体的视角,利用系统论的研究方法进行探讨。近年来备受关注的复杂 系统研究表明,大量复杂系统个体关系需要用网络 结构来描述,这些网络结构存在着许多特殊的性 质,如小世界、幂率度分布、不同的匹配关系及社 团结构等,且这些相互作用结构对系统宏观行为具有重要影响。2009 年,《Science》杂志以复杂系统 与网络( complex systems and networks) 为主题,发 表一集专刊[2],其中,Barabasi 教授在文章中指出, 由于底层结构对于系统行为有着重大的影响,除非 探讨网络结构,否则没有办法去理解复杂系统。 因 此,理解复杂系统行为应该从理解系统相互作用的 网络结构开始,对开源社区大众生产而言,较好表 征合作者网络结构是理解开源社区大众生产行为的 重要基础。 目前已经有不少的刻画复杂网络的拓扑结构各 个侧面特征的指标如结点度、度分布、平均距离、 聚类系数、邻结点平均度、同配系数等等。很多实 际网络的拓扑结构特征得到了研究。很多网络,比如 Internet 网络、万维网、生物代谢网、食物网等的 度分布呈现幂律分布而非随机网络的 Poisson分布 ; 一些实际网络的平均距离比较小,聚类系数 比较 大 ; 技术网络和生物网络更趋向于同配,而社会网 络趋向于异配。近年来,有些学者也将复杂网络理 论引入开源社区大众生产合作网络结构研究,文献 [3]等利用复杂网络方法和自组织临界理论对开源 收稿日期: 2012 -10-06 * 基金项目: 国家自然科学基金项目资助(71273093) 作者简介:曾进群( 1976 -) ,男,江西九江人,华南理工大学工商管理学院博士生,研究方向为系统理论与管理决策。 杨建梅( 1946 -) ,女,陕西西安人,博士,华南理工大学工商管理学院教授、博导,研究方向为产业组织与系统复杂性。 陈 泉( 1971 -) ,男,汉族,江西莲花人,华南理工大学管理学院博士生,电子科技大学中山学院经济与管理学院副教授,研究方向为复杂系统与管理决策。李欣荣( 1985 -) ,男,华南理工大学工商管理学院硕士生,研究方向为系统理论与管理决策。 社区的自组织演化问题进行了研究[3],从这些研究 来看,复杂网络工具为开源社区大众生产研究提供 了新的视角,对我们理解开源社区大众生产这种群 体行为起到很大的帮助,但这些研究都仅仅是对建 立了大众生产合作网络的复杂网络模型,而没有建 立其相应的零模型。 所有这些从实际网络得到的拓扑特征哪些是随 机的,哪些是受到某种约束机制形成的呢?现实网 络的拓扑结构是真的如此独特还是它只是一个偶然 性的样本? 其实这样的问题在科学研究中普遍存在,我们观察到的现象是否真的受到某种变量影 响、受到某种机制影响还是它只是一种偶然性的集 结。零模型的作用就在于此。零模型是在比较对象 难以直接获取的情况下,根据统计学理论利用数值 算法或数理手段构建的,用于参照推断的数据分 布。复杂网络零模型对于揭示并正确判断其拓扑结 构有着极其重要的作用,文献[4][5]用随机化实 际网络构造零模型的方法研究了基因调节网、捕食 网、神经网、电路网和万维网,发现了统计上显著 (P = 0.01) 的多个 3 结点和 4 结点模体[4][5]; [6] 应用零模型研究了生物细胞内部的分子网络,确认 了其异配性质。并解释了细胞内部分子网络稳健而 不脆弱的原因正是这种异配性的存在[6]; [7][8] 基于零模型研究社团结构的划分,找出了实际网络 中具有统计意义的社团结构[7][8]。 综上,零模型已经成为探索复杂网络结构特征 的重要手段,本文结合零模型方法与复杂网络模型,以 Google Code 开源社区为例,对开源社区大众生产合作网络进行研究,文章主要分为以下几部 分 : 首先介绍开源社区大众生产合作网络的构建, 其次介绍零模型的构建方法,然后基于零模型确定 大众生产合作网络结构的特征参数并挖掘其结构与 行为的关系,最后给出结论。 二、复杂网络模型的构建 ( 一) Google Code 开源社区简介 Google Code 开源社区于 2005 年的 3 月第一次 公开亮相,当时仅有8 个 API (应用层) 的连接,经 过几年的发展,谷歌开源已经成为一个开放的项目 托管平台,能够提供版本控制、问题跟踪、下载托 管等工具。 目前该开源社区提供的 API 接口数字已 经超过了 60 个。另外,还有超过 6 万个开源项目 在该社区扎根,每天有超过 17000 个代码确认。谷 歌自己也有超过 800 个项目列于其中,包括An- droid,Chrome,Chrome OS 和 GWT 这四个超过 100 万行代码的巨型项目。 ( 二) 开源社区合作网络的度分布 从 Googel Code 开源社区抽取的全部 58762 个 有效项目作为研究对象[9]。 网络模型构建的原则如下。顶点 : 每一个项目 开发者( 以 ID 表示) 为一个顶点。边 : 如果两个项 目开发者参与了同一个项目,则在这两个开发者之 间连一条边。这样得到的大众生产合作网络共有 67732 个顶点,253640 条边。 在所有顶点中共有 31205 个节点的度值为 0, 也就是说这些点为孤立点。 除掉这些孤立点,共有 36527 个顶点,其度分布如图 1 所示。幂指数在[2, 3],这说明该网络中存在较少的 HUB 节点和大量 度值很小的节点,其同时具有鲁棒性和脆弱性。 图 1 累计度分布曲线 三、零模型的构建 ( 一) 零模型中随机化网络的生成算法 文献[10]为了模拟实际网络,从度相关的角度 系统整理了复杂网络拓扑特性,引入 了 dK 级数 (dK-series) 的概念。d = 0、1、2、3 时分别表示节 点数和边数相 同、度序列相 同、联合度分布相同 ( 同配系数相同)和三结点连接方式相同( 聚类系数相同) 的随机图。提出了生成 dK 阶随机图分布的 数值算法,为生成高阶随机图提供了选择。 在实际应用中,要构造出具有 d 阶所有随机化 网络几乎是不可能的。一种解决办法是构造出具有 d 阶的典型网络,它是完全随机地从所有具有 d 阶 的随机化网络中选取的,一种常用的办法是针对给 定网络 G 采用随机重连算法来构造出与网络 G 具 有相同 d 阶特性的随机网络集。 对于 0 阶零模型,采用 E -R 随机图作为参照 系,即保证随机网络与实际网络的节点数、边数及 平均度不变,生成随机网络集。 对于 1 阶零模型( 即保持网络的 1 阶特性,网 络节点的度序列不变) ,采用随机重连算法进行构造,如图 2 所示,随机选定一对边,分别连着 k1 和k2,k3 和 k4,若 k1 和 k4,k2 和 k3 无连边,则交换 连接 ; 如果有连边,则重新随机挑选一对边,这样 四个节点的度均保持不变,故网络的节点度分布也保持不变。 图 2 1 阶零模型的随机重连过程 ( 二) 基于零模型的复杂网络拓扑模式推 断 有了用数值方法生成的随机图总体样本,可推 断实际网络的拓扑特征。 一般地,假设我们关心实际网络的 j 拓扑结构 指标为 N(j) ,相应的零模型总体该指标的平均数 为? Nr (j) ? 。零假设可以设定为 : 对于 0 阶零模型,H0 : N(j) =? Nr (j) ? ( 1) 对于 1 阶零模型,H0 : N(j) ≤? Nr (j) ? (2) 计算出零模型 j 指标的标准差 σr (j) ,构造差 异性统计量 Z 分数 : Zj = (3) 假设 Nr (j) 服从正态分布,那么 Zj 服从 student 分布,可以得到差异性统计量出现的概率 p,如果 p 小于设定的显著性水平比如 0.01,我们可以在统计 上推断实际网络 j 指标的性质。 另外,有时也用另外一种方式进行统计分析, 即统计零模型总体中每一个随机网络的 j 指标值 Nr,i (j) 大于 N(j) 的次数 m,假设生成的网络数为 n,再根据两者的比值与选定的显著性水平进行比 较来推断实际网络 j 指标的性质。 四、基于0 阶零模型的大众生产合作 网络结构分析 保持网络节点数、边数及平均度不变,按照零 模型的构建算法本文共构建了 1000 个随机化网络 集,按照上文的方法计算这个随机化网络集的集聚系数和平均最短路径长度的平均值,各参数计算结 果如表 1 所示。 表 1 静态参数对比表
从计算结果及式( 1) 来看,实际网络的集聚系 数比生成的随机化网络的平均集聚系数大了约 30000 倍,拒绝原假设,可以认为实际网络的集聚 系数指标不是来自随机网络,而平均最短路径大小 差不多,可以接受原假设,也就是说平均最短路径 并不是实际网络特有性质,在随机网络中平均最短 路径也可以很小。此外,实际网络度分布形式为典 型的幂率分布,拒绝原假设,由此 0 阶零模型从统 计意义上证明了开源社区大众生产合作网络具有小 世界与无标度特性。 Uzzi 和 Spiro[11]在其研究中定义了小世界商数 来描述小世界性的显著程度,小世界商数 Q = CC ratio / PL ratio ( 实际网络的 PL / 随机网络的 PL , 记为 PL ratio,实际网络的 CC / 随机网络的 CC ,记 为 CC ratio,其中 PL 为最短路径长度、CC 为平均 集聚系数) ,并指出小世界商数越大,小世界性越显著,且小世界性对绩效有着显著性的影响,本文 的开源社区大众生产合作网络小世界性商数为 30326,说明该合作网络小世界性非常显著。在小 世界网络中,由于较高的聚簇程度,会促成节点间 相互的信任和更紧密的合作,从而提高信息交流的 效率和准确度,又由于较小的平均路径长度,使得 节点可以方便的从远距离的节点处获取新鲜的,非 冗余的信息,从而激发出灵感。具有这种结构的社 会合作网络被广泛认为是可以提高信息交流传递效 率和质量,能更好的激发节点的创造力,进一步说 明开源社区大众生产能以惊人的速度创造出质量卓 越、高度复杂的项目可能与该合作网络显著的小世 界性有着极大关系。 五、基于1 阶零模型的合作网络结构 分析 ( 一) 配对性 网络的凝聚性是高一阶的性质,它与度分布以 及网络邻节点的连接方式( 度相关性) 紧密相关。文献[12]将度高的节点倾向与度高的节点相互连 接或度低的节点倾向与度低的节点相互连接的现象 称为同配,度高的节点倾向与度低的相互连接称为 异配,并定义了相关函数。文献[6]重新定义了基 于零模型的两个参数 : R(K1 ,K2 ) = N(K1 ,K2 ) /Nr (K1 ,K2 ) (4) Z(K1 ,K2 ) = (N(K1 ,K2 ) -Nr (K1 ,K2 ) ) /ΔNr (K1 ,K2 ) (5) 其中,K1 、K2 分别为节点的度值 ; N(K1 ,K2 ) 为实际网络中度值为 K1 、K2 节点连 接的次数 ; Nr (K1 ,K2 ) 为随机化网络集中度值为 K1 、K2 节点连接次数的平均值 ; ΔNr (K1 ,K2 ) 为随机化网络集中度值为 K1 、K2 节点连接次数的方差。 图 3 R(K1 ,K2 ) 分布图 图 4 Z(K1 ,K2 ) 分布图 很少学者对大众生产合作网络的配对性进行研 究,保持度序列不变,按照零模型的构建算法本文 共构建了 1000 个随机化网络集,对大众生产合作网络的配对性进行研究,从图 3、4 可以看出,比值 较大的区域主要集中在对角线附近,也就是说大众 生产合作网络是典型的同配网络,这也说明大众生 产者合作次数多的倾向于与合作次数多的合作。 ( 二) 模体探测 网络模体是满足下列条件的子图[5] : ①该子图 在实际网络中出现的次数 Nreal 不小于某个下限 U , 如 U = 4 。② 该子图在实际网络中出现的次数 Nreal 明显高于它在随机网络中出现的次数 Nrand , 一般要求(Nreal-Nrand) >0.1Nrand 。③统计该子 图在随机网络中出现的次数与它在实际网络中出现 次数,按式(2 ) 、(3 ) 进行统计分析。 当前研究表 明,网络模体有助于人们从局部结构上理解复杂网 络生长和演化机制。 本文按照零模型的构建算法共构建了 1000 个 随机化网络集,依据上文的模体的定义,对开源社 区大众生产合作网络模体进行计算,计算结果如表 2 所示。 从计算结果来看,开源社区大众生产合作网络 模体为有 3、7、8、9 号模体,那么为什么这些子图 在实际网络中出现的频率比随机化网络高得多呢? 本文认为可以从网络同步性及开源社区大规模协作 现象得到部分解释。 同步是一种自然现象。它通常指至少两个振动 系统相位间的协调一致现象。关于同步现象最早的 研究可以追溯到1673 年惠更斯关于耦合单摆的同 步现象的观察。实际上,若干个耦合单元之间通过相互作用达到同步的现象在许多领域中屡见不鲜, 在社会学领域中,同步现象也被用作解释形成社会 集体行为的机理。文献[13]对模体同步性进行研 究,结果如表 3 所示,比较表 2、3 发现,实际网络 中的探测出显著性模体是所有三节点、四节点模体 中同步能力最强的四个,开源社区合作涌现可能与 这些模体有着重要的联系。 表 2 模体探测结果
表 3 不同模体结构的耦合强度值( 文献[13])
注 : λ* 数值越小同步能力越强,NCR 为 Natural conservation rates( 三) 社团结构探测 网络中的社团结构是指在社团内部,节点之间 的联系非常紧密,而社团之间的联系相对而言比较 稀疏。寻找社团结构并对其进行分析是了解现实生 活中各种网络组织结构的一种很重要的方法,并在 生物学、计算机科学以及社会学等领域都有着广泛 的应用。如社会网络中的社团结构使得人们能够清 晰地了解他们区别于其他社团的一些特质或者信仰 等 ; 在生物分子反应网络中,聚合到一起形成功能 性模块的节点往往担当特定的角色或具有特定的功 能[14] 。但是如果我们找到的社团结构在同等条件 下随机网中也存在,那么这些社团就应该归属伪社 团,而不是我们统计意义上的社团结构,这些社团 结构对我们研究复杂网络的属性没有实际意义,本 文采用零模型方法[7] 对开源社区合作网络的社团 结构进行计算,从计算结果来看,整个网络存在层 次性,即存在“社团中的社团”,第一个层次可划分 社团 4922 个,但是与随机网比较仅仅只有 363 个 具有显著性水平,也就是说大部分社团在随机网中 也存在,第二层次共有子社团 5571 个,且每个社团 都具有显著性水平,平均每个社团含 6.4 个节点, 独立节点( 未分入社团) 占0.0426,也就是说 Googel Code 社区大众生产合作网络中合作者社团一般为6 - 7 人。 六、结论 生产者之间关系是影响生产者行为的主要的因素,从大众生产合作网络中可以研究出生产者的行 为变化规律和网络的演化规律等。生产者之间的良 性相互协作推动了产品的创建、优化与完善,对开 源社区来说生产者之间的合作关系直接决定了项目 的成败。 本文以 Googel Code 社区所有项目为研究对象, 依据项目合作关系建立了开源社区大众生产合作网 络,并建立了相应的 0 阶、1 阶零模型。利用 0 阶 零模型从统计意义上证明了大众生产合作网络具有 小世界、无标度特性。利用 1 阶零模型证明了该网 络的同配性特性,即度值大合作者的倾向于与度值大的连接,这可能跟软件行业的技术有关,不同背景生产者互相配合更能合理的完成任务。 此外,本文还利用 1 阶零模型探测大众生产合 作网络的三节点和四节点模体及社团结构,从探测 的模体来看,这些模体都是同步能力较强的子图, 开源社区大众生产合作涌现性跟这些模体有着紧密 的联系。从社团结构来看,合作者网络存在“社团 中社团”现象,且具有显著水平的社团大小一般为 6 -7 人,下一步可以进一步对这些模体与开源社 区大规模协作的关系及社团所体现的意义进行进一 步的研究。 参考文献: [1] 杨建梅.人类活动系统的复杂性与管理[J].华南理工大学学 (责任编辑: 余树华) |
|
来自: 新用户30775772 > 《重要》