关键词:Gephi 专利数据 网络可视化 今天继续WIPO开源专利分析项目的编译系列。近两期相关文章中,公号系统地介绍了专利分析的八种工具(开源分析方法 | 专利分析工具上、下),其中在网络关系可视化(Network Visualisation)中特别提到了“Gephi”这一开源工具,今天就为大家带来用Gephi绘制专利网络关系的作法详解。 注:本文编译自WIPO开源专利分析项目中的“Patent Network Visualisation with Gephi”一文,有删减,并根据最新版Gephi 0.9.1进行了适应性修改,更像是小编的阅读兼实际操作笔记。 Gephi介绍及安装 Gephi与网络关系 Gephi是一款非常好用的网络关系绘制软件,应用范围十分广泛,凡是可以抽象为节点(node)和边(edge)的关系数据,大都可以用Gephi来绘制。比如Facebook上的社交网络、鼠脑中的神经网络、美国各州间的交通网络等。 Gephi绘制的设计师博客主题聚类分析图 Facebook朋友关系分析 Gephi的安装 Gephi最新版本为0.9.1,下载(https:///users/download/)后双击并按照提示步骤安装即可,第一次打开时会提示安装Java(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html)。 一切安装完毕后,Gephi的打开界面: 为便于将Excel格式的数据直接导入Gephi中,还需要安装一个将Excel或CSV格式数据转换成Gephi可用数据的插件,安装步骤如下: 点击“工具”——“插件” 弹出如下窗口,点击“可用插件”,选择“Convert Excel and csv files to networks” 点击“安装”后弹出如下窗口,按步骤提示一步步安装即可。 数据导入及图形初绘 原文作者非常贴心地提供了数据样例——一组涉及“合成生物学”主题的专利数据,包括576个首次专利申请和与之相关的2882个同族专利,并对数据进行了清洗(数据样例下载地址:https://github.com/poldham/opensource-patent-analytics/blob/master/2_datasets/synbio_patents/synbio_inventors.xlsx?raw=true)。 输入数据文件 点击“文件”——“import” 弹出如下窗口: 点击“下一步”,弹出如下窗口: 点击“select file”,选择刚才下载的数据文件 选择输入内容项 继续点击“下一步”后,弹出如下窗口。本次可视化旨在分析申请人(受让人)的共现关系,因此两端的节点均选择“patent_assignees_cleaned” 选好后点击下一步,弹出如下窗口,Gephi会询问该数据列中有没有包含子字段,如果有,子字段以什么为分界? 观察原始数据可以发现,“patent_assignees_cleaned”这一字段中包含多个申请人的子字段,并以分号分隔。 因此在上面的选项中,我们选择“semicolon”(即分号),然后点击“下一步”,弹出如下窗口,Gephi继续询问:如果想生成动态网络的话,选择哪个字段作为时间字段? 我们选择“priority_date_earliest” 点击“下一步”后,弹出如下窗口,Gephi会给出三个选项,我们勾选1和3。1表示要在“patent_assignees_cleaned”之间形成连接关系,是必选项;3表示去除节点连接到自身的自循环环路,通常也应勾选。 点击“下一步”,弹出提示窗口: 点击“完成”,弹出“输入报告”窗口,提示一切正常,并告知共有363个节点,176条边,图形为无向网络图。 点击“确定”后,得到如下初始图形: 删除无效节点 由于“patent_assignees_cleaned”字段中存在“NA”的无效数据,应当将其去除。点击上方的“数据资料”,点击“frequency”排序,发现NA的频率高达74次,选中NA,右键后点击“删除”并确定。 再返回“概览”界面: 统计分析、参数设置及布局配置 统计分析 Gephi为整个网络布局提供了一系列统计分析,包括平均度、平均加权度、网络直径、图密度、平均聚类系数等。这些统计数据项与节点和边等参数的设置密切相关,例如节点的大小和颜色等可以按照节点出现频率进行排序,根据模块化进行聚类分区等。 “统计”区域位于界面右侧,依次点击“运行”,可以得到平均度等统计数据,其中最重要的统计数据有两个: 1. 网络直径:计算给定节点与网络中相距最远的节点之间的距离。 2. 模块化:对节点间的连接(即“边”)进行计算并基于连接强度对节点进行聚类分区。 参数设置 Gephi提供了丰富的参数设置,可以对节点和边的颜色、大小、标签颜色、标签尺寸等进行调节。 比如首先可以设置节点的颜色:依次选中“节点”——“调色板图标”——“数值设置”——“frequency(即按照节点出现频率配置颜色)”,即可得到彩色的节点。 接下来还可以配置节点的大小:依次选中“节点”——“节点大小图标”——“数值设置”——“加权度”,即可得到大小合适的节点。 布局配置 进行参数设置后的专利申请人关系图仍然挤作一团,没有明显的空间感。接下来需要对节点和边的空间布局进行配置,Gephi提供了很多节点的布局算法,包括Force Atlas、Fruchterman-Reingold、Yifan Hu等,其中Fruchterman-Reingold算法(简称FR算法)是最经典的算法之一,我们点击FR算法: 点击“运行”,并设置合适的“区”、“重力”、“速度”后,得到下图: 观察上图,有一些节点仍处于交叠状态,此时可以运行辅助布局工具“Noverlap”,与上图相比,红线框出的区域,交叠的节点打开成为更加清晰的空间布局。 背景、边及标签设置 在界面下方的工具栏中,我们可以对图形的背景、边的颜色和尺寸以及标签的属性进行设置。 在“Labels(标签)”的设置中,我们可以选择字体的样式、大小和颜色,还可以将标签字体大小设置为固定、按比例排列或随节点尺寸变化,将标签颜色设置为单一或随目标变化等。 如果觉得上面的标签太多太乱,还可以勾选“隐藏未选中”,点击左上方的“矩形选择”,按住Ctrl键,选择希望显示标签的节点即可,如下图所示: 输出图形 点击左下方的小相机按钮,可以截屏输出图形,在配置中还可对分辨率和抗锯齿等进行设定。 输出图形如下: Gephi的功能十分强大,今天仅仅是介绍了一些入门性能,上图也还有很多可设置和优化的空间,后续小编还将和大家一起深入学习,也欢迎真爱粉提出更多好的想法。 |
|