分享

开源分析方法 | 专利网络可视化利器——Gephi

 豆豆samuel 2018-06-10

关键词:Gephi 专利数据 网络可视化 

今天继续WIPO开源专利分析项目的编译系列。近两期相关文章中,公号系统地介绍了专利分析的八种工具(开源分析方法 | 专利分析工具上),其中在网络关系可视化(Network Visualisation)中特别提到了“Gephi”这一开源工具,今天就为大家带来用Gephi绘制专利网络关系的作法详解


注:本文编译自WIPO开源专利分析项目中的“Patent Network Visualisation with Gephi”一文,有删减,并根据最新版Gephi 0.9.1进行了适应性修改,更像是小编的阅读兼实际操作笔记。


Gephi介绍及安装

Gephi与网络关系

Gephi是一款非常好用的网络关系绘制软件,应用范围十分广泛,凡是可以抽象为节点(node)和边(edge)的关系数据,大都可以用Gephi来绘制。比如Facebook上的社交网络、鼠脑中的神经网络、美国各州间的交通网络等。


Gephi绘制的设计师博客主题聚类分析图

Facebook朋友关系分析

鼠脑内神经元连接分析


Gephi的安装

Gephi最新版本为0.9.1,下载(https:///users/download/)后双击并按照提示步骤安装即可,第一次打开时会提示安装Java(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html)。

一切安装完毕后,Gephi的打开界面:


为便于将Excel格式的数据直接导入Gephi中,还需要安装一个将Excel或CSV格式数据转换成Gephi可用数据的插件,安装步骤如下:

点击“工具”——“插件”

弹出如下窗口,点击“可用插件”,选择“Convert Excel and csv files to networks”

点击“安装”后弹出如下窗口,按步骤提示一步步安装即可。

数据导入及图形初绘

原文作者非常贴心地提供了数据样例——一组涉及“合成生物学”主题的专利数据,包括576个首次专利申请和与之相关的2882个同族专利,并对数据进行了清洗(数据样例下载地址:https://github.com/poldham/opensource-patent-analytics/blob/master/2_datasets/synbio_patents/synbio_inventors.xlsx?raw=true)。


输入数据文件

点击“文件”——“import”

弹出如下窗口:

点击“下一步”,弹出如下窗口:

点击“select file”,选择刚才下载的数据文件


选择输入内容项

继续点击“下一步”后,弹出如下窗口。本次可视化旨在分析申请人(受让人)的共现关系,因此两端的节点均选择“patent_assignees_cleaned”

选好后点击下一步,弹出如下窗口,Gephi会询问该数据列中有没有包含子字段,如果有,子字段以什么为分界?

观察原始数据可以发现,“patent_assignees_cleaned”这一字段中包含多个申请人的子字段,并以分号分隔。

因此在上面的选项中,我们选择“semicolon”(即分号),然后点击“下一步”,弹出如下窗口,Gephi继续询问:如果想生成动态网络的话,选择哪个字段作为时间字段?

我们选择“priority_date_earliest”

点击“下一步”后,弹出如下窗口,Gephi会给出三个选项,我们勾选1和3。1表示要在“patent_assignees_cleaned”之间形成连接关系,是必选项;3表示去除节点连接到自身的自循环环路,通常也应勾选。

点击“下一步”,弹出提示窗口:

点击“完成”,弹出“输入报告”窗口,提示一切正常,并告知共有363个节点,176条边,图形为无向网络图。

点击“确定”后,得到如下初始图形:


删除无效节点

由于“patent_assignees_cleaned”字段中存在“NA”的无效数据,应当将其去除。点击上方的“数据资料”,点击“frequency”排序,发现NA的频率高达74次,选中NA,右键后点击“删除”并确定。

再返回“概览”界面:

统计分析、参数设置及布局配置

统计分析

Gephi为整个网络布局提供了一系列统计分析,包括平均度、平均加权度、网络直径、图密度、平均聚类系数等。这些统计数据项与节点和边等参数的设置密切相关,例如节点的大小和颜色等可以按照节点出现频率进行排序,根据模块化进行聚类分区等。

“统计”区域位于界面右侧,依次点击“运行”,可以得到平均度等统计数据,其中最重要的统计数据有两个:

1. 网络直径:计算给定节点与网络中相距最远的节点之间的距离。

2. 模块化:对节点间的连接(即“边”)进行计算并基于连接强度对节点进行聚类分区。


参数设置

Gephi提供了丰富的参数设置,可以对节点和边的颜色、大小、标签颜色、标签尺寸等进行调节。

比如首先可以设置节点的颜色:依次选中“节点”——“调色板图标”——“数值设置”——“frequency(即按照节点出现频率配置颜色)”,即可得到彩色的节点。

接下来还可以配置节点的大小:依次选中“节点”——“节点大小图标”——“数值设置”——“加权度”,即可得到大小合适的节点。


布局配置

进行参数设置后的专利申请人关系图仍然挤作一团,没有明显的空间感。接下来需要对节点和边的空间布局进行配置,Gephi提供了很多节点的布局算法,包括Force Atlas、Fruchterman-Reingold、Yifan Hu等,其中Fruchterman-Reingold算法(简称FR算法)是最经典的算法之一,我们点击FR算法:

点击“运行”,并设置合适的“区”、“重力”、“速度”后,得到下图:

观察上图,有一些节点仍处于交叠状态,此时可以运行辅助布局工具“Noverlap”,与上图相比,红线框出的区域,交叠的节点打开成为更加清晰的空间布局。


背景、边及标签设置

在界面下方的工具栏中,我们可以对图形的背景、边的颜色和尺寸以及标签的属性进行设置。

在“Labels(标签)”的设置中,我们可以选择字体的样式、大小和颜色,还可以将标签字体大小设置为固定、按比例排列或随节点尺寸变化,将标签颜色设置为单一或随目标变化等。

如果觉得上面的标签太多太乱,还可以勾选“隐藏未选中”,点击左上方的“矩形选择”,按住Ctrl键,选择希望显示标签的节点即可,如下图所示:


输出图形

点击左下方的小相机按钮,可以截屏输出图形,在配置中还可对分辨率和抗锯齿等进行设定。

输出图形如下:

Gephi的功能十分强大,今天仅仅是介绍了一些入门性能,上图也还有很多可设置和优化的空间,后续小编还将和大家一起深入学习,也欢迎真爱粉提出更多好的想法。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多