分享

numpy中的掩码数组

 生信修炼手册 2020-06-04
numpy中有一个掩码数组的概念,需要通过子模块numpy.ma来创建,基本的创建方式如下
>>> import numpy as np
>>> import numpy.ma as ma
>>> a = np.arange(5)
>>> a
array([0, 1, 2, 3, 4])
>>> b = ma.masked_array(a, mask = [1, 1, 1, 0, 0])
>>> b
masked_array(data = [-- -- -- 3 4],
             mask = [ True  True  True False False],
       fill_value = 999999)
>>> np.min(a)
0
>>> np.min(b)
3
所谓掩码,就是掩盖的意思。上述代码中,掩藏了数组的前3个元素,形成了一个新的掩码数组,在该掩码数组中,被掩藏的前3位用短横杠表示,对原始数组和对应的掩码数组同时求最小值,可以看到,掩码数组中只有未被掩藏的元素参与了计算。

掩码数组赋予了我们重新选择元素的权利,而不用改变矩阵的维度。在可视化领域,最典型的应用就是绘制三角热图,代码如下

import matplotlib.pyplot as plt
import numpy as np
import numpy.ma  as ma

data = np.random.rand(25 * 25).reshape(25, -1)
mask = np.tri(data.shape[0], k= -1)
data_masked = ma.array(data, mask=mask)
fig, (ax1, ax2) = plt.subplots(1, 2)
ax1.imshow(data)
ax2.imshow(data_masked)

输出结果如下

通过掩码矩阵,可以轻松实现三角热图的绘制。在numpy.ma子模块中,还提供了多种创建掩码数组的方式,用法如下

>>> import numpy.ma as ma
>>> a
array([0, 1, 2, 3, 4])
# 等于2的元素被掩盖
>>> ma.masked_equal(a, 2)
masked_array(data = [0 1 -- 3 4],
             mask = [False False  True False False],
       fill_value = 2)
# 不等于2的元素被掩盖
>>> ma.masked_not_equal(a, 2)
masked_array(data = [-- -- 2 -- --],
             mask = [ True  True False  True  True],
       fill_value = 999999)
# 大于2的元素被掩盖
>>> ma.masked_greater(a, 2)
masked_array(data = [0 1 2 -- --],
             mask = [False False False  True  True],
       fill_value = 999999)
# 小于2的元素被掩盖
>>> ma.masked_less(a, 2)
masked_array(data = [-- -- 2 3 4],
             mask = [ True  True False False False],
       fill_value = 999999)
# 大于等于2的元素被掩盖
>>> ma.masked_greater_equal(a, 2)
masked_array(data = [0 1 -- -- --],
             mask = [False False  True  True  True],
       fill_value = 999999)
# 小于等于2的元素被掩盖
>>> ma.masked_less_equal(a, 2)
masked_array(data = [-- -- -- 3 4],
             mask = [ True  True  True False False],
       fill_value = 999999)

# 小于1大于3的元素被掩盖
>>> ma.masked_outside(a, 1, 3)
masked_array(data=[--, 1, 2, 3, --],
             mask=[ True, False, False, False, True],
       fill_value=999999)

# 大于等于1,小于等于3的元素被掩盖
>>> ma.masked_inside(a, 1, 3)
masked_array(data=[0, --, --, --, 4],
             mask=[False, True, True, True, False],
       fill_value=999999)

利用掩码数组,可以方便的处理缺失值或者被污染的值,只需要将对应的元素掩码即可,更多的用法请查阅官方的API文档。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多