numpy中有一个掩码数组的概念,需要通过子模块numpy.ma来创建,基本的创建方式如下 import numpy as np import numpy.ma as ma a = np.arange(5) a array([0, 1, 2, 3, 4]) b = ma.masked_array(a, mask = [1, 1, 1, 0,
numpy中有一个掩码数组的概念,需要通过子模块numpy.ma来创建,基本的创建方式如下
>>> import numpy as np>>> import numpy.ma as ma
>>> a = np.arange(5)
>>> a
array([0, 1, 2, 3, 4])
>>> b = ma.masked_array(a, mask = [1, 1, 1, 0, 0])
>>> b
masked_array(data = [-- -- -- 3 4],
mask = [ True True True False False],
fill_value = 999999)
>>> np.min(a)
0
>>> np.min(b)
3
所谓掩码,就是掩盖的意思。上述代码中,掩藏了数组的前3个元素,形成了一个新的掩码数组,在该掩码数组中,被掩藏的前3位用短横杠表示,对原始数组和对应的掩码数组同时求最小值,可以看到,掩码数组中只有未被掩藏的元素参与了计算。
掩码数组赋予了我们重新选择元素的权利,而不用改变矩阵的维度。在可视化领域,最典型的应用就是绘制三角热图,代码如下
import matplotlib.pyplot as pltimport numpy as np
import numpy.ma as ma
data = np.random.rand(25 * 25).reshape(25, -1)
mask = np.tri(data.shape[0], k= -1)
data_masked = ma.array(data, mask=mask)
fig, (ax1, ax2) = plt.subplots(1, 2)
ax1.imshow(data)
ax2.imshow(data_masked)
输出结果如下
通过掩码矩阵,可以轻松实现三角热图的绘制。在numpy.ma子模块中,还提供了多种创建掩码数组的方式,用法如下
>>> import numpy.ma as ma>>> a
array([0, 1, 2, 3, 4])
# 等于2的元素被掩盖
>>> ma.masked_equal(a, 2)
masked_array(data = [0 1 -- 3 4],
mask = [False False True False False],
fill_value = 2)
# 不等于2的元素被掩盖
>>> ma.masked_not_equal(a, 2)
masked_array(data = [-- -- 2 -- --],
mask = [ True True False True True],
fill_value = 999999)
# 大于2的元素被掩盖
>>> ma.masked_greater(a, 2)
masked_array(data = [0 1 2 -- --],
mask = [False False False True True],
fill_value = 999999)
# 小于2的元素被掩盖
>>> ma.masked_less(a, 2)
masked_array(data = [-- -- 2 3 4],
mask = [ True True False False False],
fill_value = 999999)
# 大于等于2的元素被掩盖
>>> ma.masked_greater_equal(a, 2)
masked_array(data = [0 1 -- -- --],
mask = [False False True True True],
fill_value = 999999)
# 小于等于2的元素被掩盖
>>> ma.masked_less_equal(a, 2)
masked_array(data = [-- -- -- 3 4],
mask = [ True True True False False],
fill_value = 999999)
# 小于1大于3的元素被掩盖
>>> ma.masked_outside(a, 1, 3)
masked_array(data=[--, 1, 2, 3, --],
mask=[ True, False, False, False, True],
fill_value=999999)
# 大于等于1,小于等于3的元素被掩盖
>>> ma.masked_inside(a, 1, 3)
masked_array(data=[0, --, --, --, 4],
mask=[False, True, True, True, False],
fill_value=999999)
利用掩码数组,可以方便的处理缺失值或者被污染的值,只需要将对应的元素掩码即可,更多的用法请查阅官方的API文档。
·end·
-
一个只分享干货的
生信公众号