特征选择 Relief 方法

日期： 2020-12-12 分类：跨站数据测试 722次阅读

1. 原理

该方法假设特征子集的重要性是由子集中的每个特征所对应的相关统计分量之和所决定的。

所以只需要选择前 $k$ 个大的相关统计量对应的特征，或者大于某个阈值的相关统计量对应的特征即可。

在这里插入图片描述
其中：

$\delta_j$ ：属性 $j$ 的相关统计量；

$x_i^j$ ：样本 $x_i$ 中属性 $j$ 的值；

$x_{i,nh}^j$ ：样本 $x_i$ 的 “猜中近邻” $x_{i,nh}$ 中属性 $j$ 的值；

$x_{i,nm}^j$ ：样本 $x_i$ 的 “猜错近邻” $x_{i,nm}$ 中属性 $j$ 的值；

$diff(x_i^j,x_{i,nh}^j)$ ：样本 $x_i$ 和 $x_{i,nh}$ 在属性 $j$ 上值的差异；

$diff(x_i^j,x_{i,nm}^j)$ ：样本 $x_i$ 和 $x_{i,nm}$ 在属性 $j$ 上值的差异；

若属性值为离散型，则 $d i f f$ 当且仅当属性值相等时为 0，否则为 1；若属性值为连续型，则 $d i f f$ 表示为距离。

在这里插入图片描述
$\delta_j$ ：属性 $j$ 的相关统计量；

$x_i^j$ ：样本 $x_i$ 中属性 $j$ 的值；

$x_{i,nh}^j$ ：样本 $x_i$ 的 “猜中近邻” $x_{i,nh}$ 中属性 $j$ 的值；

$p_l$ ：第 $l$ 类样本的比例；

$x_{i,l,nm}^j$ ：样本 $x_i$ 的第 $l$ 类的 “猜错近邻” $x_{i,l,nm}$ 中属性 $j$ 的值；

$diff(x_i^j,x_{i,nh}^j)$ ：样本 $x_i$ 和 $x_{i,nh}$ 在属性 $j$ 上值的差异；

$diff(x_i^j,x_{i,l,nm}^j)$ ：样本 $x_i$ 和 $x_{i,l,nm}$ 在属性 $j$ 上值的差异；

除特别声明，本站所有文章均为原创，如需转载请以超级链接形式注明出处：SmartCat's Blog