跨界之阿尔滋海默病的分类竞赛

小蛋子

2020-11-21

Competition

比赛介绍
数据特点
思路
结论
总结
关于头图

几周前受小王萌的邀请，参加了天津大学医学部组织的一场关于利用DTI影像进行阿尔滋海默病的分类竞赛，结果虽然只得了第四名，但是这也是第一次跨界参加比赛，所以总结一下。

比赛介绍

弥散磁共振影像（DTI）在阿尔茨海默病（Alzheimer’s disease, AD）中应用广泛，从DTI影像中提取扩散参数可以用来描述白质结构的完整性，进而显示AD中脑白质的退化模式。利用机器学习的方法可以比较有效的对AD进行诊断和分类。所以比赛的内容是希望选手通过给定的18条主要的脑白质纤维束的扩散指标作为特征，建立并评估出对AD和健康人群的最优分类模型，如果有可能，进一步探索对轻度认知损害患者的预测性能。
说成通俗一点就是给定由18个扩散指标组成的一系列特征，然后希望选手通过这些特征来对正常人与病人进行建模，而轻度患者由于比较难区分，所以，如果可能就继续做关于病人/轻度患者/正常人的分类模型。

数据特点

本次的数据虽然是18个扩散指标，实际上拿到的是沿18条脑内主要纤维束上100个点的8种不同的指标，即每个纤维束上有8种不同指标，每个指标是按顺序固定间隔采样的100个点，合起来每个样本有$18 8 100 $个基础特征。而样本包含三个类别才700个左右。所以此次的数据是一个样本少而基础特征特别多。
按每一百个点为一个集合，通过简单的统计，大多数均值方差都在0～1之间，也有几个为负值，还有几个为几百的大数。同时有部分数据为nan。

思路

基于上述特点，首先要解决的是样本数量太少的问题，其次需要解决特征太多的问题。
针对特征太多的问题，可以看作是高维数据，这里我们采样SVM 与 XGBoost两种方案来做，SVM在高维稀疏数据上效果相对较好，而XGBoost我们将其看作是一个特征选择器（encoder），然后在其后面接一个LR进行分类。
此外，特征过多我们也尝试了两种平滑方案，将每一百个点的集合进行降纬。1. 对每一百个点的集合上，每十个点进行求均值方差来代替原始特征. 2. 对全量样本按label 求取其中心点，然后求取其对三个中心点的Wasserstein Distance.
针对样本少的问题，也尝试了两种方案：1. 利用GAN 来生成，这个方案是借鉴之前看到的一篇利用GAN 来做CONV-19 的文章，其中由于样本过少，通过GAN 进行生成新样本后，提高了模型的性能；另一个方案是互换相同label 的样本之间的特征，这个方案是由GAN 联想到的，即GAN 实际上在生成分布类似的特征，然后组合成新样本，与其通过一个模型生成相同分布然后组合，不然直接互换，这样他们一定是同分布的。
此外，我们还尝试了利用CNN 来提取样本特征然后进行分类。