首页 > 组学测序 > 生信分析 > 多种机器学习算法构建多组学疾病/肿瘤预后模型
构建合适的机器学习模型,对样本是否为疾病样本进行预测,或预测肿瘤病人的预后信息。
转录组、拷贝数变异数据、甲基化数据、转录调控数据等多组学数据。
将多个组学数据的公共数据集随机划分为训练集和测试集,在训练集上综合考虑预后相关的多组学基因特征,训练基于随机森林、逻辑回归等算法的疾病诊断模型或预后风险评估模型。用 ROC曲线和AUC值做模型的评估。对于预后风险评估模型,我们根据训练好的风险模型计算测试集中的每个样本的Risk score,做K-M生存分析,检查是否有统计上的差异性。
分析内容
(1)训练集与测试集的随机划分结果
(2)随机森林、逻辑回归模型的具体参数
(3)测试集每一个样本的风险分值以及高风险/低风险分组
(4)模型重要性排序图;模型评估结果:KM 生存曲线以及 ROC 曲线图
科研服务咨询
公众号二维码