2024-10-31 22:44来源:本站
病毒性急性呼吸道疾病(病毒性急性呼吸道疾病)是全球范围内人类发病率和死亡率的重要因素,但其成功治疗需要及时诊断病毒病因,这因临床表现与非病毒性急性呼吸道疾病重叠而变得复杂。21世纪迄今发生的多次大流行病进一步凸显了有效监测临床相关新出现病毒的需求尚未得到满足。最近的研究已经确定了保守宿主对血液中病毒感染的反应。
我们假设,当当前的诊断测试为阴性时,鼻腔样本中类似的保守宿主反应可用于诊断并排除有症状的患者的病毒感染。使用多队列分析框架,我们分析了10个独立队列中的1555个鼻腔样本,将其分为训练组和验证组。
使用其中的6个数据集进行训练,我们确定了119个在病毒性ARI患者(N=236)与健康对照组(N=146)中持续表达差异的基因,并进一步选择了33个基因用于分类器开发。使用33- mrna的基于锁定逻辑回归的分类器在6个训练数据集和4个验证数据集中的AUC分别为0.94和0.89。此外,我们发现,尽管仅对健康对照进行了训练,但在四个验证数据集中,33-mRNA分类器区分健康或非病毒性ARI样本的特异性和敏感性均> 80%,与年龄、病毒类型和病毒载量无关。单细胞rna测序数据显示,鼻腔样本中的33-mRNA特征主要由巨噬细胞和中性粒细胞主导。
这种概念验证签名有可能被改编为临床护理点测试(“RespVerity”),以改善病毒性急性呼吸道感染的诊断。
急性呼吸道疾病(ARI)是造成人类死亡的重要原因。即使在COVID-19大流行之前,急性呼吸道感染每年造成200多万人死亡,是所有年龄段的第六大死亡原因[1,2]。病毒性感染是急性呼吸道感染的常见原因,需要不同于非病毒性急性呼吸道感染的治疗。通常情况下,ARI患者的鼻腔样本常规筛查一组预先确定的常见病毒[3,4]。然而,基于鼻拭子的诊断测试的敏感性差异很大,因为多次证明对多种病毒的敏感性差异很大,包括流感[5]和SARS-CoV-2[6,7,8,9],这可以排除病毒感染,但不能排除病毒感染。此外,包括正在进行的COVID-19大流行在内的21世纪多次大流行表明,目前使用一组预定病毒的做法严重限制了我们及时发现临床相关新发病原体的能力[5]。虽然宏基因组测序可以在汇集的人类样本中鉴定出新型病毒[8,9,10,11],但在人类元样本中鉴定出病原体并不直接转化为健康风险。对新型诊断方法的需求尚未得到满足,这些诊断方法能够以更高的置信度排除病毒感染,并识别具有临床相关性的新发病毒感染患者。
最近的研究反复强调了基于主机响应的诊断在应对这些挑战方面的效用,多种基于主机响应的测试处于后期开发阶段[12,13,14,15]。重要的是,宿主对外周血病毒感染的反应是保守的,可以将其与其他炎症条件区分开来。例如,我们已经证明,使用已知呼吸道病毒感染鉴定的外周血中基于宿主反应的基因标记[16]在新出现的病毒(包括SARS-CoV-2、基孔肯雅病毒和埃博拉病毒)中也是保守的,并且与病毒感染的严重程度有关[17]。同样,Mick等人描述了鼻咽/口咽拭子对病毒感染的保守宿主反应,这与其他ARIs患者不同[18]。最近的一项病原体监测和检测研究表明,在有症状的患者中,使用多重PCR检测一组呼吸道病毒呈阴性,但鼻腔样本中细胞因子水平较高,鼻咽拭子中的宿主反应在75%的样本中发现了临床相关感染,其中> 35%的患者为急性病毒感染[19]。这些结果表明,与基于血液的宿主反应诊断类似,当靶向病原体诊断检测结果为阴性时,鼻腔样本中对病毒感染的保守宿主反应也可用于诊断,并排除有症状患者的病毒感染。鼻腔样本也比血液样本有一定的优势。首先,鼻腔样本容易获得,并且在临床实践中经常获得。其次,测量呼吸道中的宿主反应可以更早地发现病毒感染。
一些研究已经在鼻腔样本中描绘了宿主反应,以确定诊断病毒感染的基因集。然而,没有一项研究显示可以推广到广泛的人群[20,21,22,23,24,25]。限制转化为临床实践的一个重要因素是,这些基因在确定的队列中缺乏异质性,这并不适用于现实世界的患者群体。使用多队列分析框架[26,27],我们反复证明,利用不同队列的生物学、技术和临床异质性,可以识别感染患者中强大的宿主反应变化,并可转化为临床试验[14,28]。例如,我们已经成功地应用多队列分析开发了一种临床有用的基于血液的分类器,可以可靠地区分病毒感染和细菌感染[29,30,31]。
我们假设,对有或没有病毒感染的患者鼻腔样本的全转录组谱进行多队列分析,可以确定在人群中广泛保守的强大的鼻腔宿主反应基因表达特征,可以转化为临床应用。我们对10个公共数据集中1555个鼻腔样本的转录组谱进行了多队列分析。我们确定了一个保守的宿主反应基因特征,该特征可以高精度地将病毒性ARI样本与健康对照或非病毒性ARI样本区分开来。我们发现,宿主对人口统计学和临床变量(如年龄、病毒类型或病毒载量)的反应是稳健的,并相信这些结果为诊断测试的开发提供了坚实的基础。
我们于2021年11月在Gene expression Omnibus (GEO)中使用关键词呼吸道病毒感染、病毒性ARI和呼吸道病毒感染对转录组数据集进行了系统搜索。在对所有数据集进行人工整理后,我们确定了10个符合纳入标准的数据集(表1):包括来自病毒性ARI受试者和对照受试者的鼻腔样本,对照样本来自健康供体或ARI康复患者以及非病毒性呼吸道疾病患者。
表1基因表鼻腔标本对病毒性ARI的减压研究
GSE113209
急性病毒性支气管炎和恢复期婴儿(< 18个月)和儿童(1.5-5岁)鼻黏膜刮擦(NMS)免疫反应模式通过血浆细胞因子、流式细胞术和转录组学(RNA-Seq)的多重分析来描述。研究在澳大利亚进行[32]。
GSE11348
接种后8和48小时,用微阵列技术评估接种鼻病毒或假对照成人鼻刮痕基因表达的变化。研究在美国进行[21]。
GSE117827
病毒感染和不同程度症状(急性呼吸道合胞病毒(RSV)感染、有症状的非RSV呼吸道病毒感染、无症状鼻病毒感染和病毒阴性无症状对照)儿童鼻腔和血液样本中宿主转录组反应的微阵列比较研究在美国进行[22]。
GSE41374
入院48小时内感染RSV的婴儿和10名健康对照者鼻洗液样本的微阵列基因表达[33]。
GSE93731
来自H1N1流感感染患者鼻拭子采集的基于微阵列的转录组特征。在纳入时(在任何抗病毒治疗之前,感染状态)或恢复后3个月(治愈状态)收集样本。研究在法国进行[34]。
GSE97742
从诊断为RSV或鼻病毒的住院下呼吸道感染儿童收集的鼻咽拭子的微阵列转录谱在越南进行的研究[23]。
GSE152075
从SARS-CoV-2感染患者和健康对照者收集的鼻咽拭子的大量RNA-seq转录组谱研究在美国进行,包括不同感染状态、病毒载量、年龄和性别的患者[35]。
GSE156063
从患有病毒性或非病毒性急性呼吸道疾病(ARIs)的儿童和成人收集的上呼吸道样本的大量RNAseq转录组学分析研究在美国进行[18]。
GSE163151
成人病毒性和非病毒性急性呼吸道感染和供体对照的鼻咽拭子的大量rna转录组学分析[36]。
GSE188678
从患有病毒性或非病毒性急性呼吸道疾病(ARIs)的儿童和成人收集的上呼吸道样本的大量RNAseq转录组学分析在美国进行的研究[37]。
我们在分析之前处理了微阵列数据集。具体来说,我们下载了原始数据文件(. cel),并使用affy R软件包中的鲁棒多芯片平均(Robust Multichip Average, RMA)方法对所有数据进行了规范化[38]。同样,我们使用前面描述的流水线处理RNA-Seq数据集[39]。简而言之,我们使用FASTQC来评估多个质量控制指标[40]。我们使用STAR aligner(版本2.7.3a)[41]将reads定位到人类参考基因组和转录组(版本分别为GRCh38和GENCODE v32初级汇编GTF)[41,42]。我们使用STAR生成了所有样本的读取计数。最后,我们使用Voom变换对计数数据进行规范化。具体来说,使用以下截断过滤低表达基因:从数据集中的所有样本中,每百万最大计数(CPM)小于5。然后使用voom方法(limma R包)将计数转换为规范化的log2-CPM。两项研究GSE188678和GSE156063由同一作者发表。因此,我们将GSE188678的每个样本与GSE156063的所有样本进行基因表达和GEO提交中提供的内部标识符(“Sample_title”)、年龄和性别的Pearson相关性分析,以调查两项研究中是否存在样本重叠。我们发现GSE188678的318个样本中有214个样本也被纳入GSE156063,因为他们报告的年龄和性别相同,并且与COVID-19 PCR结果几乎完全相关(r=0.994)。因此,我们只使用GSE188678中剩余的104个样本进行分析。
我们从GEO下载了10个转录组数据集以及表型数据。我们使用了6个数据集进行发现,并保留了4个数据集进行验证。我们使用R中的metainintegrator软件包(v2.1.1)对6个发现数据集进行了完善的多队列分析[27]。简单地说,我们计算了病例(病毒性ARI样本)和对照之间研究中每个基因的效应大小(ES),如Hedges ' g。使用DerSimonian和Laird随机效应模型计算了所有数据集的综合效应大小。总结效应大小后,根据Benjamini-Hochberg的错误发现率(FDR)对所有基因的p值进行校正,以进行多次测试。我们使用费雪对数和方法来组合数据集的p值。计算每个基因调控过度或调控不足的p值的对数和以及相应的p值。再一次,我们使用Benjamini-Hochberg方法来校正所有基因的多重测试。最后,我们使用绝对ES阈值≥0.6,结合FDR≤0.1,以及所有10个数据集的基因测量可用性来筛选发现数据集的基因。
为了减少用于最终模型的基因数量,我们使用了前向搜索方法[15]。简而言之,前向搜索是一个迭代过程,算法从单个ES最高的基因开始,基于对模型判别权的正贡献,不断将基因逐个添加到模型中。前向搜索的结果通常是几个基因组成的小集合,这些基因保留了整个集合的性能。然而,任何前向搜索的陷阱之一是对起点的依赖和对特定训练数据集的潜在过拟合。因此,在这里,我们探索了一种改进的前向搜索,我们使用多个起点-具体来说,我们在训练集中选择了具有最大绝对池效应大小的12个基因(前10%),并在单独的前向搜索运行中使用其中的每个基因。然后,我们使用在12次前向搜索中至少1次发现的所有33种mrna来获得33- mrna评分。
我们使用归一化的、log2转化的上调基因的表达减去最终基因签名中下调基因的表达的几何平均值来计算样本的鼻病毒评分。我们对数据集之间的比较进行了缩放。为了测量性能,我们使用了选定生物标志物的受试者工作特征(ROC)曲线和曲线下面积(AUROC)指标。
我们使用R包clusterProfiler中的富集功能进行基因集富集分析[43]。为了了解通过多队列分析发现的生物标志物的生物学相关性,我们测试了基因本体(GO)注释中反映的基因过度代表性的显著性,并使用Benjamini-Hochberg方法调整了测试的p值。
我们从NCBI GEO下载了(1)GSE176269[44]的scRNA-seq数据,从Single Cell Portal ([45] https://singlecell.broadinstitute.org/single_cell/study/SCP1289/impaired-local-intrinsic-immunity-to-sars-cov-2-infection-in-severe-covid-19)下载了(2)SCP1289的scRNA-seq数据。我们进行了质量控制,并使用Seurat分别处理了两个数据集[46]。在使用“SCTransform”将读取计数归一化后,我们执行主成分分析(PCA)、均匀流形逼近和投影(UMAP),并在数据上共享最近邻聚类。使用细胞类型标记手工标注簇的细胞类型。
为了开发和训练逻辑回归(LOGR)模型,我们使用了我们内部的炎症机器学习(IML)平台。这仅包括具有正常控制的数据集。首先,我们使用健康对照(HC)样本进行跨平台共归一化,使用一种改进版的战斗经验贝叶斯归一化方法,称为使用控制(COCONUT)的战斗共归一化(29)。这种方法有一个强有力的假设:来自不同队列的HC样本代表相同的分布。简而言之,来自每个平台的HC样本在没有协变量的情况下进行战斗共归一化。共归一化的发现数据包括6个训练数据集,共382个样本,使用IML对LOGR模型进行训练。训练过程包括基于机器学习最佳实践的1000个超参数搜索。此外,我们使用共归一化后的33个mrna来训练模型。然后将锁定模型应用于四个验证数据集。
摘要
背景
方法
结果
讨论
结论
数据和材料的可用性
参考文献
致谢
作者信息
道德声明
补充信息
搜索
导航
#####
下载原文档:https://link.springer.com/content/pdf/10.1186/s13073-023-01216-0.pdf