地芽孢杆菌先前已在多个卵巢癌样本中检测到。虽然我们没办法确定携带噬菌体的土芽孢杆菌物种,但它很可能在先前在卵巢癌样本中发现的那些物种中。
大约15%的人类癌症病例归因于病毒感染。迄今为止,肿瘤组织中的病毒表达主要是通过将肿瘤RNA测序读数与已知病毒的数据库对齐来研究的。为了可以鉴定不同的病毒和快速表征肿瘤病毒组,我们开发了viRNAtrap,这是一种无比对的管道,用于识别病毒读数和组装病毒重叠群。研究利用viRNAtrap,它基于深度学习模型来区分病毒RNA-seq读数,以探索病毒在癌症中的表达,并将其应用于癌症基因组图谱(TCGA)中的14种癌症类型。使用viRNAtrap,本研究之后发现了以前与癌症无关的意外和发散病毒的表达,并揭示了表达与总生存率低相关的人类内源性病毒。viRNAtrap管道为研究与不同临床条件相关的病毒感染提供了一种前进的方向。
本研究为了识别人类转录组中的病毒,我们第一步训练了一个神经网络,以根据短序列区分病毒读数。我们收集了阳性(病毒)和阴性(人类)转录本,这些转录本被分割成48个bp片段,并分为训练集和测试集(图1a)。个人会使用不同的指标来评估模型基于短片段识别病毒序列的能力。该模型产生了测试集性能:受试者工作特性曲线下面积(AUROC)为0.81,精度-召回率曲线下面积(AUPRC)为0.82(图1b),准确度为0.71,召回率为0.83,精度为0.67,F1得分为0.74(图1c)。研究将该模型的性能与以前训练用于识别病毒的模型进行了比较,即DeepViFi ,DeepVirFinder,ViraMiner,以及一种称为“现成的Seq2Seq”的方法,通过DeepViFi作比较,该方法不使用太多关于病毒的特定领域知识(方法)。重要的是,我们的模型在所有测量中都优于其他方法,除了精度,DeepVirFinder优于所有其他方法(图1b,c)。但是,精度对于此框架不太重要,因为对齐步骤用于进一步过滤掉负数。重要的是,DeepViFi,DeepVirFinder和ViraMiner以前没有接受过RNA测序或48bp读数的训练或评估,这可能是这一些方法在没有特定优化的情况下不太合适的原因。通过检查来自不同人类病毒的片段的平均模型性能,我们得知来自Monodnaviria分类单元的人类单链DNA病毒具备极高的置信度,而对于RNA病毒,我们观察到模型置信度的变化更大。例如,该模型自信地预测了埃博拉病毒和流感病毒序列的病毒起源,但对来自几个Phenuiviridae成员(如Dabie bandavirus)的序列分配了临界分数(图1d)。
基于经过训练的神经网络,本研究构建了一个计算框架)来识别肿瘤RNAseq中的病毒重叠群,并将该框架应用于癌症基因组图谱(TCGA)中来自14种癌症类型的7272个样本,其中6717个是肿瘤样本,555个是与来自同一个体的癌症样本匹配的非癌症样本。在预处理中,我们提取了与人类基因组(hg19)或被确定为常见污染物的phiX噬菌体不一致的读段。然后将名为viRNAtrap的计算框架应用于未对齐的RNA读取(以减少viRNAtrap的运行时间),以检测病毒读取并组装预测的病毒重叠群。最后,在后处理分析中,个人会使用blastn将组装的病毒重叠群与三个精选的病毒数据库作比较。我们确定了源自癌症组织中预期的参考病毒、人类内源性病毒以及候选新型或更不同的病毒的病毒重叠群,这些病毒在不同癌症类型中表达。
乙型肝炎病毒(HBV)是TCGA样本中第二常检测到的病毒。HBV感染和丙型肝炎病毒(HCV)感染是肝癌的两个根本原因,可能同时发生在患者中。我们在85个LIHC肿瘤样本和7个非癌症样本中发现了HBV表达,在13个LIHC肿瘤样本中发现了HCV表达。在一些肿瘤样本中也发现了HBV,并与来自其他癌症类型的非癌症样本相匹配(图2a)。通过将viRNAtrap预测为病毒阳性的样品与TCGA临床注释中注释为病毒阳性的样品作比较,我们得知HR-ɑHPVs(在CESC和HNSC中)以及LIHC中HCV和HBV的viRNAtrap的线%,支持viRNAtrap正确识别表达已知癌症病毒的样品。此外,viRNAtrap在八个LIHC样本中发现了腺相关病毒2(AAV2),其中六个来自肿瘤,两个来自非癌症样本。AAV2是一种小DNA病毒,具有整合到人类基因中并有助于肿瘤发生的潜力,尽管目前的证据不足以将AAV2纳入致癌病毒的共识列表。最近的一项研究解决了TCGA样本中AAV2表达的差异,发现在11个LIHC样本中至少有一个AAV2读数。然而,在其中三个样本中,仅发现一个AAV2读数,这很难用viRNAtrap管道检测到。有必要注意一下的是,先前系统地表征TCGA中病毒存在的研究没有在超过六个LIHC样本中鉴定出AAV2,这表明viRNAtrap与其他计算方式相比具有敏感性。我们还在一个KIRC样本,一个PAAD样本和一个匹配的非癌症样本中检测到AAV2来自LUAD。
本研究发现了几个表达人类多瘤病毒的样本,特别是多瘤病毒6和7。最有必要注意一下的是,我们得知了七个BRCA样本和两个表达多瘤病毒的HNSC样本。我们还在一些样本中发现了细小病毒B19序列(三个癌症和一个匹配的非癌症);这种病毒主要与正常组织有关,但以前也在孤立的肿瘤病例中被发现。我们研究了这些病毒表达的可能基因组相关性,包括肿瘤突变负荷(TMB,肿瘤中体细胞突变的速率,这是一种生物标志物,对所有TCGA样本做了注释)和染色体水平的非整倍性(方法)。我们得知,与HR-ɑHPV阴性样本相比,HR-ɑHPV阳性样品具有较低的TMB和非整倍性水平(图2b)。相比之下,与HBV阴性样本相比,HBV阳性的LIHC癌症患者表现出显着更高的TMB。我们还检查了已知癌病毒的表达与总生存期之间的关联。虽然在对多个假设做调整后,这些关联均不显著(补充图2和补充表1),但我们得知一种趋势是,与HR-ɑHPV阴性患者相比,HR-ɑHPV阳性HNSC患者的生存率更高(通过Kaplan-Meier曲线c),这证实了以前的研究。我们还发现HBV患者存在病毒与总生存期之间有正相关。
为了进一步证明viRNAtrap的实用性,我们分析了TCGA中不同肿瘤类型中HERV的表达(HERV未用于训练viRNAtrap模型)。HERV占人类基因组的~8%;大多数HERV序列是祖先逆转录病毒感染的残余物,这些感染固定在种系DNA中。HERV蛋白被发现在不同的条件下表达,包括癌症组织。具体来说,HERV-K家族最近被整合到人类基因组中,是人类基因组中最丰富的HERV家族之一(与HERV-H一起),之前在肿瘤组织和细胞系中报道过。此外,最近的研究结果报告了HERV表达与低存活率之间的关联。
为了全面表征在不同肿瘤中表达的HERV成员,我们建立了一个从人类基因组中提取的潜在功能性HERV数据库。将viRNAtrap重叠群与该数据库对齐,以确定整个研究中考虑的14种癌症类型的HERV表达模式。
正如预期的那样,我们得知表达最丰富的HERV家族是HERV-K和HERV-H。表达不同个体HERV成员的样品部分用于聚类肿瘤类型。有趣的是,我们得知鳞状细胞癌(包括宫颈癌、肺癌、头颈部癌)根据表达的HERV成员的比例分布聚集在一起(图3a)。在不同癌症中表达最丰富的HERV包括一些接近癌症相关基因或单核苷酸多态性(SNP)的HERV。具体来说,一个HERV-H成员(chr2:204828)位于ICOS(诱导T细胞共刺激)基因的365bp,该基因与肿瘤免疫反应有关。此外,一个HERV9成员(chrX:150716)位于PASD1癌症/睾丸抗原基因330bp(这两个HERV中的每一个都在十个TCGA样本中发现)。
我们调查了HERV转录本的存在与患者总生存期之间的关联(图3b)。与以前的研究一致,我们得知HERV-K-和HERV-H阳性癌症样本的患者在COAD,LUSC,LUAD和LIHC中与HERV-K-和HERV-H阴性患者相比,总生存率显着降低。有必要注意一下的是,我们得知HERV存在与这些癌症类型的总生存率之间的每个显着关联都是负面的(图3b)。
为了研究HERV表达与生存率差之间的联系,我们比较了表达HERV的患者和没有HERV表达的患者之间的TMB和非整倍性评分。与生存率低相关的HERV与TMB或非整倍性无关。我们得知,与总生存期差相关的HERV通常更有可能在频繁突变的癌症驱动基因(如TP53,KRAS,ARID1A和PTEN)中存在体细胞突变时表达(使用超几何富集)。然而,我们没发现与任何特定基因突变的强烈关联,即使在这些基因中没有体细胞突变的样品中也发现了HERV表达(图3c)。
接下来,我们研究了以前很少或从未在人类癌症中报道过的不同病毒的肿瘤表达。我们将viRNAtrap产生的重叠群与来自不同宿主的病毒(方法)数据库进行了对齐,这些病毒(方法)预计不会在肿瘤组织中发现,包括人类,蝙蝠,小鼠,昆虫,植物和细菌病毒(图4a)。我们在大多数肿瘤类型(尤其是腺癌)的不同样本中发现了多个花叶植物病毒重叠群。例如,在三个结直肠癌样本中发现了西瓜花叶病毒,之前在COAD样本中报道的百慕大草潜伏病毒在三种癌症类型(COAD,LIHC和UCEC;图4a)。花叶植物病毒以前在人类粪便中被发现,这可能表明病毒进入并通过消化道传播。然而,目前尚不清楚花叶植物病毒如何到达其他肿瘤组织,如肝脏和子宫内膜,以及这些是否与实验室污染的不明来源有关。
值得注意的是,我们在五个头颈部癌样本中发现了一种Vientovirus的表达,Vientovirus是最近表征的与人类口腔呼吸道相关的人类病毒家族Redondoviridae的成员(图4a)。我们还在几种癌症类型的不同样本中发现了Gemycircularvirus HV-GcV1的表达,并且在一个COAD和一个CESC样本中分别发现了Cutavirus的表达。我们还在COAD样本中检测到人类柯萨奇病毒,证实了先前的报告。
我们还在TCGA中发现了一些节肢动物病毒的表达,几乎只在UCEC样品中(图4a),其中最引人注目的是犰狳虹彩病毒(IIV31)。我们在152个子宫内膜癌样本中检测到与IIV31蛋白一致的读数(占所研究子宫内膜癌样本的25%以上)。虽然我们没在这些样本中发现IIV31的先前报告,但最近在一些DNA测序样本中检测到与同一菌株一致的读数,但由于这些读数未包含在多个管道的数据库中而被过滤。IIV31 在贝泰里多病毒科;这个dsDNA病毒亚家族的成员感染多种节肢动物,包括人类常见的昆虫寄生虫。一项研究推测了蚊子传播的Betairidovirinae在人类疾病中的作用,但据我们所知,它们在人类中的存在以前没有报道过。虽然Betairidovirinae不被认为是脊椎动物的病原体,但一项研究表明,模型Betairidovirinae昆虫虹膜病毒6(IIV6)在注射后对小鼠致命,而热灭活IIV6则不是。其他研究表明,Betairidovirinae可以感染受感染昆虫的脊椎动物捕食者以及几种脊椎动物细胞系。因此,Betairidovirinae可能机会性地感染脊椎动物,包括人类。
我们鉴定了UCEC样本中表达的不同IIV31基因,IIV31蛋白阳性的样本来自不同批次和测序中心。此外,我们得知IIV31的存在与总生存期呈强烈正相关(图4b),与TMB和染色体水平的非整倍性呈负相关(图4c,d)。我们没确定IIV31污染的途径;IIV31阳性样本的多种来源以及IIV31表达与其他癌症特性之间的显着关联都表明IIV31不是污染物。在表达最高的IIV31蛋白中,我们得知IAP凋亡抑制剂同系物和丝氨酸/苏氨酸蛋白激酶与总生存期差单独相关(分别为YP_009046765、YP_009046752和YP_009046774),以及RAD50同源物(YP_009046808)。
我们发现IIV31和CIBERSORT推断CD8+T细胞频率和Treg频率之间有显着的正相关(图4d)。这些发现,以及与生存率提高的关联,表明IIV31可能直接或间接地与不同的感染有关。我们探讨了IIV31感染与滴虫(TV)感染的关联。TV是一种单细胞原生动物病原体,可感染人类泌尿生殖道,并且与宫颈癌的风险增加有关,HPV合并感染会增加宫颈癌的风险。我们得知TV在多个UCEC肿瘤样本中表达(由于与TV转录本对齐时假阳性率高,我们用严格的对齐参数验证了21个TV阳性肿瘤)。事实上,TV阳性样本富含IIV31阳性样本(费舍尔精确检验p值=1.4e-8)。TV和IIV31都与体细胞PTEN突变显着相关,这与子宫内膜癌的更好生存率有关(而IIV31的存在也与CTNNB1和PIK3R1的突变有关,图4e)。
我们还在33个卵巢癌样本中鉴定了土芽孢杆菌病毒E2表达;这种病毒可能是高级别浆液性卵巢癌中最常表达的病毒。为了进一步验证土芽孢杆菌病毒E2的存在,我们将viRNAtrap应用于CCLE的细胞系数据。我们将COV318细胞系鉴定为土芽孢杆菌病毒E2阳性,并将OVISE细胞系鉴定为病毒阴性对照。通过qRT-PCR,我们验证了预测阳性细胞系COV318中的表达E2(图4f)。这些结果验证了以前从未在卵巢癌中发现的土芽孢杆菌病毒E2确实在卵巢癌细胞中表达,并且viRNAtrap可用于灵敏地检测病毒阳性样本。地芽孢杆菌先前已在多个卵巢癌样本中检测到。虽然我们没办法确定携带噬菌体的土芽孢杆菌物种,但它很可能在先前在卵巢癌样本中发现的那些物种中。
我们在五种癌症类型的不同样本中发现了小鼠白血病病毒的表达。然而,由于人类DNA制备,已经报道了小鼠白血病病毒污染用于细胞培养。我们的方法还在一个HNSC患者的匹配非癌症样本中检测到一种以前未知的病毒,其蛋白质与Pteropus(果蝠)相关的Gemycircularvirus和其他几种gemycircularvirus相似。
本研究开发了viRNAtrap,这是一种用于从RNAseq中无比对鉴定病毒的新软件,能够迅速表征病毒表达并检测不同的病毒。研究将其应用于TCGA的肿瘤组织,揭示了不同病毒组的表达模式。研究报告了几种形式的癌症与几种意想不到的病毒分支之间以前未被识别的关联,包括在人类农产品和昆虫寄生虫中发现的病毒分支。未来的研究可能会使用viRNAtrap来寻找导致其他恶性肿瘤的病毒。