《Journal of Genetic Engineering and Biotechnology》:The bioinformatics approach to identifying pathogenic variants for colorectal cancer (CRC)
编辑推荐:
结直肠癌(CRC)是全球第三大常见癌症,占新诊断病例的9.6%和癌症相关死亡的9.3%。它由结肠和直肠腺体细胞的失控增殖发展而来,主要分为散发性、遗传性和结肠炎相关性三种类型。尽管遗传易感性是CRC发病的关键因素,但识别高影响力的致病性变异仍是一项重大挑战。本
结直肠癌(CRC)是全球第三大常见癌症,占新诊断病例的9.6%和癌症相关死亡的9.3%。它由结肠和直肠腺体细胞的失控增殖发展而来,主要分为散发性、遗传性和结肠炎相关性三种类型。尽管遗传易感性是CRC发病的关键因素,但识别高影响力的致病性变异仍是一项重大挑战。本研究整合了生物信息学和群体遗传学方法,以识别具有潜在临床意义的CRC相关单核苷酸多态性(SNPs)。CRC相关的SNPs从全基因组关联研究(GWAS)目录中提取,通过HaploReg进行功能注释,并通过Ensembl进行验证。此外,来自GTEx数据库的表达数量性状位点(eQTL)数据被用于评估这些变异在人体组织中的基因表达影响。研究人员的分析确定了三个高优先级的SNPs (rs9379084, rs3184504, 和 rs11557154),它们与RREB1、ATXN2、SH2B3和DCAF12基因相关,并在不同人群中表现出显著的等位基因频率差异。这些发现表明这些SNPs可作为CRC风险评估的潜在生物标志物,并强调了在不同群体中进行基因筛查的重要性。
结直肠癌(CRC)是全球第三大常见癌症,也是癌症相关死亡的第二大原因,其发病率在全球范围内,尤其是在发展中国家呈上升趋势。尽管临床诊断和治疗手段不断进步,但许多患者确诊时已处于晚期,治疗效果存在异质性,且缺乏可靠的用于指导个体化治疗的预后或预测性生物标志物。这凸显了对能够改善早期检测、细化风险分层和指导治疗决策的分子标志物的需求。遗传变异在疾病进展中起着重要作用,而GWAS目录等生物信息学资源为编译与疾病相关的遗传变异提供了支持。然而,关于与CRC风险相关的基因信息仍然有限。因此,本研究旨在利用GWAS目录数据库,映射与人群中遗传变异相关的基因,并验证影响蛋白质功能的关键基因变异。研究人员开展了一项整合生物信息学与群体遗传学方法的研究,以识别具有潜在功能与临床相关性的CRC相关SNPs。研究利用了NHGRI–EBI GWAS目录、HaploReg、Ensembl基因组浏览器、GTEx门户和SNPnexus等在线数据库和分析工具,通过筛选、功能注释、验证、群体等位基因频率分析及组织特异性基因表达分析等多个步骤,最终识别出三个高优先级的错义突变SNPs,并评估了它们在CRC发病中的潜在作用。该研究发表在《Journal of Genetic Engineering and Biotechnology》。为开展研究,作者主要采用了以下几个关键技术方法:首先,从GWAS目录中提取已报道的与CRC显著相关的SNPs,并应用严格的基因组显著性阈值进行筛选。其次,使用HaploReg对SNPs进行功能注释,以评估其染色质状态和对基因调控的潜在影响。再次,利用Ensembl基因组浏览器对筛选出的SNPs进行基因组位置和变异特征的验证。此外,通过Ensembl获取并分析这些SNPs在不同大陆人群中的等位基因频率数据。最后,利用GTEx门户的eQTL数据,评估这些优先级SNPs对基因表达的调控效应,重点关注与CRC相关的组织。本研究纳入的群体遗传学数据来源于Ensembl数据库,涵盖非洲、美洲、东亚、欧洲和南亚人群。研究结果部分包括:在“CRC相关SNP的识别”中,研究人员通过整合GWAS数据并设置严格阈值,最终从1551个初始SNPs中筛选出17个具有全基因组显著性(p < 1 × 10
-8)的SNPs,并进一步通过HaploReg功能注释优先选出了三个与RREB1、ATXN2/SH2B3和DCAF12基因相关的错义突变SNPs (rs9379084, rs3184504, rs11557154)。在“CRC相关SNP的分布”中,分析显示这些优先级SNPs的等位基因频率在不同大陆人群中存在显著差异,例如rs3184504的C等位基因在东亚和非洲人群中频率较高,而rs11557154的T等位基因在东亚人群中的频率明显高于其他群体,这表明CRC易感性可能存在群体特异性的遗传基础。在“CRC相关SNP的组织基因表达鉴定”中,研究人员利用GTEx门户数据库分析了相关基因在人体多种组织中的表达模式。结果发现RREB1、ATXN2、SH2B3和DCAF12等基因在不同组织中均有表达,其表达水平可能与CRC的发生发展存在关联。讨论部分总结认为,本研究通过整合多种生物信息学方法,成功识别了三个与CRC易感性相关的潜在致病性错义突变SNPs。rs9379084位于RREB1基因,该基因编码的转录因子参与细胞增殖和代谢调控,其失调与肿瘤发生相关。rs3184504同时与ATXN2和SH2B3基因相关,SH2B3参与免疫调节,ATXN2则与细胞生长和炎症通路有关,这暗示了免疫机制在CRC发展中的潜在作用。rs11557154位于DCAF12基因,虽然其直接关联的证据有限,但在多种癌症中有表达记录。等位基因频率的群体差异分析强调了在CRC风险评估中纳入群体遗传学的重要性。研究也指出了局限性,包括所识别SNPs的功能效应尚需实验或临床验证,分析依赖的公开数据集可能存在群体多样性偏差,且研究主要关注了错义突变,而其他类型的遗传变异未被深入探讨。结论部分指出:本研究采用了一种整合性生物信息学方法,以识别与结直肠癌(CRC)相关的候选遗传变异。基于其功能相关性和群体特异性的等位基因频率模式,三个优先选择的错义突变SNPs——rs9379084 (RREB1基因)、rs3184504 (ATXN2/SH2B3基因)和rs11557154 (DCAF12基因)——被确定为CRC易感性的潜在贡献者。观察到的等位基因分布的群体差异性,凸显了将群体遗传学纳入CRC风险评估的重要性,并支持开发更具针对性的筛查策略。尽管仍需进一步的实验验证,但这些发现为未来阐明CRC分子机制和推进精准医疗方法的研究提供了宝贵的基础。