一、TCGA 项目概况

The Cancer Genome Atlas (TCGA) 是由美国国家癌症研究所 (NCI) 和国家人类基因组研究所 (NHGRI) 于 2006 年联合发起的里程碑式癌症基因组学项目,历时 12 年 (2006-2018),耗资约 15 亿美元。

核心目标:通过高通量组学技术全面描绘人类癌症的分子图谱,揭示癌症发生、发展的分子机制,为精准医疗奠定基础。

规模与覆盖

  • 分析33 种癌症类型,涵盖超过 20,000 个原发性肿瘤和配对正常组织样本
  • 产生2.5+ PB的基因组、转录组、表观组和蛋白质组数据
  • 构建了包含11,000 + 患者的临床信息数据库

二、数据类型与结构

2.1 主要数据类别

数据类别 子类型 技术平台 数据格式 应用价值
基因组数据 全外显子测序 (WES)全基因组测序 (WGS)SNP 芯片 Illumina 平台Affymetrix 芯片 BAM, VCF, MAF 突变分析、驱动基因发现
转录组数据 mRNA 测序 (RNA-Seq)miRNA 测序长链非编码 RNA Illumina HiSeq BAM, TPM/FPKM 矩阵 差异表达、功能富集
表观组数据 DNA 甲基化组蛋白修饰 Illumina 450K 芯片Bisulfite 测序 BED, IDAT, TXT 基因表达调控、表观遗传标记
蛋白质组数据 反相蛋白芯片 (RPPA) 蛋白质阵列 TXT, 图像文件 蛋白表达、磷酸化分析
临床数据 基本信息、治疗史、生存数据病理报告 病例报告表 (CRF) XML, TSV 预后分析、治疗响应预测
影像数据 组织病理切片放射影像 (MRI/CT/PET) 数字扫描仪医学影像设备 SVS, DCM 肿瘤形态学分析

注:部分原始测序数据 (如 BAM 文件) 和个体基因型数据需通过 dbGaP 申请受控访问 (Controlled Access),而大多数衍生数据 (如突变注释、表达矩阵) 为开放访问 (Open Access)

2.2 数据组织结构

样本标识符 (Barcode) 系统:采用严格的五段式结构,如TCGA-XX-XXXX-XX-XX

  • 前两位:项目代码 (固定为 "TCGA")
  • 3-5 位:癌症类型代码 (如 "LUAD" 代表肺腺癌)
  • 6-7 位:样本类型 (01-09 = 肿瘤,10-19 = 正常对照)
  • 8-9 位:患者编号
  • 10-15 位:样本处理信息 (部分编号和分析物类型)

例如:TCGA-05-4384-01A-01D 表示肺腺癌患者的原发肿瘤 DNA 样本

三、数据获取与访问

3.1 官方数据门户

GDC Data Portal (https://portal.gdc.cancer.gov/) 是当前访问 TCGA 数据的主要入口。

访问方式

  1. 开放数据:直接浏览下载,无需认证
    • 临床数据、表达矩阵、甲基化数据等
  2. 受控数据:需通过 dbGaP 申请认证后访问
    • 原始测序 reads、个体基因组变异数据等

3.2 数据下载方法

方法一:Web 界面下载 (适合新手)

  1. 访问 GDC Data Portal,选择感兴趣的癌症项目
  2. 在 "Files" 页面设置筛选条件:
    • Data Category (如 Transcriptome Profiling)
    • Data Type (如 Gene Expression Quantification)
    • Sample Type (如 Primary Tumor/Normal)
  3. 将文件添加到购物车,下载 manifest 文件
  4. 使用 GDC Data Transfer Tool 下载实际数据:
    gdc-client download -m manifest.txt
    

方法二:R 语言工具 (适合批量分析)

  • TCGAbiolinks 包:提供一站式数据下载、预处理和分析解决方案
    library(TCGAbiolinks)
    query <- GDCquery(
      project = "TCGA-BRCA",
      data.category = "Transcriptome Profiling",
      data.type = "Gene Expression Quantification"
    )
    GDCdownload(query)
    

四、数据特点与质量控制

4.1 样本筛选标准

  • 肿瘤纯度≥60%,坏死组织 < 20%
  • 所有样本均经病理专家确认诊断
  • 每个肿瘤样本必须有配对的正常组织 (通常来自血液)

4.2 数据质量控制流程

  1. 样本 QC:评估完整性、纯度和污染情况
  2. 测序质量评估:去除低质量 reads、接头序列
  3. 数据标准化
    • RNA-Seq:TPM/FPKM 标准化、DESeq2 归一化
    • DNA 甲基化:β 值转换、分位数标准化
  4. 批次效应校正:使用 ComBat (经验贝叶斯)、sva (替代变量分析) 等方法

关键提示:TCGA 数据已进行初步处理,但下游分析前仍需进行质量评估和标准化,特别是多组学整合分析时

五、数据分析方法与工具

5.1 核心分析方法

1. 差异表达分析

  • 识别肿瘤 vs 正常或不同亚型间表达差异的基因
  • 工具:DESeq2、edgeR、limma
  • 常用阈值:p-value<0.05,|log2FC|>1
  • 应用:发现肿瘤标志物、治疗靶点

2. 生存分析

  • 评估基因表达 / 突变与患者预后关系
  • 方法:Kaplan-Meier 曲线 + Log-rank 检验、Cox 比例风险模型
  • 应用:构建预后模型、评估治疗响应

3. 突变分析

  • 识别高频突变基因、突变模式 (如 APOBEC 特征)
  • 工具:maftools、oncoplot
  • 应用:驱动基因发现、肿瘤进化研究

4. 多组学整合分析

  • 整合基因组、转录组、表观组等多维数据
  • 方法:
    • 早期整合:数据直接拼接后建模
    • 晚期整合:各数据独立分析后融合结果
    • 混合整合:层次化架构,如 CustOmics、DGCCA
    • 网络分析:构建分子互作网络,识别关键模块
    • 机器学习:随机森林、深度学习 (如 DMOIT)

5.2 常用分析工具

1. R 包生态系统

  • TCGAbiolinks:一站式 TCGA 数据获取与分析
  • maftools:突变数据可视化与解读
  • DESeq2/edgeR:RNA-Seq 差异表达分析
  • sva/ComBat:批次效应校正
  • GSVA/ssGSEA:基因集富集分析

2. 在线分析平台

  • UCSC Xena:交互式可视化与生存分析
  • GEPIA2:RNA-Seq 表达分析与可视化
  • cBioPortal:多组学数据整合与交互探索
  • UALCAN:肿瘤亚组分析与生物标志物验证

六、数据分析实操流程

6.1 RNA-Seq 数据分析典型流程

  1. 数据获取:通过 GDC 下载表达矩阵和临床数据

  2. 数据预处理

    • 基因名标准化 (Ensembl→Symbol)
    • 低表达基因过滤 (如 TPM<1 的基因)
    • 批次效应校正 (ComBat)
    • 数据转换 (如 log2 (TPM+1))
  3. 差异表达分析

    library(DESeq2)
    dds <- DESeqDataSetFromMatrix(
      countData = expr_matrix,
      colData = metadata,
      design = ~condition
    )
    dds <- DESeq(dds)
    res <- results(dds)
    
  4. 功能注释与富集

    • GO/KEGG 通路富集
    • 蛋白互作网络 (PPI) 分析
    • 关键模块识别 (WGCNA)
  5. 生存分析

    library(survival)
    surv_fit <- survfit(Surv(time, status) ~ gene_expression)
    surv_pvalue <- survdiff(Surv(time, status) ~ gene_expression)
    

七、TCGA 在精准医疗中的应用

7.1 分子分型与预后预测

癌症分子亚型发现是 TCGA 最具影响力的成果之一:

  • 乳腺癌:分为 Luminal A/B、HER2+、Basal-like 等亚型,指导靶向治疗
  • 肺癌:肺腺癌 (LUAD) 与肺鳞癌 (LUSC) 的分子特征区分,EGFR/ALK 突变指导 TKI 用药
  • 子宫内膜癌:分为 POLE 超突变型、微卫星不稳定型、低拷贝数型和高拷贝数型

预后标志物开发

  • 基于多组学数据构建的预后模型 (如风险评分),可独立于传统临床指标预测患者生存期
  • 免疫检查点分子 (如 PD-L1) 表达与免疫治疗响应的关联分析

7.2 药物靶点发现与精准治疗

1. 驱动基因与治疗靶点

  • TP53(36% 癌症高频突变)、KRAS(胰腺癌 / 结直肠癌)、PIK3CA(乳腺癌) 成为靶向药物研发焦点
  • EGFR 突变的肺腺癌患者对吉非替尼敏感,而 MET 扩增导致耐药,这些发现直接指导临床用药

2. 精准医疗应用案例

癌症类型 分子发现 临床应用
非小细胞肺癌 EGFR、ALK、ROS1 突变 吉非替尼、克唑替尼等靶向治疗
黑色素瘤 BRAF V600E 突变 维莫非尼、达拉非尼等 BRAF 抑制剂
结直肠癌 MSI-H/dMMR 状态 免疫检查点抑制剂 (如帕博利珠单抗)
乳腺癌 HER2 扩增 曲妥珠单抗 (赫赛汀) 靶向治疗

注:TCGA 数据支持了 FDA 批准的多种癌症精准治疗方案,显著改变了临床实践

八、TCGA 数据库的使用方法与技巧

8.1 数据检索技巧

GDC Data Portal 高级检索

  • 使用项目过滤器(如 TCGA-COAD/READ) 限定癌症类型
  • 通过数据类别 + 数据类型组合精准定位 (如 "Transcriptome Profiling"+"Gene Expression Quantification")
  • 利用样本属性(如 "sample_type:Primary Tumor" 和 "gender:female") 进一步筛选
  • 保存常用检索条件为项目队列,便于后续分析

8.2 多组学整合分析策略

1. 数据预处理

  • 统一样本 ID (TCGA barcode)
  • 不同组学数据维度匹配 (如基因名、样本名标准化)
  • 缺失值处理 (删除高缺失率特征或使用 KNN 填充)

2. 整合分析方法选择

  • 基于网络的整合:构建分子互作网络,识别关键节点和通路
  • 基于模型的整合
    早期整合: 数据→合并→单一模型→结果
    晚期整合: 数据→独立模型→结果融合→最终结果
    
  • 机器学习整合:随机森林、支持向量机 (SVM)、深度学习 (如 Omics-GAN、DMOIT)

九、TCGA 数据库的局限性与未来展望

9.1 局限性

  1. 样本代表性:主要来自美国人群,可能存在种族偏倚
  2. 数据异质性:不同平台、批次间的数据差异需谨慎处理
  3. 功能验证缺口:分子发现需体外 / 体内实验验证
  4. 部分数据不完整:某些癌症类型蛋白质组和代谢组数据有限

9.2 未来展望

  1. 与新兴技术融合

    • 单细胞测序:解析肿瘤异质性,补充 TCGA bulk 数据不足
    • 空间组学:揭示肿瘤微环境中细胞的空间分布与相互作用
    • 人工智能:深度学习模型从 TCGA 数据中挖掘隐藏模式,预测药物响应
  2. 泛癌研究深化

    • 构建跨癌症类型的分子特征网络,探索癌症共性与特性
    • 开发更精准的跨癌种预后和治疗响应预测模型

十、总结与资源导航

TCGA 数据库已成为癌症研究的 "金矿",为科研人员提供了从基因组到临床表型的完整数据链条,彻底改变了癌症研究和精准医疗的格局。

实用资源

注:本指南仅覆盖 TCGA 的主要内容,深入应用还需结合具体研究问题和最新工具不断探索。数据库持续更新,建议关注官方渠道获取最新进展。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐