多组学联合分析教程目录

目录实操教程 1. 12+套路模板来了！肿瘤异质性和耐药多组学联合分析！................................................................................2 2. 单个组学玩腻了，来试试 20 分文章喜欢的多组学联合聚类吧！...............................................................11 3. 让你的 SCI 再提升一个 level ！10 分钟教你零代码教你搞定！................................................................20 4. 好东西啊！审稿人直呼内行！多组学，多平台分析终极解决方案！不学你就 out 了！........................ 44 5. 细胞、动物实验这么少！这个多组学研究凭什么发表在 Cell 子刊上？.....................................................56 6. 近 30 分多组学干湿结合套路，你看这些图是不是很熟悉，仿佛自己也能来一套的样子？！.............71 7. 多组学甲基化 5+生信文章，只需要一刻钟，零代码教你复现！................................................................82 8. 我靠这个套路发了 N 篇 SCI 了！单基因多组学套路，10 图 3 表，一刻钟，零代码复现！..............182 9. 多组学分析工具一键式搞定？高分文章的秘诀，学会能给你的 SCI 加分！..........................................225 10. 秀到飞起！生信中高逼格的多组学分析怎么做的？半小时轻松教你搞定！（附代码）...........................244 相关数据库 1. 多组学+表观遗传+临床联合分析大杀器！用这个数据库就够了！绝对让你爱不释手！.....................260 2. 多组学！还自带动物和临床实验！这个数据库可以封神了！做科研不可错过！........................................273 3. 单基因 SCI 套路必备必备！多组学，临床统计，掌握这一个数据库就够了！.......................................298 4. 肿瘤药敏及多组学研究好帮手-GDSC 数据库，真香！好用到停不下来！............................................. 311 5. 泛癌多组学百搭数据库，分分钟给你的生信 SCI 加上美图！...................................................................337 1 12+套路模板来了！肿瘤异质性和耐药多组学联合分析！这个套路要被导师爆了！领略高端套路，发表高分文章！小伙伴们大家好，我是菠小萝。今天为大家带来的是一篇发表在《Clin Cancer Res》上的文章，题目是“Multilayered omics-based analysis of a head and neck cancer model of cisplatin resistance reveals intratumoral heterogeneity and treatment-induced clonal selection”，最新影响因子： 12.531。本篇范文是基于头颈部肿瘤顺铂耐药模型的多组学研究，揭示了肿瘤内异质性和治疗诱导的克隆选择的机制。那么，我们今天就来看看如何设计一篇完整的肿瘤微环境相关的研究吧~ 期刊简介 2 知识背景文章研究的疾病是局部晚期头颈部鳞状细胞癌(SCCHN)，临床问题是局部复发，同时提出科学假设，其中的机制很可能是由对铂类同步放化疗（CRTX）具有初抗性的肿瘤组织中的肿瘤细胞亚群驱动的。文章中作者对肿瘤内异质性的程度、亚克隆结构以及以铂为基础的治疗方案诱导的克隆选择的机制进行了分析。数据来源 & 思路框架文章对 CDDP 敏感的 FaDu 亲本细胞、耐药亚系和具有敏感/耐药表型的单细胞克隆进行了全面的分子表征，包括靶向下一代测序(tNGS)、荧光原位杂交(FISH)、基于微阵列的转录组和基于质谱的磷酸化蛋白质组分析。同时，使用 TCGA SCCHN 队列的公开数据验证候选治疗靶点的临床相关性。总体而言，作者利用 FaDu SCCHN 细胞系模型，在克隆水平上显示对顺铂(CDDP)的不同敏感性，以阐明 CDDP 耐药的分子机制。通过对亲本细胞系、cddp 抗性亚克隆和单细胞衍生亚克隆的组学分析，建立了功能获得(GOF) TP53 变异、PI3K/mTOR 通路上调与抗性表型之间的因果关系。使用 TCGA 队列，证实在 hpv 阴性的 SCCHN 中，GOF TP53 突变和 Raptor (mTOR 通路的成员)的上调与生存不良相关。接下来我们就进行系统的学习！数据精析一、基因组特征作者首先展示了 SCCHN 细胞系模型 CDDP 抗性的基因组特征。前期工作中，作者通过增加 CDDP 剂量长期作用于 SCCHN 细胞株建立了 CDDP 耐药模型。 3 表1 在表 1 中展示了亲本 FaDu 细胞(FaDu CDDPS)、衍生亚系(FaDu CDDPR)和单细胞衍生亚系突变谱的差异。获得 294 个非同义单核苷酸变异(SNVs)中只有 FaDuCDDP-S 和 FaDuCDDP-R 两个变异。进一步分析 SNVs，等位基因频率> 0.2 的有两个细胞系。在这组基因变异可能与 CDDP 阻力,结果在 TP53 基因中发现了两个 snv:内含子突变 c.673 与 FaDuCDDP-s 相比，在 FaDuCDDP-R 中检测到 G>A 导致早期终止密码子的等位基因频率降低。先前在 FaDu 细胞系中描述的 TP53 p.R248L 错义突变在 FaDuCDDP-R 中发现，但在 FaDuCDDP-s 细胞中没有发现。即使当等位基因频率降低到 0.01 时，变异呼叫也被考虑在内。二、差异表达——FaDu 细胞系分析 cddp 敏感和 cddp 耐药亚克隆的异质性基于 tNGS 结果，作者假设 FaDu 亲本细胞系由不同基因型干扰 CDDP 敏感性的不同亚克隆组成，这些亚克隆的相对比例由于长期 CDDP 处理的选择压力而发生变化。作者分离出了最初对 CDDP 具有抗性的单个细胞克隆和其他对 CDDP 表现出高敏感性的细胞克隆(图 1A)。用相同浓度的 CDDP 处理 FaDuCDDP-S 和 FaDuCDDP-R 24h 后，观察到敏感和抗性克隆的 SF 与观察到的相似(图 1B)。值得注意的是，个体克隆也显示,辐射敏感度显著差异(图 1C)。最终选择了具有克隆的敏感性/抗性特性的四个克隆进行进一步的全面分子鉴定。重要的是，被反复检查，并在整个研究中保持稳定。 4 图1 图 1 展示了 FaDu 细胞系模型中，瘤内异质性影响 CDDP 和照射敏感性的证据。(A)从 FaDuCDDP-S 细胞系中获得单个单细胞的克隆。成功培养 3 代后，用 CDDP (100 ng/ml)处理 24 小时。MTT 法测定细胞活力。(B) CDDP (100ng/ml)对敏感克隆(46 和 54)和抗性克隆(5 和 78)的细胞存活抑制程度与 FaDuCDDP-S 和 FaDuCDDPR 相似。(C)单克隆水平对 CDDP 的抗性与对辐照的交叉抗性有关。三、抗 cddp 亚克隆的遗传图谱比较遗传分析 tNGS 证实,大多数检测非同义 SNVs 出席类似的等位基因频率不仅在 FaDuCDDP-S、FaDuCDDP-R 还派生的四个单细胞克隆(图 2)。最大的等位基因频率的差异观察到 6 个突变基因变异影响五(CDH11, CPXCR1, FN1, TPO, TP53（图 2 B)。结果表明 TP53 p.R248L 突变在 cddp 耐药克隆中被检测到，但在 cddp 敏感克隆中没有。这些数据支持了肿瘤内遗传异质性和治疗诱导选择具有遗传特征的亚克隆，使其具有对 CDDP 的最初抗性的科学假设。在抗性克隆中发现的等位基因频率暗示了 TP53 所在的 17 号染色体存在两个以上的拷贝。四、微阵列分析敏感和抗性克隆的 mRNA 表达的异质性为了确定哪些基因在耐药克隆和敏感克隆之间有差异表达，进行了基因芯片转录组分析。将四个 FaDu 细胞克隆在两个独立的微阵列分析中建立的基础 mRNA 表达水平的归一化数据集进行无监督的分级分析。结果显示微阵列分析显示敏感和抗性克隆的 mRNA 表达均存在异质 5 性。作者鉴定了两个 cddp 抗性和敏感克隆簇。与点突变水平的同源性相比，无论是在敏感克隆和抗性克隆之间，还是在抗性克隆内部，mRNA 表达模式都明显更加异质性(图 2c)。图2 图 2 展示了分子谱系热图。TGS 数据集包括所有非同义单核苷酸变异的等位基因频率检测在 FaDuCDDP-S, FaDuCDDP-R，克隆 5,78,46，54) (A, B)或(C) FaDu 克隆的标准化 mRNA 表达值的无监督分层聚类。五、抗性与敏感克隆的磷酸化蛋白质组分析——突变体表达差异与 CDDP 耐药性有因果关系作者观察实验结果发现 FaDuCDDP-R 的 TP53 p.R248L 基因型和 CDDP 抗性克隆 C5 和 C78 与强 p53 蛋白表达相关。为了证实突变型 p53 过表达与 CDDP 抗性之间的因果关系，作者测试了基因敲除突变 p53 是否会使耐药细胞对 CDDP 治疗敏感。通过靶向 p53 的 siRNA (图 3A)处理，p53 蛋白表达的成功下调至少持续 72 小时。通过敲除突变型 p53，耐药细胞明显对 CDDP 重新敏感，这支持了之前的假设(图 3 B-D)。相比之下，NT-siRNA 转染不影响耐药克隆 5 和 78 的 CDDP 敏感性(3C-D)，对 FaDuCDDP-R 细胞的影响较小(图 3B)。也就是说，突变体 p53R248L 蛋白的过表达与 CDDP 耐药性有因果关系。 6 图3 图 3 展示了 siRNA 介导的突变型 p53 的下调使耐药细胞对 CDDP 治疗重新敏感。(A) FaDuCDDP-R 细胞在指定的浓度下转染 p53 siRNA 或非靶向(NT) siRNA。 (B-D) siRNA (5nmol/L)转染 24 小时后，在无 CDDP (12.5-100ng/ml)或存在 CDDP 的情况下培养 10 天。 MTT 法测定细胞活力。在三个独立的实验中，与单独用 CDDP 处理的细胞相比，用 CDDP 处理的 sirna 转录细胞的活细胞的平均相对百分比(+标准差)被显示。六、TCGA SCCHN 队列中的生物标志物验证作者接下来研究的目标是验证临床相关性。作者同期进行了靶向 NGS 的研究，在一组基于 cddp 的 CRTX 后早期复发的 SCCHN 患者中，比较了原发和复发肿瘤的突变谱。作者发现 GOF TP53 变异的频率与原发肿瘤组织相比没有变化,甚至下降(表 2)。表2 7 为进一步确证 GOF TP53 变量之间的因果关系和 CDDP 抵抗，作者将已知 TP53 状态的 HPVSCCHN 病例，根据 TP53 突变状态分为两组。第 1 组至少存在以下 TP53 错义突变之一(R175H, H193(L,P,R,Y)， R248(Q,W)， R249S, R273C，根据 Evolutionary Action Score 为高危突变。第二组显示其他类型的 TP53 改变或野生型 TP53。Kaplan-Meier 分析显示无病显著降低，总生存率与 TP53 GOF 突变相关(图 4 A-B)。为验证 mTOR 通路激活的不良预后作用，Cox 回归分析纳入已知 TP53 状态的 HPV- SCCHN 病例和可用的蛋白表达数据(N=293)。mTOR 通路蛋白成员的归一化表达值(表 3)作为连续协变量，计算生存概率和危险比。表3 通过分析，mTOR 调控相关蛋白(Raptor)作为 mTOR 信号通路中起关键作用的支架蛋白被确定为 DFS 和 OS 的独立预测因子(图 4C-D)。相比之下，mTOR 或 p70S6 和 S6 激酶与预后没有相关性。 8 图4 图 4 展示了 CDDP 耐药候选生物标志物对 SCCHN 患者生存的干扰。TCGA SCCHN 数据集用于验证来自 FaDu 模型的分子结果。Kaplan Meier 分析的无病生存期(A、C)和总生存期(B, D)。患者分层分为两组根据下列错义突变之一的存在(R175H, H193 (L, P, R, Y) R248 (Q、W), R249S, R273C)或任何其他类型的 TP53 变更或野生型 TP53 (A、B),或根据 Raptor 蛋白中位表达水平(C, D)，给出各组患者人数及 log-rank P 值。全文总结最后总结一下研究思路，作者通过多组学，证实了 SCCHN 细胞系 FaDu 在 CDDP 耐药和治疗诱导的克隆进化中涉及的分子机制。实验设计: 通过下一代靶向测序、荧光原位杂交、微阵列转录组和质谱磷酸化蛋白质组分析，对 CDDP 敏感的 SCCHN 细胞系 FaDu、顺铂耐药亚系和单细胞衍生亚克隆进行了研究，阐明了 CDDP 抗性的分子基础。 9 分子特征与耐药表型之间的因果关系是通过基于 sirna 的基因沉默来确定的。基于 cddp 放化疗后复发的 SCCHN 患者和 TCGA SCCHN 数据集验证了分子发现的临床相关性。结果展示: 通 FaDu 模型建立了克隆水平的初抗证据和长期 CDDP 治疗后的克隆选择证据。抗性与 17 号染色体的非整倍体性、TP53 拷贝数增加和功能获得(GOF)突变体 p53R248L 过表达有关。同时建立了突变体 p53R248L 和 CDDP 抗性之间的因果关系。抗性克隆的特征还包括 PI3K-AKT-mTOR 通路活性增加。在 TCGA SCCHN 队列中证实了 GOF TP53 变异和 mTOR 通路上调的不良预后价值。作者的研究证实了肿瘤内异质性和克隆进化是 SCCHN 耐药的重要机制，并建立了 GOF TP53 突变体和 PI3K/mTOR 通路作为优化治疗的分子靶点。参考文献 [1] Niehr F, Eder T, Pilz T, Konschak R, Treue D, Klauschen F, Bockmayr M, Türkmen S, Jöhrens K, Budach V, Tinhofer I. Multilayered Omics-Based Analysis of a Head and Neck Cancer Model of Cisplatin Resistance Reveals Intratumoral Heterogeneity and Treatment-Induced Clonal Selection. Clin Cancer Res. 2018 Jan 1;24(1):158-168. doi: 10.1158/1078-0432.CCR-17-2410. Epub 2017 Oct 23. PMID: 29061642. 10 单个组学玩腻了，来试试 20 分文章喜欢的多组学联合聚类吧！碎碎念专栏之联合多种组学数据对样本聚类分析大家好，我是风。这里是风风的碎碎念专栏，今天我们继续碎碎念的奇妙之旅。在繁如星海的众多 SCI 期刊中，我最喜欢看的就是《Cancer Cell》，既不会像 CNS 那样让我望而生畏，又不会像 OncoTarget 让我扼腕叹息，组会上跟师弟师妹们吹吹水，平常在学员群里跟学员侃（zhaung）一(zhauung) 侃(X)，这个期刊文章的内容呢也算比较友好，既不会难以理解，也经常可以带来灵光一现的思路，最重要是我大概还能看懂啊（毕竟再难就消化不良了）！周二一次偶然的机会（电脑卡机）我翻到了文件夹里躺着的这篇文章，这篇文章有点久了，是 2017 年发在 Cance Cell 上面的文章。全篇文章几乎只用了一种思想，没错，就是聚类的思想。一句话总结：利用聚类的思想把同一个肿瘤的多种组学数据分别鉴定 Cluster，再探讨这些 cluster 与特定科学问题之间的内在关系。文章我放在附件给大家，后台回复关键词就可以获取，大家有兴趣可以详细阅读一下，绝对会让你叹为观止。 11 今天我们的重点不是解读文章，也不是跟大家一起学校单个组学数据的聚类要怎么做，那我们要学习什么呢？我看完文章后就在想：如果把多种组学数据联合起来进行聚类，那么聚类的结果会不会更可信呢？没错，这个就是我们今天要一起学习的内容了，即：联合多种组学数据对样本进行聚类分析！什么是聚类？聚类分析是一种数据归约技术，旨在揭露一个数据集中观察值的子集。它可以把大量的观测值归约为若干个类，这里的类被定义为若干个观测值组成的组群，群组内观测值的相似度比群间相似度高。由于这不是一个精确的定义，从而就导致了各种聚类方法的出现。在数据分析中，曾经有过“十大聚类分析方法”的说法，其中最基础的两种方法就是层次聚类和划分聚类。这两种方法又分别对应了多种不同的聚类算法：单联动、平均联动、K 均值（K-means）和中心点划分（PAM）等等。 12 以上内容都是简单科普，如果想要深入学习聚类分析，建议可以看机器学习类的书籍，我比较推荐《机器学习实战》和《机器学习入门》，如果没啥兴趣的话那就当故事听一听就好了，这些都不是重点。今天我们将以 mRNA 数据和 miRNA 数据为例，结合预后数据对上述两种数据的分析进行筛选，选择有统计学意义（p<0.05）的分子纳入进行聚类分析，所用的算法有两种，分别是高分论文中常见的 Consensus Cluster（共识聚类和层次聚类的结合）和 SNF-CC （样本相似性网络融合和共识聚类的结合）。数据处理同样我们先对读取数据进行处理，这里分别读取 mRNA 表达数据、miRNA 表达数据和临床预后数据，样本顺序需要保持一致： # 读取输入数据 rm(list = ls())feng_mRNA <- read.table("mRNA.txt", header = T, row.names = 1, sep = "\t", check.names = F)dim(feng_mRNA)## [1] 110 208feng_mRNA[1:3, 1:3]## TCGA-EE-A29C TCGA-EE-A29D TCGA-EE-A29E## AACS 1.466886 1.09440680 1.4429054## ABCC9 1.335074 -0.30615893 -0.7257416## AC000068.5 -4.024281 -0.05549948 -0.2322607 feng_miRNA <- read.table("miRNA.txt", header = T, row.names = 1, sep = "\t", check.names = F)dim(feng_miRNA)## [1] 50 208feng_miRNA[1:3, 1:3]## TCGA-EE-A29C TCGA-EE-A29D TCGA-EE-A29E## hsa-mir-140 -0.2077052 -1.820723 -0.6128286## hsa-mir-6501 -0.1076748 -1.222510 1.1499973## hsa-mir-320c-1 -1.6874758 1.008698 0.6884818# 读取临床信息 clinical <- read.table("survival.txt", header = T, row.names = 1, sep = "\t", check.names = F)dim(clinical)## [1] 208 2clinical[1:3, 1:2]## futime fustat## TCGA-EE-A29C 2402 1## TCGA-EE-A29D 425 1## TCGA-EE-A29E 1940 0 1 共识聚类和层次聚类的结合联合多种组学数据进行聚类分析有一个专门的 R 包——CancerSubtypes,听名字就知道这是一个专门用来进行分子分型的 R 包，这个 R 包内置了多种算法，并且允许输入多种组学数据，同时也可以自己设置分类数目，并且可以输入聚类图、生存曲线图、柱 13 状图等等图形，在进行聚类分析之前，我们先对输入文件的分子进行单因素 cox 分析，筛选预后相关的分子，然后再对预后相关的分子进行分子分型： # 安装 R 包# if (!requireNamespace("BiocManager", quietly = TRUE))# install.packages("BiocManager")# BiocManager::install("CancerSubtypes", version = "3.8")library(stringr)library(CancerSubtypes) # 将多组学数据转化为 matrixfeng_mRNA <- as.matrix(feng_mRNA)feng_miRNA <as.matrix(feng_miRNA) # 提取预后数据并转为数值型数据 time <- as.numeric(clinical$futime)status <as.numeric(clinical$fustat) # 通过单因素 cox 分析筛选与生存有关的变量 feng_mRNA_1 <FSbyCox(feng_mRNA,time,status,cutoff=0.05)head(feng_mRNA_1)## TCGA-EE-A29C TCGA-EE-A29D TCGA-EE-A29E TCGA-EE-A29G TCGA-EE-A29H## AACS 1.4668856 1.09440680 1.4429054 3.81449474 0.7244045## AC000068.5 -4.0242808 -0.05549948 -0.2322607 0.09395026 0.4682728## ADCYAP1R1 1.5042208 -0.34880485 -1.4297321 1.27292403 0.3197311## AEN 1.8920698 0.99483688 -0.1633129 -2.24824275 1.1652219## AHCY 0.9471709 -0.25826976 1.3093170 -1.15988386 -0.2344228## ALG9 1.0732856 0.09332898 0.9864030 0.60176076 -1.0161857## AC000068.5 -1.16206446 -0.83052259 -0.02954254 0.4587865 0.26982084## ADCYAP1R1 -0.48819925 -0.36269252 -0.69676842 -1.7033973 -0.70887198## AEN -0.09370338 -0.05529836 1.04563126 2.0979534 -0.74635223## AHCY 1.26663063 0.14866871 1.51950756 1.0609323 -1.09843713## ALG9 -0.64215674 -0.55737227 0.43454023 2.3730109 0.39268892## TCGA-Z2-A8RT TCGA-Z2-AA3S TCGA-Z2-AA3V## AACS 0.4515478 -0.6520251 0.7511143## AC000068.5 0.9138454 -1.5999277 -2.6565365## ADCYAP1R1 -0.3489888 0.3658171 0.5891909## AEN -2.1394648 0.6924972 1.7239421## AHCY -0.3933362 0.4666795 0.2020553## ALG9 0.1655339 2.1185737 -1.2014688dim(feng_mRNA_1) # 预后相关 mRNA 矩阵## [1] 58 208 feng_miRNA_1 <FSbyCox(feng_miRNA,time,status,cutoff=0.05)head(feng_miRNA_1)## TCGA-EE-A29C TCGA-EE-A29D TCGA-EE-A29E TCGA-EE-A29G TCGA-EE-A29H## hsa-mir-140 -0.2077052 -1.8207228 -0.6128286 -0.72715340 -0.23733172## hsa-mir-29c -0.3060311 0.6886091 -1.1958765 -0.43787853 -0.76284173## hsa-mir-3615 -1.1811729 2.5013622 -0.3787177 -0.18641524 0.11262520## hsa-mir-342 0.3266871 0.2512507 -2.3404871 -0.08497941 -0.57767513## hsa-mir-150 0.3948697 -0.7893406 -1.6516306 -0.00912708 0.06285036## hsa-mir-6715a -1.4300915 -0.2108727 -1.4300915 0.01182342 0.14626088## TCGA-EE-A29L TCGA-EE-A29M TCGA-EE-A29N TCGA-EE-A29P TCGA-EE-A29Q## hsa-mir-140 0.09755653 -0.4012395 -1.1014861 -1.4545895 0.35182982## hsa-mir-29c -1.50669180 14 -0.3747896 1.2331096 -0.6983878 -0.62047055## hsa-mir-3615 0.87996183 0.7572464 0.1790880 0.5933491 0.50246263## hsa-mir-342 -2.1955683 -0.8463859 -0.3670937 -1.3057328 -0.4374958## hsa-mir-150 -1.6870735 -0.8004644 0.1981141 -0.6303854 0.4926376## hsa-mir-6715a 0.4087208 -0.7819786 1.0311021 -0.3264904 -0.4989945## TCGA-GN-A4U7 TCGA-GN-A4U8 TCGA-GN-A4U9 TCGA-GN-A8LK TCGA-GN-A8LL## hsa-mir-140 0.1264486 0.3575642 0.04938648 0.5110366 0.3982933## hsa-mir-29c -0.5115752 0.6207672 -0.74725730 -0.7413471 -1.0342885## hsa-mir-3615 -0.1107457 -0.8100202 -0.05717685 -1.6027796 -0.7239730## hsa-mir-342 -0.6084463 0.8537676 1.04082144 -1.4733982 0.5491078## hsa-mir-150 -0.8621921 0.9759203 -0.54453511 -1.9705866 -1.4052064## hsa-mir-6715a 1.1590540 -0.2220695 -1.43009153 1.4062901 2.8071632## TCGA-GN-A9SD TCGA-LH-A9QB TCGA-OD-A75X TCGA-QB-A6FS TCGA-QB-AA9O## hsa-mir-140 -0.1627846 2.0326293 -0.3213311 -0.4639647 -1.085978296## hsa-mir-29c 0.6297534 -0.1876349 -1.1310561 -1.2804463 -0.618297701## hsa-mir-3615 0.7508907 3.4250712 0.8917478 -1.6341735 -0.810048696## hsa-mir-342 1.2044722 -0.5564898 -0.8469227 1.0796945 0.006063361## hsa-mir-150 1.6244359 -0.3588959 -0.8994351 0.9273331 0.005589674## hsa-mir-6715a 0.8715719 -1.4300915 -0.3152921 0.4024280 -0.465558238## TCGA-RP-A690 TCGA-RP-A693 TCGA-RP-A694 TCGA-W3-A824 TCGA-W3-A825## hsa-mir-140 3.04077333 -0.024647311 -0.42729111 -0.8584655 -0.001319206## hsa-mir-29c 0.03350409 0.005983904 -0.09795682 -0.7038038 -0.424495873## hsa-mir-3615 -0.40482638 -0.698881174 -0.91143669 0.6803995 -0.225036428## hsa-mir-342 0.06728260 1.426602997 1.70095371 0.6615799 0.139623050## hsa-mir-150 -0.49461830 0.106000471 -0.08050157 0.3363975 0.065289692## hsa-mir-6715a 1.08305870 -0.597943618 -0.80955121 -0.5720382 0.455363229## TCGA-W3-A828 TCGA-W3-AA1O TCGA-W3-AA1Q TCGA-W3-AA1R TCGA-W3-AA1V## hsa-mir-140 1.15271429 -0.775830477 0.63841948 -0.92029580 1.0108726## hsa-mir-29c -0.04006374 -0.436159935 0.09398823 0.02933264 -1.0658215## hsa-mir-3615 -2.65102753 1.027526381 -0.64889569 -0.77798941 0.5179123## hsa-mir-342 0.42387614 -0.285329320 0.18156686 0.01951699 -0.7402158## hsa-mir-150 -0.18125457 0.009359856 0.64680582 0.18736026 -0.6888952## hsa-mir-6715a -1.43009153 -0.363195196 -0.18377747 0.01531002 -0.8672379## TCGA-W3-AA1W TCGA-W3-AA21 TCGA-WE-A8K1 TCGA-WE-A8K5 TCGA-WE-A8K6## hsa-mir-140 0.004245305 0.8758883 -0.2480779 -0.69594648 0.5058502## hsa-mir-29c 1.228820947 -0.3953445 0.2987257 -1.55231201 0.9218683## hsa-mir-3615 0.754882764 0.5124453 0.2917846 -0.02029873 -0.1248402## hsa-mir-342 1.633174183 15 -0.2803311 0.7375962 -0.43718896 0.1411473## hsa-mir-150 1.312661577 0.1342371 0.8905994 0.18944587 -1.3466881## hsa-mir-6715a -0.855274127 0.3804002 -0.7140988 0.29732621 -0.1263051## TCGA-WE-A8ZM TCGA-WE-A8ZT TCGA-WE-A8ZY TCGA-WE-AA9Y TCGA-WE-AAA0## hsa-mir-140 4.1910133 1.8605198 0.3152588 1.1724176 0.2957501## hsa-mir-29c 0.4180620 -0.6780236 -0.9901888 0.2178403 0.2482231## hsa-mir-3615 -0.3932321 0.4734871 -0.9240524 -0.1905569 0.6322070## hsa-mir-342 -0.4537503 -0.7781260 -1.0766778 0.9910582 0.6594354## hsa-mir-150 -1.6488570 0.5330026 -0.3488405 0.6182259 1.2462586## hsa-mir-6715a 0.8721599 -0.4178828 0.7091166 -1.4300915 -0.1457442## TCGA-WE-AAA3 TCGA-WE-AAA4 TCGA-XV-AB01 TCGA-YD-A89C TCGA-YD-A9TA## hsa-mir-140 -0.64952831 -0.44429921 -0.24989871 0.6197881 -0.8516525## hsa-mir-29c -0.47689725 -0.26154911 0.02368495 -2.6673506 -0.3786012## hsa-mir-3615 0.13322659 0.78024160 -2.68799359 0.5214133 -0.8439531## hsa-mir-342 0.12646119 0.80249415 -1.47154679 -0.9195341 0.2323464## hsa-mir-150 0.22422716 0.60700834 -0.27933165 -1.4884894 -0.1460285## hsa-mir-6715a 0.09153248 -0.07661256 -0.55110128 1.3838606 -1.4300915## TCGA-Z2-A8RT TCGA-Z2-AA3S TCGA-Z2-AA3V## hsa-mir-140 -0.9894110 0.07225548 -0.7313071## hsa-mir-29c 0.9240470 -0.82913918 0.7250476## hsa-mir-3615 0.1302950 -0.00081556 -1.1466755## hsa-mir-342 -0.2402631 -0.92905475 0.5239246## hsa-mir-150 0.6511516 -0.11056251 0.8675116## hsa-mir-6715a 0.7442022 1.23585850 0.3801821dim(feng_miRNA_1) # 预后相关 miRNA 矩阵## [1] 29 208 接下来我们先看看 Consensus Cluster 算法的应用，这里使用 ExecuteCC： # cancersubtype 支持将多组学数据合并为一个 list 再进行聚类 TCGA_target <list(Omics1 = feng_mRNA_1, Omics2 = feng_miRNA_1) # 进行 Consensus Cluster 聚类 CC <- ExecuteCC(TCGA_target, clusterNum=2, maxK = 10, clusterAlg = "hc", distance = "pearson", title = "Molecular_Subtype_CC", reps = 500, pItem = 0.8, pFeature = 1, plot = "png", innerLinkage = "average", finalLinkage = "average", verbose = FALSE, corUse = "everything")# 提取聚类结果的样本分类 CC_group <- CC$group# 提取聚类结果矩阵 CC_distanceMatrix <- CC$distanceMatrix# 提取原始结果 CC_originalResult <- CC$originalResult# 进行生存分析并绘图 Survival_Analysis <- survAnalysis(mainTitle="Survival Analysis", time, status, CC_group, CC_distanceMatrix, similarity=TRUE)## ## *****************************************************## Survival Analysis 16 Cluster= 2 Call:## survdiff(formula = Surv(time, status) ~ group)## ## N Observed Expected (O-E)^2/E (O-E)^2/V## group=1 114 76 56.3 6.87 13.2## group=2 94 48 67.7 5.72 13.2## ## Chisq= 13.2 on 1 degrees of freedom, p= 3e-04   Survival_Analysis # 生存分析 P 值，发现两组分型之间存在显著预后差异## [1] 0.0002872837 简单明了直接，一次性解决分子分型并绘制生存曲线绘制分型的差异性，不用再自己单独写代码合并数据和分型结果，并且这种分型是综合了多个组学数据的结果，比单 17 个组学结果更加准确明了。接下来我们看第二种聚类方法：样本相似性网络融合和共识聚类的结合 2 样本相似性网络融合和共识聚类的结合样本相似性网络融合 SNF 是以样本相似性算法为基础开发的一种聚类算法，而 CancerSubtypes 提供了一种新的算法，是将 SNF 与前面的 ConsensusCluster 算法联合运用的算法，具体的算法原理我们不做展开，这里主要使用 ExecuteSNF.CC，我们来看一下：  SNFCC <- ExecuteSNF.CC(TCGA_target, K = 20, alpha = 0.5, maxK = 10, pItem = 0.8, title = "ConsensusClusterResult", clusterNum=2, t = 20, reps = 500, plot = "png", finalLinkage = "average") SNFCC_group <- SNFCC$group #得到的类可用作其他亚型表征分析，比如差异表达，GSEA 等等，下同 SNFCC_distanceMatrix <SNFCC$distanceMatrixSNFCC_originalResult <SNFCC$originalResultSurvival_Analysis_p_value <survAnalysis(mainTitle="Survival Analysis", time, status, SNFCC_group, SNFCC_distanceMatrix, similarity=TRUE)## ## *****************************************************## Survival Analysis Cluster= 2 Call:## survdiff(formula = Surv(time, status) ~ group)## ## N Observed Expected (O-E)^2/E (O-E)^2/V## group=1 113 80 55.4 10.97 20.6## group=2 95 44 68.6 8.85 20.6## ## Chisq= 20.6 on 1 degrees of freedom, p= 6e-06 18 Survival_Analysis_p_value # 生存分析 P 值，发现两组分型之间存在显著预后差异## [1] 5.748777e-06 同样我们就得到了 SNF+CC 两种算法联合聚类的分型结果，这个结果看起来比单纯使用 ConsensusCluster 更好一点，后续可以根据分型结果再展开分析。需要注意的是，尽管我们学习了多种组学数据的共同聚类结果，但是我们仍然要对这种做法慎之又慎，首先要考虑的是纳入联合分析的组学数据，如何对数据进行矫正，不同的数据类型有不同的矫正方法；其次，多种组学数据纳入分型的意义是什么，能不能解释清楚相应结果？再者，哪种算法最适合纳入的组学数据，既不会过度拟合，又能够防止拟合结果不好？最后最后最后，聚类结果解读和验证，这是最重要的一点，也是被大部分文章所忽略的一点，如何保证你得到的“类”是“真实的类”并且其稳健又可重复？这就需要结合具体情况再进行分析验证了，不过这是另外一个故事啦。最近在写毕业论文和对一篇文章进行返修，提出意见的几位审稿人专业知识让我叹为观止，整整提了 40 多页 word 文档的问题，从统计到分析细节，简直让我怀疑人生，不过也让我受益匪浅。果然不能总是差不多，不然关键时刻就总是差一点，是时候学习下强迫症，一个标点符号都不要放过了！ 19 让你的 SCI 再提升一个 level ！10 分钟教你彻底搞懂这个多组学百搭分析，零代码教你搞定！小白可视化入门第一弹本期的主题是简单的 GO/KEGG 及 GSEA 富集分析，也能打开多组学大门假如你已经获取了一批样本的影像组学数据，后面对这批患者又做了转录组，或者蛋白组等等，那你如何将这些组学联系起来？那么，最简单的做法，就是在影像组学特征特征筛选出来后，将其按照研究目的分组，再将不同分组的基因组、转录组、蛋白组等，按照癌/癌旁（N/T）＞1.2 或 1.5 卡差异分子，随后就可以做个 GO 和 KEGG 分析，或者做个简单的 GSEA，看看这些不同分组的分子信息分别富集在哪些通路，然后再找些 biomarker 免疫组化或者 WB 简单验证，思路有了，动起来。那我们就一起唠唠如何更通俗的理解 GO/KEGG 及 GSEA 富集分析,如何让小白医生迅速上手分析和作图：简介富 GO（Gene Ontology，基因本体）数据库：把基因的功能分成了三类：生物过程（biological process, BP）、细胞组分（cellular component, CC）、分子功能（molecular function, MF）。利用 GO 数据库，可以得到目标基因在 CC, MF 和 BP 三个层面上有什么关联。 KEGG 数据库：一种通路数据库，收集了很多通路相关的数据库。通路数据库还包括 wikipathway，reactome 等。基因集富集分析（Gene Set Enrichment Analysis，GSEA）：用一个预先定义的基因集中的基因来评估在与表型相关度排序的基因表中的分布趋势，从而判断其对表型的贡献。这个与表型相关度排序可以是 logFC 值。 GSEA 应用场景：手上有大部分的功能分子以及对应的值，这个值可以是 logFC。可以用这个 logFC 作为分子的排序，从而来评估在预先定义的基因集中是否显著富集。预 20 先定义的基因集来自 MSigDB 数据库（https://www.gsea-msigdb.org/gsea/msigdb/index.jsp），这些预先定义的基因集中的分子基本为功能基因为主，如果手上只有非功能基因（比如 miRNA、 lncRNA、 circRNA），那么将由于缺少基因集而无法进行 GSEA 分析。）为了方便，排除非功能基因干扰，举个在线发表的蛋白组数据集做 GO、KEGG、GSEA 的例子，文章截图：该文的蛋白质组数据集编号：编号：PXD021701；如果使用该数据集发文章记得引用原文哦。该数据集下载好后，用该数据集的蛋白组学数据与 uniport 的细胞外基质的主题蛋白，进行取交集，然后用 P≤0.05，FC 大于 2 或小于 0.5 筛选，得到 84 个差异蛋白。 21 得到该 84 个分子的列表，先来做 GOKEGG，可以分开上下调分别做 GOKEGG，也可以合并在一起做，那合并一起方便展示哦。 22 GO/KEGG 分子列表登陆仙桃 https://www.xiantao.love 打开如下页面，下载示例数据，将格式转化成示例数据，点上传，设置好参数后点确认： 23 按提示输入项目名称，点保存结果：接下来点击 GOKEGG 可视化，找到刚刚保存的项目，设置好参数，点确认： 24 一路设置好，确认好就出图喽，这里有柱状图和气泡图供选择，主要结果格式为图片格式，提供 PDF、300 分辨率和 600 分辨率 TIFF 格式、PPT 格式下载，结果包括可以下载包括 pdf 以及说明文本的内容。我们先来看看气泡图的展示结果： 25 26 27 这张好看的气泡图怎么看呢？气泡的大小与对应结果记录中 Count 的数目一致，为输入的分子与对应 ID 条目内分子的交集总数 28 气泡颜色的深浅与对应结果记录中 p.adj 一致，为统计检验校正后 p 值的大小倒置后的横坐标为分子比例，与对应结果记录中的 GeneRatio 数据一致。可在方法中选择是否分面。那还有一种柱状图也很常用，如下图：不同颜色代表不同类目，柱子的高低表征 p.adj 的大小，越高说明该 ID 的可靠性越高。右侧的图片为分面的结果（可以在方法内选择是否分面。） 29 30 图的下方就可以下载分析结果的表格哦，是不是超级方便？觉得这些图不够惊艳的话，可以尝试最近仙桃新鲜出炉的 GOKEGG 联合可视化功能，来瞧瞧？富集分析联合 logFC：就是在富集分析的基础上，利用提供的分子的 logFC，计算每个条目对应的 zscore，初步判断对应的条目是正调节（zscore 为正）还是负调节（zscore 为负）。zscore 计算方法见下：其中，这里的 Up Down 代表对应条目分子的 logFC 为正以及为负分别对应数值，Counts 代表条目对应的分子总数（GOplot 包提供的方法）（注意：相对于 GOKEGG 富集分析模块，这个模块只是在同样的富集方法的基础上，另外再计算了每个条目对应的 zscore 值）联合 FC 的 GO、KEGG 需要上传的数据自然就是 logFC 值加基因列表，设置好参数保存结果，和上面演示类似，就不赘述哦。查看表格就会发现在最后多了一行 Z-score 值。 31 将保存的结果分别进行各种炫酷的可视化：图解：x 轴为输入的条目 ID 号，柱子的柱子的高低表征 p.adj 的大小，越高说明该 ID 的 p.adjust 越小，富集越可靠。每根柱子填充的不同颜色代表条目对应的 zscore 值 zscore 的计算方法来自 GOplot 包，其中，这里的 Up Down 代表对应条目分子的 logFC 为正以及为负分别对应数量，Counts 代表条目对应的分子总数如果 zscore 为正，说明对应的条目可能是正调节，如果为负，对应条目可能是负调节；绝对值越大，说明高表达分子和低表达分子的数量差相对比较大，说明调节程度可能更高。 32 注意，zscore 仅仅只能作为一种可能性参考，因为计算的方法中，是没有考虑条目内的分子对这个条目是正调节还是负调节（GOKEGG 库里面也并没有记录每个条目每个分子是对这个条目是正还是负调节的数据信息，这个是没有办法合并进去计算的）图解：图中展示的是富集得到的所有的结果。不同的颜色代表不同的类别。 y 值为 p.adj 的大小，越高说明该 ID 的 p.adjust 越小，富集越可靠。 x 值代表条目对应的 zscore 值 33 图解：图可以分为内圈和外圈两个部分，内圈的每个柱子对应一个条目，高度为 p.adj 的相对大小，越高说明该 ID 的 p.adjust 越小。柱子对应填充的颜色代表条目对应的 zscore 值。 34 图解：图可以分成左右两个部分：左半边的部分为基因色块，色块的不同颜色代表对应的 logFC 值，每个分子对应的色块的大小是一样的。右半边部分为条目色块，色块的大小代表对应的 Counts（也就是本次富集分析中这个条目中含有的分子数）左半边和右半边色块之间的连线（弦线）代表条目中含有的分子情况，有连线就代表这个条目含有对应的分子。 35 这个图的作用除了展示条目的情况外，还会同时展示条目含有的分子以及对应的 logFC 情况第一部分到这里吧，感兴趣的记得登陆仙桃尝鲜。接下来准备做 GSEA 的数据数据需要提供 2 列：第一列除了列名外，下面的可以是分子名、Ensembl 编号、Entrez ID 第二列为分子对应的数值，这个可以是 logFC 值。注意：这里的数据不需要对分子过滤，分子越多越好。如果过滤了分子，则可能会富集不到结果。 GSEA 一般要求是输入所有的分子和对应的值，因为 GSEA 会对所有分子进行排序，输入分子越少则对结果可能影响较大，甚至可能富集不到结果，参考基因集中的分子中越多分子没有给定值，则该参考基因集富集不出来的概率更高。按照仙桃示例数据将 log2FC 数据排序好，表头统一用 id 和 value，可以把 log2FC 写在备注，防止忘记。 36 上传数据的过程差不多，这里需要注意，少于 200 个分子，系统可能不识别哦，所以我们用 value 卡 1.5 倍 FC 来看看如何用仙桃实现 GSEA。 37 数据上传好后点击确认，稍等片刻，然后去历史看结果：按需要下载结果，如下图所示： 38 ID：基因集的名字，以下划线作为分隔，最前面代表来自哪个数据库，比如 KEGG_xxxxx，就说明来自 KEGG 的基因集。 Description：基因集的名字 setSize：基因集中定义的分子数量 enrichmentScore：富集得分。ES 反应基因集中的基因（S）在排序列表基因（L）的两端富集的程度。计算方式是，从基因集 L 的第一个基因开始，计算一个累计统计值。当遇到一个落在 D 里面的基因，则增加统计值。遇到一个不在 S 里面的基因，则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度（更严格的是与基因和表型的关联度，可能是 fold-change，也可能是 pearson corelation 值）是相关的（可以是线性相关，也可以是指数相关）。富集得分 ES 最后定义为最大的峰值。正值 ES 表示基因集在列表的顶部富集，负值 ES 表示基因集在列表的底部富集。 NES（normalize enrichment score）：校正后归一化的富集得分。富集评分的标准化考虑了基因集个数和大小。 pvalue: 统计检验的 p 值，也称为 NOM p-val。通过基于表型而不改变基因之间关系的排列检验 (permutation test)计算观察到的富集得分(ES)出现的可能性。若样品量少，也可基于基因集做排列检验 (permutation test)，计算 p-value 生信工具-功能聚类-GSEA 分析 p.adjust: 通过 p 值校正方法得到的校正后的 p 值 qvalue: 通过 p 值校正方法得到的校正后的 q 值，也称为 FDR。 rank：当 ES 值最大时，对应基因在排序好的基因列表 L 中的位置 Leading-edge subset：对富集得分贡献最大的基因成员，即核心基因集，也是对 ES 影响较大的基因；该处有 3 个统计值，tags 表示核心基因集占该基因集 S 中基因总数的百分比；list 表示核心基因集占基因列表 L 中基因总数的百分比；signal，将前两项统计数据结合在一起计算出的富集信号强度。 core_enrichment: 核心富集的分子，即对应的基因集中核心的分子。这里得到的表格即说明（假设是由两组分析后得到的 logFC 作为分子的值）对应的基因集在两组内有差异，当 ES 或者 NES 为正时，说明该基因集在高表达组（头部）富集，；当 ES 或者 NES 为负时，说明该基因集在低表达组（尾部）富集。结果这里一般只需要关注满足阈值（p.adj<0.05 & qvalue<0.25）的基因集的名字（最前面是对应的数据库或者分类）。可以挑选在满足阈值下的 NES top 的分子进行下一步研究。 39 进一步进行 GSEA 可视化吧；在可视化界面看到刚刚保存的分析结果，选择数据集，设置好参数后点击确认，得到结果如下：结果解读典型结果图由上、中、下三个部分组成：上：为富集评分的情况，如果 NES 为正，则峰出现在左侧（头部富集）（高表达组富集）基因集中核心分子主要集中在左侧高表达组中；如果 NES 为负（如上图），则尾部会出现谷（尾部富集）（低表达组富集），基因集中核心分子主要集中在右侧低表达组中。中：每一根竖线代表基因集中一个分子，上传数据的分子根据给定的值进行排序，排序后单独提取当前基因集中的定义的分子，分子的位置情况即为中间部分的所示。下：把上传数据分子给定的值进行归一化后的值进行可视化。下部分的结果可以不用怎么关注。 40 41 还可以探索 GSEA 山峦图哦 42 图解： y 轴代表 1 个个基因集，x 轴为每个基因集中核心分子对应的 logFC 分布情况。每个基因集都对应有一个山峰，山峰的形状代表该基因集中核心分子的 logFC 的分布情况，其中峰高对应的位置，代表该组大部分分子的 logFC 集中在这个位置图中每个山峰下面还有一根根小的竖线，每根竖线代表该组的核心分子，线越集中的位置，说明该组数据在这个区间越集中，对应的是山峰的峰值如果对应的基因集 NES 为负，则一般该基因集的峰会在 0 的左侧；如果对应的基因集 NES 为正，则一般该基因集的峰会再 0 的右侧感觉可以一元公交搭上多组学的车了呢，期待以后有具体文献案例可以拆解哦，回见。 43 好东西啊！审稿人直呼内行！多组学，多平台分析终极解决方案！不学你就 out 了！探索生信之美，解构每一段代码的故事大家好呀，上一周我们一起学习的 mixOmics 的多组学监督聚类分析以及特征筛选。这一周我们继续来学习一些多组学相关知识。首先我们先思考一下多组学分析的意义在哪儿？首先由于技术手段的不断革新，技术瓶颈被打破、技术门槛不断降低，同一个样本既可以送去做转录组测序、蛋白组学分析、脂质组学分析、甲基化、拷贝数分析等等，明确不同数据集之间的通路的相关性、分子的特征能够提升对疾病的诊断、治疗的认知，目前研究方法主要集中在利用多组学数据进行聚类分析以及特征筛选方面，这也确实是多组学整合需要面临的挑战。但是今天呢，跟大家介绍的是如何利用多组学数据（或者是多平台数据）对样本进行 gene set analysis，之前我们还介绍过如何利用甲基化数据进行 gene set analsis，忘了吗？这时候也可串联起来复习一下喔（甲基化最常用的分析！没有之一！）。本次我们介绍的 R 包是 MOGSA，参考文献“MOGSA: Integrative Single Sample Gene-set Analysis of Multiple Omics Data.”于 2020 年发表在《molecular cellular proteomics》杂志上，是在生化研究方法领域中比较权威的杂志。 44 MOGSA 提供了了基于多组学数据的 Gene set analysis。其算法通过三个步骤进行计算： 1.通过 multiple factorial analysis（MFA）等降维方式将将多组学数据整合（ MFA 能够将每个数据集的观测与变量（基因）映射为更低维的数据，生成样本分数（比如 PCs））； 45 2.将基因集注释的注释映射到同样低维的数据，并计算每个样本的基因集分数（gene set score,GSS)； 3.MOGSA 生成 GSS 矩阵，通过构建样本分数（PCs）与基因集分数（gene set score)。最后的分析中，获得高的 GSS 的基因集提示该基因集在多个数据集中具有高相关性，举个例子，如果一个基因集具有高的 GSS，情况可能是基因集中的一些基因的转录水平高表达，另外一些基因的蛋白水平高表达，还有一些基因的拷贝数明显扩增，从而具有较高的 GSS。我们就直接开始吧~ 一、包和数据准备 # #下载包 if (!requireNamespace('BiocManager', quietly = TRUE))# install.packages('BiocManager') BiocManager::install('mogsa') 加载包 library(mogsa)library(gplots) #用于热图可视化数据准备，我们这里使用的数据是，NCI-60（即美国国立癌症研究规定抗癌新药必须筛查的 60 中不同肿瘤的癌细胞细胞）在不同平台的芯片数据。其中 NCI60_4array 是一个由数据框（dataframe）组成的列表（list），每个数据框中，列是 60 种不同的癌细胞，行则是基因名，在这里只提取一部分子集进行计算。NCI60_4array_supdata 是一个由矩阵（matrix）构成的列表，代表了基因注释文件，在每一个 matrix 中，行是基因，列是基因集。数值 1 代表该基因在基因集内，0 代表不在基因集内。这两个文献是进行多组学分析的必备文件。我们在运行之前必须保证两个文件的下不同类型的数据集排序相同，基因名的顺序相同。 46  # 加载数据 data(NCI60_4array_supdata)data(NCI60_4arrays)# 查看数据的维度 sapply(NCI60_4arrays, dim)## agilent hgu133 hgu133p2 hgu95## [1,] 300 298 268 288## [2,] 60 60 60 60sapply(NCI60_4array_supdata, dim)## agilent hgu133 hgu133p2 hgu95## [1,] 300 298 268 288## [2,] 150 150 150 150# 查看我们的不同平台顺序是否在同一顺序 identical(names(NCI60_4arrays), names(NCI60_4array_supdata))## [1] TRUEhead(rownames(NCI60_4arrays$agilent))## [1] "ST8SIA1" "YWHAQ" "EPHA4" "GTPBP5" "PVR" "ATP6V1H"# 查看两个列表基因名是否在同一顺序 dataColNames <- lapply(NCI60_4arrays, colnames)supColNames <lapply(NCI60_4arrays, colnames)identical(dataColNames, supColNames)## [1] TRUE 二、MOGSA 分析 MOGSA 分析很简单，只需要运行一个命令，但是在这之前我们需要根据不同肿瘤将细胞系进行分类，并对每个肿瘤类型进行颜色赋值。 # NCI-60 的细胞系分为不同的肿瘤类型 cancerType <as.factor(substr(colnames(NCI60_4arrays$agilent), 1, 2))# 定义不同肿瘤类型的颜色 colcode <- cancerTypelevels(colcode) <- c("black", "red", "green", "blue", "cyan", "brown", "pink", "gray", "orange")colcode <as.character(colcode) 接下来一行命令搞定。 mgsa1 <- mogsa(x = NCI60_4arrays, sup = NCI60_4array_supdata, nf = 3, proc.row = "center_ssq1", w.data = "inertia", statis = TRUE) 其中 pro.row 代表对行的预处理，w.data 提示对数据集的权重调整，statis 使用那种方法进行降维，一种是 STATIS,另一种就是 MFA（statis=FALS）,nf 则是代表我们选择前多少个 PC 进行分析。但这里有一个问题就是由于需要纳入多少 PC 并不是一下就能敲定的，所以一般来说我们做 MOGSA 一般要分为两步。 47 # 第一步、moa 功能进行多因素分析，绘制碎石图，明确需要纳入多少 PCsana <moa(NCI60_4arrays, proc.row = "center_ssq1", w.data = "inertia", statis = TRUE)slot(ana, "partial.eig")[, 1:6]## PC1 PC2 PC3 PC4 PC5## agilent 0.0005406833 0.0004119778 0.0002410063 0.0004038087 0.0001317894## hgu133 0.0007410830 0.0005850680 0.0003507538 0.0001448788 0.0001685482## hgu133p2 0.0007716595 0.0005146566 0.0003742008 0.0001281515 0.0001487516## hgu95 0.0008042677 0.0006210049 0.0003942394 0.0001506287 0.0001752495## PC6## agilent 0.0001783712## hgu133 0.0001042850## hgu133p2 0.0001203610## hgu95 0.0001102364layout(matrix(1:2, 1, 2))plot(ana, value = "eig", type = 2, n = 20, main = "variance of PCs") # use '?'moa-class'' to check the help manuplot(ana, value = "tau", type = 2, n = 20, main = "Scaled variance of PCs") # 第二步、根据碎石图的结果选自 PC 数 mgsa2 <- mogsa(x = ana, sup = NCI60_4array_supdata, nf = 3)## x is an object of "moa", statis is not used 三、结果分析使用 getmgsa 功能能够提取 mogsa 中的数据，我们可以详细看一下。 # 每个 PC 解释的 variance，多维度的碎石图 eigs <- getmgsa(mgsa1, "partial.eig")barplot(as.matrix(eigs), legend.text = rownames(eigs)) 48 # 获得样本<U+2716>gene set score(GSS)矩阵 scores <- getmgsa(mgsa1, "score")# 展示不同细胞的 gene set analysis 结果 heatmap.2(scores, trace = "n", scale = "r", Colv = NULL, dendrogram = "row", margins = c(6, 10), ColSideColors = colcode) 49 # 还可以获得 mgsa 的 P value 结果，明确哪些富集是具有统计学意义的 p.mat <getmgsa(mgsa1, "p.val") # 获得 P value 矩阵# 挑选前 20 个最具有显著性的基因集 top.gs <- sort(rowSums(p.mat < 0.01), decreasing = TRUE)[1:20]# 看一下名字 top.gs.name <- names(top.gs)top.gs.name## [1] "PASINI_SUZ12_TARGETS_DN" ## [2] "CHARAFE_BREAST_CANCER_LUMINAL_VS_BASAL_DN" ## [3] "CHARAFE_BREAST_CANCER_LUMINAL_VS_MESENCHYMAL_DN"## [4] "KOINUMA_TARGETS_OF_SMAD2_OR_SMAD3" ## [5] "DUTERTRE_ESTRADIOL_RESPONSE_24HR_DN" ## [6] "REN_ALVEOLAR_RHABDOMYOSARCOMA_DN" ## [7] "LIM_MAMMARY_STEM_CELL_UP" ## [8] "LIU_PROSTATE_CANCER_DN" ## [9] "CHICAS_RB1_TARGETS_CONFLUENT" ## [10] "NUYTTEN_EZH2_TARGETS_UP" ## [11] "DACOSTA_UV_RESPONSE_VIA_ERCC3_DN" ## [12] "PUJANA_ATM_PCC_NETWORK" ## [13] "KRIGE_RESPONSE_TO_TOSEDOSTAT_24HR_DN" ## [14] "WONG_ADULT_TISSUE_STEM_MODULE" ## [15] "KRIEG_HYPOXIA_NOT_VIA_KDM3A" ## [16] "MULTICELLULAR_ORGANISMAL_DEVELOPMENT" ## [17] "ANATOMICAL_STRUCTURE_DEVELOPMENT" ## [18] "FORTSCHEGGER_PHF8_TARGETS_DN" ## [19] "ZWANG_CLASS_1_TRANSIENTLY_INDUCED_BY_EGF" ## [20] "PLASMA_MEMBRANE_PART"# 绘制这 20 个基因集的热图 heatmap.2(scores[top.gs.name, ], trace = "n", scale = "r", Colv = NULL, dendrogram = "row", margins = c(6, 10), ColSideColors = colcode) 50 我们可以看到白血病的基因富集结果和其他肿瘤明显不同。同时我们能够对一个基因集进行更详细的分析，比如那个数据集对该基因集得分最大？在这个基因集中哪些基因更重要？我们选择最具有显著性意义的基因集 “PASINI_SUZ12_TARGETS_DN”为例。 # 获得显著基因集 gs1 <- top.gs.name[1]gs1## [1] "PASINI_SUZ12_TARGETS_DN"# 根据不同数据集分解在不同肿瘤细胞系中的基因集得分 decompose.gs.group(mgsa1, gs1, group = cancerType) 51 # 筛选出基因几种最重要的基因 gis1 <- GIS(mgsa1, gs1, barcol = gray.colors(4)) 52 head(gis1)## feature GIS data## 1 LIMD2 1.007091 hgu133## 2 ZNF266 1.006706 hgu133## 3 LIMD2 1.006476 hgu95## 4 GNG2 1.006327 agilent## 5 SP5 1.006035 hgu95## 6 SP5 1.005954 hgu133 其中 GIS 得分越高代表该基因在基因基因集中具有重要意义。同样我们还可以根据降维之后的映射结果绘制二维散点图。 # 获取 PC 值 fs <- getmgsa(mgsa1, "fac.scr")# 绘制样本降维的后的散点图 layout(matrix(1:2, 1, 2))plot(fs[, 1:2], pch = 20, col = colcode, axes = FALSE)abline(v = 0, h = 0)legend("topright", col = unique(colcode), pch = 20, legend = unique(cancerType), bty = "n")# 绘制 gene set 降维后的散点图 plotGS(mgsa1, label.cex = 0.8, center.only = TRUE, topN = 0, label = gs1) 四、如何制作属于自己得 Gene set 注释文件在最开始的 MOGSA 分析中，我们需要两个文件，一个是多组学的基因表达文件，另外一个是基因集注释文件。前一个文件很好构建，那对于后面这个呢？这里 MOGSA 给出了两种方法构建基因注释文件。我们一起来学习下。 53 # 第一种适用于 GO/KEGG 数据 library(graphite)keggdb <- prepGraphite(db = pathways("hsapiens", "kegg")[1:50], id = "symbol")## converting identifiers!## converting identifiers done!keggdb <- lapply(keggdb, function(x) sub("SYMBOL:", "", x))keggdb[1:2]## $`Glycolysis / Gluconeogenesis`## [1] "AKR1A1" "ADH1A" "ADH1B" "ADH1C" "ADH4" "ADH5" "ADH6" ## [8] "GALM" "ADH7" "LDHAL6A" "DLAT" "DLD" "ENO1" "ENO2" ## [15] "ENO3" "ALDH2" "ALDH3A1" "ALDH1B1" "FBP1" "ALDH3B1" "ALDH3B2"## [22] "ALDH9A1" "ALDH3A2" "ALDOA" "ALDOB" "ALDOC" "G6PC" "GAPDH" ## [29] "GAPDHS" "GCK" "GPI" "HK1" "HK2" "HK3" "ENO4" ## [36] "LDHA" "LDHB" "LDHC" "PGAM4" "ALDH7A1" "PCK1" "PCK2" ## [43] "PDHA1" "PDHA2" "PDHB" "PFKL" "PFKM" "PFKP" "PGAM1" ## [50] "PGAM2" "PGK1" "PGK2" "PGM1" "PKLR" "PKM" "PGM2" ## [57] "ACSS2" "G6PC2" "BPGM" "TPI1" "HKDC1" "ADPGK" "ACSS1" ## [64] "FBP2" "LDHAL6B" "G6PC3" "MINPP1" ## ## $`Citrate cycle (TCA cycle)`## [1] "CS" "DLAT" "DLD" "DLST" "FH" "IDH1" "IDH2" "IDH3A" ## [9] "IDH3B" "IDH3G" "MDH1" "MDH2" "ACLY" "ACO1" "OGDH" "ACO2" ## [17] "PC" "PDHA1" "PDHA2" "PDHB" "OGDHL" "SDHA" "SDHB" "SDHC" ## [25] "SDHD" "SUCLG2" "SUCLG1" "SUCLA2" "PCK1" "PCK2"# 第二种则是适用于 MSigDB 数据库的 gmt 文件 dir <- system.file(package = "mogsa")preGS <prepMsigDB(file = paste(dir, "/extdata/example_msigdb_data.gmt.gz", sep = ""))preGS[1]## $MODULE_1## [1] "CD55" "FILIP1L" "WFS1" "SYNE1" "CNN3" "FBXL7" ## [7] "LMO4" "IGHM" "RRAD" "TNFAIP3" "CFD" "COL1A1" ## [13] "RGS2" "MYL9" "GPC3" "KIAA0430" "PLSCR1" "CD14" ## [19] "EMP2" "TSPAN7" "MDK" "RNASE4" "TGFBR2" "MTUS1" ## [25] "ALDH1A1" "DPYSL3" "FCGRT" "COL6A3" "AMT" "IFI16" ## [31] "SPON1" "AOC3" "EGR3" "PCOLCE" "C10orf10" "KRT19" ## [37] "COL3A1" "GATM" "COL5A2" "CALD1" "ACTN1" "GSTM1" ## [43] "ZYX" "GPNMB" "C1QB" "IGFBP2" "VEGFA" #太长了，删去一部分# 接下来通过 prepSupMosa 功能创建出 gene set annoation 矩阵 sup_data1 <prepSupMoa(NCI60_4arrays, geneSets = keggdb, minMatch = 1)mgsa3 <- mogsa(x = NCI60_4arrays, sup = sup_data1, nf = 3, proc.row = "center_ssq1", w.data = "inertia", statis = TRUE) 延伸一下，这里我们也可以自定义自己感兴趣的基因集进行分析对吧，比如 m6A 相关基因集、铁死亡基因集等等。全文总结 54 好啦，总结一下，今天我们讲解了如何利用 MOGSA 包对多组学（比如蛋白组学+转录组学+拷贝数）或者多平台的数据集进行整合，从而进行 gene setanalysis。这里可以有一个新的思路就是我们可以通过某一个特定数据集出发，比如铁死亡等等，通过多组学整合分析，明确这个基因集在特定肿瘤（乳腺癌）中的基因集得分（GSS），在做聚类分析等等，找出不同的亚型对吧？所以多学习，你的 SCI 就在路上啦~我是风间琉璃，咱们下期见。 55 细胞、动物实验这么少！这个多组学研究凭什么发表在 Cell 子刊上？拥有它，就可占领 CNS 高地！在生命科学领域，每一次新技术的出现都会带来基于一大波基于新技术的高分文章，尤其是最近几年测序技术的发展和成熟，催生了 TCGA 诞生的同时也带来了一波基于多组学结合的文章，这类文章是 CNS 及其顶级子刊的常客。在此之前，解螺旋公众号曾经推送过一篇《用这个思路和技术加持，可以少做实验冲击 Cell》，推送里的论文就是篇很有 taste 的高分蛋白组学文章，今天给大家分享介绍的是 2020 年发表在《Cancer Cell》（IF=26.6）的一篇多组学文章。 56 关于结直肠癌我就不用多介绍啥了，我们直接进入正题，开启学术大餐。正文解读在这项研究中，研究人员共纳入了 76 例非转移结直肠癌样本，70 例转移性结直肠癌样本，对 146 个原发部位的肿瘤、38 个转移部位的肿瘤、128 个白细胞、18 例正常组织进行了全外显子测序(WES)（PS:白细胞和正常组织作为 negative control），对 146 个原发部位肿瘤、145 个癌旁组织、146 个正常样本、43 个转移部位肿瘤进行了蛋白质组和磷酸化组定量（烧钱啊烧钱）。 Result 1 在结果的第一部分，研究人员发现在结直肠癌中，突变频率最高的两个是 APC 和 TP53，这和国外的研究有些类似，其他的一些基因突变频率也都比较高，但突变频率还是有些差异的，看来肿瘤特征具有普遍性的同时也具有特殊性。 57 具体的原因上，作者分析认为这是中国和东亚人群本身的特殊性造成的，例如这项研究中转移性结直肠癌的比例显著不同于西方的两项研究（TCGA 和 MSK），直肠癌的相对比例也比较高，患者年龄和 MSI 构成比也有显著差异。研究人员也比较了转移性结直肠癌（M）和非转移性（noM）的特征，例如两者之间的 TMB 有显著差异，存在一些差异突变的基因，两者之间的克隆组成也有不同。 58 但是在高频的突变基因里只有 SMAD4 的突变存在差异，高频的拷贝数变异在两者之间也没有显著差异。以上结果说明中国的结直肠癌患者跟国外不太一样，转移和非转移性的结直肠癌存在差异，但也没那么大。 Result 2 这部分里，作者分析了蛋白组的数据，发现可将样本分类 3 个 cluster，不同的 cluster 之间存在显著差异，每个 cluster 富集到的通路类型不同。无病生存曲线上也有很大的差异（B），其中曲线可将转移性结直肠癌的病人分开（C） 59 但不能将非转移性的结直肠癌病人分开。 60 然后作者将差异突变、体细胞拷贝数变异、差异蛋白的结果结合起来，然后取显著突变的前 10 位基因进分析，发现在不同的组织部位和不同的 cluster 之间存在突变频率、拷贝数变异和蛋白表达的差异。这些基因的突变、拷贝数的删失和蛋白表达会富集在 CC3。 Result 3 这部分作者分析了磷酸化组的数据，发现可以讲病人分为 6 个 cluster，noM 的病人会富集在 SC1、SC3 和 SC5（蛋白质组不能分开，磷酸化组能）。 61 每个 cluster 会富集到一些通路，整体来看，可以看到每个 cluster 都有一些自己的特征。然后作者对上面的 6 个 cluster 构建了激酶和修饰位点的网络图 62 并对不同 cluster 中激酶与位点的相关性进行了比较，发现 SC1 和 SC2、SC5 和 SC6 差异比较大，SC3 和 SC4 的没有明显差异。 Result 4 这部分研究人员分析了转移部位肿瘤的分子特征，发现原发肿瘤和转移肿瘤之间的突变有着较高的一致性，TMB 在这两组中也没有显著的差异. 63 在原发肿瘤、转移部位肿瘤和 MSK 的研究中，高频突变的基因基本是一样的。原发癌和转移癌的 SCNA 发生频率的 TOP15 片段也没有差异。但是原发部位的肿瘤与转移部位肿瘤的克隆存在显著差异，原发部位的肿瘤以多克隆为主，而转移肿瘤以单克隆为主。将正常组织与原发肿瘤和转移肿瘤分别进行差异蛋白分析，发现转移肿瘤中有更多高表达的蛋白，说明他们的蛋白表达还是有不同的，PCA 的分析也验证了这一发现。 64 热图和通路富集分析也发现在正常、原发肿瘤、转移肿瘤间存在不同的分子和通路差异 Result 5 65 这部分里，研究人员的关注点在 42 个转移性结直肠癌病人的 4 种组织类型数据（N，P, T 和 LM），先是分别计算了每个病人的蛋白丰度和磷酸化丰度之间的皮尔森相关系数，因此构建出一个新的数据（phosphosite-to-protein pairs），然后用 ANOVA 检验，筛选过滤留下在 3 个 CC 亚型间有差异的。这些 phosphosite-to-protein pairs 可以分为 3 个不同功能的 cluster， CC1neg, CC2neg 和 CC3neg，超几何分布检验结果显示 CC3neg 富集到的激酶最多，有 10 个。然后又可将这种 phosphosite-to-protein pairs 用 MCODE 进行聚类，在下图中展示了最大的 5 个模块，每个模块都会富集到相应的功能。 66 然后作者还结合突变的数据，最终发现患者多个组织之间的这种 phosphosite-to-protein 关系在不同的蛋白质组亚型之间存在着明显的特征。（这一数据和特征在后面还将起重要作用） Result 6 67 这部分作者显示对每个蛋白 Cluster 的原发/转移肿瘤和正常组织间进行磷酸化位点的差异分析，然后进行激酶富集。结果发现 CC 之间的差异比较大，而原发和转移肿瘤间也存在着一定的差异。然后构建了激酶和磷酸化位点间的皮尔森相关系数网络 68 并对每个网络之间进行了比较，发现原发和转移肿瘤之间的差异大于原发肿瘤在亚型之间的差异。 Result 6 文章的最后一部分，作者进行了激酶-底物网络分析和 miniPDX 药物检测（回归临床问题，升华论文）。作者分别取 9 个原发肿瘤和配对的转移肿瘤，然后用 3 种药物来分别检测肿瘤细胞生长抑制率（TCGI）。结果表明药物对原发和转移肿瘤的 TCGI 差异比较明显。 69 研究人员用 phosphosite-to-protein pairs 数据和弹性网络的方法进行预测，结果表明预测模型的结果很不错。套路总结总结一下，作为一篇多组学的文章，样本量、工作量都挺大，分析过程很扎实，结果也都挺有信服力，发在 Cancer Cell 上那也是实至名归。没能发表在 Cell 主刊的原因，我想也非常简单，还是缺少一些令人惊叹或者亮眼的发现，基本功扎实但少了些神来之笔，当然也有可能是一些非技术性的原因，如果作者是外国人，文章发哪里就不一定了，对中国人的偏见在学术界也是屡见不鲜。近年来，随着组学技术的进一步发展，成本的进一步降低，相信会有越来越多的多组学文章出现。如果你或者你的老板有钱有基金，趁着这股热潮也还是有可能捞到大鱼的。值得提醒的是，一般的实验设计可能有不少人在做了，如果你的实验设计能有所创新的话，发高分文章的可能性就更大了，就像文章开头提到的那篇推送一样。祝大家都有收获！ 70 真香预警！近 30 分多组学干湿结合套路，你看这些图是不是很熟悉，仿佛自己也能来一套的样子？！解读生信之美，探索高分文章背后的生信逻辑大家好呀，我是风间琉璃。上一周我们讲了 ATAC-seq+ChIP-seq 在高分文章的应用，这一周我们继续探索如何利用 ChIP-seq+细胞谱系示踪（lineage tracing）+scRNA-seq 同样发表领域顶刊的吧。文章“Stem Cell Pluripotency Genes Klf4 and Oct4 Regulate Complex SMC Phenotypic Changes Critical in Late-Stage Atherosclerotic Lesion Pathogenesis” 于 2020 年发表在《Circulation》杂志。2021 年影响因子 29.69 分。我们一起来看看吧~ 〇、期刊信息 71 一、文献概述作者采集人高级别颈动脉粥样斑块、对应的小鼠的高级别动脉粥样斑块以及平滑肌细胞和内皮细胞的细胞谱系示踪技术（lineage tracing）来阐明斑块中的各种细胞类型。并进一步通过 ChIP-seq 以及 bulk RNA-seq 以及双重细胞谱系示踪技术民古切尔平滑肌细胞表型转换对斑块疾病进展。作者发现平滑肌细胞特异性敲除 Klf4 和 Oct4 具有几乎完全相反的基因组特征，而他们的靶基因在调控平滑肌细胞表型转变中具有重要作用。单细胞测序结果提示小鼠和人类动脉粥样斑块具有明显的相似性，并且内皮细胞和平滑肌细胞具有 7 种完全不同的分群。值得 72 注意的是，Myh11 - Lgals3 + 平滑肌细胞群具有软骨细胞样特征，并在平滑肌细胞特异性 Klf4 敲除之后显着减少。作者观察发现 Lgals3 + 的细胞占据所有平滑肌细胞总量的 2/3，但是初始激活 Lgals3 并不能代表细胞已经最终分化的细胞状态，而是一种独特的干细胞标志物阳性、细胞外基质重构的细胞过渡状态，并在高级别动脉粥样斑块转变为至少 3 种其他的平滑肌细胞表型，比如 Klf4 依赖的成骨样平滑肌细胞表型，其可能导致斑块钙化和斑块不稳定。二、RNA-seq+ChIP-seq 提示晚期动脉粥样硬化斑块中 KIf4 和 Oct4 调控相反的基因表达模式首先作者为明确在平滑肌细胞中 Klf4 和 Oct4 敲除后的基因表达变化，作者对 Klf4/Oct4 敲除组和对应的对照组进行 ChIP-seq 和 bulk RNA-seq。作者发现差异分析后在 Klf4 敲除组 vs.对照组上调基因所富集的通路与 Oct4 敲除组 vs. 对照组下调调基因所富集的通路相重叠（Figure 1A-D）。接下来作者将明确在 Klf4 敲除组 vs.对照组或者 Oct4 敲除组 vs.对照组 ChIP-seq 分析具有明确差异基因与 GWAS 相关联，发现其中有 88 个基因位于已知和心血管风险相关的位点上（Figure 1E-F） 73 三、scRNA-seq 提示平滑肌细胞来源为高级别动脉粥样硬化斑块主要成分值得学习的是，作者把细胞谱系示踪和单细胞测序结合进行分析。由于血管平滑肌细胞特异性表达 Myh11、内皮细胞特异性表达 Cdh5，因此作者将高级别 Myh11-Cre ERT2 Rosa-eYFP 小鼠以及 Cdh5-Cre ERT2 Rosa-eYFP 小鼠进行 scRNA-seq 分析，这样被标记的血管平滑肌细胞和内皮细胞就会转录表达 eYFP 蛋白从而方便鉴定。并为了增加对照，作者还添加健康动脉样本进行 scRNA-seq 分析。根据经典的细胞 marker，作者一共将 14 个细胞群分为四种不同的细胞类型：巨噬细胞、T 细胞、血管平滑肌细胞和内皮细胞（Figure 2A-D）。根据 Myh11 谱系示踪的细胞，作者发现平滑肌细胞是其中 7 个细胞群的主要来源，而内皮细胞则是第 8 群细胞的主要来源（Figure 2F-G）。但根据 Myh11 的表达情况，7 个细胞群并不完全表达 Myh11 以及其他的传统血管平滑肌细胞 marker。而是表达 aVcam1、Dcn、Lgals3 等与细胞外基质重构与钙化相关的基因（Figure 2E）。 74 四、scRNA-seq 分析平滑肌细胞中 KIf4 依赖的表型转换为了进一步明确平滑肌细胞条件翘楚 Klf4 导致斑块大小明显减少的原因，作者对 Klf4 敲除组和对照组小鼠的高级别动脉粥样硬化斑块进行 scRNA-seq 分析。作者发现在表达传统平滑肌细胞 marker 的第 1、2 群中，来自于 Klf4 敲除组细胞数是对照组的两倍，除此之外 Klf4 敲除组中，Lgals3 + 成骨样表型的平滑肌细 75 胞数较对照组明显减少（Figure 3A-C）。与此同时，作者进一步在组织学层面进行验证，通过免疫荧光染色，作者发现表达传统平滑肌细胞 marker 的平滑肌细胞（eYFP + Acta2 + Phactr1 + 细胞）在 Klf4 敲除组中明显增加（Figure 3F-G），而表达出特殊表型的平滑肌细胞（eYFP + Trpv4 + S100b + 细胞）在 Klf4 敲除组中明显减少（Figure 3D-E）。提示 Klf4 在平滑肌细胞的表型转换中具有重要作用。 76 五、Lgals3+细胞为血管平滑肌细胞主要成分并标志潜在分化过程作者为了准确的定义 Lgals3 + 的血管平滑肌细胞的潜在特点与表型，通过双同源重组技术（Dual-recombinase-activated lineage tracing，DeaLT）精确的鉴定出表达 Lgals3 + 的血管平滑肌细胞。这里我们需要简单的介绍一下双同源重组技术，常规来说我们通过 Cre-loxP 同源重组系统的遗传谱系示踪技术对动物体内某一特定组织表达的基因进行敲除或者示踪，再次基础上引入 Dre-rox 同源重组系统，有效地规避了由于 Cre 表达的不特异性而导致的非特异性同源重组。简单来说就是给我们的特异性示踪技术加上双重保险。在这篇文章中，通过 DeaLT 技术表达 eGFP 的细胞就是表达过 Lgals3 的血管平滑肌细胞，而表达 tdTomato 的细胞则是表达 Myh11 血管平滑肌细胞（Figure 4A-B）。在高级别动脉粥样硬化斑块中，通过流式细胞分析以及高分辨率共聚焦显微镜分析 eGFP + 细胞占总的血管平滑肌细胞总数的 60-80%（Figure 4C-D）。而持续 Lgals3 + 细胞值占总量的 30%。 77 另一方面，为了进一步验证平滑肌细胞 Lgals3 表达后会转换为其他表型，作者对双同源重组细胞谱系示踪的平滑肌细胞进行单细胞测序（Figure 5A）。作者发现 tdTomato 阳性的细胞主要表达多种收缩型平滑肌细胞 marker，而 eGFP 阳性的细胞则表达 Lgals3、炎性基因（Ccl2, Vcam1）、细胞外基质相关基因（Dcn, Lum, Mmp3）等等（Figure 5C）。通过免疫荧光共聚焦同样提示表达平滑肌细胞传统 marker-Atac2 的细胞主要为 tdTomato 阳性的细胞，而表达软骨生成相关 marker-Sox9 的细胞主要为 eGFP 阳性的细胞（Figure 5D-E）。 78 六、Lgals3+的血管平滑肌细胞对动脉粥样硬化具有重要作用由于作者在对高级别动脉粥样硬化斑块双同源重组细胞谱系示踪的平滑肌细胞进行流式细胞分析发现以及共聚焦显微成像提示大概有 2%平滑肌细胞同时表达 tdTomato 和 eGFP（Figure 4D-E）。而 eGFP 的半衰期只有 3.5 天，因此考虑这些细胞可能是从初始的收缩型平滑肌细胞转换为不同表型的中间过渡状态。为了进一步明确这种过渡状态只存在高级别动脉粥样硬化斑块，作者取 10 周喂养小鼠的动脉粥样斑块（早期斑块）进行分析，出乎意料的是，几乎斑块中大部分平滑肌细胞为 eGFP 阳性而不是 tdTomato 阳性（Figure 4G-I），但成熟的纤 79 维帽则主要是 tdTomato 阳性细胞（Figure 4E-F）。siRNA 敲除 Lglals3 之后能够减弱平滑肌细胞的迁移以及多种胶原的转录活性，提示 Lglals3 不只是过渡状态的 marker，而且具有相应的功能（Figure 4J）。七、scRNA-seq 提示人类动脉粥样斑块和小鼠粥样斑块具有类似性通过 scRNA-seq 分析鉴定，作者发现小鼠中的成骨样表型血管平滑肌细胞在人动脉粥样斑块中同样存在（Figure 6A）。共聚焦显微呈现提示，成骨样表型血管平滑肌细胞主要在破裂的动脉粥样斑块中存在而不是在稳定的粥样斑块（Figure 6C）。而稳定性斑块纤维帽高表达传统血管平滑肌细胞的 marker-Atac2 等，但是破裂的粥样斑块纤维帽中则并不存在（Figure 6B）。 80 好啦~本次文章的讲解到此结束了，高分文章的逼格果然还是满满的，我们常规看到的 scRNA-seq 只是通过对组织进行单细胞分离并测序，却并不能够准确的对细胞类型，尤其是细胞亚型进行准确的定义。Lineage tracing+scRNA-seq 则能够完美解决这一问题，我相信这应该是以后的潜在趋势，通过 lineage tracing 确定细胞来源，通过 scRNA-seq 或者 Cytof 对细胞转录或蛋白特点进行定义，能够深入探索疾病中微环境状态细胞功能调控。好啦，我是风间琉璃，我们下期见~ 81 多组学甲基化 5+生信文章，只需要一刻钟，零代码教你复现！ 5 分无代码单基因文章复现大家好，我是濤濤。前两期我们一起巩固了单基因复现的套路，大家用仙桃学术感觉如何，是不是鼠标点点点图出出出爽到停不下来？（藏鏡人：是啊，仙桃学术这个生信工具 www.xiantao.love 简直是宝藏网站，什么都可）那么我们文章复现的第三期，今天就来加码放送，一个基因不够，我们来四个！（藏鏡人：耳边响起了伍佰大哥的，来来来，一杯不够，再来三杯）今天我们无代码复现一篇 2021 年 3 月发表在 Agin-us 的一篇 4.831 分的文章。这篇文章探讨的是一个基因家族包含四个相似基因在肺腺癌的研究。 82 我们今天的文章题目：FAM72 serves as a biomarker of poor prognosis in human lung adenocarcinoma 本期的主人公是 FAM72，其有四个成员，称为 FAM72A，FAM72B，FAM72C， FAM72D。作者在这篇文章中，通过探讨 FAM72 对肺腺癌的免疫浸润、甲基化及预后情况的意义。期刊简介材料与方法在“材料和方法”部分，作者直观清晰地阐明了本文实现的生信手段。 83 84 85 86 87 材料与方法那么接下来我们一起来看一下本次的复现任务。 88 图 1：FAM72A-D 在 TCGA 的肺腺癌表达水平 89 90 图 2：FAM72A-D 在肺腺癌的预后价值图 3. 预测肺腺癌患者 1 年后、3 年后、5 年后的 nomogram 图。 91 图 4. 预测肺腺癌患者 1 年后、3 年后、5 年后的校准曲线。 92 图 5. FAM72A-D 在肺腺癌中的功能富集分析 93 图 6. 富集条目的互作网络图 94 图 7 FAM72A-D 在肺腺癌中的通路富集情况 95 图 8. FAM72A-D 在肺腺癌的功能富集与基因突变情况 96 图 9 FAM72A/B/D 在肺腺癌的甲基化情况。文章复现深呼吸，放轻松，跟着我一起轻轻松松无代码复现文章吧！ 1. 图 1. FAM72A-D 在 TCGA 的肺腺癌表达水平 97 Figure 1A 复现步骤进入仙桃学术工具（ https://www.xiantao.love/products ）；选择高级版，点击“立即使用”（注：免费版和基础版都可以进行统计和可视化，由于高级版功能最全，这里选择高级版作为范例） 98 选择临床意义（靠）——临床相关性，点击进入。选择疾病-肺腺癌。数据格式的话，根据文献选择 TPM。参数部分的类型选择-箱图/柱状图，基因输入 FAM72A。在分类的地方，根据文献的图片，依次输入 Normal，T1，T2，T3，T4，点击确认。 99 FAM72A 泛癌的结果就分析出来啦。保存结果，点击大图，下载 pdf 文档。 100 （藏鏡人：哇，好神奇，所以剩下 B.C.D 三个基因也可以依样画瓢做出来，只要更改一下基因名就可以了！）（濤濤醬：对的，这就是仙桃生信工具的优势所在，一秒出一图，四秒出四图！） Fig 1E 这幅图是显然是有关这个家族里面四个基因的相关性热图。复现思路，进行单基因相关性分析——四个基因相关性整合——作图。那么我们一起来看看吧。 101 首先进行单基因相关性分析。选择交互网络（联）——分子相关性分析——单基因相关性分析根据文章的信息，选择 TCGA—LUAD，TPM。分子选择 FAM72A 点击确认 102 后台立刻在运行中在历史记录里可以检视工作的进程。注意，在这里需要手动 F5 刷新页面才能看到工作完成的状态喔。完成后，点击下载 Excel 表格。 103 打开 Excel 表格，可以看到接下来同法进行“B、C、D 的单基因相关性分析”，下载 excel 表格。这样，我们就可以集齐了四个基因的相关性分析了（藏鏡人：这样可以召唤神龙吗？）（濤濤醬：不行，但是可以召唤相关性热图！）接着，我们选中“cor_pearson”这列 104 将四个基因表格里的这一列全部都复制贴上到新的表格中，并且改好名称，如下所示 105 保存好这个表格，下面我们一起来召唤相关性热图喔！路径：基础绘图——相关性热图在框中上传我们适才保存好的文件，统计方法选择 Pearson，位置选择“显示相关系数”，在样式中选择“倒三角”。点击确认。即可出图啦。更改配色，获取你喜欢的相关性热图。 106 Fig 1F 这个图是典型的 ROC 曲线。打开临床意义（靠）——ROC 曲线-自选变量 107 根据文献，选择 TCGA-LUAD，格式选择 TPM 在分子框中一口气输入四个分子点击确认 108 点击查看大图 109 （藏鏡人：哇！！！和文献的数值真的是一！模！一！样！）（濤濤醬：看到仙桃学术的厉害了吧？100%复现！）最后把以上几个获得的分析结果在 Illustrator 或者 Photoshop 软件中进行拼图，就得到我们的图 1。或者采用我们仙桃最炙手可热的拼图功能喔！（这回程序员小哥哥又开发了一大利好，那就是可以用自己的图片来拼图啦！）进入仙桃学术工具（https://www.xiantao.love/products）；选择高级版，点击“立即使用”（注：免费版和基础版都可以进行统计和可视化，由于高级版功能最全，这里选择高级版作为范例） 110 选择基础绘图 –上传图片，点击进入 111 此处开始上传自己的图片，但是记得图片要为 pdf、tiff、tif、png 的格式喔！ 112 上传好之后，可以调整图片的宽度和高度参数，最后点击确认。记得点击下方第一个“保存结果”按钮，才能进行下一步的拼图喔！点击拼图工具，进入拼图页面。 113 114 拖拽目标图片进入画布。（在对齐图片的时候可以选择横向参考线和纵向参考线辅助对齐。两个图片对齐时，接近辅助线的时候还有磁吸功能，拼图非常便利！ 115 点击 PDF 下载，还会自动标记字母哦！点击下载，即可保存成 pdf 图片。（小贴士，这里也可以把图稍微放大，或者两图直接的行间距放大，可以在右侧减少留白） 116 这样图就拼好啦！是不是比其他软件更轻松更便利呢？（是！） 2. 图 2：FAM72A-D 在肺腺癌的预后价值由于其他图片都差不多，所以我们选择图 A 来做示范。我们有两种方法实现。法一（Kaplan-Meier Plotter）：复现步骤打开 Kaplan-Meier Plotter 网站（http://www.kmplot.com/analysis/） 117 跟着我，点击如下按钮。 118 这里可以选择 21 种肿瘤（包括乳腺癌、卵巢癌、肺癌及胃癌）超过 54000 个基因（mRNA, miRNA, 蛋白）进行生存分析。其数据主要来源于 GEO、EGA 和 TCGA。只有你想不到，没有你没想到！紧接着，在方框里输入我们要复现的 FAM72A，选择分析的结局指标 OS，而后勾选肺腺癌，最后点击下图的分析按钮。 119 120 鼠标往下卷动即可看到 121 保存即可下载至电脑中。第一种方法学会了吧？第二种方法就是我们厉害的仙桃学术！法二：仙桃学术复现步骤 122 进入仙桃学术工具（https://www.xiantao.love/products）；选择高级版，点击“立即使用”（注：免费版和基础版都可以进行统计和可视化，由于高级版功能最全，这里选择高级版作为范例）选择临床意义（靠）- KM 曲线图，点击进入 123 选择肺腺癌疾病，输入分子 FAM72A，点击确认按钮即可出图 124 其他几幅图同理可得。最后把这些图放在 Illustrator 或者 Photoshop 软件采用我们仙桃最炙手可热刚刚“出炉”的拼图功能喔！（藏鏡人：啊……拍谢！我刚看就忘了怎么拼图……）（濤濤醬：那就请往上滑再复习一下吧！） 3. 图 3 预测肺腺癌患者 1 年后、3 年后、5 年后的 nomogram 图。 125 这四幅图复现的方式都是一样的，所以我们选择图 A 来示范。路径：临床意义（靠）——预后分析——Nomogram 图选择好疾病根据文献内容选择 Age、Stage、基因 FAM72A 126 在右侧的参数里，“预测年限”选择 1 年、3 年、5 年之后点击确认按钮。 127 点击查看大图 128 同样的道理可以复现另外三幅图最后将这些图拼起来就好啦！（濤濤醬：提问一下，该怎么拼？）（藏鏡人：Emm，不好意思，我又忘了）（濤濤醬：好吧，那我再说一遍，记住啦！）在 Illustrator 或者 Photoshop 软件中进行拼图或者采用我们仙桃最炙手可热的拼图功能喔。 129 进入仙桃学术工具（https://www.xiantao.love/products）；选择高级版，点击“立即使用”（注：免费版和基础版都可以进行统计和可视化，由于高级版功能最全，这里选择高级版作为范例）选择基础绘图 –上传图片，点击进入 130 此处开始上传自己的图片，但是记得图片要为 pdf、tiff、tif、png 的格式喔！ 131 上传好之后，可以调整图片的宽度和高度参数，最后点击确认。记得点击下方第一个“保存结果”按钮，才能进行下一步的拼图喔！点击拼图工具，进入拼图页面。 132 133 拖拽目标图片进入画布。（在对齐图片的时候可以选择横向参考线和纵向参考线辅助对齐。两个图片对齐时，接近辅助线的时候还有磁吸功能，拼图非常便利！ 134 点击 PDF 下载，还会自动标记字母哦！点击下载，即可保存成 pdf 图片。（小贴士，这里也可以把图稍微放大，或者两图直接的行间距放大，可以在右侧减少留白） 135 这样图就拼好啦！记住了吗？（藏鏡人：这回真的记住了！） 4. 图 4 校准曲线图这个功能呢，目前全网只有在 R 语言代码才能实现。我们的仙桃小哥，也在加班加点实现当中。不过！有什么问题是能难得倒我们的呢？古语有言：变则通,通则久。我们想想啊，校准曲线是用来评价 logistic 回归或 cox 回归模型的对吧？那 C-index，全称 concordance index，也常写作 Harrell’s C-index, concordance C, C statistic 等，也是用来评价预测情况的。（藏鏡人：喔！我知道了，那我们就可以用 C-index 来代替校准曲线图！）（濤濤醬：Yes！）我们在上一个 nomogram 图中的结果部分，有看到 C-index 的结果 136 在结果描述的部分往下看，就提到了 C-index 那么我们就可以把每个基因的 C-index 整理成这么一个表格 137 也可以说明该模型预测结果与实际的一致性！ 5. 图 5 FAM72A-D 在肺腺癌中的功能富集分析这组图是与 FAM72 有关的 GO 分析的条形图我们一起来看看如何用仙桃工具几秒就出图。打开图 1E 的表格 138 选中基因名这列单独复制到另一个 excel 中，更改名称为 id 139 保存文件打开功能聚类（圈）——GO|KEGG 富集分析然后上传我们刚刚建立的 excel 表格选择 GO 条目 140 然后点击确认点击“保存结果” 141 而后打开 GO|KEGG 可视化选择刚刚保存的样本点击确认 142 就可以出图啦。还有一种方法是在 metascape 中作图。打开 metascape（https://metascape.org/） 143 上传我们刚刚那一列基因名的 excel 第一步上传好之后 144 第二步选择人种而后选择 Express Analysis 查看报告 145 就有我们文中的图啦（濤濤醬：球都马得！这个网页别关！后面还有用处喔）同样的道理可以做出另外三幅图（藏鏡人：哇，这个 metascape 很好用欸，跟仙桃一样是宝藏工具）（濤濤醬：对喔，过一阵也会有我自己做的 metascape 单元课推出，大家也可以期待一波唷）最后把它拼图起来就可以了！ 146 （濤濤醬：如何拼图？）（藏鏡人：我知道！）在 Illustrator 或者 Photoshop 软件中进行拼图或者采用我们仙桃最炙手可热的拼图功能！ 6. 图 6 富集条目的互作网络图图 6 这个图，看上去是不是很像蛋白蛋白互作的图呢？（濤濤醬：客官儿，请张大您的卡姿兰大眼睛看一看，这个是通路富集的图喔）同样是四个图选一个来复现。刚刚第 5 图中，就请大家不要关闭网页啦。 147 原因是在于，刚刚那幅图往下卷动鼠标，就能看到这个图的结果。所以啊，这个是不是有凑工作量的嫌疑呢？（思考）同理可得另外三幅图，最后再在 Illustrator 或者 Photoshop 软件中进行拼图或者采用我们仙桃最炙手可热的拼图功能就可以啦。 7. 图 7: FAM72A-D 在肺腺癌中的通路富集情况 148 根据文中的描述，这个图的做法有别于我们一般 KEGG 里的气泡图。作者先进行了单基因差异表达分析，然后再进行的富集分析。那有了这个思路之后，是不是大家也有点手痒痒呢？那就赶紧跟我我打开仙桃学术一起复现吧。第一步，单基因差异分析。 149 表达差异（挑）——差异分析——单基因差异分析选择 TCGA——LUAD，格式 TPM，输入基因 FAM72A 点击确认 150 这边会提示结果正在运行中大家别急，这一步可不是你想的一秒能出结果喔！因为这一步涉及了后台大量的运算。何不喝口水，休憩一下呢？当你喝完水之后，点击“历史记录” 如果显示“正在运行中” 那就请大家再多喝一口水。 151 （藏鏡人：大概要多久呢？）（濤濤醬：齁！你很猴急欸！大概 1 分钟就好啦。但是需要你手动 F5 重新整理刷新页面喔）当运行好了之后会提示“已完成” 这样我们下载我们需要的数据。下载的格式有很多种，此处选择“Excel”形式来演示。打开 Excel 表格 152 而后，同理，我们继续复制第一列基因名到新的 excel 表格中将其命名为 id 153 保存。打开功能聚类（圈）——GO|KEGG 富集分析上传我们新建的 excel，选择 KEGG 154 点击确认出来的结果保存 155 而后打开 GO|KEGG 可视化选择刚刚保存的云端数据 KEGG 参数选择气泡图 156 点击确认，调整图片高度，即可呈现气泡图。 157 另外三张图同理，拼图起来即可得图 7。 8. 图 8 FAM72A-D 在肺腺癌的功能富集与基因突变情况图 A 是 GSEA 分析的图我们一起来看一下如何复现。同样，我们再图 7 的单基因差异分析的基础上，处理一下表格的数据。我们需要手动来排序一下 log2FoldChange 158 然后进行筛选，选择“降序”排列，即图中所示“从最大到最小排序” 排序完后，复制出这两列到新的 excel 表格中更改两列的名字为 id 与 value ，保存。 159 打开功能聚类（圈）——GSEA 富集——GSEA 分析上传数据，点击确认 160 结果提示之后，点击 GSEA 可视化 161 选中我们刚刚分析的这个条目，点击确认 162 即可呈现出图 A 的结果。图B 打开 cBioPortal 网站（https://www.cbioportal.org）找到肺 Lung 163 164 其中的肺腺癌有很多，我们可以随意选择一种。如图所示，选择有 566 样本的条目。点击搜寻在框中输入基因名 165 点击确认这里跟文献不同的原因是，选择的样本不同，结果也不同。大家不妨可以选择其他样本试看看喔。 166 图 C 突变与 OS 的生存曲线我们选择上方的 Comparison/Survival 167 即可出图。 9. 图 9 FAM72A/B/D 在肺腺癌的甲基化情况。我们需要借助到这个工具 MethSurv 网站 (https://biit.cs.ut.ee/methsurv/) 168 选择上方的 Gene Visualization 选择疾病肺腺癌输入基因 FAM72A 即可出图 169 下方可以保存 pdf 或 png 格式。图 B、C 同理可得 170 Fig 9D 复现也是相当容易选择上方的 single CpG 171 接着根据文献要求选择对应的参数 172 即可出图，一模一样的结果喔！ 10. Table 1 TCGA 里的基线资料表 173 （藏鏡人：蛤？表格欸，要怎么做啊）（濤濤醬：哈哈，我们无所不能的仙桃不只能复现图，还能做表喔）临床意义（靠）——基线资料表 174 输入分子点击确认 175 同理输入另外三个分子保存 excel 结果就可以整理成 Table 1 啦！ 11. Table 2 176 临床意义（靠）——预后分析——单因素|多因素 Cox 分析选择好相应的肺腺癌，根据文中的选项把每个项目都添加进去，点击确认 177 就生成了表格啦保存 word 三线表打开就和文中一模一样喔！ 12. Table 3 FAM72A-D 与免疫浸润 178 复现指路：交互网络（联）——免疫浸润——棒棒糖图 179 选择好疾病肺腺癌，基因选择 FAM72A，算法中细胞选择“全部” 立刻出图啦！俗话说“一图胜千言”，有这么好看的棒棒糖图，要什么自行车呢（划掉），要什么表格呢？当然底下还有相关性表格，也可以下载表格查看内容 180 这就是我们的 Table 3 啦！（藏鏡人：说实话，内容真的好多，一整篇看下来真的有点累欸）（濤濤醬：无代码全靠鼠标一点出图，你还累？）（藏鏡人：说的也是齁！有那功夫花个十年半载学 R 语言的时间，我用仙桃点点点就出了好几十篇了！我这就立刻登陆仙桃 www.xiantao.love 开始实操！） 181 我靠这个套路发了 N 篇 SCI 了！单基因多组学套路， 10 图 3 表，一刻钟，零代码复现！从小白的角度，一刻钟复现生信套路各位小伙伴大家好，我们单基因系列也复现讲解了好几期啦，这一次的文章发表于 PeerJ，虽然影响因子不高，但是可复现性强，适合小白学习~ 期刊简介 182 复现背景信息文章题目 Significant correlation between HSPA4 and prognosis and immune regulation in hepatocellular carcinoma 复现内容图 1： HSPA4 在泛癌中的表达状态图 2：HSPA4 在 HCC 中高表达图 3：HSPA4 的表达与 HCC 临床病理学参数相关性分析图 4：HSPA4 mRNA 对 HCC 患者预后的影响图 5：HSPA4 的 ROC 分析和列线图模型图 6：HCC 中 HSPA4 的基因改变图 7：甲基化水平和 HSPA4 表达之间的可视化图 8：HSPA4 表达与 HCC 免疫细胞浸润的关系图 9：HSPA4 表达与 HCC 中 PD-1 和 CTLA-4 表达的相关性图 10：功能注释和预测的信号通路表 1：高甲基化水平对 HCC 预后的影响表 2：HCC 中 HSPA4 表达与免疫细胞标志物的相关性分析表 3：HCC 中 HSPA4 相关基因的 GO 和 KEGG 富集分析 183 复现工具仙桃学术 http://www.xiantao.love HPA 数据库：https://www.proteinatlas.org/ cBioportal 网站：www.cbioportal.org/ String 数据库：https://string-db.org/ 图 1：HSPA4 在泛癌中的表达状态作者在图 1 中分别分析了我们的主变量 HSPA4 在泛癌中的表达差异，我们来看一下如何应用仙桃工具复现。进入仙桃生信工具（https://www.xiantao.love/products），选择高级版（由于高级版功能最为全面，这里统一使用高级版作为示范） 184 我们先来看一下图 1A，选择“表达差异（挑）”——“表达差异”——“非配对样本” 模块，选择疾病为“泛癌”，选择数据集为 TCGA 联合 GTEx，数据格式选择 TPM；输入我们的主变量分子 HSPA4，最后点击确认等待出图。结果如下： 185 点击查看大图即可获得完整图片结果：图 2：HSPA4 在 HCC 中高表达 186 作者在 Fig2 中分析了 HSPA4 在 TCGA-LIHC 及两个 GEO 数据集 GSE62232 及 GSE101685 中的表达差异，并且用自己的标本进行了免疫组化的验证。我们先来看一下 TCGA 数据集的图 C 和图 D 如何进行复现： 187 还是在我们刚刚的“表达差异（挑）”——“表达差异”——“非配对样本”模块，修改疾病为：肝细胞肝癌，选择数据集 TCGA-LIHC，数据格式还是选择 TPM、分子不变，点击确认等待出图。就获得图 C 啦： 188 点击保存结果可以用于后续的拼图，也可以直接下载结果~ 图 D 也很简单： “表达差异（挑）”——“表达差异”——“配对样本”模块，疾病、数据集、数据格式、分子已经自动填好啦，只需要我们确认一下有没有错误，就可以点击确认等待出图啦。 189 作者在 GSE62232 及 GSE101685 两个 GEO 数据集中分析了 HSPA4 的表达差异，我们在这里以图 A 的 GSE62232 数据集为例进行复现。在“数据集检索”模块，输入我们想要进行检索的数据集 GSE62232，可以看到该数据集内容已被我们的仙桃工具收录，目前仙桃工具已经收录了 2 万余个数据集的样本信息，而且还在不断更新中。 190 点击“数据下载”按钮，会跳转到数据集的数据下载界面：下载 Series_Matrix 文件：解压以后用 excel 打开文件： 191 下载注释文件：将下载得到的 txt 文件拖入 EXCEL 中，通过查找功能得到 HSPA4 的探针号：注意：这里查找功能得到了多个探针号，我们选择其中一个进行示范在我们刚刚的表达谱文件中，通过探针号搜索得到 HSPA4 的表达数据： 192 讲的该列数据提取出来，新建一个文件，将上述数据转置进入新文件中，前十个样本为对照癌旁组，其余为肿瘤组，得到表格如下： 193 打开“基础绘图”——“分组比较图”模块，上传我们刚刚整理得到的结果，绘制类型为“小提琴图”，点击确认：结果如图所示： 194 另一个数据集也可以通过类似方法获得结果，大家可以自己试试喔~ 在图 E 和图 F 中，作者用自己的标本进行了免疫组化的验证。但是如果大家不具备样本的条件的话，我们也可以去 HPA 数据库白嫖~ 进入 HPA 数据库：https://www.proteinatlas.org/ 输入我们主变量分子：点击 Tissue： 195 选择“LIVER”：即可得到 Normal 组的图片： 196 点击“PATHOLOGY”，选择“CANCER”中的“LIVER CANCER”： 197 这样就可以获得组织化学染色的结果啦。图 3：HSPA4 的表达与 HCC 临床病理学参数相关分析图 3 为 HSPA4 表达与临床病理学参数的关系，我们以图 2A 中 HSPA4 在不同 T 分期间表达差异为例进行复现：选择“临床意义（靠）”——“临床相关性”模块，核对数据集格式和分子，设置临床病理学参数：T 分期，选择分组为 T1 vs T2-4，之后点击确认。 198 另外几张小图的复现和这张小图基本一致，我们就不一一重复了。 199 图 4：HSPA4mRNA 对 HCC 患者预后的影响接下来作者展示了主变量分子 HSPA4 在 HCC 中对于预后的影响。我们以图 A 中 HSPA4 对于 HCC 的 OS 的影响为例进行复现。选择“临床意义（靠）”——“预后分析”——“KM 曲线图”模块，核对数据集及主变量，选择预后参数中预后类型为 OS，之后点击确认。 200 图 B 和图 C 的复现只需要修改预后类型参数即可，大家可以自己尝试一下。图 5：HSPA4 的 ROC 分析和列线图模型 201 接下来我们进行 ROC 分析及列线图模型构建：首先看图 A：选择“临床意义”——“ROC 曲线”模块，核对数据集、分子，点击确认： 202 结果如图： 203 图 B 是时间依赖 ROC 曲线：选择“临床意义（靠）”——“预后分析”——“时间依赖 ROC”模块，核对数据集及分子，设置预测年限：1 年、3 年、5 年，点击确认。结果如图： 204 接下来我们来看图 C 的列线图如何绘制：选择“临床意义（靠）”——“预后分析”——“预后列线图”模块，核对数据集，设置预测年限及临床病理学参数，选择数据信息为“去除重复样本”，点击确认： 205 结果如下： 206 点击查看大图可以看到完整图片结果：图 6：HCC 中 HSPA4 的基因改变这张图作者是通过 cBioportal 网站分析完成的，我们来看一下如何完成复现： 207 登录 cBioportal 网站：www.cbioportal.org/ 选择“Liver”，选择文中所分析的三个数据集，进入下一步分析：输入基因 HSPA4： 208 点击“OncoPrint”即可看到图 A 的结果：点击“Cancer Types Summary”即可看到图 B 的结果： 209 210 点击“Comparison Survival”，在生存曲线设置处可以切换 OS 或 DFS：图 7：甲基化水平和 HSPA4 表达之间的可视化 211 表 1：高甲基化水平对 HCC 预后的影响 212 文中的甲基化分析是应用 Methsurv 数据库分析完成的，我们来看一下如何复现：登录 Methsurv 数据库网站：https://biit.cs.ut.ee/methsurv/ 点击“Gene visualization”模块，输入基因名“HSPA4”，右侧可以看到图 A 所示热图：下拉可以看到完整图片： 213 点击“All Cancers”模块，输入基因名，右侧搜索框中输入“LIHC”即可得到预后相关的甲基化 CpG 位点，即表 1。图 8：HSPA4 表达与 HCC 免疫细胞浸润的关系 214 图 9：HSPA4 表达与 HCC 中 PD-1 和 CTLA-4 表达的相关性表 2：HCC 中 HSPA4 表达与免疫细胞标志物的相关性分析 215 这部分免疫浸润的分析作者大部分是用 TIMER 数据库完成的，对于 TIMER 数据库如何使用，解螺旋已有单元课推出，并且最近也开始了该主题的会员训练营，那么在这里我们就不多讲啦。并且很多小伙伴在应用 TIMER 数据库的时候也发现非常受到网络的限制，那么我们来看看我们的仙桃工具如何快速完成免疫细胞浸润分析：以图 8 中与 B 细胞免疫浸润相关性分析为例进行示范：选择“交互网络（联）”——“免疫浸润”——“散点图”模块，核对数据集及分子，输入免疫细胞，这里我们选择“B 细胞”，点击确认。就获得了免疫浸润分析结果的散点图啦： 216 接下来我们来看如何分析分子与免疫检查点抑制剂的相关性：在“交互网络（联）”——“分子相关性分析”——“散点图”模块，输入分子 PDCD1，点击确认。 217 其他小图也可以通过类似的操作进行复现~ 218 图 10：功能注释和预测的信号通路表 3：HCC 中 HSPA4 相关基因的 GO 和 KEGG 富集分析作者首先通过 STRING 数据库构建了 PPI 网络，之后用 HSPA4 及其相关基因进行 GO 及 KEGG 进行富集分析，我们来逐步进行复现： 219 登入 String 数据库：https://string-db.org/ 数据库的主界面长这样：点击“SEARCH”即可进入分析界面。选择“Protein by name”，输入主变量分子，确定物种：人类，点击“SEARCH”。 220 得到蛋白互作网络图。如果觉得得到的分子过多或过少可以点击右下角的“More” 和“Less”进行调整。在“Exports”模块中可以输出上面的图片。 221 选择与 HSPA4 相关的十个基因进行 GO 及 KEGG 富集分析：保存结果以供进一步进行可视化分析，也可以直接下载结果表格： 222 通过“GO|KEGG 可视化”模块进行可视化： 223 结果如图：在剩余的四张小图中，作者绘制了 HSPA1 与 HSPA8、HSP90AA1 两个分子的相关性，以及两个分子的生存曲线，分子间相关性以及分子的生存曲线在前面的部分已经讲过啦，这里就不再重复啦，不记得的小伙伴往上翻一翻回忆一下~ 那么今天的复现就到这里啦，可能有小伙伴发现这篇文章非常的仙桃风，不知道是不是我们仙桃学员发表的呢，也期待持续关注复现专栏的每一个小伙伴都能有自己的生信 SCI 产出喔，大家加油~~~ 224 多组学分析工具一键式搞定？高分文章的秘诀，学会能给你的 SCI 加分！探索生信之美，解构每一段代码逻辑大家好啊，我是风间琉璃。不知道大家在进行生信分析的时候有没有想到这个问题：如果同一批样本我有多种类型的数据，包括甲基化数据、转录组学数据、代谢组学数据、蛋白组学数据等等，怎么把这几种截然不同的数据融合到一起分析呢？现目前随着技术手段的进步，大家已经不单单只分析一种类型的数据了，不少实验室在处理样本时都会同时送转录组学、蛋白组学等等分析。那么今天我就带大家一起了解一下多组学分析利器 R 包—— “mixOmics”。首先我们大概介绍一下 mixOmics 包。mixOmics 包提供了多个方法来探索并整合多种类型的生物数据，且能够进行变量筛选。一共有 19 种多变量分析的方法，包括 principal component analysis (PCA), Projection to latent structure (PLS), PLS-Discriminant analysis (PLS-DA), generalised Canonical Correlation Analysis (GCCA)等等。另外 mixOmics 能够将不同数据间的相关性、样本和变量的相关性结构进行可视化。介绍完 mixOmics 包的大概用途之后我们再来谈谈 mixOmics 包的输入数据。我们需要知道几点。 225 第一、数据在分析之前需要进行预处理，包括标准化、缺失值处理等等。第二、数据类型多样，芯片、基于质谱的蛋白组学及代谢组学、基于测序的 RNA-seq、16S、宏基因组学等连续型变量。第三、数据格式要求样本为行名，变量为列名的数值型矩阵或者数据框。那我们首先以最基础的分析方法——PCA 为例来探索 mixOmics 的分析流程，那我们直接开始吧~ 1.principal component analysis（PCA） ## 下载包 if (!requireNamespace('BiocManager', quietly = TRUE))## install.packages('BiocManager') BiocManager::install('mixOmics') 加载包 library(mixOmics)# 加载数据 data(liver.toxicity)X <- liver.toxicity$gene# 查看一下数据 dim(X)## [1] 64 3116 Liver.toxicity 研究是研究不同药物的处理对大鼠的肝组织的基因表达影响的研究，一共有 gene、clinic、treatment、以及 gene ID 四个数据集。我们知道 PCA 的目的是进行降维并将更多的有用信息用更少的转化后的“变量”（ principal component, PC）进行线性合并呈现。并且每个 PC 之间并不相关。我们通常在转录组学数据处理中通过 PCA 降维查看正常/疾病样本、样本批次的差异。而 mixOmics 包还提供了每个变量与每个 PC 相关系数（loading vectors）。 226 我们开始运行 PCA 分析，默认只保留前面两个 PC（PC1 和 PC2），并且对数据进行中心化（平均值为 0）但不进行归一化。 Result.pca <- pca(X, ncomp = 2, center = T, scale = F)# 绘制不同样本在两个 PC 坐标轴上的位置，越远代表差异越大 plotIndiv(Result.pca) # 绘制变量在两个 PC 坐标轴上的位置。plotVar(Result.pca, var.names = FALSE) 227 发现图片太简陋，我们可以添加信息。 # 修改点的形状及颜色，不展示样本名 plotIndiv(Result.pca, ind.names = FALSE, group = liver.toxicity$treatment$Dose.Group, pch = as.factor(liver.toxicity$treatment$Time.Group), legend = TRUE, title = "Liver toxicity: genes, PCA comp 1 - 2", legend.title = "Dose", legend.title.pch = "Exposure") 228 除此之外我们可以改变横纵坐标轴的含义，比如展示 PC1-PC3 的坐标轴。 # 保留前 3 个 PCsResult.pca2 <- pca(X, ncomp = 3)# 绘制 PC1-PC3 坐标轴 plotIndiv(Result.pca2, comp = c(1, 3), legend = TRUE, group = liver.toxicity$treatment$Time.Group, title = "Multidrug transporter, PCA comp 1 - 3") 229   # 绘制碎石图 plot(Result.pca2) 230 接下来重点来啦！大家注意，之前我们提到 mixOmics 包能够进行变量筛选对吧，对于 PCA 分析，mixOmics 能够根据变量与 PC 的相关性筛选出与每一个 PC 最具有相关性的变量。这一方法在命令 spca（sparse PCA）实现。spca 进行对每个 PC 筛选数量固定的相关性变量，比如我们分别选择与 PC1、PC2、PC3 相关 15 个 gene、10 个 gene、5 个 gene。 Result.spca <- spca(X, ncomp = 3, keepX = c(15, 10, 5)) # 绘制样本 plotIndiv(Result.spca, group = liver.toxicity$treatment$Dose.Group, pch = as.factor(liver.toxicity$treatment$Time.Group), legend = TRUE, title = "Liver toxicity: genes, sPCA comp 1 - 2", legend.title = "Dose", legend.title.pch = "Exposure") 231   # 绘制变量，字体大小为 4plotVar(Result.spca, cex = 4) # 提取与 PC1 有关的变量系数 selectVar(Result.spca, comp = 1)$value## value.var## A_43_P20281 -0.39077443## A_43_P16829 -0.38898291## A_43_P21269 -0.37452039## A_43_P20475 -0.32482960## A_43_P20891 -0.31740002## A_43_P14037 -0.27681845## A_42_P751969 -0.26140533## A_43_P15845 -0.22392912## A_42_P814129 -0.18838954## A_42_P680505 -0.18672610## A_43_P21483 -0.16202222## A_43_P21243 -0.13259471## A_43_P22469 -0.12493156## A_43_P23061 -0.12255308## A_43_P11409 -0.09768656# 绘制 PC1 相关变量的相关系数的条形图 plotLoadings(Result.spca) 232 # 提取与 PC2 有关的变量系数 selectVar(Result.spca, comp = 2)$value## value.var## A_42_P470649 -0.57806702## A_42_P795796 -0.44100784## A_42_P761756 -0.36558200## A_43_P12751 -0.32721979## A_42_P765066 0.30628938## A_42_P708480 -0.24273534## A_42_P545943 0.23040165## A_42_P620095 -0.12099536## A_43_P22616 0.09024518## A_43_P13317 -0.04499990# 绘制 PC2 相关变量的相关系数的条形图 plotLoadings(Result.spca, comp = 2) 233 看到这儿大家可能又有了新问题，1.我们选择前多少个 PC 才可以；2.多少个与 PC 相关的变量才能视为重要的变量（key variable）。这里 tune.pca 首先通过碎石图，观察不同 PC 解释 variance 的百分比的拐点，案例数据中我们看到差不多是 2 就出现明确拐点，所以就选 2。另外对于每个 PC 筛选多少个相关的变量并没有明确的要求。可以根据变量设置合适的相关系数阈值进行分析。 # 绘制碎石图 plot(tune.pca(X)) 2.Projection to latent structure-Discriminant analysis (PLS-DA) 这一方法的背景在于，如果有样本转录组学，也知道这些样本的分类，那么我们如何通过已知的样本分类以及对应的转录组数据进行建模，并通过该模型准确的 234 对另外一批样本进行预测分型呢？先介绍一下 PLS-DA 需要使用的数据，srbct 研究：小圆蓝细胞肿瘤(The Small Round Blue Cell Tumours, SRBCT)样本，一共有 63 个样本。包括 8 个 burkitt Lymphoma、23 个 Ewing sarcoma、12 个 neroblastoma 以及 20 个 rhabdomyosarcoma 样本。  # 加载数据 data(srbct)X <- srbct$geneY <- srbct$class# 查看数据 summary(Y)## EWS BL NB RMS ## 23 8 12 20dim(X)## [1] 63 2308length(Y)## [1] 63 包括如下的数据：gene、class、gene.name 三大数据。X 是样本的转录组学数据，一共有 2308 个基因。Y 是定性的分类标签，PLA-DA 能够一步完成变量筛选以及分型步骤。输入数据 X 要求是一个 n×p 的数据矩阵，Y 是因子型向量，如果 Y 是多分类变量，则需要设置 Y*为哑变量矩阵（n×K）,K 即亚型的类数。输出数据：（1）component（类似于 PCA 中的 PC）也称之为 latent variable，（2）loading vectors，即每个变量对应每个 component 的相关性系数，（3） list of selected variable 则是与每个 component 明确相关的关键变量（key variable） # 开始分析，并筛选每个 component 明显相关的 variablesResult.splsda <- splsda(X, Y, keepX = c(50, 50))# 绘制样本 plotIndiv(Result.splsda) 235  # 绘制变量 plotVar(Result.splsda) 236 # 查看与 component 1 明显相关的 variableselectVar(Result.splsda, comp = 1)$name## [1] "g123" "g846" "g758" "g836" "g1606" "g335" "g783" "g1386" "g1884"## [10] "g585" "g589" "g1158" "g1387" "g165" "g1036" "g1295" "g1375" "g1116"## [19] "g1916" "g74" "g85" "g1099" "g1974" "g998" "g1067" "g1839" "g1915"## [28] "g1453" "g1536" "g1279" "g1735" "g555" "g276" "g780" "g188" "g2186"## [37] "g190" "g1443" "g2127" "g1090" "g1587" "g166" "g1283" "g1206" "g2279"## [46] "g2116" "g2230" "g1008" "g849" "g1042" 由于 PLS-DA 是 1 个 supervised 的方法，我们发现几乎每个肿瘤类型都区分的非常开，尤其是 BL 这一类型。调试一下图片的结果，提升颜值。 # 添加标题、样本形状、以及不同分组的 plotIndiv(Result.splsda, ind.names = FALSE, legend = TRUE, ellipse = TRUE, star = TRUE, title = "sPLS-DA on SRBCT", X.label = "PLS-DA 1", Y.label = "PLS-DA 2") # 调整变量绘制，不添加变量标签 plotVar(Result.splsda, var.names = FALSE) 237 # 通过 cutoff 筛选与每个 component 最相关的变量（相关系数大于 0.7） plotVar(Result.splsda, cutoff = 0.7) 238 其他一些可视化结果。background prediction 即通过构建预测模型，将 component 构建的 XY 坐标轴划分为不同区域，如果样本落在对应区域的则划分为对应类型。 background <- background.predict(Result.splsda, comp.predicted = 2, dist = "max.dist")plotIndiv(Result.splsda, comp = 1:2, group = srbct$class, ind.names = FALSE, title = "Maximum distance", legend = TRUE, background = background) ROC 曲线由于 PLS-DA 可以作为一个分类器对新的数据进行预测分类，我们可以看看它的诊断精确度。另外我们可以通过添加新的数据从而进一步实现预测功能。 239 # 绘制 ROCauc.plsda <- auroc(Result.splsda) ## $Comp1## AUC p-value## EWS vs Other(s) 0.5576 4.493e-01## BL vs Other(s) 1.0000 5.586e-06## NB vs Other(s) 0.5180 8.473e-01## RMS vs Other(s) 0.6814 2.125e-02## ## $Comp2## AUC p-value## EWS vs Other(s) 1.0000 5.135e-11## BL vs Other(s) 1.0000 5.586e-06## NB vs Other(s) 0.7549 6.323e-03## RMS vs Other(s) 0.8953 5.159e-07 接下来还是之前我们在 PCA 模块考虑的问题。 1.我们选择前多少个 component 就足够； 2.多少个与 component 相关的变量才能视为重要的变量（key variable）。 240 PLS-DA 通过 k 折交叉验证，并进行多次重复计算确定纳入多少个 component。对于每个 component 需要纳入多少个强相关的变量，同样需要 k 折交叉验证并重复计算分类的错误率。从而筛选最佳的对于每个 component 相关的变量。 # 筛选最佳的 component 数 Result.plsda2 <- plsda(X, Y, ncomp = 10)set.seed(30) # 设置随机数种子# 自己的分析中建议 nrepeat 为 50MyPerf.plsda <perf(Result.plsda2, validation = "Mfold", folds = 3, progressBar = FALSE, nrepeat = 10)# 并且使用三种距离进行计算分类的错误 matplot(MyPerf.plsda$error.rate$BER, type = "l", lty = 1, col = color.mixo(1:3), main = "Balanced Error rate")legend("topright", c("max.dist", "centroids.dist", "mahalanobis.dist"), lty = 1, col = color.mixo(5:7))  # 最后我们可以看到 ncomp=3 是最佳选择。# 确定每个 component 纳入的变量数，我们可以使用 tune.splsda 的方式进行评估筛选出每个 component 相关最合适的 variable 数量 list.keepX <- c(5:10, seq(20, 100, 10))list.keepX # 展示我们测试的变量数设置## [1] 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100set.seed(30) #设立随机数种子 tune.splsda.srbct <- tune.splsda(X, Y, ncomp = 3, validation = "Mfold", folds = 3, dist = "max.dist", progressBar = FALSE, measure = "BER", test.keepX = list.keepX, 241 nrepeat = 10)# 展示错误率 error <- tune.splsda.srbct$error.ratencomp <tune.splsda.srbct$choice.ncomp$ncomp# 最佳 component 数 ncomp## [1] 3# 展示每个 component 相关的变量 select.keepX <tune.splsda.srbct$choice.keepX[1:ncomp] # optimal number of variables to selectselect.keepX## comp1 comp2 comp3 ## 50 40 40# 画图看看 plot(tune.splsda.srbct, col = color.jet(ncomp)) # 最后我们将我们筛选出来最佳的参数带入最开始的分析中 Result.splsda.final <splsda(X, Y, ncomp = ncomp, keepX = select.keepX)plotIndiv(Result.splsda.final, ind.names = FALSE, legend = TRUE, ellipse = TRUE, title = "SPLS-DA, Final result") 242 总结一下，这一期我们讲解了 mixOmics 包总的 PCA 以及 PLS-DA 这两个方法。并且探讨了如何对 PCA、以及 PLS-DA 调整最佳参数，如何绘制样本及变量的可视化结果，最后我们还探讨了如何将 PLS-DA 作为分类器对多分类样本进行预测。收获满满有木有~ 对啦，如果大家觉得分析非常有用，将要在你下一篇 SCI 中使用 mixOmics 包，那么请引用发表在《PLOS COMPUTATIONAL BIOLOGY》上文章“mixOmics: An R package for ’omics feature selection and multiple data integration”。好啦，我是风间琉璃，咱们下期见~ 243 秀到飞起！生信中高逼格的多组学分析怎么做的？半小时轻松教你搞定！（附代码）探索生信之美，解构每一段代码后的逻辑大家好呀，我是风间琉璃，上一周咱们介绍了 mixOmics 包的 PCA 以及 PLS-DA 分析功能（多组学分析工具一键式搞定？高分文章的秘诀，学会能给你的 SCI 加分！），这一期我们更进一步，再来探讨对于多种类型不用数据，我们如何进行准确分型、筛选变量以及不同类型数据中变量的关联分析。废话不多说，直接开启本期内容吧 3.Partial Least Square（PLS） PLS 能够将两个不同类型的数据，比如转录组学数据 X 与代谢组学数据 Y 进行整合分析。PLS 与传统的多因素回顾分析的不同是能够更好的处理噪音（比如离群值）、共线性、缺失值等问题，PLS 在通过成分分解进行降维，从而对两个数据集成分（component）间的协方差（covariance）进行线性回归建模，而 LASSO 是直接通过惩罚系数筛选出强相关性的变量，方法不一样，但是两者都是常见的降维方法。并且 PLS 对各种类型的数据的整合几乎都无问题，因此是 mixOmics 包大多数分析方法的骨架。接下来我们介绍一下我们进行分析的示例研究：nutrimouse——是纳入了 40 只小鼠，具有脂肪酸数据以及基因表达数据。数据储存在：gene、lipid、diet、genotype 文件中。 # 加载包 library(mixOmics)# 输入数据，包括 X 数据的 n×P 矩阵、Y 数据的 n×q 矩阵 data(nutrimouse)X <- nutrimouse$geneY <- nutrimouse$lipiddim(X)## [1] 40 120dim(Y)## [1] 40 21 了解了我们的输入数据之后我们大概讲解一下我们通过 PLS 分析能够得到什么结果，怎么看。（1）components：及我们每个数据集降维之后的成分（component）。（2）loading vector：即每个变量与对应 component 的相关系数。（3） selected variable：即对数据集 X/Y 与每一个 component 明显相关的变量（使用 sparse PLS, sPLS 得到）。sparse PLS 则通过 LASSO 的方法将变量进行筛选，增加了 PLS 成分降维建模的可解释性。 244 这里我们就 sparse PLS 为例开始运行。 # KeppX 筛选对于数据集 X 中分别与 component 1、2 相关的变量数# KeppY 筛选对于数据集 Y 中分别与 component 1、2 相关的变量数 Result.spls <- spls(X, Y, keepX = c(25, 25), keepY = c(5, 5))# 绘制样本分别在 X/Y 数据集的映射 plotIndiv(Result.spls) # 绘制分别在 X/Y 数据集中筛选出与 component1、2 相关的变量 plotVar(Result.spls) # 调整变量标签的大小 plotVar(Result.spls, cex = c(3, 2), legend = TRUE) 245 除此之外我们可以选择取 X、Y 对应的 component 的平均值进行绘图，并添加饮食以及基因型等信息。 plotIndiv(Result.spls, group=nutrimouse$diet,#饮食进行分组 pch = nutrimouse$genotype,#基因型绘制不同类型的点 rep.space = "XY-variate", legend = TRUE,#XY 合并在一起绘图 legend.title = 'Diet', legend.title.pch = 'Genotype', ind.names = FALSE, title = 'Nutrimouse: sPLS') 246 除此之外我们还可以通过 Aroow plot 绘制样本在 X、Y 数据中映射的结果。即通过箭头表示同一个样本分别在 X 数据集中映射位置到 Y 数据集中映射改变。 plotArrow(Result.spls, group = nutrimouse$diet, legend = TRUE, X.label = "PLS comp 1", Y.label = "PLS comp 2", legend.title = "Diet") 绘制不同数据集 X/Y 中筛选出的重要变量之间相关性的热图。   # 绘制与 component 1 相关的变量（5 个脂质分子，25 个基因）的热图 cim(Result.spls, comp = 1) 同样我们还可以重要变量的相关性绘制成网络图的形式。   X11()network(Result.spls, comp = 1, cutoff = 0.6, save = "jpeg", name.save = "PLSnetwork") 最后我们可以使用条形图绘制筛选出的重要变量与每个 component 之间的相关系数。  plotLoadings(Result.spls, comp = 1, size.name = rel(0.5)) 247 看到这儿我想大家肯定会仍会产生两个问题，1.如何确定保留多少个 component；2.如何确定保留多少个与每一个数据集中与每个 component 相关的重要变量。对于第一个问题，同样可以使用 k 折交叉验证以及多次重复计算，如果拟合指标 Q2 明显下降<0.1，可能就会存在过拟合问题。我们看一下我们的结果。 Result.pls <- pls(X, Y, ncomp = 5)set.seed(30) # 设立随机数种子 perf.pls <perf(Result.pls, validation = "Mfold", folds = 5, progressBar = FALSE, nrepeat = 10)plot(perf.pls, criterion = "Q2.total") 248 2 发现我们随机新的 componet 加入，Q 明显下降，因此我们们的模型并不需要更多的 component。对于第二个问题，mixOmics 通过交叉验证的方式计算 components 之间的相关性，从而找到最佳的变量数。 list.keepX <- c(2:10, 15, 20)set.seed(30) # 通过 corelatioan 进行测量 tune.spls.cor <- tune.spls(X, Y, ncomp = 3, test.keepX = list.keepX, validation = "Mfold", folds = 5, nrepeat = 10, progressBar = FALSE, measure = "cor")plot(tune.spls.cor, measure = "cor") 我们也可以同时进行 X、Y 两个数据集的分析。 set.seed(30) #设立随机数种子 tune.spls.cor.XY <- tune.spls(X, Y, ncomp = 3, test.keepX = c(8, 20, 50), test.keepY = c(4, 8, 16), validation = "Mfold", folds = 5, nrepeat = 10, progressBar = FALSE, measure = "cor")## 可视化 X、 Y 数据集中每个 component 相关最佳变量数 plot(tune.spls.cor.XY, measure = "cor") 249   # 使用残差平方和（Residual Sum of Squares, RSS）指标 plot(tune.spls.cor.XY, measure = "RSS") 我们可以看到绿色框框住的圆圈是 mixOmics 算法分析出来筛选出最合适的变量数。两种方法的结果几乎相同。 4.DIABLO 250 前面的讲解中我们学习到如何对于单一数据集或者两个数据集同时进行降维建模、变量筛选以及预测分析。但是我们在数据实战中还会遇到一个情况，同一批样本不止两类不同的数据集。比如 TCGA 数据库中，同一批病人同时有 miRNA、mRNA 以及蛋白组学数据。这个时候我们能够使用什么方法进行降维建模、预测分类呢？这时候就需要使用 DIABLO 算法。DIABLO 是 generalised Canonical Correlation Analysis 的延伸。mixOmics 包提供了无监督分析（block.pls 和 block.spls 命令）、监督分析（block.plsda 和 block.splsda 命令）。在论文中常用的还是 DIABLO 的监督分析方法。接下来我们介绍一下我们输入数据的格式以及输出数据的格式以及我们使用的示例数据。首先输入数据 X 是多个 n 行（n 为样本数）数据框构成的列表格式（list）,Y 则是包含分类信息的因子型变量。这一点和 PLS-DA 分析相似。输出数据包括：（1）components：及我们每个数据集降维之后的成分（components）（2）loading vector：即每个变量与对应 component 的相关系数，每个数据集中的变量是单独的一个向量。（3）a list of selected variable：对于 sparse DIABLO 能够筛选出与每个数据集中与每一个 component 明显相关的变量。我们使用的示例数据是 TCGA 的乳腺癌患者样本，包括 miRNA、mRNA 以及蛋白组学数据。分类变量结局则是乳腺癌常用的分子分型，包括 Basal, Her2, LumA 等。  # 加载数据 data(breast.TCGA)# X 则是多组学的样本 X <- list(mRNA = breast.TCGA$data.train$mrna, miRNA = breast.TCGA$data.train$mirna, protein = breast.TCGA$data.train$protein)# Y 则是每个样本的亚型 Y <breast.TCGA$data.train$subtype# 查看下分类结局 summary(Y)## Basal Her2 LumA ## 45 30 75# 设置每个数据与前两个 component 明显相关的变量数阈值 list.keepX <- list(mRNA = c(16, 17), miRNA = c(18, 5), protein = c(5, 5))# 开始分析 Result.diablo <- block.splsda(X, Y, keepX = list.keepX)# 个性化绘图不同的样本 plotIndiv(Result.diablo, ind.names = FALSE, legend = TRUE, cex = c(1, 2, 3), title = "BRCA with DIABLO") 251 # 不同的变量 plotVar(Result.diablo, var.names = c(FALSE, FALSE, TRUE), legend = TRUE, pch = c(16, 16, 1)) 我们可以展示每个 component 在不同数据集之间的相关性。 252 # 不同数据即展示 componentplotDiablo(Result.diablo, ncomp = 1) 也可展示不能类型数据中不同变量之间相关性的和弦图。 # 相关系数阈值为 0.7circosPlot(Result.diablo, cutoff = 0.7) 同样可以绘制不同数据集的不同 component 的样本聚类的热图。 253 # cimDiablo(Result.diablo, color.blocks = c('darkorchid', 'brown1',# 'lightgreen'), comp = 1, margin=c(8,10),size.legend = 0.8, legend.position =# 'right') 我们可以看到不同类型的患者大致上还是可以进行区分开的。同样我们可以绘制每个变量与对应 component 的相关系数的条形图。 # 选择展示变量在某一亚型中最大值 plotLoadings(Result.diablo, comp = 2, contrib = "max") 同样也可以绘制变量间相关性网络图。 network(Result.diablo, blocks = c(1, 2, 3), color.node = c("darkorchid", "brown1", "lightgreen"), save = "jpeg", name.save = "DIABLOnetwork") AUC 曲线绘制，使用 miRNA 数据集的前两个 components 进行绘制 ROC 曲线。同样适用于使用验证集进行分类性能。  Myauc.diablo <- auroc(Result.diablo, roc.block = "miRNA", roc.comp = 2) 254 ## $mRNA## $mRNA$comp1## AUC p-value## Basal vs Other(s) 0.9970 0.00000## Her2 vs Other(s) 0.6106 0.06149## LumA vs Other(s) 0.9883 0.00000## ## $mRNA$comp2## AUC p-value## Basal vs Other(s) 0.9992 0.000e+00## Her2 vs Other(s) 0.9703 1.776e-15## LumA vs Other(s) 0.9970 0.000e+00## ## ## $miRNA## $miRNA$comp1## AUC p-value## Basal vs Other(s) 0.9551 0.0000## Her2 vs Other(s) 0.5650 0.2716## LumA vs Other(s) 0.9239 0.0000## ## $miRNA$comp2## AUC p-value## Basal vs Other(s) 0.9623 0.00e+00## Her2 vs Other(s) 0.8650 6.67e-10## LumA vs Other(s) 0.9589 0.00e+00## ## ## $protein## $protein$comp1## AUC p-value## Basal vs Other(s) 0.9524 0.000000## Her2 vs Other(s) 0.6678 0.004542## LumA vs Other(s) 0.9874 0.000000## ## $protein$comp2## AUC p-value## Basal vs Other(s) 0.9790 0.000e+00## Her2 vs Other(s) 0.9256 6.111e-13## LumA vs Other(s) 0.9950 0.000e+00 同样我们可以根据多组学数据集对样本对应的分类进行预测。并且确实一类数据集同样可以完成。 # 测试数据 X.test <- list(mRNA = breast.TCGA$data.test$mrna, miRNA = breast.TCGA$d ata.test$mirna)Mypredict.diablo <- predict(Result.diablo, newdata = X.test)# 混淆矩阵 confusion.mat <- get.confusion_matrix(truth = breast.TCGA$data.test$subtype, predicted = 255 Mypredict.diablo$MajorityVote$centroids.dist[, 2])knitr::kable(confusion.mat) # 计算错误率 get.BER(confusion.mat)## [1] 0.2428571 效果还不错对吧~接下来还是我们的灵魂问题，如何选择合适的 component 以及合适的变量数。 result.tune.splsda <- block.splsda(X,Y,ncomp = 6)set.seed(30) # 设立随机数种子 perf.pls <- perf(result.tune.splsda, validation = "Mfold", folds = 5, progressBar = FALSE, nrepeat = 10)plot(perf.pls) #发现 n component=3 可能比较合适#设置变量数 list.keepX <-list(mRNA=c(2:6), miRNA=c(2:6), protein=c(2:6))set.seed(30) # 通过 corelatioan 进行测量 BPPARAM <- BiocParallel::MulticoreParam(workers = parallel::detectCores()-1)#运行时间很慢，大家多点耐心 tune.spls.breast <- 256 tune.block.splsda(X, Y, ncomp = 3, test.keepX = list.keepX,#变量数设置 design = Result.diablo$design,#采用 mixOmics 默认的 design 文件 dist = "max.dist",#选择 mas.dist 方式计算距离 validation = "Mfold", folds = 5,#5 折交叉验证 nrepeat = 10, #重复 10 次 progressBar = FALSE, measure = 'BER',#测量值指标为错误率 BPPARAM = BPPARAM )#增加线程 #查看错误率 tune.spls.breast$error.rate## comp1 comp2 comp3## 2_2_2 0.3761481 0.1617778 0.1199259## 3_2_2 0.3665185 0.1625185 0.1214074## 4_2_2 0.3557037 0.1634815 0.1260000## 5_2_2 0.3546667 0.1557037 0.1248889## 6_2_2 0.3542222 0.1544444 0.1247407## 2_3_2 0.3838519 0.1544444 0.1190370## 3_3_2 0.3668148 0.1537037 0.1191111## 4_3_2 0.3595556 0.1528889 0.1218519## 5_3_2 0.3582222 0.1528148 0.1243704## 6_3_2 0.3579259 0.1488889 0.1243704## 2_4_2 0.3828148 0.1564444 0.1205185#绘图 plot(tune.spls.breast,col = color.jet(3))  #我们可以看到在不同数据集中的筛选出来的最佳变量并不相同。总结一下 PLS 能够对两种截然不同类型的数据进行整合降维建模并进行重要变量筛选，而 DIABLO 则能够通过整合多个数据集，并建模分析，从而能够准确预测多分类结局。我们再来看看“mixOmics”包的应用的示例场景，发表在《BMC Genomics》杂志上的文章“Multiple omics analysis reveals that high fiber diets promote gluconeogenesis and inhibit glycolysis in muscle”研究通过多组学数据分析发现高纤维饮食能够调控糖代谢途径相 257 关基因。我们直接看其中的 Figure 5。是不是很熟悉的感觉呢？通过 mixOmics 包的 DIABLO 功能分析不同组学间相关性，聚类结果，以及多组学之间的联系的和弦图。好啦，mixOmics 包就介绍到这里啦。如果相信大家对 mixOmics 包有了比较深入的了解，从 mixOmics 包不同方法使用与什么类型的数据到如何进行运用。mixOmics 提供了很好的多种数据集的整合、多分类结局的预测功能。在你的下一篇 SCI 中可以考虑使用它（别忘了引用 miOmics 包的参考文献哟“mixOmics: An R package for ‘omics feature selection and multiple data integration” PMID: 29099853）。 258 我是风间琉璃，我们下期见！ 259 多组学+表观遗传+临床联合分析大杀器！用这个数据库就够了！绝对让你爱不释手！ MEXPRESS 数据库：基因表达谱、甲基化与临床数据相关性及可视化神器嗨，小伙伴们大家好！新的一周给大家带来 MEXPRESS 数据库，一款基因表达谱、甲基化与临床数据相关性及可视化神器，一起来感受一下吧~！ ▌数据库概览 MEXPRESS 数据库网址为（https://mexpress.be/index.html），点击 ABOUT 查看数据库简介，MEXPRESS 专注于 TCGA 数据库中基因表达谱、DNA 甲基化位点和临床数据之间相关性分析及可视化功能。页面下拉，提供数据库快速入门指南，并提供图表结果说明、放大缩小功能和工具栏说明等信息。 260 261 感兴趣的小伙伴还可以在菜单栏点击 CODE 链接至 GitHub 数据库查看 MEXPRESS 数据库源代码。 262 ▌数据库核心功能及操作演示 MEXPRESS 数据库操作很简单，进入主页，左侧栏输入感兴趣的基因名（支持输入 HGNC symbols，Ensembl gene IDs 或 Entrez ID）并选择疾病，以前列腺癌中 GSTP1 基因为例，点击 PLOT，等待页面刷新。结果以热图形式展示，默认以样本中基因表达值降序排列，提供样本临床信息、基因表达及拷贝数、体细胞突变和甲基化数据，以及相关性分析结果，相关性分析基于 Person 检验或 Wilcoxon 秩和检验，p 值基于 Benjamini-Hochberg 方法进行调整。 263 临床信息部分的热图提示，在前列腺癌与正常组织之间 GSTP1 基因表达水平存在显著差异（p=7.417e-28），同时 GSTP1 基因表达与肿瘤复发显著相关（p=3.226e-4）、与肿瘤占位显著相关（p=0.011）、与血液 PSA 水平显著负相关（r=-0.132，p＜0.01）。基因表达及拷贝数部分的热图提示，在前列腺癌中 GSTP1 表达与基因拷贝数显著负相关（r=-0.159，p＜0.001）。接下来是各位点甲基化修饰与基因表达相关性热图，结果提示 GSTP1 基因表达水平与甲基化修饰显著相关，鼠标悬停显示甲基化探针信息。鼠标右键框定感兴趣的转录本区域或多个探针，局部放大查看。 264 265 上方工具栏支持个性化设置：Sort the samples by 下拉菜单选项按照不同样本信息进行排序；Filter the samples 下拉菜单选项支持对某一类型样本进行过滤；Select clinical parameters 下拉菜单选择感兴趣的临床信息；勾选 Show the somatic mutations 显示体细胞突变信息；点击 Highlight the promoter probes 高亮显示启动子区域甲基化信息。 266 点击 Show the summarized view，显示前列腺癌中 GSTP1 基因高、低表达组样本甲基化修饰差异情况。 267 Show information about 下拉菜单，显示不同数据集信息。 Download 提供不同格式的结果图表下载。 268 ▌文献案例 269 270 MEXPRESS 数据库 2015 年发布并于 2019 年更新，发布以来引用文献 140 余篇，其中 5 分以上文献占四成以上，更多文献案例学习小伙伴们可以自行检索。以上就是 MEXPRESS 数据库的全部内容，开发并维护数据库不易，小伙伴们使用时别忘记引用以下参考文献！ [1] Koch A, De Meyer T, Jeschke J, Van Criekinge W. MEXPRESS: visualizing expression, DNA methylation and clinical TCGA data. BMC Genomics. 2015 Aug 26;16(1):636. doi: 10.1186/s12864-015-1847-z. PMID: 26306699; PMCID: PMC4549898.[2] Koch A, Jeschke J, Van Criekinge W, van Engeland M, De Meyer T. MEXPRESS update 2019. Nucleic Acids 271 Res. 2019 Jul 2;47(W1):W561-W565. doi: 10.1093/nar/gkz445. PMID: 31114869; PMCID: PMC6602516. 272 多组学！还自带动物和临床实验！这个数据库可以封神了！做科研不可错过！来掘金了！ Autophagy and Tumor Database 肿瘤相关自噬基因及临床相关性信息数据库嗨，小伙伴们大家好！新的一周我们继续自噬的话题，前两期给大家介绍了自噬相关基因及自噬调控靶点信息数据库 HADb 和 HAMdb，这周给肿瘤口小伙伴带来小小福利，一起学习一款肿瘤相关自噬基因及临床相关性信息数据库，一起来看看吧~！ ▌数据库概览网址（http://www.bigzju.com/ATdb/#/Homepage），Human Autophagy Database 数据库简称 ATdb，整合来自 TCGA、GEO 数据库肿瘤转录组表达谱及临床表型信息，UniProt、HGNC、HPA 和 ENSEMBL 等基因组及蛋白信息，以及 Pubmed 文献报道数据，囊括 25 种肿瘤和 64 种细胞系的自噬相关 137 个基因、658 个 miRNA、266 个 lncRNA、155 个 PTM 和 298 个 DNA 甲基化信息，以及 331 个动物模型和 70 个临床试验信息，提供生存分析模块。基于上述信息，ATdb 数据库提供数据查询、浏览、可视化和下载等功能。 273 Tutorial 部分展示数据库使用指南。 ▌数据库核心功能及操作演示 1 Genes 模块 274 Genes 模块提供自噬相关基因信息，包括基因基本信息、表达谱、亚细胞定位、临床相关性、翻译后修饰、非编码 RNA 调控、甲基化、可变剪切和动物模型等信息。 Illustration 部分展示自噬调控网络示意图，分别是经典自噬途径调控网络和线粒体自噬调控网络。 275 在 Search 部分的检索框输入感兴趣基因，或 Dropdown list 部分的下拉菜单选择感兴趣基因，进行检索。 276 以 BCL2 为例，结果 General Information 部分为 BCL2 基本信息，Summary 提示 BCL2 基因编码线粒体外膜蛋白，BCL2 易位至 Ig 重链位点被认为是滤泡性淋巴瘤原因，存在可变剪切产生多个转录本。 Expression Profile 部分展示 BCL2 基因在不同肿瘤及肿瘤细胞系中表达情况，可以选择不同数据库来源进行查看。 277 Intracellular localization 部分展示 BCL2 亚细胞定位情况，可链接至 HPA 数据库查看详细信息，BCL2 蛋白定位于核膜及核质。 278 Correction 部分展示 BCL2 在不同肿瘤中与 miRNA、lncRNA 和转录因子之间相关性分析结果，肿瘤全选、相关性系数选择大于 0.5，p 值选择小于 0.05，点击 Submit 得到结果。 279 与 BCL2 显著相关的 miRNA 结果，热图显示 8 种肿瘤，其中 Thyroid cancer 中与 BCL2 相关的 miRNA 最多，表格显示 89 个 miRNA，其中正相关系数最高为 0.771，是甲状腺癌中 has-mir-1179。可以将鼠标悬浮在热图中某个格子，点击后显示该 miRNA 与 BCL2 相关性散点图，以甲状腺癌中 has-mir-1179 为例。 280 281 与 BCL2 显著相关的转录因子结果类似，总计 1225 个转录因子，鼠标悬浮在热图中某个格子，点击后显示该转录因子与 BCL2 相关性散点图，以其中正相关系数最高的胰腺癌中的转录因子 IKZF1 为例，查看相关性散点图。 282 283 与 BCL2 显著相关的 lncRNA 结果类似，总计 1010 个转 lncRNA，以其中正相关系数最高的胰腺癌中的 RP11-284N8.3 为例，查看相关性散点图。 284 285 Posttranslational Modification 部分为 BCL2 蛋白翻译后修饰信息，显示 15 条结果，提供蛋白修饰位点、细胞系、酶和参考文献信息。 286 接下来 ncRNA Regulation 部分展示与 BCL2 存在调控关系的 175 个 miRNA 和 82 个 lncRNA 信息。 Methylation 部分展示 20 条 BCL2 甲基化修饰信息及参考文献。 287 Alternative splicing 部分，下拉菜单选择膀胱癌 BLCA，展示 BCL2 在有 4 个不同转录本，箱图展示表达量情况。最后部分，是 23 个 BCL2 相关研究中动物模型信息。 288 2 Tumors 模块 Tumors 模块提供肿瘤自噬基因与临床相关性信息，包括肿瘤基本信息、基因差异表达情况、生存分析和相关性分析结果。在 Search 部分的检索框输入感兴趣肿瘤，或 Dropdown list 部分的下拉菜单选择感兴趣肿瘤，进行检索。 289 以 Breast cancer 为例，结果 Brief Summary 部分为乳腺癌基本介绍。 Gene Expression 部分展示按照 Normal/Tumor、Stage 和生存状况分组的表达差异基因，及对应的 Fold change 和 P 值，点击蓝色基因名显示箱图。 290 Correlation 部分设置感兴趣基因、相关系数和 P 值阈值，点击 Submit，结果展示与该基因相关的 miRNA、转录因子和 lncRNA，功能与前述类似，详情不再赘述。 291 292 KM-plot 部分展示进行生存分析结果，右侧下拉菜单选择感兴趣基因，生存分析图可设置 cutoff 值，下图为 Tutorial 中相关功能说明。 293 Clinical Trial 部分展示乳腺癌的自噬相关临床试验信息，点击项目 NCT_ID 链接至 https://clinicaltrials.gov/查看详细信息。 294 3 Search 功能数据库主页检索框输入感兴趣基因或肿瘤，下拉菜单会智能关联，点击目标基因或肿瘤即可查看详细结果。 295 4 Download Download 模块提供 ATdb 数据库中部分数据下载链接，感兴趣小伙伴可以自行探索。 ▌文献案例目前引用 ATdb 数据库文献仅 1 篇，探索自噬相关研究进展，感兴趣小伙伴可以学习。 296 以上就是 ATdb 数据库的全部内容，开发并维护数据库不易，小伙伴们使用时别忘记引用以下文献哦~！ Chen K, Yang D, Zhao F, Wang S, Ye Y, Sun W, Lu H, Ruan Z, Xu J, Wang T, Lu G, Wang L, Shi Y, Zhang H, Wu H, Lu W, Shen HM, Xia D, Wu Y. Autophagy and Tumor Database: ATdb, a novel database connecting autophagy and tumor. Database (Oxford). 2020 Jan 1;2020:baaa052. doi: 10.1093/database/baaa052. PMID: 32681639; PMCID: PMC7340339. 297 单基因 SCI 套路必备必备！多组学，临床统计，掌握这一个数据库就够了！一文学会 cBioPortal 数据库使用方法大家好，我是弘毅。上回说到，TCGA 家族好兄弟 TCIA(The Cancer Immunome Atlas)数据库的使用方法，想必不少小伙伴已是摩拳擦掌跃跃欲试，甚至于已经 SCI 论文成稿触手可及了，能在大家伙儿 SCI 发表之路上略尽绵薄之力，弘毅表示与有荣焉。这回我们继续聚焦 TCGA 数据挖掘相关的 cBioPortal 数据库介绍，小伙伴们不要走开，精彩之处值得期待哦~！关于 cBioPortal 数据库 cBioPortal 数据库网址 https://www.cbioportal.org/，由 Ceramic 等在 2012 年和 Gao 等在 2013 年两篇文章(PMID: 22588877、23550210)所报道。cBioPortal 提供来自多个平台肿瘤基因组学数据的在线交互式探索、可视化和临床相关性分析。该网站在基因水平整合多种数据类型，针对不同生物学过程，如体细胞基因突变和基因纯和删除，DNA 拷贝数，mRNA 或 miRNA 和蛋白表达等信息分别呈现给用户，具有方便无门槛、高效便捷等特点。 cBioPortal 功能及操作演示进入 cBioPortal 主页面，最上栏分别是：Data sets，提供数据集来源及参考文献链接；Web API，提供与在线可视化过程相同的 API 用于对数据进行编程访问，用户可通过连接到 API 构建个性化报告，感兴趣的小伙伴可以点击进入查看具体指南；R/MATLAB，是基于此两款语言的功能板块；Tutorials and Webinars 提供网站使用指南相关视频；Visualize Your Data 提供两款针对用户个人数据的可视化软件 OncoPrinter 和 MutationMapper。 298 主页检索栏提供 Query 和 Quick Search Beta 两种方式，分别介绍如下。一、Query 检索功能左侧栏显示各肿瘤名称，数字表示该肿瘤相关研究数目，并在中间栏显示，比如点击左侧栏 Pediatric Cancer Studies，数据库中该肿瘤相关研究共有 13 个，显示在中间栏，每个研究可看到其包含的样本数，点击 i 标签可看到该研究简介，书本样标签提供 Pubmed 链接，饼图标签与 Explore Selected Studies 按键功能相同，点击可查看该研究临床信息和基因组学数据。最右侧栏是数据库中 293 个肿瘤研究项目统计结果，显示前 20 个，鼠标悬停在某个柱子可查看该肿瘤相关所有研究，点击 details 可查看全部肿瘤研究。 1 299 Explore Selected Studies 功能选中感兴趣的肿瘤的某个研究项目，点击 Explore Selected Studies 按键进入结果页面，点击右上角下载按钮，可下载该数据集临床信息 TSV 格式文件。Summary 显示该数据集多种可视化结果，右上角 Charts 下拉菜单可选择需要显示的条目。页面下拉，可看到该数据集更多统计信息，如基因突变、基因拷贝数信息的表格和散点图等。 Clinical Data 展示该数据集临床信息，右上角 Columns 下拉菜单可选择需要显示的临床信息条目。 CN Segments 提供该数据集 DNA 拷贝数信息，下拉菜单可选择感兴趣的染色体，旁边的设 300 置按钮可选择热图展示方式。 2 Query By Gene 功能选中感兴趣的肿瘤的某个研究项目，点击 Query By Gene 按键，进入设置界面，第一栏显示已选择的肿瘤数据集；第二栏设置需要检索的数据集组学类型，其中 mRNA 和蛋白表达数据可以设置 z-score 阈值，即平均数加减多少个标准差；第三栏，选择包含特定类型数据的样本；第四栏，选择需要检索的基因集，可以选择不同通路或生物学过程基因集，可以输入以空格分隔的自定义基因 ID 列表，系统会检验输入基因名称是否正确或者选择的数据集是否存在该基因的表达数据，出现绿色标签 All gene symbols are valid 说明输入基因正确。设置好参数，点击 Submit Query 进入结果界面。（1） 301 OncoPrint 是该组肿瘤样品中目标基因集的组学变化特征，行代表基因，列代表样本，图形和颜色代表不同的基因组变化，包括不同突变类型、CAN(扩增和纯合缺失)以及基因表达或蛋白质表达丰度变化。鼠标悬停在某个小竖条上可获得对应样本 ID 链接、突变信息、mRNA 或蛋白表达信息等。不同小竖条代表含义如下。自定义可视化结果，可进行缩小放大，反选 view 下 show unaltered cases 移除无改变 cases，反选 view 下 show whitespace between columns 移除 samples 之间空白，再通过 Sort 更改结果排序。可删除或添加部分基因保留感兴趣基因，获得简洁美观的 Figure，比如 RB1 基因突变信息。（2） Cancer Types Summary 是该组肿瘤样品中各个基因不同组学改变类型所占比例的统计结果， 302 可点击不同基因查看。（3） Mutual Exclusivity 展示该组肿瘤数据集中不同基因之间相互排斥或共现的可能性，提供 p 值及校正后 p 值(q 值)，可下载或复制表格。 303 （4） Plot 提供可视化结果，可选择不同数据类型，选择目标基因，左边栏可设置横、纵坐标轴参数，如图显示选中的 361 肿瘤样本中 RB1 不同突变类型的 mRNA 表达水平，鼠标悬停在散点可显示该样本 ID 链接，右上角提供 SVG、PNG 或 PDF 格式图片，以及 Data 表格下载。（5） Mutation 提供各个基因突变位点和频率信息，最上一栏可选择感兴趣基因，右侧栏显示 Refseq、Ensembl、CCDS 和 Uniprot 数据库链接。 304 Add annotation tracks 可自定义表格，显示肿瘤相关热门位点(Cancer Hotspots)和蛋白翻译后修饰位点(PTM sites)信息。点击 3D Structure 可查看蛋白三维结构图，PDB Chains 可选择想要查看的肽链三维结构和具体信息。下方表格显示所有非同义突变详细信息，Columns 菜单提供以下信息：样本 ID 链接，氨基酸变化，突变类型(错义突变，无义突变，剪接位点，移码，插入或缺失等)；预测的错义突变功能；链接到突出显示突变的 3D 结构；突变状态；验证状态；肿瘤等位基因突变频率；匹配正常样本等位基因突变频率；确切基因组位置信息（染色体，起始和终止位点等）；受影响的同工型信息等，可以根据需要进行排序和过滤。 305 （6） Co-expression 提供该肿瘤数据集中目标基因与其他基因共表达情况，上方栏选择目标基因，下方列表可选择其他基因，左侧显示相关性点图及统计分析结果。（7） Comparison/Survival 提供生存分析可视化结果：点击 Overlop 查看分组信息；点击 Survival 查看总生存、无病生存和无进展生存分析结果，右上角均提供 SVG、PNG 或 PDF 格式图片，以及 Data 表格下载。 306 点击 Clinical 显示临床信息基线资料表，以及对应的点图。点击 Mutations 可显示不同基因突变情况，突变率较高的基因以柱状图形式呈现，下面表格显示各个基因在不同分组中突变差异情况，Copy-number、mRNA、Protein 和 Microbiome Signature 结果与之类似。 307 （8） CN Segments 提供基因拷贝数信息，鼠标悬停可查看染色体位置、起始位点、样本编号等信息。（9） Pathways 展示选定的基因集中各个基因的组学改变频率，以及富集的相关通路和生物学过程，可复制或下载数据表格。 308 （10） Download 提供不同类型数据格式下载链接。二、Quick Search Beta 检索功能页面可输入疾病名称、基因名称或 TCGA 数据集名称进行检索，以 EGFR 为例，检索结果基本同前。点击 Expression 可查看 EGFR 在不同肿瘤中的表达情况，以 RNA seq 结果取 log2 后作图，标注有各个肿瘤的数据库来源，右上角可下载 SVG、PNG 或 PDF 格式图片。 309 好啦，关于 cBioPortal 数据库正餐就上到这里，其他小工具小甜点就靠小伙伴们自行挖掘了。欲知更多生信知识，我们相约“挑圈联靠”公众号哈~下期再见了~~！ 310 肿瘤药敏及多组学研究好帮手-GDSC 数据库，真香！好用到停不下来！一文学会肿瘤药敏及多组学分析 GDSC 数据库使用方法嗨，小伙伴们大家好！这里是每周一弘毅专栏，我志向用小小文字助力你的 SCI 发表之路。这期给大家带来的是 GDSC 肿瘤药物敏感性基因组学数据库，各位做肿瘤药物相关研究的小伙伴不要错过呦~！关于 GDSC 数据库阻断细胞内信号转导的靶向分子疗法在肿瘤研究领域方兴未艾，该策略基于对致癌基因和肿瘤进展相关基因的功能研究，以及肿瘤患者基因组特征与药物治疗反应之间相关性的临床观察，对肿瘤患者带来极大希望。GDSC（Genomics of Drug Sensitivity in Cancer）肿瘤药敏基因组学数据库，网址： https://www.cancerrxgene.org/ ），是由英国 Wellcome Sanger 研究所和美国 Massachusetts General Hospital Cancer Center 分子治疗中心合作资助，整合肿瘤细胞系抗癌药物敏感性数据和细胞系基因组学数据，致力于发现肿瘤药物治疗靶点、药物敏感性基因型及其他可能预测抗癌药物疗效的 biomarkers，无论是对我们做肿瘤治疗的基础科研还是指导肿瘤治疗临床工作都有极大帮助。 311 进入 GDSC 官网主页，该数据库提供三种检索方式，分别是药物名称、基因名称和细胞系名称。页面下拉，可见 GDSC 中收录 518 种抗癌化合物信息，涉及 24 条信号通路，共包含 446146 个剂量反应曲线和 570161 个基因组学关联性分析结果，分别点击蓝色字体链接可进入化合物、细胞系和肿瘤基因组学特征，以及剂量反应曲线和组学关联分析功能页面。 312 右侧栏为数据库更新信息，也可点击 News 查看，最近一次更新为 2020 年 6 月的 8.3 版本，目前包含 988 种肿瘤细胞系相关的 518 种抗癌化合物的 446146 个药物剂量反应 IC50 值和 AUC 值。GDSC 数据库平均每年更新一次，有时一年内会有几次小的数据更新，不满足质控标准 QC 阈值的数据将被剔除，同时增加新的肿瘤细胞系药物敏感性数据。另外，右侧栏可见 GDSC 数据库是由 GDSC1 和 GDSC2 两个子数据库构成，点击 Documentation 再点击 Screening，页面下拉可见两个子数据库详细情况。 GDSC1 子数据库收录 2010-2015 年间的检测数据，最新版 GDSC1 包含 987 个细胞系相关的 367 个抗癌化合物的 310904 个药物剂量反应 IC50 值。GDSC2 收录 2015 至今的数据，最新版 GDSC2 包含 809 个细胞系相关的 198 个抗癌化合物的 135242 个药物剂量反应 IC50 值。二者的差别在于技术更新，GDSC 重复检测了部分来自 GDSC1 的实验，官方推荐 GDSC2。 313 点击 Documentation 再点击 Publication 可见该数据库相关文献，页面下拉，分别是背景知识阅读和已发表的引用该数据库的文献。点击 FAQ，展示该数据库使用过程中可能遇到的问题，小伙伴们使用过程中不要忘记了这个小贴士哦~！ 314 GDSC 数据库核心功能及操作演示一、Compounds 功能板块点击 Compounds 进入抗肿瘤化合物数据查询功能板块，包含细胞毒性化疗药物和靶向治疗药物信息，展示化合物别名、药物靶点、靶向的通路、药物 ID 和数据来源机构，以及该药物在 GDSC1 或 GDSC2 子数据库中对应细胞系的数目，右侧检索框可检索感兴趣的化合物，右上角可下载表格文件。 315 以 5-Fluorouracil 为例，点击药物名可链接至可视化界面，该部分数据来自于 GDSC1 子数据库，点击 Tissue specific analysis 在下拉菜单中可选择不同肿瘤进行组织特异性分析或泛癌分析。 Overview 提供 IC50 和 AUC 值，绿色曲线对应细胞系敏感的 5-Fluorouracil 治疗浓度，红色曲线对应细胞系耐药的 5-Fluorouracil 治疗浓度。 316 页面下拉可见 5-Fluorouracil 在不同细胞系中具体的 IC50 和 AUC 值，提供不同细胞系对应的组织类型、亚型和 TGCA 分类，点击绿色细胞系名称可连接到 GDSC 细胞系信息板块。右下角可下载表格文件。 317 IC50 by tissue 展示 5-Fluorouracil 在不同类型肿瘤组织中的 IC50 数据分布箱图结果，单击箱图可显示散点，双击散点可显示箱图，鼠标悬浮在某个散点可见对应的细胞系名称和 IC50 值，点击可进入 GDSC 细胞系信息板块。页面下拉为列表信息，基本同前。 318 Volcano Plot 展示基因组学特征和 5-Fluorouracil 药物敏感性间相关性的 ANOVA 分析结果，Tissue analysis 为不同肿瘤组织间差异分析，Combined analyses 为所有肿瘤的泛癌分析。火山图的散点大小代表细胞系数量，散点颜色代表统计学差异（满足 p＜0.001 且 FDR＜25%被认为具有显著性差异），其中绿色代表敏感并对应 X 轴右侧，红色代表耐药并对应 X 轴左侧，灰色代表无显著差异。鼠标悬停在散点，可显示详细信息，具体在下方表格展示。 319 Scater plot 展示突变型和野生型细胞系中 5-Fluorouracil 药物 IC50 值，点击 Select Feature 可选择基因突变特征，以药物敏感性相关的 EWSR1.FLI1 突变为例，点击得到 EWSR1.FLI1 突变型和野生型的不同细胞系 5-Fluorouracil 药物 IC50 值散点图结果，不同颜色代表右侧表格中不同细胞系，鼠标悬停在散点可查看详情并连接至 GDSC 细胞系信息板块，右侧表格显示突变组有 17 个细胞系，野生组有 862 个细胞系，可选择感兴趣的细胞系展示在散点图中，相应的的 MWW（Mann Whitney Wilcoxon）检验 p 值＜0.05 表明组间存在显著差异，即 SATG2 突变与 5-Fluorouracil 治疗敏感显著相关。 320 Compare compound 展示两种化合物 IC50 和 AUC 值的相关性点图，点击 Select Compound 可选择与 5-Fluorouracil 比较的化合物，此处以 A-443654 为例，分别提供 Person 和 Spearman 相关系数，二者 IC50 值具有较弱的正相关关系。 321 二、Features 功能板块点击 Features 进入肿瘤基因突变特征查询功能板块，左上角下拉菜单可选择泛癌分析或感兴趣的肿瘤类型，右上角检索框可输入感兴趣基因名，点击基因突变类型的蓝色字体可链接到该突变类型与药物敏感性分析的可视化结果，包含火山图和散点图，散点图可选择感兴趣的药物，其余内容基本同前。 322 三、Cell Lines 功能板块点击 Cell Lines 进入不同肿瘤细胞系药物敏感性查询功能板块，展示细胞系的名称、细胞模型 passports、cosmic ID 和 TCGA 分类，以及组织类型和亚型等信息。点击细胞系名称可链接至 GDSC 可视化页面，信息基本同前。点击 Cell 323 Model Passports 和 COSMIC ID 目录下蓝色字体均可连接至细胞模型相关数据库查看详情。第一列：基因名称 ①列打“√”的基因表示被 OncoKB 收录有注释信息，标“信封”的表示可点击信封标志申请添加注释信息； ②列为肿瘤学功能，TSG 为抑癌基因，Ocongene 为癌基因； ③列为注释信息来源； ④列为数据来源的总数。各列标题右下角的小箭头均可点击进行排序，表格右上角提供检索功能。 324 Actionable Genes 为 OncoKB 核心功能模块，点击进入功能页面，可以看到依次有 Level 1~4 和 Level R1/R2 级别的数据，提供以肿瘤类型、药物和突变基因名三种方式进行检索。以乳腺癌为例，在 Search Tumor Type 栏输入或下拉选择 Breast cancer，回车可得到检索结果，共有 21 个基因及对应的 37 种药物注释信息，其中 Level1~4 包含的基因分别为 6、2、4 和 11 个，LevelR1~2 包含的基因分别为 0 和 2 个。页面下拉可以看到不同级别对应的基因名称、突变类型和相关药物。以 ERS1 为例，点击进入查看详情，首先可以看到 ERS1 为癌基因，还有其别名、基因组位置信息、背景介绍和不同肿瘤中的突变情况。 325 15 页面下拉，可以看到该基因常见的突变位点及功能注释的结构图，点击 Legend 查看图标注释，鼠标悬浮查看序列片段位置，右上角选项可供用户个性化设置，然后下载图片，使用时别忘记引用参考文献(Zehir et al., Nature Medicine, 2017)。 326 说明：目前 OncoKB 合并到 cBioPortal 数据库，该部分内容也可以在 cBioPortal 实现，方法参见之前关于 cBioPortal 数据库的使用方法介绍，或本文末文献单图复现。页面再往下拉，分别是该基因在乳腺癌，以及其他不同肿瘤中的所有突变类型和对应的注释信息。在 Actionable Genes 目录检索不到的基因，表示暂无该基因临床可干预靶点信息，返回官网主页，输入目标基因，下拉菜单点击可进入详情页面，内容同前。文献单图复现 1 文献案例一：PMID: 31417239，IF=3.216 分 327 本文旨在筛选 etoposide 治疗敏感的肺癌细胞系，Figure1ab 展示 GDSC 数据库中 54 个肺癌细胞系的 etoposide 治疗 IC50 值，其中 35 株细胞对 etoposide 治疗敏感，19 株细胞对 etoposide 治疗耐药。单图复现如下：进入 GDSC 官网，检索框输入 etoposide 得到一条检索结果，点击进入详情页面，右侧栏选择肺癌，Overview 展示的即为原文 Figure1a，再点击 IC50 by tissue，即得到原文 Figure1b。 328 2 文献案例二：PMID: 31139560，IF=4.848 分本文旨通过 GDSC 数据库挖掘 PTEN 基因突变阳性的肾透明细胞癌（KIRC）患者治疗敏感的化疗药物，Figure2de 展示 PTEN 突变与药物敏感性的泛癌分析结果，其中 d 图表示突变型和野生型的各肿瘤细胞系之间 GSK690693 药物 IC50 值存在显著差异，e 图表示 PTEN 突变的多种肿瘤细胞对 GSK690693 药物治疗敏感。Figure2f 展示 PTEN 突变与 GSK690693 药物敏感性的 KIRC 特异性分析结果，即与野生型细胞系相比，PTEN 突变阳性 KIRC 细胞系 IC50 值显著降低，表现为 PTEN 突变阳性的 KIRC 患者对 linsitinib 治疗敏感性好。 329 单图复现如下：进入 GDSC 官网，检索框输入 PTEN，检索到一条结果，突变类型为 coding variant，点击进入详情页面，Volcano Plot 火山图即原文 Figure2e，显示 PTEN 突变的多种肿瘤细胞对 GSK690693 药物治疗敏感。 330 点击 Scatter plots，再点击 Select Drug 选择 GSK690693 药物，得到药物敏感性的泛癌分析结果，即原文 Figure2d，表示各肿瘤细胞系突变型和野生型之间 GSK690693 药物 IC50 值存在显著差异。 331 点击左侧栏 Tissue specific analysis 下拉菜单选择肾透明细胞癌，得到 PTEN 突变与 GSK690693 药物敏感性的 KIRC 特异性分析结果，即原文 Figure2f。 332 有趣的是，以上结果是在 GDSC1 子数据库中的分析结果，而在 GDSC2 子数据库中未收录 GSK690693 药物敏感性相关信息，小伙伴在使用该数据库时候注意根据时间段对进行两个子数据库选择哈，弘毅的经验是两个子数据库都过一遍。 3 文献案例三：PMID: 31871844，IF=2.379 分本文 Figure3 展示 TP53 突变膀胱癌细胞系对丝裂霉素 C（mitomycin-C）、阿霉素（doxorubicin）及吉西他滨（gemcitabine）三种药物治疗敏感性的膀胱癌特异性分析结果。 333 单图复现如下：进入 GDSC 官网，检索框输入 TP53，检索到两条药物结果和两条基因组特征结果，选择 TP53 突变，突变类型为 coding variant，点击进入详情页面，右边下拉菜单选择膀胱癌，Volcano Plot 火山图即原文 Figure3a，显示 TP53 突变的膀胱癌细胞系对 mitomycin-C、doxorubicin 和 gemcitabine 三种药物治疗敏感性信息，P 值均小于 0.05。 334 点击 Scatter plots，再点击 Select Drug 选择药物，以 mitomycin-C 为例，得到药物敏感性的泛癌分析结果，即原文 Figure3b，表示各肿瘤细胞系突变型和野生型之间药物 IC50 值无显著差异。点击左侧栏 Tissue specific analysis 下拉菜单选择膀胱癌，得到 TP53 突变与 mitomycin-C 药物敏感性的膀胱癌特异性分析结果，即原文 Figure3c。 335 投我以桃，报之以李，开发并维护数据库不易，小伙伴们使用 GDSC 时，别忘记引用参考文献（Nucl. Acids Res.2013 Database issue. PMID:23180760）哦！~ 写在结尾我有双份的快乐，一份留给我的 family members，一份留给不经意间看到的你！好啦~关于 GDSC 数据库加餐就到这里啦！欲知更多生信知识，我们相约“挑圈联靠”公众号~下期再见了~~！ 336 泛癌多组学百搭数据库，分分钟给你的生信 SCI 加上美图！针对肿瘤细胞系中基因多组学表达挖掘神器大家好，我是风间琉璃。今天给大家介绍的是鼎鼎有名的数据库 —肿瘤细胞系百科全书（Cancer Cell Line Encyclopedia, CCLE），网址（https://portals.broadinstitute.org/ccle/about）。对于研究肿瘤的小伙伴，CCLE 数据库必然是很好的可视化神器！！！里面提供的图片可以直接放到我们的 SCI 中，颜值相当耐看。在“挑圈联靠”四字心诀中，靠—临床意义的验证中，CCLE 数据库可以从细胞系维度进行验证。你看意义也是杠杠的~那我们直接开始吧。我们可以看到 CCLE 数据主页页面非常简洁。在页面的正中间的红框内输入我们想要检索的基因名称和细胞系。 337 关于 CCLE 数据库我们可以看到主页的左上方分别有 Home、About、Data 以及 Contact（未用红框标出）。主页则是目前的主页。点击 About 则出现关于 CCLE 数据库的介绍。 CCLE 数据库一共包含了 1457 种不同的细胞系、84434 个基因、136488 个不同的数据库、1159663 突变条目、118661636 分布评分以及 411948577 个甲基化位点评分。换句话说，CCLE 数据库包括了不同细胞系种基因的表达谱数据（Affy 芯片以及 RNA-seq）、拷贝数数据、突变数据、甲基化数据。不同细胞系的构成比如下。我们可以看到 9.33%是 lung_NSC 细胞系。接下来是 glioma、colorectal 细胞系。 CCLE 数据下载 338 继续点击首页左上方的 data 按钮，我们可以得到相关的数据。如果有想自己处理的小伙伴可以下载喔~（在红框部分有对数据集的描述，方便我们定位到我们想要下载的数据集） CCLE 数据库中基因的查询好啦，介绍完细枝末节，我们正式开始查询吧，在查询框内我们可以输入基因或者是细胞系。这里我们以“BCL2”为例。输入 BCL2 后点击回车。得到以下页面。 339 我们可以看到最下面直接就是一个很好看的盒型图对吧，不同的颜色代表不同的细胞系，Y 轴代表了 BCL2mRNA 的表达水平。接下来我们看上面的红框部分。最上面的一栏的五个红框圈出来的功能模块分别是 Distribution by lineage（不同细胞系中的分布）、Scatter Plots（散点图）、Mutation Data（突变数据）、 Fusion/Translocation Data（融合/易位数据）、CpG Methylation Viewer（ CpG 位点甲基化视图）。而我们就目前的页面则是在第一个功能模块：Distribution by lineage（不同细胞系中的分布）的 mRNA expression (RNA-seq)数据集。是不是还有其他的数据集呢？当然有，我们接下来看第二行红框圈起来的部分， select Dataset。里面有六个不同的 dataset，包括： (1) Achilles shRNA knockdown; (2) Copy number; (3) DNA methylation; (4) Protein Array; (5) mRNA expression (Affy); (6) mRNA expression (RNA-seq)。这里根据我们的需要，我们可以展示基因的 shRNA 敲低水平、拷贝数、甲基化水平、蛋白表达、芯片 mRNA 表达以及测序 mRNA 的表达。同学们可以在自己的电脑里面点一点，图都很好看喔！ lncRNA 在 CCLE 数据库中的查询 340 另外，这时候大家会不会有一个问题，基因除了 mRNA 可以查询之外，lncRNA 可以查询吗？我们以老牌的 lncRNA 分子 H19 为例，同样进行查询。我们可以看到最上方红框内的 description 部分详细描述了 H19 分子的性质: "H19, imprinted maternally expressed transcript (non-protein coding)"。并且下方红框内 dataset 的选择中，没有了“Achilles shRNA knockdown”以及 “Protein Array”两个 datasets 的选项。 Scatter plot 我们点击查询结果的第二个功能模块 scatter plot 选项。得到如下结果。 341 我们可以看到是以 H19 的拷贝数作为 X 轴，mRNA expression 作为 Y 轴的散点图。并且我们还可以根据自己的兴趣选择不同的 dataset 作为 X 轴与 Y 轴。如果你觉得这个结果就是你 SCI 文章中需要的，点击第三个红色框中的按钮即可进行下载。其他的功能模块大家可以继续这样探索喔。另外再给大家介绍最后一个功能模块“CpG Methylation Viewer”。出来的图很炫酷喔，我们点击 CpG Methylation Viewer 功能模块，选择自己的目标细胞系，我们选择的 B-cell_ALL（B 细胞急性淋巴性白血病）。得到如下的热图。 342 我们可以看到横向的红框是甲基化位点，而纵向的红框则是 B 细胞急性淋巴性白血病的细胞系。颜色从蓝到红分别代表甲基化水平从低到高。圆圈的大小代表覆盖的程度。 CCLE 数据库中细胞系的检索我们再次回到主页，输入我们想要查询的细胞，举一个例子，以“ABC1_LUNG” 细胞系为例。输入之后点击 search。得到如下结果。 343 我们可以看到，最上方的红框是我们搜索的目标细胞系“ABC1_LUNG”。接下来红框展示的我们文件的数据类型——突变数据（Mutations）。接下来我们看看，下面的表格，表头的前面几列是基因的相关信息。而红框圈出来的部分则是突变数据的核心内容，分别是 Variant Classification(变异分类)、Variant Type(变异类型)、Reference Allele(参考等位基因)、Tumor Seq Allele(肿瘤测序位点)。好啦，我们的 CCLE 数据的初步介绍结束啦，我们下期见~ 344

多组学联合分析教程目录

Products

Support

多组学联合分析教程目录

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib