前言

这篇笔记是腾讯课堂上的蛋白质组数据分析教程的笔记，教程的全称是《iTRAQ定量蛋白质组》教程中涉及到的蛋白质谱使用的方法是iTRAQ，分析的物种是玉米，虽然与我的方向不一致，但是原理与数据分析的思路都是相通的，这一部分仅是背景知识。

这个视频教程笔记分2篇，上篇主要是蛋白质谱背景知识介绍，以及文献中的常规思路分析。

下篇主要是进行案例训练。

蛋白质组知识背景

蛋白质组(proteome)：由一个细胞、一个组织或一个机体的基因组所表达的全部相应的蛋白质，是一个整体的概念。

蛋白质组学(proteomics)：以蛋白质组为研究对象，从蛋白质整体水平来认识重合活动规律的科学，是后基因组计划的重要组成部分。

蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征，包括蛋白质的表达水平、翻译后的修饰、蛋白质与蛋白质相互作用等，由此获得蛋白质水平上的关于疾病机理、细胞代谢等过程的整体而全面的认识。

蛋白质组学分类

常用的是非标Label Free，以及标记的iTRAQ分板技术。

定量蛋白组学

定量蛋白组学：研究不同条件下蛋白表达水平的变化（上下调情况）。

iTRAQ知识背景

iTRAQ的全称是Isobaric tag for relative and absolute quantitation，翻译为中文就是同重元素标记的相对与绝对定量技术。这是由AB SCIEX公司研发的一种体外同重同位素标记的相对与绝对定量技术。该技术利用同位素试剂可同时标记8个多肽样品，标记的多肽样品等量混匀后，经液相色谱分离及串联质谱（MS/MS）分析，可得到各肽段的一、二级质谱信息。

在一级质谱中，不同样品来源的同一肽段表现出相同的质荷比；

在二级质谱中，化学键断裂释放出iTRAQ报告离子，在质谱低质量区产生了8个报告离子峰，其强度反应了该肽段在不同样品中的相对表达量信息，另外二级质谱中的肽段碎片离子峰质荷比反应了该肽段的序列信息；这些质谱原始数据经过数据库检索，可得到蛋白质的定性和相对定量信息。

iTRAQ技术在微生物抗协迫机制和动植物发育分化机理研究及医学生物标记物筛选领域都有广泛应用。

iTRAQ：采用4种或8种同位素标签，通过特异性标记多肽的氨基基团，进行串联质谱分析从而比较不同样本中蛋白质的相对含量，其特点是：

蛋白通量高，覆盖度高；
定量准确，可信度高；
分离能力强、分析范围广，定性结果可靠；
自动化程度高、分析时间快，分离效果好。

定量蛋白质组原理

iTRAQ试剂

iTRAQ试剂是可与氨基酸末端及赖氨酸侧链连接的胺标记的同位素元素；
iTRAQ试剂由三部分组成：报告基团、质量平衡基团和肽反应标记试剂基团；
报告基因：常见4标或8标，可同时标记4组或8组样品，报告基团有8种分子量，范围从113到121（无120）；
平衡基因：保证iTRAQ标记的同一肽段的质荷比相同，平衡基团也8有种不同的分子量，与不同的报告基团搭配，能保证被标记的不同来源的同一肽段在一级质谱中具有相同的质荷比，就是下图中右侧的部分，在上图，也就是a图中，它们的荷质比都是145.10，在下图，也就是b图中，荷质比都是305.10；
肽反应标记基团：可与肽段N端及辣氨酸侧链发生共价连接，从而标记上肽段。

这几个试剂的结构如下所示：

（图片来源于：Aggarwal S., Yadav A.K. (2016) Dissecting the iTRAQ Data Analysis. In: Jung K. (eds) Statistical Analysis in Proteomics. Methods in Molecular Biology, vol 1362. Humana Press, New York, NY,277）

iTRAQ的实验流程原理

在质谱峰图中，虽然不同样本带有不同的同位素标签，但是经过质量平衡基因的平衡，任何一种试剂标记不同样本中的同一蛋白多肽表现为相同的质荷比，从而形成单一的峰。

在串联质谱结果中，经过激光通量轰击肽段，iTRAQ试剂的三部分之间的键断裂，平衡基因断裂，平衡基团丢失，不同同位素标签的同一多肽的离子信号表现为不同质荷比的峰，因此可根据波峰的高度和面积比较同一蛋白不同处理的定量信息，如下所示：

（图片出处为：Aggarwal S., Yadav A.K. (2016) Dissecting the iTRAQ Data Analysis. In: Jung K. (eds) Statistical Analysis in Proteomics. Methods in Molecular Biology, vol 1362. Humana Press, New York, NY，P278）

一级质谱：

二级质谱：

常规实验流程

实验流程如下所示：

第一步：蛋白酶解样本，也就是将蛋白样本酶解为肽段；

第二步：使用iTRAQ同位素标记，也就是使用不同的iTRAQ标签来标记不同的肽段样本；

第三步：SCX预分级，使用强阳离子交换SCX（HPLC）将肽段分为多个组分；

第四步：使用LC-MS对每个组分进行质谱检测。

质谱仪的组成部分

蛋白质谱的核心就质谱，原理就是样本在特定条件下转变为高速运动的离子，根据离子质荷比的不同在静电场和磁场作用下进行分离，再用特定检测器记录不同质荷比的各离子的相对强度并形成质谱图。

质谱仪

质谱仪：在真空状态下分析离子的质荷比m/z，质谱仪主要是由离子源、质量分析器和离子检测器组成，iTRAQ技术中常用LC-MS/MS，液相色谱串联质谱。

离子源：将蛋白或多肽变成气态的带电离子，常用的有2类：①电喷雾电泳ESI；②基质辅助激光解吸电离MALDI（脉冲方式使用样本离子化0；
质量分析器：将离子源形成的离子按质荷比大小分开：常见有的5类：①四级杆(Quadrupole)；②离子阱(Ion trap)；③飞行时间(TOF)；④傅里叶(FTICR)；⑤轨道阱(Qrbitrap)。

质量分析器的参数

质量分析器的质量范围是指测定质荷比范围，它决定了能检测到的离子范围，例如ESI离子源可产生许多质荷比大于3000的离子，但是如果质量分析器的上限达不到3000，则就无法检测大于3000的离子。

分辨率：观测到的质谱峰的质荷比/半峰高处的峰宽(FWHM)。

不同类型质量分析器的比较

不同质量分析器有不同的分辨率，其中傅里叶>轨道阱>时间飞行>离子阱>四级杆，具体的参数如下所示：

市场上不同型号质谱仪的比较：

其中在使用iTRAQ分析时，比较常用的是Thermo的Q-Exactive与Q-Exactive HF。

离子检测器：①直接检测器；②电子倍增器；③闪烁检测器。
液相色谱LC：利用物质在流动相和固定相中的分配系数差异，进行分离检测。
质谱MS：把不同质荷比的离子分开排列成谱。

实验方案设计

教学视频中的案例是植物方向，其实原理跟动物方向一样的，以下的都是植物蛋白质谱的实验设计。

方案设计-生物学重复

至少设置3个以上的生物学重复；
为了增加实验结果的可靠性，可通过增加质谱的技术重复上机次数；
严谨的实验通常进行3次生物学重复和3次技术重复，也就是一共9批MS数据；
出于经费考虑，有的文献也只进行2-3次技术重复（在动物实验方面，技术重复就是同一个样本上3针质谱即可）。

方案设计-不同组样本的标记选择和上机组合

两组样品

常见的组合包括2组，3组，4组，5组，6组样本，现在以植物干旱无罪推定研究为例说明一下。

假设我们有2组样本，对照组这里用CK表示，它表示正常浇水；实验组使用Treatment不胜感激，它表示不浇水3天，现在有2个方案：

第一个方案：每组2个生物学重复，1个3标；

第二个方案：第组3个生物学重复，1个6标，如下所示：

三组样本

现在将实验扩展一下，我们使用3组：

对照组：CK，正常浇水；

干预组不浇水，包括2组：

不浇水3天：T1

不浇水6天：T2

第一个方案：每组两个生物学重复，1个6标；

第二个方案：每组3个生物学重复，3个4标或1个9标，如下所示：

四组样本

对照组：CK，正常浇水

处理组：Treatment

不浇水3天：T1

不浇水6天：T2

不浇水9天：T3

方案一：每组2个生物学重复，1个8标；

方案二：每组3个生物学重复，3个4组，如下所示：

五组样本

对照组：CK，正常浇水

处理组：Treatment

不浇水1天：T1

不浇水2天：T2

不浇水3天：T3

不浇水4天：T4

方案一：每组3个生物学重复，3个5标；

方案二：每组3个生物学重复，3个6标，如下所示：

六组样本

对照组：CK，正常浇水

处理组：

不浇水1天：T1

不浇水2天：T2

不浇水3天：T3

不浇水4天：T4

不浇水5天：T5，如下所示：

实验方案小结

需要比较的差异分组放在同一组标记中；
不同组织部位不要放在一组标记中检测；
生物学重复可分批上机，此时可不需要内参；
可将所有样本混合作为内参，分析时可通过内参间接找到有无变化的蛋白质。

蛋白数据分析流程

iTRAQ定量蛋白组数据分析流程如下所示：

从质谱仪上拿到的数据是原始质谱数据，然后要将原始数据进行一个数据格式转换，数据转换后，要进行搜库来鉴定蛋白质，这一步是要看找到了多少个蛋白质，随后对找到的蛋白进行蛋白定量。

定量后就是各种分析，包括GO，KEGG，蛋白相互作用等。

[一]搜库

搜库是指通过实验得到的谱图与数据库中的理论谱图进行匹配，得到可能的肽段序列，从而鉴定蛋白质，进行搜库的操作就是将质谱仪得到的谱图输入到搜库软件，常用的搜库软件包括：

ProteinPilot(AB SCIEX)
Proteome Discoverer(Thermo scientific)
Mascot（这个软件是上述2个软件的核心）

数据的产生其实就是：蛋白->肽段->谱图；而数据分析就是这个过程的逆过程，即谱图->肽段->蛋白。

整个流程如下所示：

搜库的原理

搜库软件运行的主要步骤包括：

从数据库中选择分子量与输入值相等的肽段；
形成理论碎片，并进一步生成理论谱图；
将实验谱图与理论谱图进行匹配；
对匹配进行打分；
按打分进行排序，通过统计学分析，确定最佳的匹配结果并导出。

流程示意图如下所示：

搜库数据库的选择

数据库的选择是基于质谱数据的蛋白质鉴定策略中的重要一步，最终鉴定到的蛋白序列都来源于被选择的数据库。

如果是已经测序的生物，直接选用该物种蛋白数据库(NCBI)，或同批样本转录组数据构建的蛋白库。
如果是非测序生物，则选择与被测样本最为相关的大类蛋白质组数据库；
NCBInr分类库，包括动物全库、植物全库、微生物全库、细菌全部库等。
SwissProt/UniProt分类库，动物全库、植物全库、微生物全库、细菌库等。

蛋白质谱鉴定的结果

定量蛋白质鉴定数目一般在几千左右，远少于转录组检测的表达的基因数目和参考基因组的基因数目，如下所示：

右上图是根据分析量来确定的蛋白数据，右下图是根据肽段来确定的鉴定的蛋白数目。蛋白鉴定的数目跟转录鉴定的基因不在一个数量级上，这是因为蛋白质谱在实验的通量，数据库，实验技术方面都有一定的局限。

[二]蛋白质功能注释

通过搜库对蛋白质进行鉴定后，接着就是对这些搜到的蛋白进行功能注释，这有助于了解蛋白的功能，从而解析样本相关表型，常用于功能注释的数据库有：GO、COG、KEGG、NR、Pfam、Swiss-Prot，下图是一个玉米的项目，玉米的蛋白在各个数据库中的注释结果：

数据库介绍

NR

全称是Non-redundant protein sequences，包含GenBank所有编码序列，以及PDB，swissprot，PIR，PRF数据库的所有编码序列的一个非冗余数据库，其数据库完整度高；这是一个氨基酸序列数据库。

Pfam

全称是Protein families database，通过蛋白序列的比对建立了每个家族的氨基酸序列的HMM统计模型，是最全面的蛋白结构域注释的分类系统；通过识别蛋白质的结构域序列，可以预测蛋白质的功能。

Swiss-Prot

这是上EBI维护的数据库，主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列；注释结果包括对蛋白质功能、酶学特性、剪接异构体、相关疾病信息的注释等待，注释结果无冗余。

COG

全称是Clusters of Orthologous Groups of proteins，这是一个蛋白质直系同源数据库。通过对菌类，藻类和真核生物等66个完整基因组的编码蛋白，根据系统进化关系构建而成。这对于预测单个蛋白的功能和整个基因组中蛋白质的功能具有重要的作用。

GO与KEGG

常见，不介绍。

[三]定量

蛋白定量原理回顾

先来了解一下iTRAQ蛋白质定量的原理，如下所示：

iTRAQ试剂是等量的，因此不同同位素在标记同一多肽后在一级质谱检测中，分子量完全相同。
在一级质谱检测到前体离子后进行碰撞诱导解离，产物离子通过二级质谱进行分析。
在二级质谱中，报告基团、质量平衡基团和多肽反应基团之间的键断裂，质量平衡基团丢失，产生低质荷比(m/z)的报告离子。
由于二级质谱可分析相对分子质量相差为1的报告基团，不同报告基团离子强度的差异就代表了它所标记的多肽相对丰度。
多肽内的酰胺键断裂，形成一系列b离子和y离子，得到离子片段的质量数，通过搜库就可以鉴别出相应蛋白质。

蛋白定量分析工具

常用的软件前面已经提了，包括：IQuant(BGI), ProteinPilot(AB SCIEX)、Proteome Discoverer(Thermo scientific)
IQuant：整合了Mascot算法，采用机器学习算法自动对搜索结果进行重新打分，提高结果的鉴定率。

核心的值有3个：

在谱图/肽段水平进行1%FDR的过滤(PSM-level PDF<=0.01)，获得显性性鉴定的谱图和肽段列表。
基于简约原则(the parsimony principle)，利用肽段进行蛋白组装，并生产一系列的蛋白组。
在蛋白质水平以FDR 1%再次进行过滤(Protein-level FDR<=0.01)，以控制蛋白的假阳性。

IQuant的工作流程为：

蛋白质过滤 --> 报告基团标签纯度校正 --> 定量值归一化 --> 缺失值补全 --> 蛋白定量值计算 --> 统计检验。

[四]差异蛋白筛选

对蛋白进行定量后，需要对蛋白的差异进行筛选，筛选的内容包括3个，如下所示：

根据实验设计来设置差异分析，例如A_VS_B；
显示差异蛋白选择的阈值，Fold Change > 1.2或1.5和Q-value < 0.05；
统计学方法：t-test或ANOVA。

现在来看一个差异计算后的结果：

第1列是蛋白名称；

第2列到第4列是3个生物学重复；

第5列与第6列是FC与pvalue。

[五]富集分析

富集分析常见的就是GO分析与KEGG分析，不介绍。

[六]表达聚类和蛋白互作

表达聚类分析的核心就是热图与聚类图，不介绍。

蛋白相互作用通常使用的数据库是STRING数据库，它能分析预测差异蛋白质之间的互作关系，这个数据库的主要信息如下

STRING是一个搜索已知蛋白之间和预测蛋白之间相互作用系统的数据库，包括蛋白质直接物理的相互作用，也包括蛋白质之间间接功能相关性；
数据包括：实验数据、从PubMed摘要中挖掘结果，利用生物信息学方法预测的结果；
通过打分对不同方法得来的结果给予一定权重，得到综合打分，且可根据打分结果绘制蛋白相互作用网络图，它的网络图如下所示：

案例解析

先来看一篇文献，文献内容如下所示：

Liancheng Wu, Shunxi Wang, Lei Tian, Liuji Wu, Mingna Li, Jun Zhang, Pei Li, Weiqiang Zhang, Yanhui Chen
Comparative proteomic analysis of the maize responses to early leaf senescence induced by preventing pollination,Journal of Proteomics,Volume 177,2018,Pages 75-87,ISSN 1874-3919.

研究背景

玉米是一种一年生作物，叶片衰老的过早或过晚都可能会影响产量，在成熟后期，营养物质的再活化受到负面影响，导致幼叶的光合作用受损和系列能力下降，相反，过早的叶片衰老则阻碍了植物生长并降低其CO2的同化能力。叶片衰老是一个高度调控的过程，由几个称为衰老相关基因(SAGs)的基因介导，然后在蛋白质水平上仅鉴定了少数SAG。目前，使用蛋白质组学分析全体蛋白质波动比功能分析的转录组学更有效，因为蛋白质与功能更直接相关。本研究的目的是，研究玉米阻断授粉诱导叶片衰老过程中蛋白质的全局差异积累和代谢物质的变化。

叶片衰老的生理特征

叶片衰老通常与植物衰老以及开花和种子形成有关。叶色也与叶片衰老有关，是植物重合周期阶段的可见指标。叶片衰老时会出现一系列的生理过程，包括叶绿素分解、光合作用停止、蛋白质和核酸降解、分解代谢和营养物质的运输，以及细胞死亡反应，从而导致营养物质再循环到新发育的营养器官和生殖器官。

分子机制研究进展

叶片衰老可以通过许多环境和内源信号来调节，包括年龄、发育信号和植物生长调节剂。植物激素与植物中的各种生物过程（包括叶片衰老）相关，如外源施用脱落酸(ABA)可促进叶片衰老，内源ABA水平在几种植物叶片衰老后增加。

水杨酸(SA)是另一种对叶片衰老正调控的植物激素，而生长素、细胞分裂素和赤霉素对叶片衰老有负调控作用。

糖代谢是与叶片衰老相关的另一因素，如糖类直接应用于拟南芥的叶细胞会导致早衰。

表型分析－糖

实验材料：授粉(POL)和不授粉(NPNPOL)的玉米自交系Yu816。

发育时间：吐丝扣6天到21天(DAS)。

参数检测：叶片的可溶性糖含量和淀粉含量。

分析结果：

可溶性糖，6-18 DAS两种材料中均增加；21 DAS和POL中稍微下降，而NONPL的大量下降。

淀粉：趋势与可溶性糖类似，数据如下所示：

表型分析-叶片形态和叶绿素分析

穗叶和上部的叶片；
两组材料在6-14 DAS时一样保持绿色。
NONPOL组，18 DAS时叶脉积累红色色素，尖端变黄且干燥；21 DAS时穗叶的三分之二变黄；27 DAS时叶片完全干燥。
POL组，仅在27 DAS时表现出轻微黄色。
叶绿素含量：
NONPOL组，穗叶尖端在6-27 DAS显著下降（相对中部和基部），而同时POL组只是稍微一些辞职。
相同的趋势也发生在穗叶的中部和基部。
在两组中Chl含量随着发育而下降，但是NONPOL组比POL组下降得更快，数据如下所示：

iTAAQ蛋白组实验设计

样本数目：7组样本，8标，每个3个生物学重复

实验材料：玉米自交系Yu816

实验处理：授粉(POL)、不授粉(NONPOL)

取样部位：叶片

取样时间点：吐丝后6天(DAS)、14天、18天和21天

生物学重复：3个

方法与仪器：iTRAQ、LC-MS/MS(Thermo Fisher Scientific, Q-exactive)

流程如下所示：

蛋白质组整体分析

文章的附件中列出了蛋白质谱的一些数据，得到了959464个广谱，其中150650匹配上肽段谱图，通过Mascot软件匹配上已知多肽，且28605个匹配上唯一多肽。

鉴定了6941个蛋白，其中4371个唯一蛋白时至少有两个以上肽段匹配的，数据如下所示：

筛选差异蛋白分析

文献中使用了ANOVA来筛选差异蛋白(DAP)，其中阈值为：FC大于1.2或小于0.83(0.83其实就是1.2的倒数)，p值小于0.05。
POL组有700个显著差异积累的蛋白，NONPOL组有1832个；
其中261中仅在POL中显著积累，1393个只在NONPOL组中显著积累，而439个在两组均显著积累；
分析不同时间诱导的衰老：A1 VS B1， A2 vs B2， A3 VS B3；1443个显著差异积累，其中809个仅在NONPOL中显著差异积累，然后进一步分析在14 DAS、18 DAS和21 DAS的做好心理情况下，以及上下调情况；
通过比较本研究和之前文献报告的玉米自交系B73阻断授粉诱导衰老的转录组研究，发现两个数据集仅有154个重叠的基因，这说明在Yu816中有着相对不同的调控机制：

差异蛋白功能分析—GO和KEGG分析

对NONPOL组809个DAP进分别进行GO和KEGG分析，使用cytoscape、Cluego和Cluepedia软件绘制GO注释和KEGG网络图；
通过评分得到65条边连接的36个Term，表明在鉴定的蛋白质相互作用组中相当多的富集(P<0.05)；
显著富集的Term：光合作用、光合作用光系统II、生长素生物合成过程、JA代谢过程、器官衰老、络氨酸代谢、脯氨酸生物合成过程；
从亚细胞定位角度来看，显著宝座的蛋白主要定位于叶绿体、光合体系、过氧化酶体和核糖体，如下所示：

差异蛋白表达分析

表达分析的核心就是热图与聚类。

在诱导叶片衰老过程中，大多数核糖体蛋白质丰度下降，包括50S核糖体蛋白L5-1(B6SST7)，其在14 DAS时稍微下降了0.98倍，在18 DAS时下降了0.8倍，但在21 DAS下降到了0.6。
NONPOL组蛋白酶丰度增加，如光胱氨酸蛋白酶1(B6TGM9)在14 DAS增加1.09倍，在18 DAS时增加1.43位，21 DAS时增加到了2.89倍。
在差异积累的蛋白质中，29种与光合作用有关，并且大部分光合作用相关蛋白丰度减少，例如PSII反应中心蛋白H(P24993)在14 DAS时减少了1.00倍，在18 DAS时为0.72倍，在21 DAS时为0.46倍，如下所示：

糖代谢相关的蛋白质在NONPOL组中丰度增加，如淀粉合酶，和叶绿体/淀粉体蛋白（B6U167)在14 DAS时半圆了0.98倍，在18 DAS时增加了1.18倍，21 DAS的1.65倍；
参与ROS过程的蛋白质，抗氧化蛋白质在诱导叶片衰老过程中丰度降低了，例如铁氧还原蛋白(Q6JAD2)在14 DAs时减少了0.84位，在18 DAS时减少了0.76倍，在21 DAS时减少了0.55倍；
但是氧化蛋白质各类如脂氧合酶(Q8W0V2)在14 DAS时增加了0.87倍，在18 DAS时增加了1.78倍，在21 DAS时增加了2.26倍；
ABA响应蛋白(B6U8P6)在14 DAS时增加了0.88倍，在18 DAS时增加了1.32倍，在21 DAS时增加了1.5倍；但与生长素和赤霉素相关的蛋白质丰度降低，数据如下所示：

文章最后使用WB进行验证，测序类文章中基本上都要有验证，这一部分略去不表。

文章到此就结束了，整个文献的数据分析思路如下所示：

简化一下就是下图：

前言

蛋白质组知识背景

蛋白质组学分类

定量蛋白组学

iTRAQ知识背景

定量蛋白质组原理

iTRAQ试剂

iTRAQ的实验流程原理

常规实验流程

实验流程如下所示：

质谱仪的组成部分

质谱仪

不同类型质量分析器的比较

实验方案设计

方案设计-生物学重复

方案设计-不同组样本的标记选择和上机组合

两组样品

三组样本

四组样本

五组样本

六组样本

实验方案小结

蛋白数据分析流程

[一]搜库

搜库的原理

搜库数据库的选择

蛋白质谱鉴定的结果

[二]蛋白质功能注释

数据库介绍

NR

Pfam

Swiss-Prot

COG

GO与KEGG

[三]定量

蛋白定量原理回顾

蛋白定量分析工具

[四]差异蛋白筛选

[五]富集分析

[六]表达聚类和蛋白互作

案例解析

研究背景

叶片衰老的生理特征

分子机制研究进展

表型分析－糖

表型分析-叶片形态和叶绿素分析

iTAAQ蛋白组实验设计

蛋白质组整体分析

筛选差异蛋白分析

差异蛋白功能分析—GO和KEGG分析

差异蛋白表达分析

参考资料