摘要:在代谢组学数据中,与其他组学数据一样,标准化是数据处理的重要部分。归一化的目标是减少来自非生物来源的变异(例如仪器批次效应),同时保持生物变异。许多标准化技术对每个样本进行调整。一种常见的方法是通过其总离子电流 (TIC) 调整每个样品,即对于样本中的每个特征,将其强度值除以样本的总数。由于这些方法的许多假设在代谢组学数据集中是可疑的,因此我们将这些方法与两种方法进行了比较,两种方法分别对每种代谢物进行调整,而不是对每个样品进行调整。这两种方法如下: 1) 对于每种代谢物,将其值除以桥样本 (BRDG) 中的中值水平;2) 对于每种代谢物,将其值除以实验样本 (MED) 的中位数。这些方法是通过比较归一化值与针对大型人血浆数据集中代谢物子集的靶向测定值的相关性来评估的。BRDG 和 MED 归一化技术大大优于其他方法,后者的性能通常比完全不执行归一化更差。
表 1。I 类规范器。
表 2。BATCH 的方差分量。
关键词
代谢 组学,标准化,液相 色谱,质谱, TIC
一、简介
基于全球液相色谱质谱 (LC-MS) 的代谢组学的一个主要障碍是在同一仪器的不同运行或不同仪器的不同运行中处理的样品之间进行比较。想要比较来自不同仪器运行的样品有很多原因。使用质谱仪的单次运行仅限于一定数量的样品。当通过质谱仪运行时,样品被准备好并放置在包含定义数量的孔的板上,每个孔容纳一个单独的样品。可用孔的数量取决于所用板的类型和尺寸,但通常是 24 [ 1] . 即使是可以容纳大板或多个小板的仪器,通常也仅限于最多几百个孔 [ 2 ]。包含数千个样本的大型流行病学研究很容易超过这一能力。在另一个示例中,设计的时间过程实验可能不会同时具有所有样本可用于分析。特别是,临床环境类似于这些情况,因为新患者定期被接纳和评估。然而,质谱本身本质上是半定量的。仪器返回的观测值是与特征相关的离子计数,即“离子峰”,它不仅取决于样品中的浓度,还取决于代谢物和仪器特性。
准确的浓度可以通过校准曲线(即标准曲线)得出,其中包括目标代谢物的已知浓度,作为一种方法来确定离子计数并根据它们在曲线上的位置估计感兴趣样品中的水平。有关标准曲线的全面回顾,请参阅 Dolan [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ] 的五部分系列] . 这种有针对性的方法对于全球代谢组学分析显然不可行,因为 1) 要捕获的代谢物是先验未知的 2) 为每种代谢物获得标记标准是一项重大挑战 3) 可用于的孔数量有限将标准与正在分析的实验样品一起存放。
由于缺乏完全定量,必须找到某种方法来调整不同批次中的离子计数。批量效应通常通过归一化来消除。归一化的目标是减少系统变异,但保留生物学变异。现场使用的许多归一化技术会调整每个样本。但是,还有其他标准化技术可以调整每种代谢物,而不是样品。如果方差减小,通常归一化技术被认为是成功的。然而,一些重要的生物学变异也可能已被删除。由于代谢物的理想测量来自靶向测定或临床测量,因此我们将标准化值与来自已测量浓度的一组靶向测定的值进行比较。
2。材料和方法
2.1。传统规范化
对于本次讨论,假设数据集的组织方式使行对应于样本,列对应于特征(代谢物)。最常见的归一化是总离子计数(或总离子电流)归一化 (TIC),其中样品中的所有代谢物除以样品中观察到的离子总数 [ 8] . 虽然非常受欢迎,但 TIC 很容易受到具有非常高离子观测值的少数特征的过度影响。这种标准化还假设大多数代谢物在测试条件下没有变化,并且上调和下调的代谢物数量大致相等。这一假设在某些样本集中明显违反,例如细胞系之间的比较或在比较正常组织与癌组织时。
对此基本前提的各种调整包括中值归一化、MS 总有用信号 (MSTUS) [ 9 ]、中值绝对偏差 (MAD) [ 10 ]、概率商归一化 (PQN) [ 11 ] 和循环局部加权回归 (Cyclic LOWESS) [ 12 ] 其中 [ 13 ] [ 14] ; 然而,一般来说,这些模型依赖于这样的假设,即如果没有仪器批次效应,每个样品的离子计数“平均”应该或多或少相等。在本文中,归一化根据作用机制分为三类。第一类涉及将离子强度除以样品光谱的函数。第二类归一化依赖于负均值 (MA) 图。第三类是那些不属于前两个类的规范化器。
2.1.1。I类——光谱师
第一类归一化器被定义为样本原始强度值的比率和样本向量的函数。让 X一世= {X我1⋯X我是}是观察到的代谢物离子计数的向量 1 , 2 , ⋯ ,米,对于样本 i,让 Xñ一世表示归一化代谢物的结果向量。第一类的规范化器定义为
Xñ一世=X一世F一世(十一)
在哪里 ƒ一世( ∙ )是一些功能。例如,对于 TIC ƒ一世是样本 i 中所有原始峰面积的总和,因此 Xñ一世是一个向量,其中原始值已按此总和进行缩放。
表 1总结 ƒ一世对于第一类归一化。一些是 TIC 的变体,例如 MS 总有用信号 (MSTUS),它仅限于所有样本共有的那些特征。矢量归一化 (VECT),通过测量观察到的矢量与原点 0 的欧几里德距离,将 TIC 分为二维,因此有时称为“欧几里得范数”。TIC 和 VECT 都是更一般形式的特定版本 ΣXp我j----√p. “平均值”只是针对特征数量调整的 TIC,而“中值”使用样本的中值光谱。中值绝对偏差 (MAD) 通过查找样本中与中值的绝对偏差并使用这些中值进行归一化,使“中值”更进一步。一些方法标准化为基线或控制光谱。此类光谱可以先验确定或从可用样本中选择,例如具有中值 TIC 的样本。线性基线缩放 (LB) 和概率商归一化 (PQN) 就是这样的例子。在 LB 中,每个样本都被归一化,使得
方法 | |
TIC | |
MSTUS |
这样 为所有人观察 |
VECT | |
意思是 | |
中位数 | |
疯狂的 | |
磅一 | |
PQN b |
表 1。I 类规范器。
a、b基线/对照光谱可以取自指定样品或根据可用数据计算,例如具有中值 TIC 的样品。
得到的归一化样本的 TIC 等于“基线”的 TIC。LB 假设样本和基线之间存在恒定的线性关系。非线性扩展可用。虽然名称中包含“缩放”,但其意图与归一化一致,归一化旨在将每个样本的所有光谱在某种意义上调整到相同的水平,并且计算与 I 类定义一致。PQN 涉及一个四步过程,是此处列出的 I 类归一化器中计算量最大的。在第一步中,执行 TIC 归一化。其次,计算控制谱?这可以基于指定的样本,或者可以使用来自所有样本的中值光谱。第三,对于每个特征,找到样品和对照光谱的 TIC 归一化强度的比率,即商。最终的归一化器是所有商的中位数。大多数其他 I 类归一化器的计算相当简单,并且从计算的角度来看不是时间密集型的。因此,这些是规范化的流行和常见选择。
2.1.2. II 类——MA 归一化器
第二类归一化器涉及 MA 图,它源自对数尺度上的 Altman-Bland 图 [ 15 ] [ 16 ]。对于任意两个样本 j 和 j'MA 图是散点图,其中每个代谢物 i 都有坐标 (减我j,一个_G我j)由
减我j=日志2(X我j) -日志2(X一世j')
一个vG我j=日志2(X我j) +日志2(X一世j')2.
“M”可以看作是比率的对数,而“A”是乘积除以 2 的对数。以这种方式定位两个光谱旨在放大与线性和非线性相关的趋势系统变化,例如批次效应。然后对这条曲线拟合一个方程,这样就可以消除两个样本之间由于系统变化而产生的差异。在 Cyclic LOWESS 下,将非线性局部回归曲线 (LOWESS) 拟合到给定样本对的 MA 图。然后对数据集中所有可能的样本成对组合重复该过程。在对所有样本进行完整迭代之后,重复该循环,直到在最近的循环和前一个循环之间达到一定的容差。
另一个变化是对比度归一化[ 17 ]。在对比度归一化下,所有样品的所有离子特征的完整集合 X=[X1⋯Xn]'是对数变换,然后使用线性变换 ķ经过 ķ正交矩阵 米生成一组新的正交向量:
X○=日志( X) ∙米.
第一行 米是常数的重复 1 /ķ--√. 其他行 米不是唯一定义的,除非是 k = 2这使
米2=12√[111− 1].
为了 k > 2, 米不是唯一的,这需要对下一步进行一些考虑 X01,第一行 是○, 用于预测剩余的行 X0一世为了 我= 2 , ⋯ , n. 将这些预测称为 X^0一世, 使用带有加权最小二乘法的 LOWESS 回归产生 X^0一世's是不变的选择 米. 估计 X^0一世's迭代,直到达到先前和最新估计之间的一些容差。最终的归一化矩阵由下式给出
Xñ=[X01(X02-X^02) ⋯ (X0米-X^0米) ]'.
从这一点开始,数据集可以通过逆变换进行分析或映射回原始空间
经验(Xñ∙米).
与循环 LOWESS 的相似性可能不会立即明显;但是,请注意,当 k = 2对比矩阵 米加上对数变换类似于 MA 图的方向。对比度归一化本质上将 MA 概念推广到更高维度。
2.1.3。III类——其他
不符合 I 类或 II 类标准的归一化在此处分类。这方面的一个例子是分位数归一化(Quant)[ 18 ]。此方法重新调整比例,以便每个样本内的强度分布在所有样本中都是相同的。令 X i为样本强度的有序集 一世:
X一世= {X我[ 1 ]⋯X我[米]},
并考虑所有 X i的平均有序统计量向量
X¯¯¯= {X¯[ 1 ]⋯X¯[米]} = {∑n我= 1X我[ 1 ]n⋯∑n我= 1X我[米]n}.
这基本上对数据集的每一行进行排序,然后取每列的平均值。然后按照与未归一化向量的等级相对应的顺序将样本的归一化向量替换为这些值:
Xñ一世= {X¯[ r一个n k (X我1) ]⋯X¯[ r一个n k (X我是) ]}.
Quant 的一个优点是它直接将每个样本的强度放在同一尺度上,使样本之间的比较更容易。一个缺点是必须删除或估算具有缺失值的特征。其次,显着更丰富的代谢物可以归一化为接近静态的状态。事实上,在 2.4 中使用的数据集中,油酸在每个样品中都有最高的峰面积,因此它的所有值都会归一化为相同的值。同样的问题可能适用于丰度显着低于所有其他代谢物的代谢物,因为接近检测限的代谢物经常脱落,即没有检测到峰。
2.2. 桥规范化 (BRDG)
质谱仪返回的离子计数与真实浓度成正比,但也取决于仪器。Rocke 和 Lorenzato [ 19 ] 提出了一个用于这种离子计数的模型,旨在解释在低浓度和高浓度下观察到的不同性能行为。使用该模型,考虑两个单独的仪器运行,其中同一样品的 k 个技术重复在两个批次中运行。离子强度 批量代谢物 b ε { 1 , 2 }对于任何复制 j ε { 1 , ⋯ , k }给出为
X我j b=β我b是的一世eη我j b+ε我j b.
样品浓度的下标, 是的一世,仅取决于生化,因为 k 个样本是技术复制品。 β我b与仪器的电离效率有关,并且会因代谢物和批次而异。 η我b~N( 0 ,σ2η我b)和 ε我b~N( 0 ,σ2ε我b)都是正常的随机误差,前者在较高浓度时占主导地位,后者在较低浓度时占主导地位。请注意,与仪器的背景水平相关的截距项已被删除,因为它通常被认为是一个令人讨厌的参数,实际上在单点校准曲线中被忽略了 [ 20 ]。任何此类复制的预期值是:
微米我b= E[X我j b] =β我b是的一世eσ2η我b/ 2.
改组这些术语的顺序给出
微米我b= E[X我j b] = (β我beσ2η我b/ 2)是的一世.
既 β我b和 eσ2η我b/ 2是固定但未知的参数,仅取决于代谢物和批次,这些术语可以组合成单个未知变量。让 β*我b=β我beσ2η我b/ 2很容易看出批次的平均离子计数与真实浓度水平成正比:
微米我b=β*我b是的一世
因此,两批的平均离子计数成正比:
微米我1β*我1=微米我2β*我2
根据大数定律,存在 ak 使得批次内重复的平均值
X¯我b=∑j = 1ķβ我b是的一世eηj i b+εj i bķ
相当接近 β*我b是的一世. 因此,根据这些复制品的平均值对每批次进行缩放将消除批次差异。
数据处理通常包括 QC 样品作为代谢组学工作流程的一部分,以监测仪器性能 [ 21 ] [ 22 ]。这些样品是混合材料的等分试样,可以被视为技术复制品,并为估计比例因子提供了方便的来源。这些样本因此将被称为桥接样本。要执行桥样本标准化 (BRDG),对于给定仪器批次中的每个代谢物,将其值除以该批次的桥样本的中位数。建议使用中位数而不是平均值,以减轻异常值的影响。
2.3. 中值运行归一化 (MED)
实验方案的一个重要部分应该是跨仪器运行的样本随机化。在这种随机化下,对于给定的代谢物,如果没有批次效应,每次仪器运行的相对浓度的预期值是相同的。因此,随机分配样品并将每个仪器运行日的每个代谢物的值除以观察到的中位数应该使每个批次处于相同的规模。这类似于桥标准化,只是样本本身充当了桥接。
从理论上讲,样本均值通常是比样本中位数更一致的估计量,但在偏态分布和低样本量中,均值的效率可能会受到损害。由于代谢组学数据中存在极端异常值的倾向,这可能会对样本均值产生不利影响,因此使用中位数代替。此后,该标准化过程将被称为“MED”。
2.4. 人体血浆数据集
目标是将桥集 (BRDG) 和实验样本的中值比例 (MED) 与可能考虑用于代谢组学数据集的标准组学归一化进行比较。从可用选项中选择总离子流 (TIC)、中值绝对偏差 (MAD)、概率商归一化 (PQN) 和循环 LOWESS (CLOW)。此列表包括流行的归一化方法以及 I 类和 II 类归一化器的代表的良好组合。
血浆样本来自胰岛素抵抗动脉粥样硬化家族研究 (IRASFS) 的参与者,该研究由国家心肺血液研究所赞助,目的是检查胰岛素抵抗和内脏肥胖的遗传流行病学 [ 23 ]。IRASFS 由来自西班牙裔和非裔美国人家庭的受试者组成。从这个队列中,1719 个样本被送到 Metabolon 进行全球 LC-MS 代谢组学分析?有关此平台的更多详细信息,请参阅 Long 等人。[ 24] . 一个样品是空白的,另外两个样品是重复的,所以这些被删除了。因此,1716 个样品用于分析。容纳如此多的样品,每个平台臂需要 13 到 15 次仪器运行。结果分析测量了 1274 种代谢物(922 种已命名,352 种未命名)。
这些参与者的血浆样本还对七种代谢物进行了单独的靶向测定,这些代谢物被证明是葡萄糖耐量降低 (IGT) 的标志物 [ 25 ]。此面板中测量的代谢物是 2-羟基丁酸、3-羟基丁酸、4-甲基-2-氧代戊酸、亚油酰-GPC、油酸、泛酸和丝氨酸。此外,还运行了靶向甾醇组 [ 26 ]。该面板包含两种也存在于非靶向平台上的代谢物:α-生育酚和胆固醇。使用的桥梁样品是从 Bioreclamation 获得的人血浆池的技术复制品。
将全局面板中这九种代谢物的归一化水平与使用 Pearson 相关性 r 的目标结果进行比较。所有分析均在 R 版本 3.4.3 [ 27 ] 中进行。使用了以下包:limma 包 [ 28 ] 和 Hochrein 等人的 Data Normalization R-script。[ 29 ]。
3。结果与讨论
对于初步分析,对桥梁样品进行了方差分量分析,以评估有多少变化可归因于仪器批次。至少 80% 的桥接样品中存在的那些代谢物用于该分析(1049 种代谢物)。方差分量用 JMP v13 [ 30 ] 拟合。从这一分析中,可以得到仪器批次可以解释的方差百分比。批次方差分量的中位数为 85%,即,对于典型的代谢物,批次的方差为总方差的 85%。对于与靶向测定相比的代谢物,它们的批次方差分量显示在表 2中。
标准化数据与靶向检测的相关性如表 3所示。这在图 1中以图形方式显示。在图 1中,y = x 线以上的代谢物的相关性好于没有转化,而线以下的代谢物相关性较差。“NONE”是指没有归一化,即原始峰面积。2-羟基丁酸的标准化值曲线如图 2所示,作为标准化与原始(未标准化)值相比的影响的一个例子。从表 3可以看出,即使没有归一化,9 种代谢物中有 7 种的相关性至少为 0.5,有些是
代谢物 | 来自 BATCH 的 % Var |
2-羟基丁酸酯 | 96 |
3-羟基丁酸酯 | 85 |
4-甲基-2-氧代戊酸酯 | 95 |
α-生育酚 | 89 |
胆固醇 | 84 |
亚油酰-GPC | 74 |
油酸 | 85 |
泛酸 | 72 |
丝氨酸 | 70 |
表 2。BATCH 的方差分量。
代谢物 | 没有任何 | TIC | 疯狂的 | PQN | 乌鸦 | BRDG | 医学 |
2-羟基丁酸酯 | 0.69 | 0.60 | 0.58 | 0.69 | 0.63 | 0.96 | 0.95 |
3-羟基丁酸酯 | 0.96 | 0.94 | 0.92 | 0.96 | 0.86 | 0.99 | 0.97 |
4-methyl-2-oxopenanoate | 0.77 | 0.72 | 0.68 | 0.83 | 0.78 | 0.95 | 0.95 |
α-生育酚 | 0.40 | 0.23 | 0.23 | 0.40 | 0.22 | 0.17 | 0.81 |
胆固醇 | 0.50 | 0.24 | 0.29 | 0.50 | 0.23 | 0.69 | 0.73 |
亚油酰-GPC | 0.26 | 0.29 | 0.30 | 0.26 | 0.31 | 0.49 | 0.56 |
油酸 | 0.88 | 0.73 | 0.72 | 0.85 | 0.29 | 0.95 | 0.95 |
泛酸 | 0.92 | 0.74 | 0.75 | 0.82 | 0.86 | 0.93 | 0.94 |
丝氨酸 | 0.89 | 0.83 | 0.65 | 0.89 | 0.81 | 0.93 | 0.92 |
表 3。标准化值与靶向测定的相关性。
图 1。与靶向分析的相关性比较。y = x 线上方的值是改进的相关性,低于线的值更差。每个垂直部分都包含相同代谢物的相关性。
图 2。2-羟基丁酸标准化值的比较。颜色代表单个批次。y 轴上的值是标准化值(“原始”除外,它是非标准化值)。
甚至大于 0.9。从表 3和图 1,可以看出,一般而言,依赖代谢物特定调整(BRDG、MED)的标准化方法明显优于对每个样本进行调整的方法(TIC、MAD、PQN、CLOW)。事实上,在许多情况下,基于样本的归一化比不进行归一化表现得更差。对于 BRDG 和 MED,产生的许多相关性超过 0.9。一般来说,BRDG 和 MED 具有相似的性能,除了 α-生育酚。对于 α-生育酚,有两个批次的桥接样品峰面积显着下降,但实验样品没有。如果没有这两个批次,相关性为 0.79。桥梁样品的来源与实验样品不同。一般来说,最好从与实验样本相同的来源运行桥梁样本,
4。结论
在对代谢组学数据进行标准化时,重要的是该方法适当地校正了系统变异,但保留了生物学变异。通过将它们的值与目标数据进行比较来评估各种方法,其中样品中某些代谢物的实际浓度是已知的。许多对每个样本进行校正的常用标准化技术(例如 TIC 标准化)的性能通常比不执行标准化更差。依赖代谢物特异性相关性(BRDG、MED)的两种方法比基于样本的归一化表现要好得多,并且许多相关性超过 0.9。通过实验样本 (MED) 的批次中值进行校正可以在各种应用中很好地工作。然而,如果要运行一个非常小的数据集并合并到以前的数据集或比较两个不同数据集中的值,最好通过桥样本 (BRDG) 进行归一化。BRDG 的主要缺点是桥样品中不存在的代谢物无法标准化。此外,如果桥样品是从不同来源获得的,则桥样品中的某些代谢物可能与实验样品中的批次效应不同。为避免此问题,建议使用尽可能与实验样品相似的桥接样品。此外,如果桥样品是从不同来源获得的,则桥样品中的某些代谢物可能与实验样品中的批次效应不同。为避免此问题,建议使用尽可能与实验样品相似的桥接样品。此外,如果桥样品是从不同来源获得的,则桥样品中的某些代谢物可能与实验样品中的批次效应不同。为避免此问题,建议使用尽可能与实验样品相似的桥接样品。
致谢
IRASFS 得到了美国国立卫生研究院(HL060944、HL061019、HL060919 和 DK085175)的支持。
利益冲突
作者声明与本文的发表没有利益冲突。
利益冲突
作者宣称没有利益冲突。
参考
[ 1 ] Thermo Fisher Scientific (2017) Thermo Scientific 塑料耗材。
https://www.thermofisher.com/us/en/home/brands/thermo-scientific/molecular-biology/thermo-scientific-plastics-consumables.html
[ 2 ] Tachibana, C.(2014 年)“组学:代谢组学”中的下一步是什么。科学,345,1519-1521。
[ 3 ] Dolan, JW (2009) 校准曲线第一部分:要 b 还是不要 b?色谱在线,27, 224-230。
[ 4 ] Dolan, JW (2009) 校准曲线第二部分:极限是什么?色谱在线,27, 306-312。
[ 5 ] Dolan, JW (2009) 校准曲线第三部分:不同的观点。色谱在线,27, 392-400。
[ 6 ] Dolan, JW (2009) 校准曲线第四部分:选择合适的模型。色谱在线,27, 472-479。
[ 7 ] Dolan, JW (2009) 校准曲线第五部分:曲线加权。色谱在线,27, 534-540。
[ 8 ] Deininger,SO,等人。(2011) 蛋白质 MALDI-TOF 成像数据集的标准化:实际考虑。分析和生物分析化学,401, 167-181。
[ 9 ] Warrack,BM,等人。(2009) 尿液样本代谢组学分析的标准化策略。Journal of Chromatography B-Analytical Technologies in the Biomedical and Life Sciences, 877, 547-552。
[ 10 ] Webb-Robertson, BJ, Matzke, MM, Jacobs, JM, Pounds, JG 和 Waters, KM (2011) A Statistical Selection Strategy for Normalization Procedures in LC-MS Proteomics Experiment through Dataset-dependent ranking of normalization scale factor。蛋白质组学,11,4736-4741。