MetDNA instruction

Posted on 2017-09-14 | In R software , Metabolomics | Visitors:

MetDNA需要准备的数据包括一级数据peak table(csv格式)，二级数据(mgf格式)和样品信息sample.info(csv格式)。点击下载[正离子demo数据](https://github.com/jaspershen/MetDNA/blob/master/pos.rar)和[负离子demo数据](https://github.com/jaspershen/MetDNA/blob/master/neg.rar)。

Ⅰ数据准备

MetDNA需要准备的数据包括一级数据peak table(csv格式)，二级数据(mgf格式)和样品信息sample.info(csv格式)。点击下载正离子demo数据和负离子demo数据。

Table 1: demo数据信息

组别	个数	含义
QC	8	QC
W03	10	野生型3天
W30	10	野生型30天
E03	10	突变型E3天
E30	10	突变型E30天
P03	10	突变型P3天
P30	10	突变型P30天

1. 一级数据

一级数据可以是使用XCMS，MZmine，MS-DIAL或者其他软件处理之后的数据。第一列为代谢物峰的名字，”name”，第二列为”mz”，第三列为保留时间(RT)，且单位必须为秒，其他为样品的峰强度。

**Figure 1: 一级数据peak table格式示例**

2. 二级数据

二级质谱原始数据可以是使用QC样品采集的DDA或者targeted MS/MS数据。对于DDA数据来说，也可以是分段采集的二级数据。质谱原始二级数据需要使用ProteoWizard软件转为mgf格式，转换时参数设置参考下图。二级数据最多不能超过十个。

Figure 2: ProteoWizard参数设置

3. 样品信息

样品信息是样品的分组信息。第一列是样品名，”sample.name”，第二列是样品的分组信息，”group”。

**Figure 3：样品信息示例**

Ⅱ 数据整理

如果是正离子数据，请建立一个新的文件夹，命名为”POS”，如果是负离子数据，请建立一个新的文件夹命名为”NEG”，然后将一级数据，二级数据和样品信息放置于此文件夹下。并将该文件夹设置为工作路径。现在MetDNA部署在小服务器上，因此可以将数据放在小服务器中(labdata)。例如”V:/workreport/申小涛/demo/fly/POS”。

**Figure 4: 将所需数据放置在文件夹中**

设置工作路径。

1 2	setwd("/mnt/data/samba/labdata/workreport/申小涛/demo/fly/POS") library(MetDNA)

Ⅲ 数据处理

1. 只对正离子或者负离子处理

所有的步骤可以使用一个函数MetDNA全部完成。

运行函数MetDNA。

MetDNA(ms1.file = "data.csv",
       polarity = "positive",
       column = "hilic",
       ce = "30",
       prefer.adduct = "M+H",
       use.default.md = TRUE,
       threads = 3,
       group = c("W03", "W30"),
       uni.test = "t",
       correct = TRUE,
       p.cutoff = 0.01,
       species = "dme")

参数含义如下：

ms1.file：一级数据的名字。
polarity：数据采集极性，”positive”或者”negative”。
column：使用的柱子类型，”hilic”或者”rp”。
ce：二级采集的碰撞能量，支持”10”，”15”，”20”，”25”，”30”，”35”，”35,15” (35±15)，”40”， “45”，”50”，”55”，”60”，”65”，”70”。
prefer.adduct：使用那些加合物形式的注释用于RT预测模型的建立，默认使用所有的注释，推荐正离子模式下使用”M+H”，负离子模式下使用”M-H”。
use.default.md：进行保留时间预测模型建立时，是否使用默认的分子描述符，如果设置为FALSE，则会根据你的数据自动选择分子描述符。
threads：使用线程数，默认为3，可以根据电脑本身配置进行修改。
group：要对哪些分组的样品进行分析，注意，计算fold change时，使用后面的样品除以前面的样品。
uni.test：单变量分析的方法，”t”，Student t test；”wilcox”，Wilcox test。
correct：是否需要对p值进行FDR校正。
p.cutoff：选择dysregulated peak时的p值cutoff。
species：所研究样品的物种来源，”dme”，果蝇；”hsa”，人类；”mmu”，小鼠；”rat”，大鼠，”bta”，牛；”gga”，Gallus gallus (鸡)；”dre”，Danio rerio (斑马鱼)；”cel”，Caenorharomyces elegans (线虫)；”sce”，Saccharomyces cerevisaiae (酵母)； “ath”，Arabidopsis thaliana (拟南芥)；”smm”，Schistosoma mansoni；”pfa”，Plasmodum falciparum 3D7；”tbr”，Trypanosoma brucei；”eco”， Escherichia coli K-12 MG1655(大肠杆菌)；”ppu”，Pseudomonas putida KT2440；”syf”，Synechococcus elongatus。

2. 对正负数据合并分析

正负离子分别处理之后，可以使用函数metModule2函数合并正负离子模式的鉴定结果，进行dysregulated network analysis。

运行函数MetModule2

metModule2(group = c("W03", "W30"),
           uni.test = "t",
           column = "hilic",
           correct = TRUE,
           p.cutoff = 0.01,
           threads = 3,
           species = "dme")

参数含义如下：

group：要对哪些分组的样品进行分析，注意，计算fold change时，使用后面的样品除以前面的样品。
uni.test：单变量分析的方法，”t”，Student t test；”wilcox”，Wilcox test。
column：使用的柱子类型，”hilic”或者”rp”。
correct：是否需要对p值进行FDR校正。
p.cutoff：选择dysregulated peak时的p值cutoff。
threads：使用线程数，默认为3，可以根据电脑本身配置进行修改。
species：所研究样品的物种来源，”dme”，果蝇；”hsa”，人类；”mmu”，小鼠；”rat”，大鼠，”bta”，牛；”gga”，Gallus gallus (鸡)；”dre”，Danio rerio (斑马鱼)；”cel”，Caenorharomyces elegans (线虫)；”sce”，Saccharomyces cerevisaiae (酵母)； “ath”，Arabidopsis thaliana (拟南芥)；”smm”，Schistosoma mansoni；”pfa”，Plasmodum falciparum 3D7；”tbr”，Trypanosoma brucei；”eco”， Escherichia coli K-12 MG1655(大肠杆菌)；”ppu”，Pseudomonas putida KT2440；”syf”，Synechococcus elongatus。

运行函数analysisReport得到分析报告。

1	analysisReport(polarity = "both")

Ⅳ 运行结果

1. 正离子或者负离子的运行结果

MetDNA函数运行结束之后，所有的运行结果都存放在设置的路径中，包含二级谱图匹配结果，MRN注释结果，dysregulated network分析结果以及分析报告。如图5所示。

**Figure 5: 运行结果**

(1) MetDNA.parameters.csv

记录此次运行所使用的参数。

**Figure 6: 参数记录**

(2) ms2_match_result_POS

二级谱图匹配结果。包括一个csv文件，ms2.match.annotation.result.csv和一个文件夹，MS2_match_spectra。ms2.macth.annotation.result.csv是二级谱图匹配之后的结果，与MetAnalyzer处理之后的结果相同；MS2_match_spectra文件夹中包含了所有二级匹配图(Figure 6)。

**Figure 7: 二级谱图匹配图**

(3) MRN_annotation_result_POS

基于metabolic reacion network注释结果。包括两个csv文件，metABM.parameters.csv和MRN.annotation.result.csv。MRN.annotation.result.csv是使用MRN注释结果(Figure 8)。

**Figure 8: MRN annotation result**

其中：

annotation.from.ID：该peak的该注释来自于哪个metabolite(ID);
annotation.from.peak：该peak的该注释来自于哪个peak;
ID：注释代谢物结果的KEGG ID;
compound.name：注释结果的名字；
isotope：同位素信息；
adduct：加合物信息；
Formula：化学结构式；
score：注释打分；
peak.group：peak group；
confidence：对注释的peak group打分。

(4) Dysregulated_network_analsysi_result_POS

Dysregulated network分析的结果。其中包括一个pdf文件，volcano.plot.pdf(Figure: 9)，两个csv文件，metModule.parameters.csv和DNA.annotation.result.csv以及两个文件夹，module_information(Figure 10)和pathway_inforamtion (Figure 11)。

1) volcano.plot是选取差异代谢物峰的火山图。

**Figure 9: Volcano plot**

2) DNA.annotation.result.csv是通过dysregulated network对注释结果进行筛选以及KEGG database注释之后的注释结果。

3) module_information文件夹中包含了dysregulated module的分析结果。其中module.result.csv是module的信息。module.overview.pdf是module结果的总览(Figure 10)。module.heatmap.pdf是对module进行定量分析之后的热图(Figure 11)。boxplot文件夹中包含了module在两组间的定量结果(Figure 12)。Module_MSE analysis文件夹中包含了对每个module进行功能注释(MSEA)的结果(Figure 13)。

**Figure 10: Module overview**

**Figure 11: Module heatmap**

**Figure 12: Module boxplot**

**Figure 13: Module MSEA result**

3) pathway_information文件夹中包含了pathway的分析结果(Figure 14)。

**Figure 14: Pathway information**

其中：

boxplot：该文件夹中含有每个pathway的定量信息;
dysregulated.network.overview：该图表示dysregulated network的pathway分析结果;
dysregulated.netwrok.MSEA.csv：dysregulated network的MSEA分析结果;
dysregulated.netwrok.MSEA.pdf：dysregulated network的MSEA分析结果;
dysregulated.networks.for.cytoscape.txt：用于cytoscape作图的数据；
dysregulated.networks.attribute.txt：用于cytoscape作图的节点属性数据；
pathway.heatmap.pdf：dysregulated network的pathway定量的heatmap。

Ⅰ数据准备

MetDNA需要准备的数据包括一级数据peak table(csv格式)，二级数据(mgf格式)和样品信息sample.info(csv格式)。点击下载正离子demo数据和负离子demo数据。

Table 1: demo数据信息

1. 一级数据

一级数据可以是使用XCMS，MZmine，MS-DIAL或者其他软件处理之后的数据。第一列为代谢物峰的名字，”name”，第二列为”mz”，第三列为保留时间(RT)，且单位必须为秒，其他为样品的峰强度。

2. 二级数据

3. 样品信息

样品信息是样品的分组信息。第一列是样品名，”sample.name”，第二列是样品的分组信息，”group”。

Ⅱ 数据整理

设置工作路径。

Ⅲ 数据处理

1. 只对正离子或者负离子处理

所有的步骤可以使用一个函数MetDNA全部完成。

运行函数MetDNA。

ms1.file：一级数据的名字。

polarity：数据采集极性，”positive”或者”negative”。

column：使用的柱子类型，”hilic”或者”rp”。

ce：二级采集的碰撞能量，支持”10”，”15”，”20”，”25”，”30”，”35”，”35,15” (35±15)，”40”， “45”，”50”，”55”，”60”，”65”，”70”。

prefer.adduct：使用那些加合物形式的注释用于RT预测模型的建立，默认使用所有的注释，推荐正离子模式下使用”M+H”，负离子模式下使用”M-H”。

use.default.md：进行保留时间预测模型建立时，是否使用默认的分子描述符，如果设置为FALSE，则会根据你的数据自动选择分子描述符。

threads：使用线程数，默认为3，可以根据电脑本身配置进行修改。

group：要对哪些分组的样品进行分析，注意，计算fold change时，使用后面的样品除以前面的样品。

uni.test：单变量分析的方法，”t”，Student t test；”wilcox”，Wilcox test。

correct：是否需要对p值进行FDR校正。

p.cutoff：选择dysregulated peak时的p值cutoff。

2. 对正负数据合并分析

正负离子分别处理之后，可以使用函数metModule2函数合并正负离子模式的鉴定结果，进行dysregulated network analysis。

运行函数MetModule2

group：要对哪些分组的样品进行分析，注意，计算fold change时，使用后面的样品除以前面的样品。

uni.test：单变量分析的方法，”t”，Student t test；”wilcox”，Wilcox test。

column：使用的柱子类型，”hilic”或者”rp”。

correct：是否需要对p值进行FDR校正。

p.cutoff：选择dysregulated peak时的p值cutoff。

threads：使用线程数，默认为3，可以根据电脑本身配置进行修改。

运行函数analysisReport得到分析报告。

Ⅳ 运行结果

1. 正离子或者负离子的运行结果

MetDNA函数运行结束之后，所有的运行结果都存放在设置的路径中，包含二级谱图匹配结果，MRN注释结果，dysregulated network分析结果以及分析报告。如图5所示。

(1) MetDNA.parameters.csv

记录此次运行所使用的参数。

(2) ms2_match_result_POS

(3) MRN_annotation_result_POS

基于metabolic reacion network注释结果。包括两个csv文件，metABM.parameters.csv和MRN.annotation.result.csv。MRN.annotation.result.csv是使用MRN注释结果(Figure 8)。

其中：

annotation.from.ID：该peak的该注释来自于哪个metabolite(ID);

annotation.from.peak：该peak的该注释来自于哪个peak;

ID：注释代谢物结果的KEGG ID;

compound.name：注释结果的名字；

isotope：同位素信息；

adduct：加合物信息；

Formula：化学结构式；

score：注释打分；

peak.group：peak group；

confidence：对注释的peak group打分。

(4) Dysregulated_network_analsysi_result_POS

Dysregulated network分析的结果。其中包括一个pdf文件，volcano.plot.pdf(Figure: 9)，两个csv文件，metModule.parameters.csv和DNA.annotation.result.csv以及两个文件夹，module_information(Figure 10)和pathway_inforamtion (Figure 11)。

1) volcano.plot是选取差异代谢物峰的火山图。

2) DNA.annotation.result.csv是通过dysregulated network对注释结果进行筛选以及KEGG database注释之后的注释结果。

3) pathway_information文件夹中包含了pathway的分析结果(Figure 14)。

其中：

boxplot：该文件夹中含有每个pathway的定量信息;

dysregulated.network.overview：该图表示dysregulated network的pathway分析结果;

dysregulated.netwrok.MSEA.csv：dysregulated network的MSEA分析结果;

dysregulated.netwrok.MSEA.pdf：dysregulated network的MSEA分析结果;

dysregulated.networks.for.cytoscape.txt：用于cytoscape作图的数据；

dysregulated.networks.attribute.txt：用于cytoscape作图的节点属性数据；

pathway.heatmap.pdf：dysregulated network的pathway定量的heatmap。

(5) Analysis_report_POS

对数据处理分析结果的总结。输出的结果存放在Analysis_report文件夹内。包括一份html格式的分析报告。