当前位置 : 主页 > 编程语言 > java >

原始数据不仅有GEO, 还有ArrayExpress!

来源:互联网 收集:自由互联 发布时间:2022-06-23
和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下 https://www.ebi.ac.uk/arrayexpress/ 数据来源于下图所示的两个部分 第一部分是由科


和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下

>https://www.ebi.ac.uk/arrayexpress/

数据来源于下图所示的两个部分

原始数据不仅有GEO, 还有ArrayExpress!_数据

第一部分是由科研工作者提交的数据,第二部分是从GEO数据库自动导入的数据。在NAD代谢相关的文章中,就提到了来自该数据库的原始数据,链接如下

​​https://www.ebi.ac.uk/arrayexpress/experiments/E-TABM-940/​​

对于每个数据集,都提供了该数据的简要描述,比如物种,样本数目,平台等信息

原始数据不仅有GEO, 还有ArrayExpress!_数据分析_02

在Files一栏中,可以查看需要下载的文件

原始数据不仅有GEO, 还有ArrayExpress!_数据分析_03

点击all available files, 就会显示所有的文件,主要分成了两部分,数据集的原始数据和芯片平台的注释信息

原始数据不仅有GEO, 还有ArrayExpress!_数据_04

从该数据集的描述可以看到,使用的是Affymetirx的芯片,所以在下载数据集,我们需要获取以下3种信息

1. 芯片表达谱

表达谱包括了原始数据和整理好的表达量文件,在该数据集中,raw.zip就是原始的芯片下机数据。解压缩之后可以看到后缀为cel的原始数据

原始数据不仅有GEO, 还有ArrayExpress!_数据_05

可以通过affy等R包读取这些原始文件,从而生成表达量矩阵。为了方便,该数据集之类提供了一个r对象,即后缀为eSet.r的文件,该文件其实就是读取原始数据后生成的R对象。在R环境中,通过如下代码可以读取该文件

load("E-TABM-940.eSet.r")
# 所有的对象默认都叫做study, 所以通过重命名来区分不同的数据集
data <- study
# 查看表达量
head(exprs(data[1:5, 1:5]))

在后缀为idf.txt的文件中,提供了该数据集的一些简要描述信息

原始数据不仅有GEO, 还有ArrayExpress!_数据_06

在后缀为sdrf.txt的文件中,提供了样本的描述信息,该文件为纯文本文件,每一行为一个样本,部分列名如下

原始数据不仅有GEO, 还有ArrayExpress!_数据集_07

可以看到,包含了样本的各种信息,以Characteristics 和 Factor 开头的列需要重点关注,这里面可能就包含了重要的分组信息和生存数据。

2. 芯片的注释信息

在芯片的数据中,后缀为adf.txt的文件提供了探针的各种注释信息,每一行为一个探针,部分内容示例如下

原始数据不仅有GEO, 还有ArrayExpress!_数据_08

详细的表头如下

原始数据不仅有GEO, 还有ArrayExpress!_数据分析_09

可以看到,包含了ensembl, refseq, genebank等多种注释信息。

另外还有一个非常重要的文件,就是后缀为cdf.gz的文件。在用R读取该文件芯片的原始数据cel文件时,需要对应的cdf文件。对于一些常规型号的芯片,在R中集成了对应的cdf文件,在读取阶段会自动下载对应的cdf文件,但是对于非常规,少见的自定义芯片,就必须手动下载该文件了。

值得注意的是,本文介绍的方法是针对affymetrix芯片平台的,目前芯片平台主要由Agilent, illumina, Affymetirx 3种,不同的芯片来自不同的厂家,其文件格式和处理方式有很大不同,必须针对不同的平台采取不同的方法。

·end·

原始数据不仅有GEO, 还有ArrayExpress!_数据_10

一个只分享干货的

生信公众号



上一篇:使用tensorflow构建一个卷积神经网络
下一篇:没有了
网友评论