原始数据不仅有GEO, 还有ArrayExpress！

来源：互联网收集：自由互联发布时间：2022-06-23

和GEO数据库类似，ArrayExpress是属于EBI旗下的公共数据库，用于存放芯片和高通量测序的相关数据，网址如下 https://www.ebi.ac.uk/arrayexpress/ 数据来源于下图所示的两个部分第一部分是由科

和GEO数据库类似，ArrayExpress是属于EBI旗下的公共数据库，用于存放芯片和高通量测序的相关数据，网址如下

>https://www.ebi.ac.uk/arrayexpress/

数据来源于下图所示的两个部分

原始数据不仅有GEO, 还有ArrayExpress！_数据

第一部分是由科研工作者提交的数据，第二部分是从GEO数据库自动导入的数据。在NAD代谢相关的文章中，就提到了来自该数据库的原始数据，链接如下

https://www.ebi.ac.uk/arrayexpress/experiments/E-TABM-940/

对于每个数据集，都提供了该数据的简要描述，比如物种，样本数目，平台等信息

原始数据不仅有GEO, 还有ArrayExpress！_数据分析_02

在Files一栏中，可以查看需要下载的文件

原始数据不仅有GEO, 还有ArrayExpress！_数据分析_03

点击all available files, 就会显示所有的文件，主要分成了两部分，数据集的原始数据和芯片平台的注释信息

原始数据不仅有GEO, 还有ArrayExpress！_数据_04

从该数据集的描述可以看到，使用的是Affymetirx的芯片，所以在下载数据集，我们需要获取以下3种信息

1. 芯片表达谱

表达谱包括了原始数据和整理好的表达量文件，在该数据集中，raw.zip就是原始的芯片下机数据。解压缩之后可以看到后缀为cel的原始数据

原始数据不仅有GEO, 还有ArrayExpress！_数据_05

可以通过affy等R包读取这些原始文件，从而生成表达量矩阵。为了方便，该数据集之类提供了一个r对象，即后缀为eSet.r的文件，该文件其实就是读取原始数据后生成的R对象。在R环境中，通过如下代码可以读取该文件

load("E-TABM-940.eSet.r")
# 所有的对象默认都叫做study, 所以通过重命名来区分不同的数据集
data <- study
# 查看表达量
head(exprs(data[1:5, 1:5]))

在后缀为idf.txt的文件中，提供了该数据集的一些简要描述信息

原始数据不仅有GEO, 还有ArrayExpress！_数据_06

在后缀为sdrf.txt的文件中，提供了样本的描述信息，该文件为纯文本文件，每一行为一个样本，部分列名如下

原始数据不仅有GEO, 还有ArrayExpress！_数据集_07

可以看到，包含了样本的各种信息，以Characteristics 和 Factor 开头的列需要重点关注，这里面可能就包含了重要的分组信息和生存数据。

2. 芯片的注释信息

在芯片的数据中，后缀为adf.txt的文件提供了探针的各种注释信息，每一行为一个探针，部分内容示例如下

原始数据不仅有GEO, 还有ArrayExpress！_数据_08

详细的表头如下

原始数据不仅有GEO, 还有ArrayExpress！_数据分析_09

可以看到，包含了ensembl, refseq, genebank等多种注释信息。

另外还有一个非常重要的文件，就是后缀为cdf.gz的文件。在用R读取该文件芯片的原始数据cel文件时，需要对应的cdf文件。对于一些常规型号的芯片，在R中集成了对应的cdf文件，在读取阶段会自动下载对应的cdf文件，但是对于非常规，少见的自定义芯片，就必须手动下载该文件了。

值得注意的是，本文介绍的方法是针对affymetrix芯片平台的，目前芯片平台主要由Agilent, illumina, Affymetirx 3种，不同的芯片来自不同的厂家，其文件格式和处理方式有很大不同，必须针对不同的平台采取不同的方法。

·end·

原始数据不仅有GEO, 还有ArrayExpress！_数据_10

一个只分享干货的

生信公众号

上一篇：使用tensorflow构建一个卷积神经网络
下一篇：没有了

相关文章