Estoy usando dos conjuntos de datos de expresión génica de una plataforma Affy U95Av2 y una plataforma Affy U133 Plus 2.0. Cuando mapeo los nombres de la sonda Affy con los nombres de los genes HUGO, hay miles de genes que existen en el nuevo conjunto de datos Affy U133 Plus 2.0 mientras que no en el antiguo conjunto de datos Affy U95Av2, que es algo que se esperaba. Pero también hay 97 genes que existen en la antigua plataforma Affy U95Av2 mientras que no en la plataforma Affy U133 Plus 2.0. No esperaría eso porque Affy U133 Plus 2.0 es una plataforma mucho más nueva y esperaría que contuviera todos los genes medidos por Affy U95Av2. ¿Qué significa eso? ¿Debo entender que esas 97 mediciones de genes en la plataforma Affy U95Av2 no eran confiables y por eso no existen en Affy U133 Plus 2.0? Aquí están esos 97 genes:
"ACSL4" "ACSM2A" "AP3S1" "AQP7" "ARPC3" "ATF4" "ATP5H" "BAK1" "BAK1P1" "CBX1" "CCL15" "CELP" "CFHR3" "CHEK2" "CLCNKA" "COL8A1" "CS " "CXorf40B" "CYP2D6" "DDI2" "EIF3F" "EIF3IP1" "EIF5AL1" "FCGR2A" "FCGR3A" "GBX1" "GPX1" "HAVCR1" "HBZ" "HIST1H2AH" "HIST1H2AI" "HIST1H2BC" "HIST1H2BJ" " HIST1H4I" "HOXA9" "HSPB1" "IFNA14" "IGF2" "IL9R" "ITGA1" "KAT7" "KRT33A" "KRTAP26-1" "LDHA" "MAGEA12" "MAP2K4P1""MIA" "MKRN3" "MROH7" "MSX2P1" "MT1A" "MT1B" "NDUFV2" "OPHN1" "OR7E24" "PARP4" "PCDHA12" "PCDHA13" "PCDHGA12" "PCDHGB4" "PINK1-AS" "PMS2P3" "PSMC6" "PSME2" "RAB13" "RCN1" "RNF216P1" "RNF5" "RPL10A" "RPL18" "RPL27" "RPL35" "RPL37" "RPLP1" "RPS15A" "RPS26" "RPS29" "RPS5" "RPS9 " "RSC1A1" "S100A7" "SAA1" "SAA4" "SNX29" "SPRR2D" "TOMM40" "UBC" "UBE2E3" "UBE2S" "UGT2B7" "UQCRFS1" "UQCRH" "VDAC2" "VENTXP7" "VOPP1" "XCL2" "ZNF799"
aSolía trabajar en Affymetrix cuando se diseñaron la mayoría de estos arreglos. No estaba en el equipo de diseño en sí, pero tal vez pueda hablar un poco más sobre esto.
Los diseños de matrices de ARN se construyeron para cubrir cualquier cosa que pudiera ser una transcripción real en la combinación de colecciones de EST, ADNc, detecciones de genes in silico y entradas misceláneas en bases de datos públicas. Hubo muchas personas diferentes tratando de encontrar genes lo más rápido posible y una gran parte no era un gen real de forma natural. Estoy seguro de que también hubo una cantidad razonable de contaminación en los millones de transcripciones que recibimos.
El equipo encontraría una buena cantidad de errores en la base de datos de secuencias. Por cierto, no hay forma de enviar esto de manera significativa a la mayoría de las bases de datos de bioinformática. Solo una nota:)
Cuando salía un nuevo diseño, el equipo realizaba una auditoría para ver si alguna de las transcripciones había caído en desgracia con la evidencia y algunos de esos 'genes' se eliminaban del contenido.
Esto es útil porque la tecnología de hibridación de ADN tiene un rendimiento muy alto por dólar, pero tiene un ruido de fondo e incluso un conjunto de sondas sin correspondencia en la muestra de ARN dará números distintos de cero.
RNAseq tiene problemas similares de ensamblajes y sensibilidad de los límites de lecturas en la muestra BTW. No hay una solución perfecta hasta el momento.
Por cierto, a veces se cambia el nombre de los genes. No entré en sus métodos para ver si este es un caso, pero es algo a tener en cuenta.
Mi experiencia es con sondas Affymetrix para Drosophila, no H. sapiens, y solo con una versión. Sin embargo, describiré la situación que encontré en caso de que sea relevante para la tuya. Disculpas si es una pista falsa.
Lo que hice con la hoja de datos de Affymetrix fue usarla para construir mi propia base de datos relacional SQL que contiene probesetIDs y geneIDs (además de los datos experimentales, por supuesto). Luego pude hacer algunas consultas de 'limpieza' en la base de datos y me sorprendió (quizás no debería haberlo estado) encontrar lo siguiente:
Obviamente, al diseñar los conjuntos de sondas, Affymetrix pensó que estaban produciendo unos específicos de genes inequívocos. Cuando actualizaron los conjuntos de sondas para incluir designaciones de genes nuevas o corregidas, uno se imagina que tratarían de solucionar este problema (suponiendo que también existiera en los conjuntos de genes humanos). Parece difícil de creer, pero ¿podrían los genes que mencionas ser refractarios a la preparación de probesets inequívocos?
roland
usuario5054
ensemble = useMart(host='dec2014.archive.ensembl.org', biomart='ENSEMBL_MART_ENSEMBL'); hsp = useDataset(mart=ensemble, dataset='hsapiens_gene_ensembl'); ids = getBM(filters='entrezgene', attributes=c('entrezgene','hgnc_symbol'), values=entrezgeneids, mart=hsp);
roland