Genes que existen en la antigua plataforma Affymetrix pero no en la nueva

Estoy usando dos conjuntos de datos de expresión génica de una plataforma Affy U95Av2 y una plataforma Affy U133 Plus 2.0. Cuando mapeo los nombres de la sonda Affy con los nombres de los genes HUGO, hay miles de genes que existen en el nuevo conjunto de datos Affy U133 Plus 2.0 mientras que no en el antiguo conjunto de datos Affy U95Av2, que es algo que se esperaba. Pero también hay 97 genes que existen en la antigua plataforma Affy U95Av2 mientras que no en la plataforma Affy U133 Plus 2.0. No esperaría eso porque Affy U133 Plus 2.0 es una plataforma mucho más nueva y esperaría que contuviera todos los genes medidos por Affy U95Av2. ¿Qué significa eso? ¿Debo entender que esas 97 mediciones de genes en la plataforma Affy U95Av2 no eran confiables y por eso no existen en Affy U133 Plus 2.0? Aquí están esos 97 genes:

"ACSL4" "ACSM2A" "AP3S1" "AQP7" "ARPC3" "ATF4" "ATP5H" "BAK1" "BAK1P1" "CBX1" "CCL15" "CELP" "CFHR3" "CHEK2" "CLCNKA" "COL8A1" "CS " "CXorf40B" "CYP2D6" "DDI2" "EIF3F" "EIF3IP1" "EIF5AL1" "FCGR2A" "FCGR3A" "GBX1" "GPX1" "HAVCR1" "HBZ" "HIST1H2AH" "HIST1H2AI" "HIST1H2BC" "HIST1H2BJ" " HIST1H4I" "HOXA9" "HSPB1" "IFNA14" "IGF2" "IL9R" "ITGA1" "KAT7" "KRT33A" "KRTAP26-1" "LDHA" "MAGEA12" "MAP2K4P1""MIA" "MKRN3" "MROH7" "MSX2P1" "MT1A" "MT1B" "NDUFV2" "OPHN1" "OR7E24" "PARP4" "PCDHA12" "PCDHA13" "PCDHGA12" "PCDHGB4" "PINK1-AS" "PMS2P3" "PSMC6" "PSME2" "RAB13" "RCN1" "RNF216P1" "RNF5" "RPL10A" "RPL18" "RPL27" "RPL35" "RPL37" "RPLP1" "RPS15A" "RPS26" "RPS29" "RPS5" "RPS9 " "RSC1A1" "S100A7" "SAA1" "SAA4" "SNX29" "SPRR2D" "TOMM40" "UBC" "UBE2E3" "UBE2S" "UGT2B7" "UQCRFS1" "UQCRH" "VDAC2" "VENTXP7" "VOPP1" "XCL2" "ZNF799"

¿Qué fuente de anotaciones está utilizando para asignar identificadores de Affymetrix a nombres de genes, NetAffx o ? Si los archivos de anotación provienen de diferentes fuentes y/o se generaron en diferentes momentos, es posible que los símbolos genéticos hayan cambiado en el medio y, por lo tanto, no coincidan. Pero en su lista veo claramente símbolos genéticos bien establecidos que no han cambiado durante mucho tiempo, por lo que algo parece extraño...
Estoy usando biomaRt (la misma versión de conjunto) para mapear ambos. Aquí está mi código:ensemble = useMart(host='dec2014.archive.ensembl.org', biomart='ENSEMBL_MART_ENSEMBL'); hsp = useDataset(mart=ensemble, dataset='hsapiens_gene_ensembl'); ids = getBM(filters='entrezgene', attributes=c('entrezgene','hgnc_symbol'), values=entrezgeneids, mart=hsp);
Bueno, no sé de dónde obtiene Biomart su información. Le recomendaría que busque la fuente de anotación real o los identificadores de mapa a través de una fuente confiable como las propias anotaciones de Affy. Acabo de hacer una consulta rápida en NetAffx para ACSL4 (primero en su lista) y definitivamente hay sondas dirigidas a este gen en el U133. Es imposible decir por qué los resultados difieren sin saber exactamente cómo se realizaron las anotaciones.

Respuestas (2)

aSolía ​​trabajar en Affymetrix cuando se diseñaron la mayoría de estos arreglos. No estaba en el equipo de diseño en sí, pero tal vez pueda hablar un poco más sobre esto.

Los diseños de matrices de ARN se construyeron para cubrir cualquier cosa que pudiera ser una transcripción real en la combinación de colecciones de EST, ADNc, detecciones de genes in silico y entradas misceláneas en bases de datos públicas. Hubo muchas personas diferentes tratando de encontrar genes lo más rápido posible y una gran parte no era un gen real de forma natural. Estoy seguro de que también hubo una cantidad razonable de contaminación en los millones de transcripciones que recibimos.

El equipo encontraría una buena cantidad de errores en la base de datos de secuencias. Por cierto, no hay forma de enviar esto de manera significativa a la mayoría de las bases de datos de bioinformática. Solo una nota:)

Cuando salía un nuevo diseño, el equipo realizaba una auditoría para ver si alguna de las transcripciones había caído en desgracia con la evidencia y algunos de esos 'genes' se eliminaban del contenido.

Esto es útil porque la tecnología de hibridación de ADN tiene un rendimiento muy alto por dólar, pero tiene un ruido de fondo e incluso un conjunto de sondas sin correspondencia en la muestra de ARN dará números distintos de cero.

RNAseq tiene problemas similares de ensamblajes y sensibilidad de los límites de lecturas en la muestra BTW. No hay una solución perfecta hasta el momento.

Por cierto, a veces se cambia el nombre de los genes. No entré en sus métodos para ver si este es un caso, pero es algo a tener en cuenta.

Mi experiencia es con sondas Affymetrix para Drosophila, no H. sapiens, y solo con una versión. Sin embargo, describiré la situación que encontré en caso de que sea relevante para la tuya. Disculpas si es una pista falsa.

Lo que hice con la hoja de datos de Affymetrix fue usarla para construir mi propia base de datos relacional SQL que contiene probesetIDs y geneIDs (además de los datos experimentales, por supuesto). Luego pude hacer algunas consultas de 'limpieza' en la base de datos y me sorprendió (quizás no debería haberlo estado) encontrar lo siguiente:

  • Algunos genes fueron recogidos por más de un conjunto de sondas. No hay gran preocupación. Solo tenía que elegir el conjunto de sondas que daba la señal más alta, a menos que cayera en la segunda categoría.
  • Algunos probesets recogieron más de un gen. Esto era un problema y significaba que tenía que clasificar los probesets como ambiguos o no ambiguos. Pero un problema aún mayor fue que para algunos genes no existían probesets inequívocos.

Obviamente, al diseñar los conjuntos de sondas, Affymetrix pensó que estaban produciendo unos específicos de genes inequívocos. Cuando actualizaron los conjuntos de sondas para incluir designaciones de genes nuevas o corregidas, uno se imagina que tratarían de solucionar este problema (suponiendo que también existiera en los conjuntos de genes humanos). Parece difícil de creer, pero ¿podrían los genes que mencionas ser refractarios a la preparación de probesets inequívocos?

Gracias por la respuesta. Creo que lo que explicaste es bastante posible, y creo que también hay dos razones: 1) (Gracias a mastal11 en Biostars) Hay muchos conjuntos de sondas Affy que no son tan confiables porque se basan en tecnologías ecológicamente racionales. Además, las matrices más antiguas se habrían basado en versiones anteriores de la secuencia del genoma humano, y posiblemente algunos de los conjuntos de sondas de las matrices más antiguas no se correspondan o no se correspondan únicamente con las versiones más recientes de la secuencia del genoma humano. Ocasionalmente, también, los conjuntos de sondas se basaron en secuencias de GenBank que luego se retiraron de GenBank. (continúa en el siguiente comentario)
2) Algunos de esos 97 genes en realidad tienen sondas de mapeo en la plataforma Affy más nueva, pero la fuente de anotaciones que estoy usando para mapear los conjuntos de sondas Affy a los símbolos de genes HUGO, biomaRt, no tiene los identificadores de esas sondas en su base de datos, por lo que no puede asignarlos a los símbolos genéticos. Existen varias fuentes de anotaciones, y es posible que termine con un mapeo ligeramente diferente según el que use.