Convertir los datos del genoma disponibles públicamente en proteínas

Soy un informático que está empezando a incursionar en la biología. Mi objetivo final es modelar diferentes tipos de células con un programa de computadora. A partir de ahora, solo estoy tratando de dar algunos pasos más pequeños.

Primero, descargué un genoma humano completo de http://hgdownload.cse.ucsc.edu/downloads.html#human Hay un archivo FASTA para cada cromosoma.

Luego, escribí un programa Java que puede convertir secuencias de ADN FASTA en la cadena de aminoácidos apropiada.

A continuación, hice que mi programa buscara el código de "inicio" (ATG) y los códigos de "parada" (TAA, TAG, TGA).

Entonces, ahora tengo secuencias de aminoácidos que teóricamente podrían terminar plegándose en proteínas. Pero, antes de comenzar a sumergirme en el plegamiento de proteínas, quería intentar verificar que los pasos que tomé hasta ahora se realizaron correctamente. Busqué algunos genes humanos importantes en una base de datos en línea y encontré sus secuencias de aminoácidos. Luego busqué en los datos de mi programa esas secuencias y confirmé que estaban allí. Sin embargo, el gen estaba en una ubicación de par de bases diferente a la que la base de datos decía que debería estar.

Esto me llevó a algunas preguntas que, hasta ahora, no he podido responder y espero que la gente aquí pueda ayudar a arrojar algo de luz.

  1. Sé que hay muchos genomas diferentes disponibles públicamente. Tal vez el UCSC que descargué sea diferente del que usa la base de datos de genes. ¿Cuánto varía cada genoma entre sí y de qué manera varían?

  2. Al intentar responder a esa primera pregunta, iba a descargar un montón de genomas del sitio web 1000genomes y hacer algunas comparaciones, pero no estaba seguro de qué archivos descargar. Cada uno de los archivos comienza con ERR o SRR y no estoy seguro de lo que eso significa. Esta es la carpeta que estoy buscando actualmente en ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/data/HG00239/sequence_read/

  3. Digamos que estoy tratando de modelar un glóbulo blanco. ¿Cómo sé qué partes del genoma se convierten en proteínas para ese tipo de célula?

Lo siento si algo de lo que dije no tiene sentido. Como dije, mi experiencia radica en la programación, no en biología/genética.

Creo que debe ser más específico que "Descargué un genoma humano completo". ¿Era esta una secuencia del genoma completo o un conjunto de secuencias FASTA correspondientes a las proteínas predichas?
Una secuencia completa del genoma. Hay un archivo FASTA para cada cromosoma.
Un comentario sobre su tercera pregunta: los genes que se expresan dependen del estado de la célula, y esto es especialmente complicado para las células inmunitarias. Estos pueden pasar por diferentes estados de activación que son todos diferentes. Puede intentar encontrar datos de experimentos de expresión génica en dichas células y utilizar estos datos. Los conjuntos de datos están disponibles en el "ómnibus de expresión génica".
Ignoraste por completo el Dogma Central de la Vida . No has considerado el ARN.
Devashish, tengo un mapeo del codón de ADN al aminoácido. No creo que tenga que hacer nada con el ARN. Por ejemplo, cada vez que veo el codón TGC, lo mapeo a la cisteína
¿Has considerado los intrones? Además, no se transcriben todos los codones de inicio/terminación.
Como nota general, no haga varias preguntas en una sola publicación. En el futuro, divida cada pregunta en su propia publicación. He respondido las tres aquí ya que, en este caso particular, sus preguntas son básicamente irrelevantes ya que el principal problema es una gran subestimación de la complejidad de la tarea que está intentando. ¡Buena suerte!
¿Qué organismo estás estudiando?

Respuestas (2)

No, su enfoque no funcionará, está adoptando una visión muy simplista de un sistema extremadamente complejo. Algunos de los problemas que está ignorando son:

  • Los genes (genes eucarióticos de todos modos) se empalman para producir ARNm, un proceso que elimina los intrones y deja solo los exones . Si solo traduce todo el archivo de cromosomas, obtendrá ruido.

  • El empalme también cambia el marco en el que se lee un gen, no menciona ningún marco en su pregunta, pero no puede trabajar con secuencias a menos que las trate.

  • Muchos genes (la mayoría incluso, en algunas especies) se empalman alternativamente . Un gen puede dar lugar a múltiples secuencias de proteínas. Cuál se produce en un momento dado puede depender de una multitud de factores que van desde el puro azar, pasando por las condiciones ambientales hasta el tipo de célula donde se expresa el gen.

  • Los genes pueden estar presentes en ambas cadenas de ADN y un gen en la cadena + puede superponerse con un gen en la cadena -. En algunos casos pueden incluso superponerse en la misma hebra ( genes anidados ). Debe verificar ambas hebras en busca de secuencias de codificación.

  • Está asumiendo que todas las secuencias de codificación comienzan con ATG (la mayoría lo hace, no todas) y parece estar asumiendo que un ATG siempre comienza una secuencia de codificación. Un gen dado puede tener docenas o cientos de codones ATG, ¿cómo puedes saber cuál se usa como codón de INICIO?

El proceso de identificar las partes del genoma que se traducen en proteínas no es trivial. Es objeto de innumerables tesis doctorales, la mía por ejemplo. Hay muchos programas (predictores de genes) que están diseñados específicamente para detectar genes en secuencias genómicas. Habiendo pasado muchos años trabajando con ellos, puedo asegurarte que no son algo que puedas improvisar una tarde. Tienden a involucrar modelos muy complejos de secuencias codificantes frente a secuencias no codificantes y son mucho más sofisticados que simplemente buscar codones de INICIO y DETENCIÓN. Tratar de escribir uno sin saber mucho más sobre biología de lo que parece es solo una pérdida de tiempo.

Sus preguntas específicas son básicamente irrelevantes debido a los puntos mencionados anteriormente. Sin embargo, las respuestas son:

  1. Varían pero no mucho. Para genomas bien anotados como el humano, las diferencias serán insignificantes. Sin embargo, no es por eso que tienes resultados extraños, como expliqué anteriormente.

  2. Todos los sitios FTP públicos suelen tener un archivo LÉAME que explica cuáles son los archivos proporcionados. Debe leer el LÉAME correspondiente de ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/

  3. Responder a esa pregunta le dará un premio Nobel. Simplemente no hay forma de predecir qué genes se activarán en una célula en particular. Ni siquiera estamos cerca de ese nivel de comprensión de cómo funciona una célula, pero puedo decirle que no dependerá de la secuencia, nunca podrá predecir si un gen está activo en una célula en particular en función de su ADN. secuencia sola. Dependerá de varias cosas, incluido el estado de metilación del gen , y es en gran medida una cualidad emergente de la complejidad de la célula (piense en varias proteínas que interactúan entre sí, lo que lleva a la activación de un gen). Lo mejor que puede hacer es obtener una lista de genes que se sabe que están activos de la literatura.

En resumen, si desea hacer algo tan complejo como modelar una célula, le sugiero que primero se tome el tiempo y estudie algo de biología básica para que pueda comprender un poco mejor el sistema que está tratando de modelar. La celda no solo es un sistema extremadamente complejo que aún no entendemos por completo, sino que tampoco es del todo determinista y contiene mucha estocasticidad que parece estar ignorando por completo.

Gracias por la publicación detallada. Voy a usar esto como referencia en el futuro y analizaré los temas que ha mencionado.
@nether, de nada y siento molestarme en tu desfile y todo eso. Realmente te recomiendo que encuentres un biólogo con quien colaborar. Está subestimando en gran medida la complejidad de la tarea que desea intentar. En primer lugar, es simplemente imposible con el conocimiento disponible hoy. Sin embargo, incluso si fuera posible, está viendo el trabajo de varios años de un equipo de expertos altamente calificados. Puede que seas un programador brillante, pero eso no es suficiente aquí. Además, estás reinventando la rueda, ya hay muchos programas que hacen lo que has escrito (identificar genes y traducir secuencias).
Porque hay un xkcd para todo... xkcd.com/793
@terdon Estaba esperando la publicación del tipo piss-on-parade / what-your-haciendo-is-impossible, pero estoy feliz de que la tuya también contenga información útil. La gente me decía que las cosas eran imposibles cuando intentaba hacer software para el sector financiero. Ahora mi software es utilizado por bancos de todo el mundo. No es como si me sentara en una habitación y lo hiciera solo; muchos expertos en el mundo financiero ayudaron a hacerlo posible. Planeo hacer lo mismo aquí, por eso me he estado comunicando con expertos en biología computacional y ya tengo algunas reuniones organizadas :) La colaboración es clave
@nether ah, bien, me alegra escuchar eso. En realidad, se está trabajando mucho en el tema. Lo que es imposible (hoy) es crear un modelo funcional completo de una celda. Imposible no porque no seas lo suficientemente bueno sino porque simplemente no entendemos la célula lo suficientemente bien. Eso podría cambiar en el futuro, lo que nunca cambiará es que la secuencia de ADN nunca será suficiente para esto. La secuencia es solo un subconjunto de la información necesaria para modelar una celda. Por cierto, es posible que desee buscar BioPerl o BioPython si va a trabajar con este tipo de datos.
@terdon BioJava para mí ;) ¿Y esto qué? cell.com/abstract/S0092-8674(12)00776-3
@nether eso es exactamente de lo que estoy hablando. Tenga en cuenta que i) usaron M. genitalium , el organismo más simple conocido por el hombre, que es mucho más simple que un "glóbulo blanco" (por cierto, no existe tal cosa, hay docenas de tipos de células llamadas así) ii) usaron mucha más información que la secuencia de ADN y iii) a pesar de todo esto, el modelo es extremadamente limitado. Puede predecir ciertos comportamientos pero no puede considerarse una representación "verdadera" de la célula viva. Mi punto principal es que esperar modelar una célula usando su secuencia de ADN es imposible.
Voy a explicar un poco por qué es imposible. Puede predecir una secuencia de proteína a partir de una secuencia de ADN. Es muy difícil predecir la estructura de la proteína a partir de su secuencia. Más difícil es predecir con qué interactuará la proteína plegada. y así...

¿Por qué molestarse en predecir mal las proteínas a partir de la secuencia de ADN cuando podría haber descargado el proteoma humano curado manualmente?

En cuanto a sus preguntas:

  1. ¿Estás preguntando sobre genomas humanos o genomas en general? La gran mayoría de la variación en los genomas humanos está en la secuencia no codificante. En cuanto a los genomas en general, varían en casi todas las formas imaginables.

  2. Creo que esos archivos son lecturas de Illumina filtradas de calidad. SRA = Logro de lectura de secuencia. SRR = SRA EJECUTAR adhesión. ERA = EMBL SRA. ERR = ERA EJECUTAR adhesión.

  3. Debe buscar en los datos transcriptómicos. Predecir tales cosas in silico actualmente es prácticamente imposible de deshacer.

Creo que OP significaba diferencias entre diferentes ensamblajes del mismo genoma. Por ejemplo, las diferencias en las coordenadas de genes entre UCSC y EnsEMBL.