Soy un informático que está empezando a incursionar en la biología. Mi objetivo final es modelar diferentes tipos de células con un programa de computadora. A partir de ahora, solo estoy tratando de dar algunos pasos más pequeños.
Primero, descargué un genoma humano completo de http://hgdownload.cse.ucsc.edu/downloads.html#human Hay un archivo FASTA para cada cromosoma.
Luego, escribí un programa Java que puede convertir secuencias de ADN FASTA en la cadena de aminoácidos apropiada.
A continuación, hice que mi programa buscara el código de "inicio" (ATG) y los códigos de "parada" (TAA, TAG, TGA).
Entonces, ahora tengo secuencias de aminoácidos que teóricamente podrían terminar plegándose en proteínas. Pero, antes de comenzar a sumergirme en el plegamiento de proteínas, quería intentar verificar que los pasos que tomé hasta ahora se realizaron correctamente. Busqué algunos genes humanos importantes en una base de datos en línea y encontré sus secuencias de aminoácidos. Luego busqué en los datos de mi programa esas secuencias y confirmé que estaban allí. Sin embargo, el gen estaba en una ubicación de par de bases diferente a la que la base de datos decía que debería estar.
Esto me llevó a algunas preguntas que, hasta ahora, no he podido responder y espero que la gente aquí pueda ayudar a arrojar algo de luz.
Sé que hay muchos genomas diferentes disponibles públicamente. Tal vez el UCSC que descargué sea diferente del que usa la base de datos de genes. ¿Cuánto varía cada genoma entre sí y de qué manera varían?
Al intentar responder a esa primera pregunta, iba a descargar un montón de genomas del sitio web 1000genomes y hacer algunas comparaciones, pero no estaba seguro de qué archivos descargar. Cada uno de los archivos comienza con ERR o SRR y no estoy seguro de lo que eso significa. Esta es la carpeta que estoy buscando actualmente en ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/data/HG00239/sequence_read/
Digamos que estoy tratando de modelar un glóbulo blanco. ¿Cómo sé qué partes del genoma se convierten en proteínas para ese tipo de célula?
Lo siento si algo de lo que dije no tiene sentido. Como dije, mi experiencia radica en la programación, no en biología/genética.
No, su enfoque no funcionará, está adoptando una visión muy simplista de un sistema extremadamente complejo. Algunos de los problemas que está ignorando son:
Los genes (genes eucarióticos de todos modos) se empalman para producir ARNm, un proceso que elimina los intrones y deja solo los exones . Si solo traduce todo el archivo de cromosomas, obtendrá ruido.
El empalme también cambia el marco en el que se lee un gen, no menciona ningún marco en su pregunta, pero no puede trabajar con secuencias a menos que las trate.
Muchos genes (la mayoría incluso, en algunas especies) se empalman alternativamente . Un gen puede dar lugar a múltiples secuencias de proteínas. Cuál se produce en un momento dado puede depender de una multitud de factores que van desde el puro azar, pasando por las condiciones ambientales hasta el tipo de célula donde se expresa el gen.
Los genes pueden estar presentes en ambas cadenas de ADN y un gen en la cadena + puede superponerse con un gen en la cadena -. En algunos casos pueden incluso superponerse en la misma hebra ( genes anidados ). Debe verificar ambas hebras en busca de secuencias de codificación.
Está asumiendo que todas las secuencias de codificación comienzan con ATG (la mayoría lo hace, no todas) y parece estar asumiendo que un ATG siempre comienza una secuencia de codificación. Un gen dado puede tener docenas o cientos de codones ATG, ¿cómo puedes saber cuál se usa como codón de INICIO?
El proceso de identificar las partes del genoma que se traducen en proteínas no es trivial. Es objeto de innumerables tesis doctorales, la mía por ejemplo. Hay muchos programas (predictores de genes) que están diseñados específicamente para detectar genes en secuencias genómicas. Habiendo pasado muchos años trabajando con ellos, puedo asegurarte que no son algo que puedas improvisar una tarde. Tienden a involucrar modelos muy complejos de secuencias codificantes frente a secuencias no codificantes y son mucho más sofisticados que simplemente buscar codones de INICIO y DETENCIÓN. Tratar de escribir uno sin saber mucho más sobre biología de lo que parece es solo una pérdida de tiempo.
Sus preguntas específicas son básicamente irrelevantes debido a los puntos mencionados anteriormente. Sin embargo, las respuestas son:
Varían pero no mucho. Para genomas bien anotados como el humano, las diferencias serán insignificantes. Sin embargo, no es por eso que tienes resultados extraños, como expliqué anteriormente.
Todos los sitios FTP públicos suelen tener un archivo LÉAME que explica cuáles son los archivos proporcionados. Debe leer el LÉAME correspondiente de ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/
Responder a esa pregunta le dará un premio Nobel. Simplemente no hay forma de predecir qué genes se activarán en una célula en particular. Ni siquiera estamos cerca de ese nivel de comprensión de cómo funciona una célula, pero puedo decirle que no dependerá de la secuencia, nunca podrá predecir si un gen está activo en una célula en particular en función de su ADN. secuencia sola. Dependerá de varias cosas, incluido el estado de metilación del gen , y es en gran medida una cualidad emergente de la complejidad de la célula (piense en varias proteínas que interactúan entre sí, lo que lleva a la activación de un gen). Lo mejor que puede hacer es obtener una lista de genes que se sabe que están activos de la literatura.
En resumen, si desea hacer algo tan complejo como modelar una célula, le sugiero que primero se tome el tiempo y estudie algo de biología básica para que pueda comprender un poco mejor el sistema que está tratando de modelar. La celda no solo es un sistema extremadamente complejo que aún no entendemos por completo, sino que tampoco es del todo determinista y contiene mucha estocasticidad que parece estar ignorando por completo.
¿Por qué molestarse en predecir mal las proteínas a partir de la secuencia de ADN cuando podría haber descargado el proteoma humano curado manualmente?
En cuanto a sus preguntas:
¿Estás preguntando sobre genomas humanos o genomas en general? La gran mayoría de la variación en los genomas humanos está en la secuencia no codificante. En cuanto a los genomas en general, varían en casi todas las formas imaginables.
Creo que esos archivos son lecturas de Illumina filtradas de calidad. SRA = Logro de lectura de secuencia. SRR = SRA EJECUTAR adhesión. ERA = EMBL SRA. ERR = ERA EJECUTAR adhesión.
Debe buscar en los datos transcriptómicos. Predecir tales cosas in silico actualmente es prácticamente imposible de deshacer.
alan boyd
satnam
cris
Devashish Das
satnam
canadiense
terdón
WYSIWYG