Estoy trabajando en un proyecto en el que tomo secuencias de ADN y traduzco los codones en notas musicales. Tengo algunas buenas ideas sobre cómo hacer esto, pero no estoy seguro de con qué secuencias trabajar. Mi estudio de caso y gran parte de mi investigación inicial mostraron que cualquier cosa más grande que una proteína es demasiado para trabajar por ahora.
Entonces mi pregunta ¿Dónde puedo encontrar secuencias de ADN de proteínas en algún formato estándar? Miré NCBI pero no tengo idea de lo que estoy viendo o si estoy descargando las cosas correctas. ¿Hay algún enlace al que pueda ir que tenga una lista de un montón de secuencias de proteínas diferentes que pueda descargar?
GenBank y RefSeq tienen una gran colección de secuencias de ADN que se pueden descargar en formato Fasta. GenBank hace que sea muy fácil buscar secuencias (por ejemplo, usando el nombre del organismo), pero a menudo tendrá datos redundantes y tipos variados (todo, desde secuencias de cromosomas completos hasta ARNm, secuencias de genes y tecnologías ecológicamente racionales). RefSeq tiene datos mucho más limpios y no redundantes, pero puede requerir un poco más de esfuerzo para encontrar las secuencias que desea. Dependiendo de si esto tiene algún efecto en su proyecto, es posible que desee considerarlo. En la página RefSeq, en el menú FTP puede hacer clic en Genomaspara ver qué genomas tienen datos RefSeq disponibles. Las secuencias de Fasta para un genoma en particular se almacenarán en un directorio dedicado, posiblemente subdividido en más directorios por cromosoma. Lo que quiere son los archivos Fasta (que terminan en .fa, .fasta, .ffn o algo así), teniendo en cuenta que pueden estar comprimidos (.fa.gz, fasta.gz, etc.).
Alternativamente, si ya tiene un organismo específico en mente, puede hacer una búsqueda en Google para ver si el genoma de ese organismo ha sido secuenciado. Si es así, casi siempre hay un sitio web dedicado donde puede descargar secuencias de ADN para ese genoma.
Un formato estándar sería el formato FASTA .
Si tiene algunas proteínas de interés que le gustaría ver, simplemente puede seleccionar 'Nucleótido' en la parte superior de la página de NCBI , ingresar el nombre de su proteína y luego presionar el botón FASTA debajo de cada resultado que le interese.
Si solo necesita un gran conjunto de datos de secuencias de ADN que codifican proteínas, podría, por ejemplo, usar la base de datos 'nt' blast. (Creo que esto es solo secuencias de proteínas, aunque no del todo seguro, pensé que sería más fácil de obtener)
Esto es más un comentario, pero es demasiado largo para ponerlo en un cuadro de comentarios, así que lo pongo aquí.
Esta es una idea divertida que estás haciendo. Tengo una idea a medias (suponiendo que estés buscando información) si quieres explorarla más a fondo, o no... cuando termine de escribir esto, podría darme cuenta de que es demasiado tonto, pero aún así... sigamos. ver.
Podría ser divertido tomar la secuencia de dos organismos, digamos ratón y humano, y alinear ciertas regiones entre sí; imagina que esto es como tocar un piano donde la "mano izquierda" podría ser la secuencia del ratón, y la "mano derecha " es humano.
Entonces, supongamos que toma un gen que ambos comparten, como CCND1. Puede alinearlos entre sí y encontrará que gran parte de las secuencias son comunes (con algunas discrepancias, obviamente). En estas regiones, las manos izquierda y derecha tocan juntas (diferentes octavas).
También encontrará lagunas en las alineaciones en las que tendrá un tramo de secuencia de "solo ratón" o "solo humano", y en estas regiones la mano izquierda o derecha tocará sola (solo).
Por ejemplo, digamos que las dos alineaciones se ven así:
mouse: CGTGGGAGGCTCTTGAGCCTGGAAACACTATCGCAGTTTGTACGGAATGCACTTGTTCTTTACAAAAGG
human: CTTGGGCGACA---GAGC---GAGACTTTGTCTCAAAAAAGAAG--------------------AAAAG
En este caso, verá tramos de las alineaciones donde el mouse (mano izquierda) tocará un solo, y otras veces las dos manos tocarán en "armonía".
Anas Elghafari
Anas Elghafari