Fuente de secuencias de ADN

Estoy trabajando en un proyecto en el que tomo secuencias de ADN y traduzco los codones en notas musicales. Tengo algunas buenas ideas sobre cómo hacer esto, pero no estoy seguro de con qué secuencias trabajar. Mi estudio de caso y gran parte de mi investigación inicial mostraron que cualquier cosa más grande que una proteína es demasiado para trabajar por ahora.

Entonces mi pregunta ¿Dónde puedo encontrar secuencias de ADN de proteínas en algún formato estándar? Miré NCBI pero no tengo idea de lo que estoy viendo o si estoy descargando las cosas correctas. ¿Hay algún enlace al que pueda ir que tenga una lista de un montón de secuencias de proteínas diferentes que pueda descargar?

Jaja interesante idea. Podría ser una buena manera de desarrollar algunos patrones, ya que los humanos son mejores para escuchar patrones en la música que para verlos en símbolos abstractos.
Acabo de notar que la pregunta es de hace 2 años. ¿Los resultados de su trabajo están disponibles en algún lugar en línea?

Respuestas (3)

GenBank y RefSeq tienen una gran colección de secuencias de ADN que se pueden descargar en formato Fasta. GenBank hace que sea muy fácil buscar secuencias (por ejemplo, usando el nombre del organismo), pero a menudo tendrá datos redundantes y tipos variados (todo, desde secuencias de cromosomas completos hasta ARNm, secuencias de genes y tecnologías ecológicamente racionales). RefSeq tiene datos mucho más limpios y no redundantes, pero puede requerir un poco más de esfuerzo para encontrar las secuencias que desea. Dependiendo de si esto tiene algún efecto en su proyecto, es posible que desee considerarlo. En la página RefSeq, en el menú FTP puede hacer clic en Genomaspara ver qué genomas tienen datos RefSeq disponibles. Las secuencias de Fasta para un genoma en particular se almacenarán en un directorio dedicado, posiblemente subdividido en más directorios por cromosoma. Lo que quiere son los archivos Fasta (que terminan en .fa, .fasta, .ffn o algo así), teniendo en cuenta que pueden estar comprimidos (.fa.gz, fasta.gz, etc.).

Alternativamente, si ya tiene un organismo específico en mente, puede hacer una búsqueda en Google para ver si el genoma de ese organismo ha sido secuenciado. Si es así, casi siempre hay un sitio web dedicado donde puede descargar secuencias de ADN para ese genoma.

He estado en esos sitios, simplemente no sé a dónde ir para obtener una lista de secuencias. Quiero una amplia variedad de secuencias, por lo que una lista o la raíz de un directorio sería de gran ayuda. No estoy buscando una secuencia específica. Solo necesito muchos de ellos.
En GenBank, por ejemplo, si busca Vitis vinifera , obtiene 131k resultados. Si hace clic en el botón "Enviar a", selecciona el archivo y luego el formato Fasta, le permitirá descargar un archivo Fasta con las secuencias. Si eso no es lo que está buscando, tendrá que proporcionar un poco más de detalles antes de que podamos ayudarlo.
No sé mucho de biología. Estoy investigando diferentes formas de codificar datos para ayudar con la percepción de los datos. Así que sé mucho sobre información, pero no sobre ADN. Necesito un montón de secuencias para usar como pruebas en mi herramienta de ADN a música.
¿Son suficientes 131k secuencias?
Ok, esta es una buena respuesta, hice lo que dijiste y tengo exactamente lo que quería, en realidad un poco mejor ahora que veo que puedo buscar organismos específicos.

Un formato estándar sería el formato FASTA .

Si tiene algunas proteínas de interés que le gustaría ver, simplemente puede seleccionar 'Nucleótido' en la parte superior de la página de NCBI , ingresar el nombre de su proteína y luego presionar el botón FASTA debajo de cada resultado que le interese.

Si solo necesita un gran conjunto de datos de secuencias de ADN que codifican proteínas, podría, por ejemplo, usar la base de datos 'nt' blast. (Creo que esto es solo secuencias de proteínas, aunque no del todo seguro, pensé que sería más fácil de obtener)

También he visto ese formato, ¿hay algún lugar al que pueda ir y descargar muchas secuencias en ese formato?
buena respuesta. Bajaré el archivo de 10 gb y me pondré manos a la obra jaja. Gracias
Dado que solo puedo agregar comentarios aquí: estoy de acuerdo con Daniel Standage en que Genbank es el recurso más adecuado, pero ¿cómo se asegura de que solo se trata de ADN que codifica proteínas? Puede limitar su búsqueda de ARNm a la derecha, lo que debería arrojar algunos resultados que no son de proteínas; sin embargo, entonces tiene secuencias de ARNm que, por supuesto, difieren de la secuencia de ADN de la que se originan. Si eso no es un problema, diría que vaya por eso.
Esta sugerencia ayudó mucho

Esto es más un comentario, pero es demasiado largo para ponerlo en un cuadro de comentarios, así que lo pongo aquí.

Esta es una idea divertida que estás haciendo. Tengo una idea a medias (suponiendo que estés buscando información) si quieres explorarla más a fondo, o no... cuando termine de escribir esto, podría darme cuenta de que es demasiado tonto, pero aún así... sigamos. ver.

Podría ser divertido tomar la secuencia de dos organismos, digamos ratón y humano, y alinear ciertas regiones entre sí; imagina que esto es como tocar un piano donde la "mano izquierda" podría ser la secuencia del ratón, y la "mano derecha " es humano.

Entonces, supongamos que toma un gen que ambos comparten, como CCND1. Puede alinearlos entre sí y encontrará que gran parte de las secuencias son comunes (con algunas discrepancias, obviamente). En estas regiones, las manos izquierda y derecha tocan juntas (diferentes octavas).

También encontrará lagunas en las alineaciones en las que tendrá un tramo de secuencia de "solo ratón" o "solo humano", y en estas regiones la mano izquierda o derecha tocará sola (solo).

Por ejemplo, digamos que las dos alineaciones se ven así:

mouse: CGTGGGAGGCTCTTGAGCCTGGAAACACTATCGCAGTTTGTACGGAATGCACTTGTTCTTTACAAAAGG
human: CTTGGGCGACA---GAGC---GAGACTTTGTCTCAAAAAAGAAG--------------------AAAAG

En este caso, verá tramos de las alineaciones donde el mouse (mano izquierda) tocará un solo, y otras veces las dos manos tocarán en "armonía".

La herramienta que estoy haciendo se puede usar para hacer esto sin ninguna modificación. Aunque buena idea. Puede que haga un blog una vez que termine las partes difíciles y lo publique en este control de calidad solo como referencia.
Aquí está la herramienta dnasongs.brandonhamric.com . La parte de alineación se omite debido a algunos errores al tocar varias partes a la vez, pero bueno.