Disposición de los aminoácidos en el alfabeto de proteínas

Soy un ingeniero de software con poco conocimiento de biología molecular. Sin embargo, estoy tratando de entender un código de computadora de bioinformática donde el alfabeto de proteínas parece estar representado como la siguiente cadena, con cada uno de los veinte aminoácidos constituyentes de la proteína:

ACDEFGHIKLMNPQRSTVWY

El código parece definir una segunda cadena en la que la primera se reordena como:

DEKRHNQSTPGAVILMCFYW

No estoy seguro del significado biológico de esto. ¿Este reordenamiento representa alguna interacción específica entre estas moléculas?

Bienvenido a Biología.SE. ¿ Has mirado una tabla de propiedades de los aminoácidos ? Hay muchas formas de agrupar los aminoácidos, por lo que si no está documentado por qué se usa ese orden, dudo que alguien pueda darle una respuesta definitiva más allá del trivial 'ordenado por propiedades fisicoquímicas'.
@tyersome ¿Pero el mapeo proporcionado por el OP no parece estar basado en propiedades fisicoquímicas en absoluto?
@user338907 — ¿Qué te hace decir eso? DE = "ácido", KRH = "básico", etc. (ver también la respuesta de acvill), parece confundido, el OP no menciona que esto sea un mapeo ...
¿Cuál es el contexto? HPLC? ¿Espectrometría de masas? geles 2D? ¿Gradientes de sacarosa? plegamiento de proteínas? ¿Qué tipo de análisis?
OP probablemente se esté refiriendo a esto .
Eso es exactamente correcto @voile He estado mirando el artículo de DeepSequence y su implementación donde tiene secuencias de proteínas relacionadas alineadas entre sí y uno está tratando de desarrollar un modelo estadístico sobre su distribución.
Reformulé la pregunta para alinearla con la respuesta aceptada y para evitar un título biológicamente engañoso. Aunque no soy un devoto de Python, mirando el código en el enlace proporcionado por @Voile, parece que estoy equivocado en mi comentario de que estas no son cadenas. La respuesta parecería ser que la segunda cadena se ha reordenado sobre la base (mejor una asignación particular) de las propiedades de los aminoácidos. Por qué las cadenas se utilizan de esta manera no es evidente para ningún biólogo molecular ni para nadie sin analizar el código.
@Luce Gracias por tu contribución. Como el algoritmo para el documento al que se refiere no es estándar ni evidente, por mi parte, me resultaría muy útil si pudiera proporcionar una respuesta que lo explique.
@David Así que analicé un poco el código y este reordenamiento parece ser una pista falsa. Debe ser resaca de algún código antiguo, ya que no parece usarse en ninguna parte ...
@Luca — Extraño. Quizá le eche un vistazo yo mismo. Tengo que trabajar en el código Django de otra persona en este momento, así que también podría tratar de descubrir Python. Si me gana, tengo amigos en los que puedo apoyarme. Todo esto probablemente hubiera sido mejor en SE Bioinformatics, aunque no voy mucho allí.
Ah cierto... si, no sabia de ese SE!

Respuestas (1)

Como sugiere el comentario de Tyersome, los aminoácidos se agrupan por sus propiedades fisicoquímicas. Agreguemos algunas comas:

DE,KRH,NQ,ST,PGAVIL,MC,FYW
  • El ácido aspártico ( D) y el ácido glutámico ( E) son ácidos
  • lisina ( K), arginina ( R) e histidina ( H) son básicos
  • la asparagina ( N) y la glutamina ( Q) son amídicos
  • la serina ( S) y la treonina ( T) son hidroxílicas
  • prolina ( P), glicina ( G), alanina ( A), valina ( V), isoleucina ( I) y leucina ( L) son alifáticos
  • la metionina ( M) y la cisteína ( C) contienen azufre
  • la fenilalanina ( F), la tirosina ( Y) y el triptófano ( W) son aromáticos

Mi fuente es este gráfico.

¡Gracias! ¡Mucho para asimilar!
Soy la persona a la que se le ocurrió ese reordenamiento y puedo confirmar que acvill es correcto. Específicamente, la esperanza era que en los mapas de calor que relacionaban la secuencia con otras propiedades, como los colores, aparecieran en grupos. En realidad, no funciona tan bien, pero es lo mejor que puedes hacer si los organizas en una dimensión.
He borrado mi comentario anterior sobre las cadenas, ya que resulta, para mi sorpresa, que el código de la computadora contiene las dos secuencias de 20 aminoácidos como cadenas. Entonces, su respuesta podría modificarse para decir que "la segunda cadena contiene los 20 aminoácidos dispuestos de modo que aquellos con propiedades fisicoquímicas similares se agrupen". La razón para construir tales cadenas solo se puede discernir a partir de la comprensión del algoritmo de la computadora.
@David Me pondré en contacto con los autores y actualizaré el hilo.