identificar qué SNP se encuentran en TFBS (levadura)

Tengo un conjunto de ~11k SNP para Saccharomyces cerevisiae , levadura de panadería y me gustaría identificar cuáles de estos se encuentran en los sitios de unión del factor de transcripción y si brindan información sobre el TFBS relevante.

Revisé este sitio e Internet y no pude encontrar una base de datos descargable que me diera las ubicaciones de todos los TFBS conocidos/verificados para la levadura. Estudié a fondo el sitio web de YEASTRACT pero no encontré esa base de datos para descargar información sobre TFBS para todos los ORF/genes de una sola vez.

además, cuando intenté obtener la información manualmente a través de la búsqueda en línea de YEASTRACT, encontré resultados confusos. por ejemplo: la búsqueda de TF para ORF "YOL166W-A" devuelve una lista de 4 TF. haciendo clic en uno de ellos, digamos Sok2p, te lleva a otra página que dice, entre otras cosas, que el TFBS correspondiente es "acMTGCAKg"... ¿qué significa? (Conozco el alfabeto ACTG, pero ¿cuáles son los símbolos 'a', 'c', 'K' y 'g'?) y ¿qué me dice esto sobre la ubicación real del sitio de unión? ¿Tengo que BLAST todo el genoma para identificarlo? (¿No debería haber una base de datos con esta información para la levadura?) Si es así, ¿cómo hago BLAST para símbolos como 'K' y 'g'?

Tengo experiencia en estadísticas, pero actualmente trabajo en aplicaciones genéticas, por lo tanto, extraer datos bioinformáticos relevantes es muy confuso para mí en ocasiones. cualquier ayuda será apreciada.

Respuestas (2)

Estoy de acuerdo en que a veces puede ser extremadamente confuso encontrar los datos correctos.

¿Conoces RSAT (Regulatory Sequences Analysis Toolkit)? Si accede a "ayuda y contacto" y "bases de datos de motivos", encontrará la base de datos de Yeastract: http://rsat-tagc.univ-mrs.fr/rsat/motif_databases/Yeastract/

Pensé que también estaría en JASPAR, pero no pude encontrarlo.

Luego, para su análisis en el que busca SNP en los motivos, hay una herramienta en RSAT, que desafortunadamente solo funciona con la base de datos Metazoa en este momento, pero podría interesarle consultarla y el artículo correspondiente: http:// rsat-tagc.univ-mrs.fr/rsat/variation-scan_form.cgi

Además de las letras de 4 nucleótidos, hay letras que significan "la letra es una de estas dos o tres:

M = aMina = A o C

R = purina = A o G

W = Débil (dos enlaces de hidrógeno) = A o T

S = fuerte (tres enlaces de hidrógeno) C o G

Y = pYrimadina = C o T

K = Cetona = G o T

B = no A

D = no C

H = no G

U = no T

Supongo que las minúsculas significan que esas letras no son tan importantes como las mayúsculas en términos de determinación del enlace.