Información

SNP en sitios hipersensibles a la ADNasa y con marcas de histonas

SNP en sitios hipersensibles a la ADNasa y con marcas de histonas


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy investigando el papel de los SNP en los sitios hipersensibles a la ADNasa y en las regiones de ADN de las marcas de histonas y tengo algunas preguntas al respecto.

SNP en sitios hipersensibles a la ADNasa podría significar que esos SNP están en regiones potenciadoras y podrían influir en la afinidad de unión de TF, lo que puede influir en una salida transcripcional. ¿Es correcto?

SNP en sitios de marcas de histonas Tengo el número de SNP que caen en los picos (chip-seq) para las siguientes modificaciones de histonas de pacientes sanos: H3K27ac, H3K4me1, H3K4me3 (representan el cromosoma activo) H3K27me3, H3K9me3 (representan el cromosoma reprimido)

Las modificaciones de histonas representan si el cromosoma está activo o reprimido. Un SNP podría cambiar la afinidad de unión de una histona. Significa que si tengo un SNP en los datos del cromosoma activo (H3K27ac, H3K4me1, H3K4me3), podría cambiar el estado de un cromosoma, es decir, convertirlo en uno reprimido o podría inducir a una histona a no unirse en absoluto ( significa que esta región todavía está activa, ¿no?) ¿Es cierto? No estoy seguro de entender las posibles influencias de los sitios de marcas de histonas SNP.


Primero definamos algunos conceptos.

  • Las regiones hipersensibles a la ADNasa son regiones de ADN que están en una conformación de cromatina abierta (es decir, eucromatina). Esto significa que esas regiones son más activas a nivel genómico (es decir, mayor expresión génica, regulación génica y mayor unión de TF) y son menos propensas a formar nucleosomas.

  • Los sitios de marcas de histonas son regiones de ADN que se sabe que se unen a cierto tipo de histonas y, por lo tanto, también influyen en la conformación de la cromatina, lo que produce los mismos efectos descritos anteriormente. El punto crítico es que las histonas que está enumerando no se unen principalmente a una secuencia de ADN específica (como lo describe @mdperry) sino a una secuencia de ADN marcada por modificaciones epigenéticas como la metilación y acetilación..

Ahora, para sus primeras preguntas, los SNP en las regiones hipersensibles a la ADNasa podrían influir en el estado de la cromatina y, por lo tanto, sí, podrían influir en la expresión y la regulación de los genes. ¿Estos SNP también influirán en la unión de TF? Bueno, podrían hacerlo indirectamente a través de modificaciones de cromatina. No actuarán directamente sobre la unión de TF si no se encuentran en una secuencia conocida por unirse a TF (TFBS). La hipersensibilidad a la ADNasa no es sinónimo de regiones / secuencias de unión al factor de transcripción.

Para su segunda pregunta, los SNP en los sitios de marcas de histonas son un poco más difíciles de interpretar. Pueden, o no, provocar cambios en la cromatina al influir en la unión de las histonas, pero no de forma directa. Las islas CpG son, por ejemplo, regiones de ADN que se sabe que están muy bajo la influencia de marcas epigenéticas y, por lo tanto, las mutaciones en esas regiones específicas (por ejemplo, una mutación C -> T) podrían influir en el estado relativo de metilación / acetilación y, por lo tanto, en la unión de histonas. Por lo tanto, los SNP podrían influir en la expresión génica a través de cambios de cromatina que conducen a una unión de TF mayor / menor, pero nuevamente no de manera directa. Aquí de nuevo, un SNP influiría directamente en la unión de TF solo si la mutación se localiza en un TFBS.

Como puede ver, mi respuesta está llena de "poder" y la razón es que es muy difícil, en el estado actual de la técnica, determinar el impacto exacto de un SNP en la conformación 3D de la cromatina y, por lo tanto, predecir el efecto sobre expresiones genéticas específicas.

Un consejo sería intentar co-localizar sus SNP con TFBS conocido o bien predicho In-silico o medido a través de experimentos CHiP-SEQ y fusionar eso con la información sobre la hiperactividad de la ADNasa y las marcas de histonas que ya reunió. Por ejemplo, es muy probable que un SNP en un TFBS en una región hiperactiva de ADNasa tenga un impacto mayor que un SNP en un TFBS en una región no activa.

Lo siento, no puedo ser más específico, pero esta es un área de investigación muy activa en genética y todavía hay mucho por entender, especialmente por las interacciones entre todos los jugadores que influyen en la conformación de la cromatina.


Tenga en cuenta que no son las histonas individuales las que se unen, hay 8 proteínas de histonas que forman una partícula de nucleósido compacta y la partícula tiene 146 pb de ADN envuelta firmemente alrededor. Dado que la interacción entre las histonas y el ADN no es específica de secuencia, es poco probable que un polimorfismo de un solo nucleótido tenga un efecto medible sobre la ocupación del nucleosoma en ese sitio.


Las características epigenéticas únicas de Pack-MULE y su impacto en la composición de bases cromosómicas y el espectro de expresión.

La adquisición y reordenación de genes del huésped por elementos transponibles (TE) es un mecanismo importante para aumentar la diversidad genética, como lo ejemplifican los TE tipo 3000 Pack-Mutator-like en el genoma del arroz que han adquirido secuencias de genes (Pack-MULE), pero siguen siendo enigmáticos . Para identificar firmas de evolución de Pack-MULE y Pack-MULE en funcionamiento, generamos conjuntos de datos de transcriptoma, translatoma y epigenoma y comparamos Pack-MULE con genes y otras familias de TE. Aproximadamente el 40% de los Pack-MULE se transcribieron y el 9% tenía evidencia de traducción, lo que los distingue claramente de otros TE. Los Pack-MULE exhibieron un perfil de expresión único asociado con la especificidad en los tejidos reproductivos que puede estar asociado con los rasgos de la semilla. Los Pack-MULE expresados ​​se asemejan a los genes codificadores de proteínas regulares que se muestran por un bajo nivel de metilación del ADN, asociación con marcas de histonas activas y sitios hipersensibles a la DNasa I, y una ausencia de marcas de histonas represivas, lo que sugiere que una fracción sustancial de los Pack-MULE son potencialmente funcional in vivo. Curiosamente, la capacidad de expresión de Pack-MULE es independiente del entorno genómico local, y la inserción y expresión de Pack-MULE puede haber alterado el patrón de expresión cromosómico local, así como contrarrestado el impacto de la recombinación en la composición de la base cromosómica, que tiene un profundo impacto consecuencias sobre la evolución de la estructura cromosómica.

Cifras

Elementos transponibles (TE) y codificación de proteínas ...

Elementos transponibles (TE) y genes codificadores de proteínas utilizados en este estudio. ( A )…

Perfiles de transcripción y traducción de…

Perfiles de transcripción y traducción de Pack-MULE, otros genes TE, genes parentales y otros ...

La densidad de sitios hipersensibles a la ADNasa I para TE, Pack-MULE, genes codificadores de proteínas y ...

Metilación del ADN en arroz joven ...

Metilación del ADN en panículas jóvenes de arroz. (C.A). Porcentaje de metilación del ADN de las regiones internas ...

Fracción de TE, Pack-MULE y ...

Fracción de TE, Pack-MULE y genes codificadores de proteínas con modificaciones de histonas en arroz joven ...

La relación entre la tasa de recombinación ...

La relación entre la tasa de recombinación y la distribución de Pack-MULE y genes codificadores de proteínas. (…


Introducción

Los procesos biológicos complejos, como la diferenciación celular y la respuesta a señales ambientales, se basan en un control temporal y espacial preciso de la transcripción de genes, que se rige por interacciones entre factores de transcripción (TF) y cis-Elementos reguladores (CRE) [1, 2, 3]. Descifrar las CRE en el genoma es esencial para comprender la red reguladora de la transcripción que manifiesta la complejidad del tejido y el polimorfismo fenotípico. Las regiones genómicas que contienen CRE activas son accesibles a las proteínas reguladoras a través del desalojo o desintegración de los nucleosomas en la cromatina local [4, 5]. La accesibilidad, que está relacionada con la conformación de la cromatina "abierta" o "cerrada", se puede analizar mediante varias tecnologías, incluidas DNase-seq y ATAC-seq [6,7,8,9]. En estos métodos, la cromatina se trata con una pequeña dosis de endonucleasa DNasa I o transposasa Tn5. La cromatina abierta que carece de protección de nucleosomas es atacada preferentemente por estas enzimas, lo que resultó en pequeños fragmentos de ADN asociados con proteínas reguladoras. Estos fragmentos de ADN se pueden identificar mediante secuenciación de alto rendimiento. DNase-seq y ATAC-seq se han utilizado ampliamente para la identificación de CRE asociados con diferentes tipos de células, tejidos y etapas de desarrollo tanto en animales [10, 11] como en especies de plantas [12,13,14,15,16,17, 18].

La nucleasa micrococal (MNasa) genera roturas de doble hebra en el ADN desprotegido y "mordisquea" el ADN expuesto hasta que encuentra una obstrucción, como un nucleosoma [19, 20]. Dado que el ADN enlazador es atacado preferentemente por MNasa, la cromatina tratada con MNasa se digeriría en una escalera de nucleosomas y eventualmente resultaría en núcleos de nucleosomas protegidos por

ADN de 147 pb [19, 21]. Dada esta propiedad única, la MNasa se ha utilizado principalmente para investigar la ocupación y el posicionamiento nucleosómico en todo el genoma, en el que se analizan fragmentos de ADN de 150 a 200 pb, que representan huellas de nucleosomas. Además de las huellas de nucleosomas, se informaron fragmentos más cortos (& lt 80 pb) asociados con otras proteínas de unión al ADN, como los TF, en la cromatina tratada con MNasa [20, 22]. De hecho, el acoplamiento de la digestión de MNasa con inmunoprecipitación de cromatina (ChIP) utilizando anticuerpos contra TF ha llevado a la identificación de sitios de unión a TF con mayor especificidad y sensibilidad que los protocolos convencionales [23, 24]. Estos estudios sugieren el potencial de la MNasa para descifrar el panorama regulador de los genomas eucariotas.

Desarrollamos una técnica, denominada secuenciación de hipersensibilidad MNasa (MH-seq), para identificar regiones genómicas asociadas con cromatina abierta en Arabidopsis thaliana. Brevemente, el A. thaliana la cromatina fue fijada y digerida ligeramente por MNasa. Los pequeños fragmentos de ADN resultantes (de 20 a 100 pb) se recogieron y secuenciaron utilizando la plataforma Illumina. Las regiones genómicas enriquecidas con lecturas de MH-seq se denominan sitios hipersensibles a MNasa (MHS). Encontramos que los MHS cubren la mayoría (87-92%) de la cromatina abierta identificada previamente por DNase-seq y ATAC-seq. Sorprendentemente, una proporción significativa (22%) de los MHS no estaban cubiertos por lecturas de DNase-seq o ATAC-seq, que en lo sucesivo se denominan "MHS específicos" (sMHS). Demostramos que los sMHS están enriquecidos para H3K27me3 y la metilación del ADN y representan clases distintas de dominios de cromatina abiertos que pueden no ser accesibles para DNasa I o Tn5. Los sMHS mostraron una serie de características distintas en comparación con los MHS cubiertos por lecturas de DNase-seq o ATAC-seq, incluida la asociación con represores transcripcionales. Por tanto, MH-seq proporciona una nueva herramienta para identificar y catalogar todas las clases de cromatina abierta en eucariotas superiores.


Resultados

Capture Hi-C identificó nuevos objetivos genéticos en loci de susceptibilidad a la psoriasis

Generamos datos de secuenciación para los experimentos de la región CHi-C por duplicado en tres condiciones: (i) HaCaT no estimulado, (ii) HaCaT estimulado con IFN-γ para representar el entorno psoriático inflamatorio y (iii) células My-La. Nuestro diseño general se dirigió a regiones genéticas asociadas con varias enfermedades inmunomediadas, incluidos los SNP de psoriasis de múltiples GWAS (consulte los “Métodos” y el archivo adicional 1, Tabla S1). Apuntamos a 10,000 y obtuvimos un promedio de 8580 fragmentos Hi-C mapeados (di-tags) por fragmento de cebo con una eficiencia de captura media del 71% (archivo adicional 1, tabla S2). Se utilizó el análisis Capture Hi-C de la organización genómica (CHiCAGO) para identificar interacciones significativas para cada tipo de célula. La reproducibilidad se evaluó en primer lugar mediante la observación del número de interacciones compartidas entre las réplicas y, en segundo lugar, a través de HiCRep [25] (archivo adicional 2, Fig. S1). El coeficiente de correlación ajustado por estrato (SCC) producido por HiCRep mostró que todas las muestras de HaCaT eran muy similares y estaban ligeramente más correlacionadas por replicación que por condición. Las muestras de My-La también estaban altamente correlacionadas entre sí, y menos con las células HaCaT (archivo adicional 2, Fig. S1B).

Al integrar los datos publicados de ChIP-seq, encontramos que los fragmentos de otro extremo que interactúan con los fragmentos de cebo GWAS se enriquecieron en H3K27ac y H3K4me3 en los tipos de células relacionados NHEK y células T CD8 + naive (archivo adicional 3, Fig. S2), lo que sugiere que el Los loci GWAS interactúan preferentemente con regiones activas tales como potenciadores y promotores. Los fragmentos de otros extremos en las células HaCaT también se enriquecieron para el regulador estructural de cromatina CTCF, basado en ChIP-seq en NHEK (archivo adicional 3, Fig. S2).

Para la línea celular My-La, notamos una gran cantidad de transinteracciones (puntuación CHiCAGO ≥ 5) que abarcan diferentes cromosomas (3392 / 42,928 interacciones totales de todos los loci de enfermedades inmunomediadas capturadas), y la mayoría de estas (

59%) asignados a interacciones entre dos loci translocados conocidos en células My-La [26]. A la luz de esto, las interacciones se filtraron para incluir solo interacciones del mismo cromosoma. Luego filtramos las interacciones CHi-C para incluir solo aquellas que involucran loci GWAS de psoriasis que habíamos apuntado con éxito a 104 SNP GWAS principales en el significado de todo el genoma y sus SNP proxy asociados en r 2 & gt 0,8, correspondientes a 907 fragmentos de cebo HindIII. En los tres experimentos de captura, obtuvimos un promedio de 6593 interacciones (puntuación CHiCAGO ≥ 5) que se originaban a partir de fragmentos de psoriasis dirigidos (archivo adicional 1, tabla S2). Los datos se enriquecieron para interacciones de largo alcance, con más del 75% de las interacciones significativas en los loci de psoriasis que abarcan & gt 100 kb (archivo adicional 4, Fig. S3). Las distancias de interacción medianas fueron 227 kb (HaCaT sin estimular), 234 kb (estimulado con HaCaT) y 259 kb (My-La). Se encontró que las distancias de interacción en los loci de psoriasis eran significativamente mayores en las células My-La que en las células HaCaT (Kruskal-Wallis con la prueba de comparaciones múltiples de Dunn PAG & lt 0.0001 y PAG = 0,0011 para HaCaT no estimulado y estimulado, respectivamente), lo que sugiere una arquitectura de cromatina específica de la célula.

Para validar nuestros datos de CHi-C, superpusimos las interacciones con un conjunto de datos de locus de ruta cuantitativo de expresión (eQTL) publicado, en el que el SNP principal de psoriasis había sido colocalizado con el SNP principal eQTL en linfocitos T CD4 + y monocitos [27]. Presumimos que los emparejamientos de promotores de genes eQTL de larga distancia a menudo implicarían bucles de cromatina. El estudio informó 15 SNP GWAS principales con 26 SNP proxy eQTL principales correspondientes, de los cuales 16 proxies, que representan 9 SNP GWAS principales, se superpusieron a fragmentos cebados en nuestro estudio. Ocho de estos proxies se capturaron dentro de un fragmento HindIII que contenía, o estaba dentro de los 20 kb del propio gen eQTL. Otros siete proxies estaban dentro o adyacentes a fragmentos que mostraban evidencia de interacción con el gen eQTL distal en nuestra línea celular CHi-C datos (puntuación CHiCAGO ≥ 5) (archivo adicional 5, tabla S3). Solo el proxy más distante, rs8060857, no mostró ninguna evidencia de interacción con el gen eQTL (ZNF750, 720 kb). Por lo tanto, esta es una fuerte evidencia de que nuestros datos de CHi-C pueden mostrar vínculos entre los SNP de GWAS funcionales distales y su gen objetivo, incluso a través de tipos de células no coincidentes.

En todas las líneas celulares, aproximadamente el 30% de las interacciones ocurrieron entre el fragmento de cebo de psoriasis y un sitio de inicio de la transcripción (Ensembl 75). El número total de objetivos genéticos que interactúan fue 442 en células HaCaT no estimuladas (archivo adicional 5, tabla S4), 461 en células HaCaT estimuladas (archivo adicional 5, tabla S5) y 650 en células My-La (archivo adicional 5, tabla S6) , que comprende un conjunto de 839 genes. De estos, 288 dianas génicas (34,3%) se compartieron entre todos los tipos de células, mientras que 58, 64 y 291 dianas fueron únicas en células HaCaT no estimuladas, HaCaT estimuladas con IFN-γ y My-La, respectivamente. Las células HaCaT estimuladas y no estimuladas compartían una gran proporción de sus objetivos genéticos (355 objetivos del 77 al 80%). Los fragmentos de cebo que interactuaban con genes tendían a interactuar con múltiples fragmentos que contienen promotores correspondientes a diferentes genes, una mediana de 2 fragmentos en células HaCaT (no estimuladas o estimuladas) y 3 fragmentos en células My-La, lo que implica entre 2 y 3 genes (adicional archivo 6, Fig. S4), que está en línea con los hallazgos reportados previamente [20, 22, 28].

Razonamos que los genes dianas con expresión detectable en el mismo tipo de célula serían biológicamente más relevantes que los no expresados, por lo que realizamos RNA-seq (archivo adicional 7, Tabla S7) y determinamos la expresión relativa de genes que interactúan con psoriasis GWAS SNP en cada tipo de celda (archivo adicional 5, tablas S4-S6) o fragmentos de cebo GWAS superpuestos (archivo adicional 7, tabla S8). Los genes expresados ​​que interactúan con los fragmentos de GWAS incluían candidatos convincentes para la psoriasis, como IL23A, PTGER4, STAT3 y NFKBIZ. Es importante destacar que encontramos que los fragmentos de otro extremo de las interacciones CHi-C se enriquecieron significativamente para los sitios de inicio de la transcripción de genes expresados ​​en el tipo de célula correspondiente (archivo adicional 3, Fig. S2). Buscamos motivos de unión a factores de transcripción intersectados por SNP de psoriasis que interactúan con promotores de genes activos utilizando la herramienta SNP2TFBS [29] y descubrimos varios factores significativamente enriquecidos, con el mayor enriquecimiento encontrado para REL, que es en sí mismo un gen candidato en el locus 2p16.1 [30] (Expediente adicional 7, cuadro S9).

La estimulación de las células HaCaT con IFN-γ provocó la expresión diferencial de 535 genes (ajustada PAG & lt 0.10): 88 downregulated y 447 upregulated (archivo adicional 7, tabla S10). Si bien los genes regulados negativamente no se enriquecieron para ninguna vía biológica, los genes regulados positivamente se enriquecieron para 196 procesos biológicos que incluían términos GO relevantes para la psoriasis como "GO: 0045087 respuesta inmune innata" (PAG = 9,39 × 10 −20), "GO: 0034097 respuesta al estímulo de citoquinas" (PAG = 7,32 × 10 −15) y "GO: 0034340 respuesta al interferón de tipo I" (PAG = 1.08 × 10 −10) (Archivo adicional 7, Tabla S11). Doce de los genes expresados ​​diferencialmente se superpusieron a un fragmento de cebo de captura de psoriasis (archivo adicional 3, tabla S11) e incluidos ERAP1, ERAP2, IFIH1, RNF114, SOCS1 y STAT2. Además, 12 genes expresados ​​diferencialmente estuvieron involucrados en interacciones cebo-promotor (archivo adicional 7, Tabla S12) e incluyeron candidatos como ICAM1, KLF4 y STAT3. Sin embargo, la gran mayoría de estos genes expresados ​​diferencialmente interactuaron de manera similar con los cebos asociados a la psoriasis tanto en células estimuladas como no estimuladas (puntuación CHiCAGO ≥ 5).

Ejemplos de interacciones CHi-C que implican genes diana para la psoriasis

En el locus intergénico 9q31.2, la asociación de psoriasis cae entre dos grupos de genes distantes donde el gen candidato sugerido era el factor 4 similar a Krüppel (KLF4) debido a sus importantes funciones biológicas en la diferenciación y la inmunidad innata [30]. Nuestros datos CHi-C mostraron interacciones significativas (puntuación CHiCAGO ≥ 5) entre la asociación de psoriasis y el promotor de KLF4 tanto en células HaCaT estimuladas como no estimuladas, a una distancia de aproximadamente 560 kb (Fig. 1a). En ambas condiciones, el fragmento de cebo chr9: 110810592-110816598 interactuó con KLF4 (Puntuación CHiCAGO = 6,75 y 5,29 para células no estimuladas y estimuladas, respectivamente) mientras que en células estimuladas solas, un segundo fragmento de cebo (chr9: 110798319-110798738) también interactuó, coincidiendo con un aumento de más de cinco veces en el KLF4 expresión (FC = 5,78 adj. PAG = 4,26 × 10 −8). En las células My-La, se observó una conformación similar, sin embargo, las interacciones no coincidieron con el fragmento que contenía el gen en sí. Además, el KLF4 La expresión no fue detectada por RNA-seq en células My-La, lo que sugiere un mecanismo específico de tipo celular (archivo adicional 7, Tabla S7). En todos los tipos de células, las interacciones de largo alcance también se extendían desde el locus de la psoriasis hasta el lado telomérico del desierto genético, pero no llegaban al gen más cercano de ese lado (ACTL7B) por aproximadamente 35 kb.

Ejemplos de interacciones CHi-C que implican genes más cercanos / notificados. Las interacciones se muestran en el 9q31.2 (KLF4) locus (a) y el 5p13.1 (PTGER4) locus (B). Las pistas incluyen bloques LD de psoriasis (Ps) definidos por SNP en r 2 & gt 0.8 con el índice SNP, fragmentos HindIII cebados, genes RefSeq (NCBI), H3K27ac y H3K4me3 PAG señal de valor en NHEK (ENCODE) y CD8 + células T primarias vírgenes (Roadmap Epigenomics), TADs (mostradas como barras) e interacciones CHi-C significativas en la puntuación CHiCAGO ≥ 5 (mostradas como arcos) en tres condiciones: células HaCat no estimuladas (violeta) , Células HaCaT estimuladas con IFN-γ (rojo) y células My-La (azul). La región resaltada indica el bloqueo LD de psoriasis. La figura se realizó con el navegador WashU Epigenome Browser, GRCh37 / hg19 [31]

En el locus 5p13.1, los SNP de la psoriasis son igualmente intergénicos [32], pero el gen más cercano PTGER4 se ha demostrado que es un fuerte candidato para otras enfermedades autoinmunes en este locus [22]. Nuestros datos CHi-C mostraron interacciones (puntuación CHiCAGO ≥ 5) entre múltiples fragmentos asociados a la psoriasis y PTGER4 más de aproximadamente 300 kb hasta el otro extremo del TAD, un hallazgo que fue robusto en todos los tipos de células (Fig. 1b). PTGER4 La expresión fue detectada por RNA-seq en todos los tipos de células (archivo adicional 7, tabla S7). En las células My-La, las interacciones también se extendieron a los promotores de TTC33, que se expresó en todos los tipos de células, y RPL37, para la cual no se detectó expresión en ningún tipo celular.

En el locus 2p15, la asociación de psoriasis etiquetada por rs10865331 se asignó originalmente al gen más cercano B3GNT2 sin embargo, las interacciones CHi-C omitieron B3GNT2 (

120 kb corriente arriba) y en su lugar implicó al promotor del dominio del metabolismo del cobre que contiene 1 (COMMD1), un gen implicado en la señalización de NFkB, en aproximadamente 435 kb en sentido ascendente (Fig. 2a) [30, 33]. Esta interacción ocurrió en células HaCaT estimuladas y células My-La, y COMMD1 la expresión fue detectada por RNA-seq en todos los tipos de células. B3GNT2 También se detectó expresión en todos los tipos de células (archivo adicional 7, tabla S7).

Ejemplos de interacciones CHi-C en desiertos genéticos que implican genes distales / nuevos. Las interacciones se muestran en el 2p15 (B3GNT2) locus (a) y el 1p36.23 (RERE, SLC45A1, ERRFI1, TNFRSF9) locus (B). Las pistas incluyen bloques LD de psoriasis (Ps) definidos por SNP en r 2 & gt 0.8 con el índice SNP, fragmentos HindIII cebados, genes RefSeq (NCBI), H3K27ac y H3K4me3 PAG señal de valor en NHEK (ENCODE) y CD8 + células T primarias vírgenes (Roadmap Epigenomics), TADs (mostradas como barras) e interacciones CHi-C significativas en la puntuación CHiCAGO ≥ 5 (mostradas como arcos) en tres condiciones: células HaCat no estimuladas (violeta) , Células HaCaT estimuladas con IFN-γ (rojo) y células My-La (azul). La región resaltada indica el bloqueo LD de psoriasis. La figura se realizó con el navegador WashU Epigenome Browser, GRCh37 / hg19 [31]

En el locus 1p36.23, la asociación etiquetada por rs11121129 es la más cercana a SLC45A1 y se asignó originalmente a múltiples objetivos genéticos putativos [30]. Sin embargo, los datos de CHi-C mostraron interacciones (puntuación de CHiCAGO ≥ 5) entre el bloqueo LD de la psoriasis y el promotor del inhibidor de retroalimentación del receptor ERBB 1 (ERRFI1), un importante regulador de la proliferación y diferenciación de queratinocitos, tanto en células HaCaT estimuladas como no estimuladas (Fig. 2b). Esta interacción no se observó en las células My-La y, además, ERRFI1 Se detectó expresión en células HaCaT (no estimuladas y estimuladas) pero no en células My-La (archivo adicional 7, tabla S7). Una interacción entre la asociación de psoriasis y el promotor de SLC45A1 También se observó en células HaCaT estimuladas, pero no no estimuladas (Fig. 2b) sin embargo, SLC45A1 expresión no fue detectada por RNA-seq en ninguna de las líneas celulares (archivo adicional 5, Tabla S5).

En el locus 6p22.3, la señal de psoriasis marcada por rs4712528 es intrónica a CDKAL1, y hubo 11 fragmentos intrónicos asociados a la psoriasis que también interactuaron con el CDKAL1 promotor en células My-La (Fig.3a) CDKAL1 se detectó expresión en todas las células. Sin embargo, también hubo interacciones a largo plazo (puntuación CHiCAGO ≥ 5) entre los fragmentos asociados a la psoriasis y SOX4 más de 950 kb en todos los tipos de células (Fig. 3a). SOX4 es un gen candidato convincente con funciones en la producción de IL17A y la inflamación de la piel en ratones [34] aquí, SOX4 se detectó expresión en células HaCaT pero no en células My-La (archivo adicional 7, tabla S7).

Ejemplos de interacciones CHi-C que agregan complejidad a un locus. Las interacciones se muestran en el 6p22.3 (CDKAL1) locus (a) y el 1q21.3 (LCE3B, LCE3C) locus (B). Las pistas incluyen bloques LD de psoriasis (Ps) definidos por SNP en r 2 & gt 0.8 con el índice SNP, fragmentos HindIII cebados, genes RefSeq (NCBI), H3K27ac y H3K4me3 PAG señal de valor en NHEK (ENCODE) y CD8 + células T primarias vírgenes (Roadmap Epigenomics), TADs (mostradas como barras) e interacciones CHi-C significativas en la puntuación CHiCAGO ≥ 5 (mostradas como arcos) en tres condiciones: células HaCat no estimuladas (violeta) , Células HaCaT estimuladas con IFN-γ (rojo) y células My-La (azul). La región resaltada indica el bloqueo LD de psoriasis. La figura se realizó con el navegador WashU Epigenome Browser, GRCh37 / hg19 [31]

En el locus 1q21.3, los SNP de riesgo múltiple se encuentran en el grupo de genes de la envoltura de maizal tardío (LCE) en el complejo de diferenciación epidérmica (EDC). Una de las asociaciones en este locus es una deleción de 32 kb que elimina la LCE3B y LCE3C genes [30, 35, 36]. Los datos de CHi-C mostraron interacciones múltiples y sólidas entre las regiones asociadas a la psoriasis en los genes LCE, incluso desde dentro de la región LCE3C / B-del de 32 kb, y genes aguas abajo en la EDC que incluían IVL, LOR, PRR9 y SPRR genes, a una distancia de

600 kb (figura 3b). De estos genes IVL interactuó con cebos de psoriasis en células HaCaT no estimuladas pero no estimuladas, y su expresión disminuyó con la estimulación (FC = 0,40 adj. PAG = 0,0139). Los genes codificantes que interactúan directamente con los fragmentos dentro de la deleción de 32 kb fueron LCE3A, PRR9, LELP1, SPRR2B y SPRR2C. De estos, solo la expresión de la región rica en prolina 9 (PRR9) se detectó en las células HaCaT pero no en las células My-La (archivo adicional 7, tabla S7). PRR9 Previamente se demostró que está regulado al alza en las placas psoriásicas e inducido por IL17A y, por lo tanto, puede ser un importante objetivo genético distal en este locus [37].

El locus de riesgo de psoriasis 9q31.2 forma interacciones de largo alcance con KLF4 y alberga variantes reguladoras probables

Centramos nuestra atención en el gran locus intergénico en 9q31.2, que no se ha caracterizado previamente en la psoriasis, hasta donde sabemos. El gen candidato, factor 4 similar a Krüppel (KLF4), codifica un factor de transcripción con una variedad de funciones relevantes que incluyen la formación de la barrera cutánea [38] y la señalización inmunitaria [39], pero se encuentra a más de 500 kb del GWAS SNP principal rs10979182 [30]. El experimento CHi-C mostró interacciones de largo alcance entre los SNP asociados a la psoriasis y KLF4 (Figura 1a) [30]. KLF4 La expresión también fue regulada positivamente por IFN-γ, lo que sugiere que puede ser un jugador importante dentro de un entorno inflamatorio. Queríamos priorizar variantes reguladoras en 9q31.2 y determinar si existía alguna relación potenciador-promotor funcional entre los SNP y KLF4 u otros genes distales en el locus.

En primer lugar, caracterizamos los SNP asociados a la psoriasis en 9q31.2 mediante la extracción de herramientas y conjuntos de datos epigenéticos disponibles públicamente. Hay noventa variantes en LD ajustado (r 2 & gt 0.8) con el GWAS SNP principal rs10979182 (1KG Phase 3 European) (Fig. 4a) varias de las cuales cruzan marcas de histonas modificadas (H3K4me1 y H3K27ac) en varios tipos de células de ENCODE, correspondientes a cuatro elementos potenciadores putativos que se superponen a H3K4me1 y H3K27ac ocupación (Fig. 4b). En las células de queratinocitos humanos primarios (NHEK), las marcas de histonas potenciadoras fueron más prominentes en los potenciadores 2-4 (Fig. 4c). Los SNP también se superponen con los sitios de hipersensibilidad a la ADNasa y los sitios de unión al factor de transcripción (Fig. 4c) que se corresponden con los elementos potenciadores en NHEK según ChromHMM [43].

Descripción general de los SNP en LD con rs10979182 superpuesto a cuatro elementos potenciadores putativos en el locus 9q31.2. a La barra violeta muestra la ubicación del bloque LD rs10979182 (r 2 & gt 0.8) en el

Desierto de genes de 1 Mb entre dos grupos de genes, mostrado por genes UCSC [40]. B Los 90 SNP en LD con rs10979182 se indican con líneas violetas y H3K4me1, y las pistas ChIP-seq H3K27ac de ENCODE se muestran como picos en GM12878 (rojo), H1-hESC (amarillo), HSMM (verde), HUVEC (azul claro) , Células K562 (azul oscuro), NHEK (violeta) y NHLF (rosa) [41]. El índice SNP, rs10979182, se muestra como una flecha verde y el SNP de interés, rs6477612, se muestra como una flecha negra. C Zoom de los potenciadores putativos 2-4 que muestran SNP superpuestos a las marcas reguladoras ENCODE: H3K4me1 y H3K27ac ChIP-seq (NHEK), grupos de ADNasa y grupos de chips de factor de transcripción en 91 tipos de células como barras grises / negras, donde la oscuridad indica la intensidad de la señal. Para los grupos de chips, las líneas verdes indican el sitio de puntuación más alta de un motivo canónico identificado por FactorBook para el factor correspondiente. La figura se realizó con UCSC Genome Browser, GRCh37 / hg19 [42]

No se identificaron eQTL en el conjunto de acuerdo con Haploreg v4.1. RegulomeDB identificó rs6477612, situado dentro del tercer potenciador putativo, como el SNP con el potencial regulador putativo más alto con una puntuación de 2a. rs6477612 está en LD ajustado (r 2 = 0,92, 1 KG EUR) con rs10979182 y se encuentra dentro del fragmento HindIII que interactúa con KLF4 en células HaCaT en nuestros datos CHi-C (chr9: 110810592-110816598 hg19), lo que lo convierte en un SNP priorizado de interés.

Los datos de HiChIP sugirieron que las interacciones entre KLF4 y los SNP de psoriasis están activas en las células HaCaT, pero no en las células My-La.

Como enfoque complementario de CHi-C, utilizamos el método HiChIP desarrollado recientemente para identificar interacciones mediadas por H3K27ac en nuestras líneas celulares. En las células HaCaT, hubo un pico de H3K27ac en el KLF4 promotor que interactuó con varias regiones del desierto genético, incluidos los potenciadores 3 y 4 asociados a la psoriasis, y en la región de interacción publicada anteriormente del estudio del cáncer de mama en células HaCaT estimuladas y no estimuladas (Fig. 5) [17]. Los picos de H3K27ac en los SNP de la psoriasis también interactuaron con varios otros potenciadores putativos dentro del desierto genético, pero no interactuaron con otros objetivos genéticos, reflejando la arquitectura CHi-C (Fig. 5). En contraste, hubo una falta de picos de H3K27ac en las células My-La en 9q31.2 y, en consecuencia, no hubo interacciones significativas de HiChIP. Esta falta de ocupación de H3K27ac indica un estado de activación diferencial en esta región entre las células HaCaT y My-La.

Interacciones de HiChIP (H3K27ac) con el KLF4 promotor en el locus 9q31.2. Las pistas incluyen el bloqueo de LD de psoriasis según lo definido por los SNP en r 2 & gt 0.8 con rs10979182, genes RefSeq, TAD (mostrados como barras), ocupación de H3K27ac (mostrados como picos) e interacciones HiChIP significativas (mostradas como arcos) en tres condiciones: células HaCaT no estimuladas (púrpura), células HaCaT estimuladas con IFN-γ (rojo) y celdas My-La (azul). Las interacciones HiChIP se restringieron a las que se originaron en el SNPS de psoriasis o en el KLF4 promotor. La región resaltada en amarillo indica el bloqueo de LD de psoriasis en rs10979182. La región resaltada en púrpura indica lo descrito anteriormente KLF4-región de interacción en el estudio del cáncer de mama [17]. Las escalas en las interacciones HiChIP representan la puntuación FitHiChIP. La figura se realizó con el navegador WashU Epigenome Browser, GRCh37 / hg19 [31]

Observamos un aumento en el número y la fuerza de los picos de H3K27ac en el TAD 9q31.2 (chr9: 110202281-111602280) en células HaCaT estimuladas en comparación con células HaCaT no estimuladas (Fig. 5). El número de picos aumentó de 60 a 77, y hubo un aumento significativo en la señal del pico medio de

9.5 in shared peaks (PAG < 0.0001, Wilcoxon matched-pairs signed-rank test). This also corresponded with an over 5-fold upregulation of gene expression upon IFN-γ stimulation in HaCaT cells (FC = 5.78 adj. PAG = 4.26 × 10 −8 ). Combined, this suggests that inflammatory stimulation of HaCaT cells causes upregulation of KLF4 that is mediated, or at least accompanied, by increased enhancer activity in 9q31.2.

3C-qPCR supplemented HiChIP/CHi-C findings in the 9q31.2 locus

We used 3C-qPCR in an effort to confirm the interaction between the psoriasis-associated putative enhancer 3 (rs6477612) and KLF4 and to further prioritise regulatory SNPs. Our 3C experiment utilised both the enhancer and the KLF4 gene as focus anchors, in both HaCaT and My-La cell lines. The enhancer-focused 3C experiment identified interaction peaks with regions approximately 2.5 kb and 8.7 kb downstream of KLF4 in My-La and with the downstream 8.7-kb region alone in HaCaT (Additional file 8, Fig. S5).

los KLF4-focused 3C experiment showed that KLF4 significantly interacted with several intergenic psoriasis-associated fragments, including the fragment containing the third putative enhancer (rs6477612), in HaCaT cells, but not in My-La cells (Additional file 9, Fig. S6). This corroborates the CHi-C data, which showed a more robust interaction between the enhancer and the KLF4 gene in HaCaT cells (Fig. 1a). A positive control interaction linking a distal breast cancer-associated locus with KLF4 [17, 18] demonstrated the strongest interaction with the KLF4 promoter region in both cell types (Additional file 9, Fig. S6).

Taken together, the 3C results confirm a close spatial proximity between the psoriasis-associated SNPs and KLF4 in 9q31.2. However, there is no clear peak of interaction among the LD block that would implicate some SNPs over others. In addition, stronger interactions were seen between KLF4 and regions further upstream in the gene desert, which correlates with previous CHi-C findings in breast cancer cells [17] and Hi-C findings in NHEK cells [14] (illustrated in Additional file 10, Fig. S7).

ChIP-qPCR confirmed the presence of regulatory histone modifications in 9q31.2 in HaCaT cells

We performed ChIP-qPCR of the histone marks H3K4me1 and H3K27ac to confirm the cell type specificity of enhancer activity within the KLF4-interacting psoriasis loci. Primers were designed to target 150–200-bp regions encompassing predicted peaks of H3K27ac occupancy in the four putative enhancers identified from ENCODE data (NHEK). H3K4me1 and H3K27ac occupancy was detected at all tested loci in HaCaT and My-La cells (Fig. 6a). However, occupancy was significantly increased in HaCaT cells with an enrichment of both H3K4me1 and H3K27ac at enhancer 3 (H3K4me1 PAG = 0.0372, H3K27ac PAG < 0.0001) and H3K27ac at enhancer 4 (PAG < 0.0001) in HaCaT cells in comparison with My-La cells (Fig. 6a). Stimulation of HaCaT cells with IFN-γ had little effect on the occupancy of H3K4me1 or H3K27ac at the regions tested within the enhancers, or at a region tested at the KLF4 promoter (Fig. 6b).

ChIP-qPCR for modified histone marks H3K4me1 and H3K27ac in 9q31.2. a Enhancer peaks defined by H3K27ac binding in ENCODE NHEK data were targeted in HaCaT cells (blue columns) and My-La cells (red columns). B Enhancer peaks were targeted in unstimulated (blue) and stimulated (red) HaCaT cells. The graphs show the mean ChIP enrichment of triplicate ChIP libraries ± SD, and samples with no antibody are consistently included for comparison, although they are often too low to be visible. To identify differential ChIP enrichment, 2-way ANOVA tests were performed in GraphPad prism using Sidak’s multiple comparisons test. Asterisks denote adjusted PAG & lt 0,05. C Allele-specific ChIP-qPCR for H3K27ac and H3K4me1 at rs6477612 in NHEK cells. Chromatin from two separate pools of NHEK cells, each comprising cells from three individual donors, was immunoprecipitated with H3K27ac (27 ac), H3K4me1 (me1) or non-specific IgG antibody (IgG), and qPCR was conducted using a TaqMan genotyping assay for rs6477612 detecting C (risk) or T (protective) alleles. Percentage ChIP enrichment was calculated by comparing the signal for each allele in the immunoprecipitated DNA with the signal for each allele in the input DNA for each of the two samples

To determine the potential effects of the risk or protective allele of rs6477612, a SNP of interest within enhancer 3, we performed allele-specific ChIP at rs6477612 for H3K4me1 and H3K27ac in two pools of NHEK cells. However, there was no discernible difference in H3K4me1 or H3K27ac occupancy at the risk (C) or protective (T) allele of rs6477612 (Fig. 6c).

In summary, by combining the HiChIP, CHi-C 3C and ChIP evidence, we could determine that the psoriasis-associated enhancer region interacts with KLF4 in both My-La and HaCaT but is only active in HaCaT cells. Enhancer activity in 9q31.2 is increased after IFN-γ stimulation, correlating with an increase in KLF4 gene expression, although we were unable to detect increases in H3K27ac occupancy at the tested psoriasis-associated enhancer regions.

CRISPR activation suggested that the psoriasis-associated enhancer elements regulate KLF4 expression in 9q31.2

We employed CRISPRa in 9q31.2 to determine whether activating the psoriasis-associated enhancers could impact on gene expression (KLF4 or other, more distal genes), implicating a functional role for the long-range interactions. Pools of single-guide RNA (sgRNA) targeting SNPs within the four psoriasis-associated enhancers were introduced into HaCaT cells stably expressing the CRISPR activator dCas9-P300 (see Additional file 11, Fig. S8 for overview of sgRNA locations). All four pools of sgRNA increased the KLF4 expression in comparison with the control, scrambled sgRNA this increase was statistically significant (after multiple testing correction) at enhancer 3 (PAG = 0.0143) and enhancer 4 (PAG = 0.0183) (Fig. 7). Pool 3, targeting enhancer 3 containing rs6477612, had the greatest impact with a 2.2-fold increase in the KLF4 expresión. To a lesser extent, IkappaB kinase complex-associated protein (IKBKAP) to the telomeric end of the gene desert was also subtly but significantly upregulated by approximately 1.2-fold in cell lines containing sgRNA pool 1 in comparison with the scrambled sgRNA (PAG = 0.0372). Encontramos eso FAM206A y CTNNAL1 were not significantly affected by CRISPRa (Fig. 7). The remaining two genes, ACTL7A y ACTL7B, were not detectable in any HaCaT cell line, transduced or otherwise (for ACTL7A, all Ct values ≥ 33.4 and for ACTL7B, all Ct values ≥ 34.1).

qPCR results for genes within the 9q31.2 locus in HaCaT cells expressing dCas9-P300. HaCaT cells expressing dCas9-P300 were transduced with pools of plasmids containing sgRNA targeting psoriasis SNPs (pools 1–4), a scrambled sgRNA (Scr) or the same plasmid without a specific guide cloned in (plasmid only (PO)). TaqMan qPCR results are shown for RAD23B, KLF4, IKBKAP, FAM206A y CTNNAL1. Housekeeping genes used were TBP y YWHAZ. For statistical analysis, a Kruskal-Wallis test was performed comparing the fold changes between cells with the scrambled guide or the sgRNA pools, using Dunn’s multiple comparisons test to identify significant differences. Asterisks denote PAG & lt 0,05. Graphs show the mean fold change in comparison with the scrambled guide, ± SD of biological triplicate cell lines

To determine the transcriptome-wide effects of activating the psoriasis-associated enhancers in 9q31.2, RNA-seq was performed on the HaCaT dCas9-P300 cells expressing the sgRNA in pool 3 (putative enhancer 3) and compared with cells expressing the scrambled sgRNA (Additional file 12 Table S13). In line with the qPCR experiment, RNA-seq revealed an approximately 3-fold increased expression of KLF4 in the pool 3 cells (FC = 2.92 adj. PAG = 0.0546) and an approximately 1.2-fold increase in IKBKAP, CTNNAL1 y FAM206A expression, but these were not significant (IKBKAP FC = 1.26, adj. PAG = 0.7331 CTNNAL1 FC = 1.23, adj. PAG = 0.68 FAM206A FC = 1.24, adj. PAG = 0.82). Por lo tanto, KLF4 is the only candidate in this locus with convincing evidence for cis-regulation by the targeted enhancers.

The RNA-seq analysis showed that there were an additional 236 differentially expressed genes in the CRISPRa experiment (adjusted PAG ≤ 0.10), 128 upregulated and 108 downregulated (Additional file 12 Table S13). Importantly, CRISPRa of the psoriasis-implicated enhancer in this keratinocyte cell line not only resulted in an increase in KLF4 expression, but a differential expression of 3 keratin genes (keratin 4, 13 and 15), confirming the importance of this enhancer and the KLF4 gene in skin cell function. Keratin 4 was the most differentially expressed gene in our data with keratin 15 being the 6th most differentially expressed. Previous studies also demonstrated a differential impact of KLF4 on keratin gene regulation [44,45,46].

Confirming the importance of KLF4 in skin cells and validating previous findings of differential gene expression with KLF4 stimulation, differential genes also included EREG (an epidermal growth factor), MMP13 (extracellular matrix protein gene) and CLDN8 (claudin 8 important in epithelium tight junctions). We also demonstrated a

10-fold reduction in the expression of ALPG, from a family of alkaline phosphatases showing the largest fold change in a previous KLF4 over-expression study [44] (Additional file 12 Table S13). The upregulated genes were enriched in several biological pathways according to the GAGE pathway analysis, of which, the most significant related to RNA processing (Additional file 12, Table S14). According to the STRING database, differential genes were enriched in a number of relevant pathways including apoptosis and response to cell stress, emphasising the role that KLF4 plays in cell cycle regulation and supporting previous findings demonstrating that over-expressing KLF4 leads to G1/S cell cycle arrest [47] (Additional file 12, Table S15).

To confirm if the differential genes in the CRISPRa experiment were regulated by KLF4, we used a recently published tool that predicts and ranks transcriptional regulators of gene sets, Lisa [48]. The tool predicted that indeed the gene set was significantly regulated by KLF4 in keratinocytes, breast epithelium and skin fibroblasts. However, KLF4 was ranked number 104 of all the transcriptional regulators (Additional file 12, Table S16). We speculate that the CRISPRa experiment may yield many differentially expressed genes that are not directly regulated by KLF4, but rather are involved in the further downstream cascade of altered gene regulation.

Taken together, the chromatin interaction data coupled with the CRISPRa experiment allow for prioritisation of likely causal variants in 9q31.2 (Additional file 12 Table S17). From the 90 variants in LD with the index SNP, rs10979182, four variants interacted with the likely causal gene KLF4 in both the CHi-C and HiChIP data and overlapped H3K27ac peaks (HaCaT cells): rs60082362, rs55975335, rs6477612 and rs6477613. These variants are all located in the CRISPRa pool 3, which marginally had the greatest impact on the KLF4 expresión.


The extent to which genetic variation affects an individual's phenotype has been difficult to predict because the majority of variation lies outside the coding regions of genes. Now, three studies examine the extent to which genetic variation affects the chromatin of individuals with diverse ancestry and genetic variation (see the Perspective by Furey and Sethupathy). Kasowski et al. (p. 750, published online 17 October) examined how genetic variation affects differences in chromatin states and their correlation to histone modifications, as well as more general DNA binding factors. Kilpinen et al. (p. 744, published online 17 October) document how genetic variation is linked to allelic specificity in transcription factor binding, histone modifications, and transcription. McVicker et al. (p. 747, published online 17 October) identified how quantitative trait loci affect histone modifications in Yoruban individuals and established which specific transcription factors affect such modifications.

Histone modifications are important markers of function and chromatin state, yet the DNA sequence elements that direct them to specific genomic locations are poorly understood. Here, we identify hundreds of quantitative trait loci, genome-wide, that affect histone modification or RNA polymerase II (Pol II) occupancy in Yoruba lymphoblastoid cell lines (LCLs). In many cases, the same variant is associated with quantitative changes in multiple histone marks and Pol II, as well as in deoxyribonuclease I sensitivity and nucleosome positioning. Transcription factor binding site polymorphisms are correlated overall with differences in local histone modification, and we identify specific transcription factors whose binding leads to histone modification in LCLs. Furthermore, variants that affect chromatin at distal regulatory sites frequently also direct changes in chromatin and gene expression at associated promoters.


Tracks Download and Visualization

Tracks and Metadata

  • Biosample metadata table (xlsx, tsv, html summary)
  • Track download (WUSTL Browser)
  • Average per-group and per-mark tracks (bigWig files)
  • Track visualization on the WUSTL Browser

Track Hubs

We provide track hubs for visualization of all bigWig datasets, both on the UCSC browser and the WUSTL browser. Due to the size of the dataset, we have created track hubs of different sizes and at various levels of resolution.

  • One huge hub for the UCSC Browser and the WUSTL Browser. (These full hubs are very large (17k+ tracks), only use them if you want to load tracks from the full dataset simultaneously.)
  • Average per-group and per-mark tracks hub for the UCSC Browser and the WUSTL Browser
  • Per-sample group trackhubs:
  • Custom track hubs through an interactive website where you can select specific biosamples and assays to export to WUSTL/UCSC.

Chromatin States

We provide chromatin states (ChromHMM) for each of the 833 biosamples. These are calculated using the 18-state Roadmap model from observed and imputed tracks of six histone marks (H3K27ac, H3K4me1, H3K4me3, H3K36me3, H3K9me3, H3K27me3).


Fondo

Over 80% of genetic predisposition, namely risk-loci populated by Single Nucleotide Polymorphisms (SNPs), to human diseases identified by Genome Wide Association Studies (GWAS) map to noncoding DNA [1–3]. In other words, most disease-associated SNPs do not directly alter coding sequences. Over the last decade, the functional annotation of the coding and noncoding genome across a wide collection of cell and tissue types benefited from the integration of maps of transcriptional activity from both coding and noncoding transcripts, such as miRNA and long-noncoding RNAs (lncRNAs) as well as chromatin-protein binding profiles, inclusive of transcription factors and epigenetics modifications, and open chromatin. This functional annotation provides a unique opportunity to delineate the functional basis of genetic predispositions to disease.

Here, we present a computational method, named Variant Set Enrichment (VSE) that computes the enrichment/depletion of the set of genetic predisposition for a disease of interest over functional genomic annotations. We previously used a VSE-based approach to identify the enrichment of Breast Cancer (BCa) genetic predispositions at enhancers bound by FOXA1 and ESR1 in breast cancer cells [1]. VSE relies on the set of genetic predispositions and functional annotations this renders VSE applicable to the study of any genetically inherited disease for which these data are available.

Implementación

A genetic predisposition (risk-locus) identified by GWAS corresponds to a SNP found on the GWAS array (termed as “tagSNP”) and all SNPs missing from the array but known to be in Linkage Disequilibrium (LD) with the tagSNP (termed as “ldSNP”) [4]. The sum of all genetic predispositions to a particular disease, ie: all the tagSNPs and their ldSNPs constitute the Associated Variant Set (AVS) for that disease.

The identity of risk-loci is user defined, as the cut-off for LD determination is subjected to study preferences. Occasionally, two or more risk-loci for a particular disease can overlap with one another by a common ldSNP. If the common ldSNP overlaps with a functional genomic annotation of interest, the enrichment score calculated by VSE can be inflated because each risk-locus inclusive of this ldSNP would be counted independently. To correct for this possibility, VSE computes a network of all SNPs in which each SNP is represented as a node and the pairwise LD as an edge. Each cluster in the network represents a disjointed locus, as such, a ldSNP is present only in one locus (Additional file 1: Figure S1). VSE then computes the enrichment score of the AVS for each functional genomic annotation of interest in three sequential steps. In the first step, VSE tallies the number of independent risk-loci that overlaps with the functional genomic annotations. Overlapping of a risk-locus is defined as at least one member SNP found within the functional genomic annotation of interest.

This preliminary tallying of AVS may indicate which genomic annotations are functionally related to risk-associated variants, but the overlapping can be affected by size and structure of the AVS. To correct for these biases, VSE, in the second step, computes a null distribution of the overlap tallies that is based on random permutation of AVS. The null AVS is computed by randomly sampling SNPs from a comprehensive pool of tagSNPs present on the GWAS arrays (Illumina Human OmniExpress) and clustering them with their ldSNPs imputed from the 1000 Genome Project Phase III data. When calculating the set of null AVS, VSE makes sure that each set is built in the way that it has identical total number of null loci as the total number of risk-loci in the AVS and each null locus is matched in size to the corresponding query locus. We defined each null AVS as Matched Random Variant Sets (MRVS).

In the third step, VSE tallies the overlapping of MRVS with the functional genomic annotations of interest. This provides the null distribution to calculate for the enrichment/depletion of the AVS across different functional genomic annotations. To make the enrichment analysis comparable across all functional genomic annotations of interest, MRVS tally is centered at the median and scaled to the standard deviations of the null distribution. The enrichment score is then defined as the number of standard deviations that the overlapping tally deviates from the null overlapping tally median. VSE calculates an exact PAG-value for significance of the enrichment/depletion by fitting a density function to the null distribution derived from the MRVS. The level of significance is corrected for multiple testing using Bonferroni method. The deviation of the null distribution from the normality is tested using Kolmogorov-Smirnov test and if the distribution deviates, the Box-Cox power transformation is applied on to the null to approach normality.


Conclusión

Ethyl methanesulfonate-induced mutations provide numerous sources for screening individuals with desirable traits in plants. EMS was believed to introduce variations randomly in genome. However, multiple allelic EMS-induced mutants were often identified during mutant screening, indicating a potential bias of EMS mutagenesis. By integrative analysis of the re-sequencing data, gene expression data, and epigenetic modification data, we found a preference of EMS mutagenesis in sequences with a relatively higher GC content in heterochromatin. The chromatin structure and epigenetic modifications on chromatin might also contribute to the EMS mutagenesis bias. These findings not only verify the bias of EMS mutagenesis but also indicate the potential roles of epigenetic modifications and chromatin structure in EMS mutagenesis and DNA repair.


Basic Usage

We describe here how to detect footprints using HINT for ATAC-seq, DNase-seq, and histone modifications data. To perform footprinting, you need at least two files, one with the aligned reads of your chromatin data and another describing the regions to detect footprints. You can use a peak caller, such as MACS2, to define these regions of interest.

Footprinting for ATAC-seq data

Download here the example data for ATAC-seq based on chromosome 1 of the GM12878 cell. Execute the following commands to extract the data from the download file:

and the below command to perform footprinting:

For simplicity, we use only the first 1000 peaks from chromosome 1. The above commands will output a BED file containing the footprints in your current folder con huellas as the prefix. Moreover, You can set the below arguments

to tell HINT your preferred output directory and name. Each footprint, i.e. each line of the BED file, will contain information regarding the tag-count score (number of reads) of each footprint. This score can be used as a footprint quality assessment (the higher values indicates better candidates). In addition, a file including the details of reads and footprints will also be written in the same folder of BED file.

If your data is paired-end, you may want to try another model which is optimized for paired-end sequencing data:

Nota: HINT performs bias correction for ATAC-seq by default, so you debe download the genomes following these instructions and correctly specify the genome references with the following command before footprinting:

Currently, the default setting is hg19. Find here for more information.

Footprinting for DNase-seq

You can find here example DNase-seq data. Execute the following commands to extract the data from a compressed file:

and the following command to call the footprints:

We recommend you to use cleavage bias correction. This can be done by using the following command:

Don’t forget to define the proper genome references using :

Currently, the default setting is hg19.

Footprinting for histone modification data

Download here the example data for histone modification. Execute the following commands to extract data:

The complete tutorial and more descriptive examples are found in here.


If using annotations from the ENCODE Encyclopedia please cite the publication listed under each annotation along with:


Expanded encyclopaedias of DNA elements in the human and mouse genomes

The ENCODE Project Consortium, Moore JE*, Purcaro MJ,* Pratt HE*, Epstein CB*, Shoresh N*, Adrian J*, Kawli T*, Davis CA*, Dobin A*, Kaul R*, Halow J*, Nostrand EL*, Freese P*, Gorkin DU*, Shen Y*, He Y*, Mackiewicz M*, Pauli-Behn F*, Williams BA, Mortazavi A, Keller CA, Zhang X, Elhajjajy S, Huey J, Dickel DE, Snetkova V, Wei X, Wang X, Rivera-Mulia JC, Rozowsky J, Zhang J, Chhetri SB, Zhang J, Victorsen A, White KP, Visel A, Yeo GW, Burge CB, Lécuyer E, Gilbert DM, Dekker J, Rinn J, Mendenhall EM, Ecker JR, Kellis M, Klein RJ, Noble WS, Kundaje A, Guigó R, Farnham PJ, Cherry JM&dagger, Myers RM&dagger, Ren B&dagger, Graveley BR&dagger, Gerstein MB&dagger, Pennacchio LA&dagger, Snyder MP&dagger, Bernstein BE&dagger, Wold B&dagger, Hardison RC&dagger, Gingeras TR&dagger, Stamatoyannopoulos JA&dagger, Weng Z&dagger

* Authors contributed equally


Data from the Common fund supported Roadmap Epigenomics Mapping Consortium (REMC) were included for building the ENCODE Encyclopedia. Please see the 2015 paper on their analysis of reference human genomes for more information.



Comentarios:

  1. Gulrajas

    ¿todo?

  2. Femi

    we will return to the topic

  3. Crom

    Me encontraré con un estilo de presentación

  4. Zulmaran

    Ciertamente. Entonces sucede. Examinaremos esta cuestión.

  5. Kannan

    ¡frio! ¡Al menos échale un vistazo!

  6. Pallaton

    En mi opinión, estás equivocado. Puedo defender mi posición. Envíame un correo electrónico a PM, lo discutiremos.



Escribe un mensaje