Información

¿Por qué se supone que los genes siguen valores normales multivariados?

¿Por qué se supone que los genes siguen valores normales multivariados?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Me pregunto por qué los datos de expresión génica se modelan con mucha frecuencia mediante distribuciones normales multivariadas. ¿Cuál es la razón de esas fuertes suposiciones de que los genes siguen gaussianos multivariados? ¿Existen razones específicas para la genética además de las razones de las suposiciones gaussianas generales (la facilidad de cálculo, etc.)?


Por lo general, si no se espera que algo se comporte de acuerdo con algún esquema, se supone que los valores medidos para dicho parámetro son normales. No se trata solo de la expresión genética, sino de todo tipo de medidas como las dimensiones de un objeto, la luminosidad de una bombilla eléctrica, el alcance de una bala, etc. En cualquier medida, el error aleatorio se modela utilizando una distribución normal. No tengo una explicación muy intuitiva de por qué los errores aleatorios siguen una distribución normal, pero matemáticamente proviene del teorema del límite central.

Ahora bien, cada gen es una variable y la medición de cada gen sufre algún error aleatorio; por lo que se utiliza una distribución normal multivariante.

Cuando descartamos una hipótesis nula en una prueba t o una prueba z, lo que en realidad estamos haciendo es descartar nuestra idea parsimoniosa de que una muestra se extrae de una distribución normal dada. Esto significa dos cosas:

  1. La muestra pertenece a alguna otra distribución normal (diferente $ mu $ y $ sigma $)
  2. La muestra sigue alguna otra distribución

Pero una prueba t nunca podrá señalar la razón exacta. Todo lo que le dice es que la muestra es no de alguna distribución normal dada.


Los genes que se encuentran en el mismo cromosoma se denominan genes ligados. Los alelos de estos genes tienden a segregarse juntos durante la meiosis, a menos que estén separados por cruzamiento.Cruzando ocurre cuando dos cromosomas homólogos intercambian material genético durante la meiosis I. Cuanto más juntos estén dos genes en un cromosoma, es menos probable que sus alelos se separen por cruzamiento. En el siguiente enlace, puede ver una animación que muestra cómo los genes en el mismo cromosoma pueden separarse cruzando: www.biostudio.com/d_%20Meioti. ed% 20Genes.htm.

El vínculo explica por qué con frecuencia ciertas características se heredan juntas. Por ejemplo, los genes para el color del cabello y el color de los ojos están relacionados, por lo que ciertos colores de cabello y ojos tienden a heredarse juntos, como el cabello rubio con ojos azules y el cabello castaño con ojos marrones. ¿Qué otros rasgos humanos parecen ocurrir juntos? ¿Crees que podrían estar controlados por genes ligados?

Genes ligados al sexo

Los genes ubicados en los cromosomas sexuales se denominan genes ligados al sexo. La mayoría de los genes ligados al sexo están en el cromosoma X, porque el cromosoma Y tiene relativamente pocos genes. Estrictamente hablando, los genes del cromosoma X son Genes ligados al cromosoma X, pero el término ligado al sexo se usa a menudo para referirse a ellos.

Mapeo de vínculos

La vinculación se puede evaluar determinando la frecuencia con la que se produce el cruce entre dos genes del mismo cromosoma. Los genes de diferentes cromosomas (no homólogos) no están vinculados. Se clasifican de forma independiente durante la meiosis, por lo que tienen un 50 por ciento de posibilidades de terminar en diferentes gametos. Si los genes aparecen en diferentes gametos menos del 50 por ciento de las veces (es decir, tienden a heredarse juntos), se supone que están en el mismo cromosoma (homólogo). Pueden estar separados por cruces, pero es probable que esto ocurra menos del 50 por ciento de las veces. Cuanto menor es la frecuencia de cruzamiento, se supone que los genes están más juntos en el mismo cromosoma. Las frecuencias de cruce se pueden utilizar para construir un mapa de vinculación como el de Figura debajo. A enlace mapa muestra la ubicación de los genes en un cromosoma.

Mapa de vinculación para el cromosoma X humano. Este mapa de ligamiento muestra la ubicación de varios genes en el cromosoma X. Algunos de los genes codifican proteínas normales. Otros codifican proteínas anormales que conducen a trastornos genéticos. ¿Qué par de genes esperaría que tuvieran una frecuencia más baja de cruzamiento: los genes que codifican la hemofilia A y la deficiencia de G6PD, o los genes que codifican protan y Xm?


Contenido

Generación y parámetros Editar

se llama distribución logarítmica normal con parámetros μ < displaystyle mu> y σ < displaystyle sigma>. Estos son el valor esperado (o media) y la desviación estándar del logaritmo natural de la variable, no la expectativa y la desviación estándar de X < displaystyle X> en sí.

Función de densidad de probabilidad Editar

Una variable aleatoria positiva X tiene una distribución logarítmica normal (es decir, X ∼ Lognormal ⁡ (μ x, σ x 2) < displaystyle X sim operatorname ( mu _, sigma _^ <2>)> [1]), si el logaritmo natural de X se distribuye normalmente con media μ < displaystyle mu> y varianza σ 2 < displaystyle sigma ^ <2>>:

Función de distribución acumulativa Editar

Esto también puede expresarse de la siguiente manera: [2]

Edición multivariante logarítmica normal

Dado que la distribución logarítmica normal multivariada no se usa ampliamente, el resto de esta entrada solo trata de la distribución univariante.

Función característica y función generadora de momentos Editar

Todos los momentos de la distribución logarítmica normal existen y

Sin embargo, se han obtenido varias representaciones de series divergentes alternativas. [10] [11] [12] [13]

donde W < displaystyle W> es la función W de Lambert. Esta aproximación se deriva mediante un método asintótico, pero se mantiene nítida en todo el dominio de convergencia de φ < displaystyle varphi>.

Probabilidad en diferentes dominios Editar

El contenido de probabilidad de una distribución logarítmica normal en cualquier dominio arbitrario se puede calcular con la precisión deseada transformando primero la variable a normal y luego integrándola numéricamente utilizando el método de trazado de rayos. [15] (código Matlab)

Probabilidades de funciones de una variable logarítmica normal Editar

Dado que la probabilidad de un log-normal se puede calcular en cualquier dominio, esto significa que el CDF (y, en consecuencia, el pdf y el CDF inverso) de cualquier función de una variable logarítmica normal también se puede calcular. [15] (código Matlab)

Momentos geométricos o multiplicativos Editar

Tenga en cuenta que la media geométrica es menor que la media aritmética. Esto se debe a la desigualdad AM-GM y es una consecuencia de que el logaritmo es una función cóncava. De hecho,

Momentos aritméticos Editar

Para cualquier número real o complejo norte , los norte -ésimo momento de una variable logarítmica-distribuida normalmente X viene dado por [4]

Específicamente, la media aritmética, el cuadrado esperado, la varianza aritmética y la desviación estándar aritmética de una variable logarítmica normalmente distribuida X están dados respectivamente por: [2]

Esta estimación a veces se denomina "CV geométrico" (GCV), [19] [20] debido a su uso de la varianza geométrica. Al contrario de la desviación estándar aritmética, el coeficiente de variación aritmético es independiente de la media aritmética.

Los parametros μ y σ se puede obtener, si se conocen la media aritmética y la varianza aritmética:

Una distribución de probabilidad no está determinada únicamente por los momentos E [X norte ] = e + 1 / 2 norte 2 σ 2 para norte ≥ 1. Es decir, existen otras distribuciones con el mismo conjunto de momentos. [4] De hecho, existe toda una familia de distribuciones con los mismos momentos que la distribución logarítmica normal. [ cita necesaria ]

Moda, mediana, cuantiles Editar

La moda es el punto de máximo global de la función de densidad de probabilidad. En particular, al resolver la ecuación (ln ⁡ f) ′ = 0 < displaystyle ( ln f) '= 0>, obtenemos que:

Específicamente, la mediana de una distribución logarítmica normal es igual a su media multiplicativa, [21]

Expectativa parcial Editar

donde Φ < displaystyle Phi> es la función de distribución acumulativa normal. La derivación de la fórmula se proporciona en la discusión de esta entrada de Wikipedia. [ ¿dónde? ] La fórmula de expectativa parcial tiene aplicaciones en seguros y economía, se utiliza para resolver la ecuación diferencial parcial que conduce a la fórmula de Black-Scholes.

Expectativa condicional Editar

Parametrizaciones alternativas Editar

  • LogNormal1 (μ, σ) con media, μ y desviación estándar, σ, ambas en la escala logarítmica [24] P (x μ, σ) = 1 x σ 2 π exp ⁡ [- (ln ⁡ x - μ) 2 2 σ 2] < Displaystyle P (x < boldsymbol < mu >>, < boldsymbol < sigma >>) = < frac <1>>>> exp left [- < frac <( ln x- mu) ^ <2>> <2 sigma ^ <2> >> right]>
  • LogNormal2 (μ, υ) con media, μ y varianza, υ, ambos en la escala logarítmica P (x μ, v) = 1 xv 2 π exp ⁡ [- (ln ⁡ x - μ) 2 2 v] < displaystyle P (x < boldsymbol < mu >>, < boldsymbol >) = < frac <1>> < sqrt <2 pi >>>> exp left [- < frac <( ln x- mu) ^ <2>> <2v>> right]>
  • LogNormal3 (m, σ) con mediana, m, en la escala natural y desviación estándar, σ, en la escala logarítmica [24] P (xm, σ) = 1 x σ 2 π exp ⁡ [- ln 2 ⁡ (x / m) 2 σ 2] < displaystyle P (x < boldsymbol >, < símbolo en negrita < sigma >>) = < frac <1>>>> exp left [- < frac < ln ^ <2> (x / m)> <2 sigma ^ <2> >> right]>
  • LogNormal4 (m, cv) con mediana, m, y coeficiente de variación, cv, ambos en la escala natural P (xm, cv) = 1 x ln ⁡ (cv 2 + 1) 2 π exp ⁡ [- ln 2 ⁡ ( x / m) 2 ln ⁡ (cv 2 + 1)] < displaystyle P (x < boldsymbol >, < símbolo en negrita >) = < frac <1>+1) >> < sqrt <2 pi >>>> exp left [- < frac < ln ^ <2> (x / m)> <2 ln (cv ^ <2> +1 ) >> derecha]>
  • LogNormal5 (μ, τ) con media, μ y precisión, τ, ambos en la escala logarítmica [25] P (x μ, τ) = τ 2 π 1 x exp ⁡ [- τ 2 (ln ⁡ x - μ ) 2] < displaystyle P (x < boldsymbol < mu >>, < boldsymbol < tau >>) = < sqrt < frac < tau> <2 pi >>> < frac <1 >> exp left [- < frac < tau> <2>> ( ln x- mu) ^ <2> right]>
  • LogNormal6 (m, σgramo) con mediana, m, y desviación estándar geométrica, σgramo, ambos en la escala natural [26] P (xm, σ g) = 1 x ln ⁡ (σ g) 2 π exp ⁡ [- ln 2 ⁡ (x / m) 2 ln 2 ⁡ (σ g)] < displaystyle P (x < boldsymbol >, < símbolo en negrita < sigma _>>) = < frac <1>) < sqrt <2 pi >>>> exp left [- < frac < ln ^ <2> (x / m)> <2 ln ^ <2> ( sigma _) >> derecha]>
  • LogNormal7 (μnorte, σnorte) con media, μnortey desviación estándar, σnorte, ambos en la escala natural [27] P (x μ N, σ N) = 1 x 2 π ln ⁡ (1 + σ N 2 / μ N 2) exp ⁡ (- [ln ⁡ x - ln ⁡ μ N 1 + σ N 2 / μ N 2] 2 2 ln ⁡ (1 + σ N 2 / μ N 2)) < displaystyle P (x < boldsymbol < mu _>>, < símbolo en negrita < sigma _>>) = < frac <1>^ <2> / mu _^ <2> right) >>>> exp left (- < frac << Big [> ln x- ln < frac < mu _> < sqrt <1+ sigma _^ <2> / mu _^ <2> >>> < Grande]> ^ <2>> <2 ln (1+ sigma _^ <2> / mu _^ <2>) >> derecha)>

Ejemplos de re-parametrización Editar

Considere la situación en la que a uno le gustaría ejecutar un modelo utilizando dos herramientas de diseño óptimas diferentes, por ejemplo, PFIM [28] y PopED. [29] El primero admite la parametrización LN2, el último LN7, respectivamente. Por lo tanto, se requiere la re-parametrización, de lo contrario las dos herramientas producirían resultados diferentes.

Todas las fórmulas de re-parametrización restantes se pueden encontrar en el documento de especificaciones en el sitio web del proyecto. [30]

Múltiple, Recíproco, Power Edit

Multiplicación y división de variables aleatorias independientes logarítmicas normales Editar

Teorema multiplicativo del límite central Editar

De hecho, las variables aleatorias no tienen que estar distribuidas de forma idéntica. Es suficiente para las distribuciones de ln ⁡ (X i) < displaystyle ln (X_)> que todos tengan varianza finita y satisfagan las demás condiciones de cualquiera de las muchas variantes del teorema del límite central.

Esto se conoce comúnmente como ley de Gibrat.

Otro Editar

Un conjunto de datos que surge de la distribución log-normal tiene una curva de Lorenz simétrica (ver también el coeficiente de asimetría de Lorenz). [31]

Las distribuciones logarítmicas normales son infinitamente divisibles, [33] pero no son distribuciones estables de las que se puedan extraer fácilmente. [34]

  • Si X ∼ N (μ, σ 2) < Displaystyle X sim < mathcal > ( mu, sigma ^ <2>)> es una distribución normal, entonces exp ⁡ (X) ∼ Lognormal ⁡ (μ, σ 2). < Displaystyle exp (X) sim operatorname ( mu, sigma ^ <2>).>
  • Si X ∼ Lognormal ⁡ (μ, σ 2) < displaystyle X sim operatorname ( mu, sigma ^ <2>)> se distribuye logarítmicamente normalmente, entonces ln ⁡ (X) ∼ N (μ, σ 2) < displaystyle ln (X) sim < mathcal > ( mu, sigma ^ <2>)> es una variable aleatoria normal. [1]
  • Sea X j ∼ Lognormal ⁡ (μ j, σ j 2) < displaystyle X_ sim operatorname ( mu _, sigma _^ <2>) > ser variables independientes de distribución logarítmica normal con parámetros σ < displaystyle sigma> y μ < displaystyle mu>, e Y = ∑ j = 1 n X j < displaystyle Y = estilo de texto suma _^X_>. La distribución de Y < displaystyle Y> no tiene una expresión de forma cerrada, pero puede aproximarse razonablemente mediante otra distribución logarítmica normal Z < displaystyle Z> en la cola derecha. [35] Su función de densidad de probabilidad en la vecindad de 0 ha sido caracterizada [34] y no se parece a ninguna distribución log-normal. Una aproximación comúnmente utilizada debida a L.F. Fenton (pero anteriormente declarada por R.I. Wilkinson y justificada matemáticamente por Marlow [36]) se obtiene haciendo coincidir la media y la varianza de otra distribución logarítmica normal:

Para una aproximación más precisa, se puede utilizar el método de Monte Carlo para estimar la función de distribución acumulativa, el pdf y la cola derecha. [37] [38]

La suma de las variables aleatorias correlacionadas con distribución logarítmica normal también se puede aproximar mediante una distribución logarítmica normal [ cita necesaria ]

  • Si X ∼ Lognormal ⁡ (μ, σ 2) < displaystyle X sim operatorname ( mu, sigma ^ <2>)> entonces se dice que X + c < displaystyle X + c> tiene un Logaritmo normal de tres parámetros distribución con soporte x ∈ (c, + ∞) < displaystyle x in (c, + infty)>. [39] Mi ⁡ [X + c] = Mi ⁡ [X] + c < Displaystyle operatorname [X + c] = operatorname [X] + c>, Var ⁡ [X + c] = Var ⁡ [X] < Displaystyle operatorname [X + c] = operatorname [X]>.
  • La distribución logarítmica normal es un caso especial de la distribución SU de Johnson semilimitada. [40]
  • Si X ∣ Y ∼ Rayleigh ⁡ (Y) < displaystyle X mid Y sim operatorname (Y) ,> con Y ∼ Lognormal ⁡ (μ, σ 2) < Displaystyle Y sim operatorname ( mu, sigma ^ <2>)>, luego X ∼ Suzuki ⁡ (μ, σ) < displaystyle X sim operatorname ( mu, sigma)> (distribución de Suzuki).
  • Se puede obtener un sustituto del log-normal cuya integral se puede expresar en términos de funciones más elementales [41] basándose en la distribución logística para obtener una aproximación de la CDF

Estimación de parámetros Editar

Para determinar los estimadores de máxima verosimilitud de los parámetros de distribución logarítmica normal μ y σ, podemos utilizar el mismo procedimiento que para la distribución normal. Tenga en cuenta que

Estadísticas Editar

La forma más eficiente de analizar datos distribuidos logarítmicamente normalmente consiste en aplicar los métodos bien conocidos basados ​​en la distribución normal a los datos transformados logarítmicamente y luego volver a transformar los resultados si es apropiado.

Intervalos de dispersión Editar

de la probabilidad. Usando parámetros estimados, entonces aproximadamente los mismos porcentajes de los datos deben estar contenidos en estos intervalos.

Intervalo de confianza para μ ∗ > Editar

Principio extremo de entropía para fijar el parámetro libre σ Editar

La distribución logarítmica normal es importante en la descripción de los fenómenos naturales. Muchos procesos de crecimiento natural son impulsados ​​por la acumulación de muchos pequeños cambios porcentuales que se vuelven aditivos en una escala logarítmica. En condiciones de regularidad apropiadas, la distribución de los cambios acumulados resultantes se aproximará cada vez más mediante un log-normal, como se indica en la sección anterior sobre el "Teorema del límite central multiplicativo". Esto también se conoce como ley de Gibrat, en honor a Robert Gibrat (1904-1980), quien la formuló para las empresas. [46] Si la tasa de acumulación de estos pequeños cambios no varía con el tiempo, el crecimiento se vuelve independiente del tamaño. Incluso si eso no es cierto, las distribuciones de tamaño a cualquier edad de las cosas que crecen con el tiempo tienden a ser logarítmicas normales.

Una segunda justificación se basa en la observación de que las leyes naturales fundamentales implican multiplicaciones y divisiones de variables positivas. Algunos ejemplos son la ley de gravitación simple que conecta masas y distancias con la fuerza resultante, o la fórmula para concentraciones de equilibrio de sustancias químicas en una solución que conecta concentraciones de eductos y productos. Asumir distribuciones log-normales de las variables involucradas conduce a modelos consistentes en estos casos.

Incluso si ninguna de estas justificaciones se aplica, la distribución logarítmica normal es a menudo un modelo plausible y empíricamente adecuado. Los ejemplos incluyen lo siguiente:

Comportamientos humanos Editar

  • La extensión de los comentarios publicados en los foros de discusión de Internet sigue una distribución logarítmica normal. [47]
  • El tiempo de permanencia de los usuarios en los artículos en línea (bromas, noticias, etc.) sigue una distribución logarítmica normal. [48]
  • La duración de las partidas de ajedrez tiende a seguir una distribución logarítmica normal. [49]
  • Las duraciones de inicio de los estímulos de comparación acústica que se corresponden con un estímulo estándar siguen una distribución logarítmica normal. [18], tanto generales como personales, parecen seguir una distribución logarítmica normal. [cita necesaria]

En biología y medicina Editar

  • Medidas de tamaño de tejido vivo (longitud, área de piel, peso). [50]
  • Para epidemias altamente transmisibles, como el SARS en 2003, si se involucran políticas de control de intervención pública, se muestra que el número de casos hospitalizados satisface la distribución logarítmica normal sin parámetros libres si se asume una entropía y la desviación estándar está determinada por la principio de la tasa máxima de producción de entropía. [51]
  • La longitud de los apéndices inertes (pelo, garras, uñas, dientes) de especímenes biológicos, en la dirección de crecimiento. [cita necesaria]
  • El recuento normalizado de RNA-Seq para cualquier región genómica puede aproximarse bien mediante una distribución logarítmica normal.
  • La longitud de lectura de secuenciación de PacBio sigue una distribución logarítmica normal. [52]
  • Ciertas medidas fisiológicas, como la presión arterial de humanos adultos (después de la separación en subpoblaciones masculinas / femeninas). [53]
  • En neurociencia, la distribución de las tasas de activación en una población de neuronas suele ser aproximadamente logarítmica normal. Esto se ha observado por primera vez en la corteza y el cuerpo estriado [54] y más tarde en el hipocampo y la corteza entorrinal, [55] y en otras partes del cerebro. [56] [57] Además, las distribuciones intrínsecas de la ganancia y las distribuciones sinápticas de peso también parecen ser logarítmicas normales [58].

En química coloidal y química de polímeros Editar

En consecuencia, los rangos de referencia para las mediciones en individuos sanos se estiman con mayor precisión asumiendo una distribución logarítmica normal que asumiendo una distribución simétrica alrededor de la media.


9.2 Escalado y ordenación multidimensionales

A veces, los datos son no representado como puntos en un espacio de características. Esto puede ocurrir cuando se nos proporcionan matrices de (dis) similitud entre objetos como drogas, imágenes, árboles u otros objetos complejos, que no tienen coordenadas obvias en (< mathbb R> ^ n ).

En el Capítulo 5 vimos cómo producir racimos desde distancias. Aquí nuestro objetivo es visualizar los datos en mapas en espacios de baja dimensión (por ejemplo, planos) que recuerden a los que hacemos a partir de los primeros ejes principales en PCA.

Comenzamos con un ejemplo que muestra lo que podemos hacer con datos geográficos simples. En la Figura 9.1 se muestra un mapa de calor y la agrupación de las distancias aproximadas de las carreteras entre algunas de las ciudades europeas.

Figura 9.1: Mapa de calor de las distancias entre algunas de las ciudades. La función ha reordenado el orden de las ciudades, agrupando las más cercanas.

Dadas estas distancias entre ciudades, la escala multidimensional (MDS) proporciona un "mapa" de sus ubicaciones relativas. Por supuesto, en este caso, las distancias se midieron originalmente como distancias por carretera (excepto para transbordadores), por lo que en realidad esperamos encontrar un mapa bidimensional que represente bien los datos. Con datos biológicos, es probable que nuestros mapas sean menos claros. Llamamos a la función con:

Creamos una función que podemos reutilizar para hacer el screeplot de MDS a partir del resultado de una llamada a la función cmdscale:

Figura 9.2: Diagrama de pantalla de los primeros 5 valores propios. La caída después de los dos primeros valores propios es muy visible.

Haz un diagrama de barras de todos la salida de valores propios por la función cmdscale: ¿qué notas?

notará que, a diferencia de PCA, hay están algunos valores propios negativos, estos se deben al hecho de que los datos no provienen de un espacio euclidiano.

Para posicionar los puntos en el mapa los hemos proyectado en las nuevas coordenadas creadas a partir de las distancias (discutiremos cómo funciona el algoritmo en la siguiente sección). Tenga en cuenta que, si bien las posiciones relativas en la Figura 9.3 son correctas, la orientación del mapa no es convencional: por ejemplo, Estambul, que se encuentra en el sureste de Europa, está en la parte superior izquierda.

Figura 9.3: Mapa MDS de ciudades europeas basado en sus distancias.

Invertimos los signos de las coordenadas principales y volvemos a dibujar el mapa. También leemos las longitudes y latitudes reales de las ciudades y las trazamos al lado para compararlas (Figura 9.4).

Figura 9.4: Izquierda: igual que la Figura 9.3, pero con los ejes invertidos. Derecha: latitudes y longitudes reales.

¿Qué ciudades parecen tener la peor representación en el mapa PCoA en el panel izquierdo de la Figura 9.4?

Parece que las ciudades del extremo Oeste: Dublín, Madrid y Barcelona tienen peores proyecciones que las ciudades centrales. Esto probablemente se deba a que los datos son más escasos en estas áreas y es más difícil para el método "triangular" las ciudades exteriores.

Dibujamos las longitudes y latitudes en el panel derecho de la Figura 9.4 sin prestar mucha atención a la relación de aspecto. ¿Cuál es la relación de aspecto correcta para este gráfico?

No existe una relación simple entre las distancias que corresponden a un cambio de 1 grado en la longitud y a un cambio de 1 grado en la latitud, por lo que la elección es difícil de hacer. Incluso bajo la suposición simplificada de que nuestra Tierra es esférica y tiene un radio de 6371 km, es complicado: un grado de latitud siempre corresponde a una distancia de 111 km ( (6371 times2 pi / 360 )), al igual que uno grado de longitud en el ecuador. Sin embargo, en la latitud de Barcelona (41,4 grados), esto se convierte en 83 km, en la de San Petersburgo (60 grados), 56 km. De manera pragmática, podríamos elegir un valor para la relación de aspecto que esté entre, digamos, el coseno de 50 grados. Consulte Internet para obtener información sobre la fórmula de Haversine.

Nota: MDS crea una salida similar a PCA, sin embargo, solo hay una "dimensión" para los datos (los puntos de muestra). No hay una dimensión "dual" y los biplots no están disponibles. Esto es un inconveniente a la hora de interpretar los mapas. La interpretación se puede facilitar examinando cuidadosamente los puntos extremos y sus diferencias.

9.2.1 ¿Cómo funciona el método?

Echemos un vistazo a lo que sucedería si realmente empezáramos con puntos cuyas coordenadas se conocen 125 125 Aquí cometemos un ligero "abuso" al usar la longitud y la longitud de nuestras ciudades como coordenadas cartesianas e ignorar la curvatura de la superficie de la tierra. . Colocamos estas coordenadas en las dos columnas de una matriz con 24 filas. Ahora calculamos las distancias entre puntos basados ​​en estas coordenadas. Para ir de las coordenadas (X ) a las distancias, escribimos [d ^ 2_ = (x_i ^ 1 - x_j ^ 1) ^ 2 + dots + (x_i ^ p - x_j ^ p) ^ 2. ] Llamaremos a la matriz de distancias al cuadrado DdotD en R y (D bullet D ) en el texto ⊕ (D ^ 2 ) significaría D multiplicado por sí mismo, que es diferente a esto. . Queremos encontrar puntos tales que el cuadrado de sus distancias sea lo más cercano posible al (D bullet D ) observado.

Las distancias relativas no dependen del punto de origen de los datos. Centramos los datos usando una matriz (H ): la matriz de centrado definida como (H = I- frac <1>< mathbf <11>> ^ t ). Revisemos el centrado propiedad de (H ) usando:

Llame B0 a la matriz obtenida aplicando la matriz de centrado tanto a la derecha como a la izquierda de DdotD Considere los puntos centrados en el origen dado por la matriz (HX ) y calcule su producto cruzado, lo llamaremos B2. ¿Qué tienes que hacer con B0 para que sea igual a B2?

Por lo tanto, dadas las distancias al cuadrado entre filas ( (D bullet D )) y el producto cruzado de la matriz centrada (B = (HX) (HX) ^ t ), hemos mostrado:

Esto siempre es cierto, y lo usamos para aplicar ingeniería inversa a una (X ) que satisface la Ecuación (9.1) cuando se nos da (D bullet D ) para empezar.

Desde (D bullet D ) a (X ) usando vectores singulares.

Podemos retroceder desde una matriz (D bullet D ) a (X ) tomando la descomposición propia de (B ) como se define en la Ecuación (9.1). Esto también nos permite elegir cuántas coordenadas o columnas queremos para la matriz (X ). Esto es muy similar a cómo PCA proporciona la mejor aproximación de rango (r ).
Nota: Como en PCA, podemos escribir esto usando la descomposición de valor singular de (HX ) (o la descomposición propia de (HX (HX) ^ t )):

⊕ [S ^ <(r)> = begin s_1 & amp0 & amp 0 & amp0 & amp. 0 & amps_2 & amp0 & amp 0 & amp. 0 & amp 0 & amp. & amp. & amp. 0 & amp 0 & amp. & amp s_r & amp. . & amp. & amp. & amp 0 & amp 0 end] Esto proporciona la mejor representación aproximada en un espacio euclidiano de dimensión (r ). ⊕ El método a menudo se denomina Análisis de coordenadas principales, o PCoA, que enfatiza la conexión con PCA. El algoritmo nos da las coordenadas de puntos que tienen aproximadamente las mismas distancias que las proporcionadas por la matriz (D ).

Algoritmo MDS clásico.

En resumen, dada una (n veces n ) matriz de distancias entre puntos al cuadrado (D bullet D ), podemos encontrar puntos y sus coordenadas ( tilde) mediante las siguientes operaciones:

Doble centre la distancia entre puntos al cuadrado y multiplíquela por (- frac <1> <2> ):
(B = - frac <1> <2> H D bullet D H ).

Diagonalice (B ): ( quad B = U Lambda U ^ t ).

Extraer ( tilde): ( quad tilde = U Lambda ^ <1/2> ).

Encontrar la dimensionalidad subyacente correcta.

Como ejemplo, tomemos objetos para los que tenemos similitudes (sustitutos de distancias) pero para los que no existe un espacio euclidiano subyacente natural. En un experimento de psicología de la década de 1950, Ekman (1954) pidió a 31 sujetos que clasificaran las similitudes de 14 colores diferentes. Su objetivo era comprender la dimensionalidad subyacente de la percepción del color. La matriz de similitud o confusión fue escalada para tener valores entre 0 y 1. Los colores que a menudo se confundían tenían similitudes cercanas a 1. Transformamos los datos en una disimilitud restando los valores de 1:

Calculamos las coordenadas MDS y los valores propios. Combinamos los valores propios en la gráfica de pantalla que se muestra en la Figura 9.5:

Figura 9.5: La gráfica de pantalla nos muestra que el fenómeno es bidimensional, lo que da una respuesta clara a la pregunta de Ekman.

Trazamos los diferentes colores usando las dos primeras coordenadas principales de la siguiente manera:

Figura 9.6: El diseño de los puntos de dispersión en las dos primeras dimensiones tiene forma de herradura. Las etiquetas y los colores muestran que el arco corresponde a las longitudes de onda.

La figura 9.6 muestra los datos de Ekman en las nuevas coordenadas. Hay un patrón sorprendente que requiere explicación. Esta estructura de herradura o arco en los puntos es a menudo un indicador de un orden o gradiente latente secuencial en los datos (Diaconis, Goel y Holmes 2007). Revisaremos esto en la Sección 9.5.

9.2.2 Versiones robustas de MDS

Robustez: Un método es robusto si no está demasiado influenciado por algunos valores atípicos. Por ejemplo, la mediana de un conjunto de (n ) números no cambia mucho, incluso si cambiamos 20 los números en cantidades arbitrariamente grandes para cambiar drásticamente la mediana, necesitamos cambiar más de la mitad de los números. Por el contrario, podemos cambiar la media en gran medida simplemente manipulando uno de los números. Decimos que el punto de ruptura de la mediana es 1/2, mientras que la de la media es solo (1 / n ). Tanto la media como la mediana son estimadores de la localización de una distribución (es decir, cuál es un valor "típico" de los números), pero la mediana es más robusta. La mediana se basa en los rangos de manera más general, los métodos basados ​​en rangos suelen ser más robustos que los que se basan en los valores reales. Muchas pruebas no paramétricas se basan en reducciones de datos a sus rangos. El escalado multidimensional tiene como objetivo minimizar la diferencia entre las distancias al cuadrado dadas por (D bullet D ) y las distancias al cuadrado entre los puntos con sus nuevas coordenadas. Desafortunadamente, este objetivo tiende a ser sensible a valores atípicos: un solo punto de datos con grandes distancias a todos los demás puede dominar y, por lo tanto, sesgar todo el análisis. A menudo, nos gusta usar algo que sea más robusto, y una forma de lograrlo es ignorar los valores reales de las distancias y solo pedir que las clasificaciones relativas del original y las nuevas distancias sean lo más similares posible. Este enfoque basado en rangos es robusto: se reduce su sensibilidad a los valores atípicos.

Usaremos los datos de Ekman para mostrar cuán útiles son los métodos robustos cuando no estamos muy seguros de la "escala" de nuestras mediciones. La ordenación robusta, llamada escala multidimensional no métrica (NMDS para abreviar) solo intenta incrustar los puntos en un nuevo espacio de manera que el pedido de las distancias reconstruidas en el nuevo mapa es el mismo que el orden de la matriz de distancias original.

MDS no métrico busca una transformación (f ) de las diferencias dadas en la matriz (d ) y un conjunto de coordenadas en un espacio de baja dimensión ( el mapa ) tal que la distancia en este nuevo mapa es ( tilde) y (f (d) grueso aproximado tilde). La calidad de la aproximación se puede medir mediante la función de suma de cuadrados residual estandarizada (tensión):

NMDS no es secuencial en el sentido de que tenemos que especificar la dimensionalidad subyacente desde el principio y la optimización se ejecuta para maximizar la reconstrucción de las distancias de acuerdo con ese número. No existe una noción de porcentaje de variación explicada por ejes individuales como se proporciona en PCA. Sin embargo, podemos hacer un diagrama de pantalla similar ejecutando el programa para todos los valores sucesivos de (k ) ( (k = 1, 2, 3,. )) Y observando qué tan bien cae la tensión. A continuación se muestra un ejemplo de cómo observar estas aproximaciones sucesivas y su bondad de ajuste. Como en el caso de los diagnósticos para clustering, tomaremos el número de ejes después el estrés tiene una fuerte caída.

Debido a que cada cálculo de un resultado de NMDS requiere una nueva optimización que es tanto aleatoria como dependiente del valor (k ), usamos un procedimiento similar al que hicimos para la agrupación en clústeres en el Capítulo 4. Ejecutamos la función metaMDS, digamos, 100 veces para cada uno de los cuatro valores posibles de (k ) y registre los valores de tensión.

Veamos los diagramas de caja de los resultados. Esta puede ser una gráfica de diagnóstico útil para elegir (k ) (figura 9.7).

Figura 9.7: Se ejecutaron varias réplicas en cada dimensión para evaluar la estabilidad de la tensión. Vemos que la tensión cae drásticamente con dos o más dimensiones, lo que indica que una solución bidimensional es apropiada aquí.

También podemos comparar las distancias y sus aproximaciones usando lo que se conoce como un diagrama de Shepard para (k = 2 ), por ejemplo, calculado con:

Figura 9.8: La gráfica de Shepard compara las distancias o diferencias originales (a lo largo del eje horizontal) con las distancias reconstruidas, en este caso para (k = 2 ) (eje vertical).

Tanto el gráfico de Shepard de la figura 9.8 como el gráfico de pantalla de la figura 9.7 apuntan a una solución bidimensional para el estudio de confusión de colores de Ekman.

Comparemos la salida de los dos programas MDS diferentes, la aproximación de mínimos cuadrados métricos clásica y el método de aproximación de rango no métrico. El panel derecho de la Figura 9.9 muestra el resultado de la aproximación de rango no métrico, el panel izquierdo es el mismo que el de la Figura 9.6. Las proyecciones son casi idénticas en ambos casos. For these data, it makes little difference whether we use a Euclidean or nonmetric multidimensional scaling method.

Figure 9.9: Comparison of the output from the classical multidimensional scaling on the left (same as Figure 9.6) and the nonmetric version on the right.


Discusión

In this article, we propose scDesign2, a transparent simulator for single-cell gene expression count data. Our development of scDesign2 is motivated by the pressing challenge to generate realistic synthetic data for various scRNA-seq protocols and other single-cell gene expression count-based technologies. Unlike existing simulators including our previous simulator scDesign, scDesign2 achieves six properties: protocol adaptiveness, gene preservation, gene correlation capture, flexible cell number and sequencing depth choices, transparency, and computational and sample efficiency. This achievement of scDesign2 is enabled by its unique use of the copula statistical framework, which combines marginal distributions of individual genes and the global correlation structure among genes. As a result, scDesign2 has the following methodological advantages that contribute to its high degree of transparency. First, it selects a marginal distribution from four options (Poisson, ZIP, NB, and ZINB) for each gene in a data-driven manner to best capture and summarize the expression characteristics of that gene. Second, it uses a Gaussian copula to estimate gene correlations, which will be used to generate synthetic single-cell gene expression counts that preserve the correlation structures. Third, it can generate gene expression counts according to user-specified sequencing depth and cell number.

We have performed a comprehensive set of benchmarking and real data studies to evaluate scDesign2 in terms of its accuracy in generating synthetic data and its efficacy in guiding experimental design and benchmarking computational methods. Based on four scRNA-seq protocols and 12 cell types, our benchmarking results demonstrate that scDesign2 better captures gene expression characteristics in real data than eight existing scRNA-seq simulators do. In particular, among the four simulators that aim to preserve gene correlations, scDesign2 achieves the best accuracy. Moreover, we demonstrate the capacity of scDesign2 in generating synthetic data of other single-cell count-based technologies including MERFISH and pciSeq, two single-cell spatial transcriptomics technologies. After validating the realistic nature of synthetic data generated by scDesign2, we use real data applications to demonstrate how scDesign2 can guide the selection of cell number and sequencing depth in experimental design, as well as how scDesign2 can benchmark computational methods for cell clustering and rare cell type identification.

In the last stage of manuscript finalization, we found another scRNA-seq simulator SPsimSeq [79] (published in Bioinformatics as a 2.3-page software article), which can capture gene correlations. However, unlike scDesign2, SPsimSeq cannot generate scRNA-seq data with varying sequencing depths. To compare scDesign2 with SPsimSeq, we have benchmarked their synthetic data against the corresponding real data in two sets of analyses: (1) gene correlation matrices of the previously used 12 cell type–protocol combinations (3 cell types × 4 scRNA-seq protocols) and (2) 2D visualization plots of the 4 multi-cell type scRNA-seq datasets and one MERFISH dataset. The results are summarized in Additional file 2. We find that in most cases (10 out 12 cases in the first set of analysis 5 out 5 cases in the second set of analysis), the synthetic data of scDesign2 better resemble the real data than the synthetic data of SPsimSeq do.

Since scRNA-seq data typically contain tens of thousands of genes, the estimation of the copula gene correlation matrix is a high dimensional problem. This problem can be partially avoided by only estimating the copula correlation matrix of thousands of moderately to highly expressed genes. We use a simulation study to demonstrate why this approach is reasonable (Additional file 1: Figures S42 and S43), and a more detailed discussion is in the “Methods” section. To summarize, the simulation results suggest that, to reach an average estimation accuracy of ±0.3 of true correlation values among the top 1000 highly expressed genes, at least 20 cells are needed. To reach an accuracy level of ±0.2 for the top 1500 highly expressed genes, at least 50 cells are needed. With 100 cells, an accuracy level of ±0.1 can be reached for the top 200 highly expressed genes, and a slightly worse accuracy level can be reached for the top 2000 genes.

In the implementation of the scDesign2 R package, we control the number of genes for which copula correlations need to be estimated by filtering out the genes whose zero proportions exceed a user-specified cutoff. For all the results in this paper, the cutoff is set as 0.8. In Additional file 1: Table S1, we summarize the number of cells (norte), i.e., the sample size, and the number of genes included for copula correlation estimation (pag) in each of the 12 datasets used for benchmarking simulators. Based on Additional file 1: Figures S42 and S43, we see that pag appears to be too large for the CEL-Seq2, Fluidigm C1, and Smart-Seq2 datasets. This suggests that the results in this paper may be further improved by setting a more stringent cutoff for gene selection.

For future methodological improvement, there are other ways to address this high-dimensional estimation problem. For example, we can consider implementing sparse estimation (e.g., [97]) for the copula correlation matrix. Moreover, we can build a hierarchical model to borrow information across cell types/clusters. This will be useful for improving the model fitting for small cell types/clusters that may share similar gene correlation structures.

The current implementation of scDesign2 is restricted to single-cell datasets composed of discrete cell types, because the generative model of scDesign2 assumes that cells of the same type follow the same distribution of gene expression. However, many single-cell datasets exhibit continuous cell trajectories instead of discrete cell types. A nice property of the probabilistic model used in scDesign2 is that it is generalizable to account for continuous cell trajectories. First, we can use the generalized additive model (GAM) [52, 98, 99] to model each gene’s marginal distribution of expression as a function of cell pseudotime, which can be computationally inferred from real data [53, 54, 56]. Second, the copula framework can be used to incorporate gene correlation structures along the cell pseudotime. Combining these two steps into a generative model, this extension of scDesign2 has the potential to overcome the current challenge in preserving gene correlations encountered by existing simulators for single-cell trajectory data, such as Splatter Path [69], dyngen [77], and PROSSTT [68]. Another note is that scDesign2 does not generate synthetic cells based on outlier cells that do not cluster well with any cells in well-formed clusters. This is not necessarily a disadvantage, neither is it a unique feature to scDesign2. In fact, all model-based simulators that learn a generative model from real data must ignore certain outlier cells that do not fit well to their model. Some outlier cells could either represent an extremely rare cell type or are just “doublets” [100–103], artifacts resulted from single-cell sequencing experiments. Hence, our stance is that ignorance of outlier cells is a sacrifice that every simulator has to make the open question is the degree to which outlier cells should be ignored, and proper answers to this question must resort to statistical model selection principles.

Regarding the use of scDesign2 to guide the design of scRNA-seq experiments, although scDesign2 can model and simulate data from various scRNA-seq protocols and other single-cell expression count-based technologies, the current scDesign2 implementation is not yet applicable to cross-protocol data generation (i.e., training scDesign2 on real data of one protocol and generating synthetic data for another protocol) because of complicated differences in data characteristics among protocols. To demonstrate this issue, we use a multi-protocol dataset of peripheral blood mononuclear cells (PBMCs) generated for benchmarking purposes [20]. We select data of five cell types measured by three protocols, 10x Genomics, Drop-Seq, and Smart-Seq2, and we train scDesign2 on the 10x Genomics data. Then, we adjust the fitted scDesign2 model for the Drop-Seq and Smart-Seq2 protocols by rescaling the mean parameters in the fitted model to account for the total sequencing depth and cell number, which are protocol-specific (see the “Methods” for details). After the adjustment, we use the model for each protocol to generate synthetic data. Additional file 1: Figure S44 illustrates the comparison of real data and synthetic data for each protocol. From the comparison, we observe that the synthetic cells do not mix well with the real cells for the two cross-protocol scenarios only for 10x Genomics, the same-protocol scenario, do the synthetic cells mix well with the real cells.

To further illustrate the different data characteristics of different protocols, we compare individual genes’ mean expression levels in the aforementioned three protocols. We refer to Drop-Seq and Smart-Seq2 as the target protocols, and 10x Genomics as the reference protocol. First, we randomly partition the two target-protocol datasets and the reference-protocol dataset into two halves each we repeat the partitions for 100 times and collect 100 sets of partial datasets, with each set containing two target-protocol partial datasets (one Drop-Seq and one Smart-Seq2) and two reference-protocol partial datasets (split from the 10x Genomics dataset)—one of the latter is randomly picked and referred to as the “reference data.” Second, For every gene in each cell type, we take each set of partial datasets and compute two cross-protocol ratios, defined as the gene’s mean expression levels in the target-protocol partial datasets divided by its mean expression level in the reference data, and a within-protocol ratio, defined as the ratio of the gene’s mean expression level in the other reference-protocol partial dataset divided by that in the reference data together, with the 100 sets of partial dataset, every gene in each cell type has 100 ratios for each of the two cross-protocol comparisons and 100 ratios for the within-protocol comparison. We apply this procedure to the top 50 and 2000 highly expressed genes in five cell types. Additional file 1: Figures S45 and S46 show that, with the within-protocol ratios as a baseline control for each cell type and each target protocol, the cross-protocol ratios exhibit a strongly gene-specific pattern moreover, there is no monotone relationship between the cross-protocol ratios and the mean expression levels of genes. This result confirms that there does not exist a single scaling factor to convert all genes’ expression levels from one protocol to another. However, an interesting phenomenon is that, for each target protocol, the cross-protocol ratios have similar patterns across cell types. This phenomenon sheds light on a future research direction of cross-protocol simulation for the cell types that exist in only one protocol, if the two protocols have shared cell types. In this scenario, we may train a model for each cell type in each protocol, learn a gene-specific but cell type-invariant scaling factor from the shared cell types, and simulate data for the cell types missing in one protocol.

We note that the above analysis is only conducted for the genes’ mean expression levels. The difficulty of cross-protocol simulation is in fact even larger because realistic simulation requires the rescaling of the other distributional parameter(s) in a two-parameter distribution such as NB and ZIP or a three-parameter distribution such as ZINB. Existing work has provided extensive empirical evidence on the vast differences between protocols in terms of data characteristics [42, 86].

In applications 2 and 3, we have demonstrated how to use scDesign2 to guide experimental design and benchmark computational methods for the tasks of cell clustering and rare cell type detection. Note that in these analyses, the optimized sequencing depths and cell numbers are only applicable to the same experimental protocols and biological samples. Yet, this limitation does not disqualify scDesign2 as a useful tool to guide experimental design. For example, researchers usually perform a coarse-grained, low-budget experiment to obtain a preliminary dataset, and then they may use scDesign2 to guide the optimal design of the later, more refined experiment. As another example, if scRNA-seq data need to be collected from many individuals, researchers usually first perform a pilot study on a small number of individuals. Then, they may train scDesign2 using the pilot data to guide the design of the subsequent, large-scale experiments. In addition to guiding the experimental design, scDesign2 is useful as a general benchmarking tool for various experimental protocols and computational methods. For example, the analyses we performed in applications 2 and 3 are easily generalizable to other computational methods for a more comprehensive benchmarking.

Although we only use cell clustering and rare cell type detection to demonstrate scDesign2’s use in guiding experimental design and benchmarking computational methods, we want to emphasize that scDesign2 has broad applications beyond these two tasks. Inheriting the flexible and transparent modeling nature of our previous simulator scDesign, scDesign2 can also benchmark other computational analyses we have demonstrated in our scDesign paper [35], including differential gene expression analysis and cell dimensionality reduction. Moreover, beyond its role as a simulator, scDesign2 may benefit single-cell gene expression data analysis by providing its estimated parameters about gene expression and gene correlations. Here, we discuss three potential directions. First, scDesign2 can assist differential gene expression analysis. Its estimated marginal distributions of individual genes in different cell types can be used to investigate more general patterns of differential expression (such as different variances and different zero proportions), in addition to comparing gene expression means between two groups of cells [104]. Second, its estimated gene correlation structures can be used to construct cell type-specific gene networks [105] and incorporated into gene set enrichment analysis to enhance statistical power [106, 107]. Third, scDesign2 has the potential to improve the alignment of cells from multiple single-cell datasets [108]. Its estimated gene expression parameters can guide the calculation of cell type or cluster similarities between batches, and its estimated gene correlation structures can be used to align cell types or clusters across batches based on the similarity in gene correlation structures. [109].


LIKELIHOOD FUNCTION

Consider system (23) in conjunction with the normality assumptions (25) and (26), and regard the vector ΛyI as “data.” The model for the entire data vector can be written as 35 where tu comprises additive genetic effects for all individuals and all traits (tu may include additive genetic effects of individuals without records), and Z is an incidence matrix of appropriate order. If all individuals have records for all traits, Z is an identity matrix of order NK × NK otherwise, columns of 0's for effects of individuals without phenotypic measurements would be included in Z. In view of the normality assumptions (25) and (26), one can write and where A is a matrix of additive genetic relationships (or of twice the coefficients of coancestry) between individuals in a genealogy, and indicates Kronecker product. Tenga en cuenta que I ⊗ R0 reflects the assumption that all individuals with records possess phenotypic values for each of the K rasgos. This is not a requirement, but it simplifies somewhat the treatment that follows.

Dado tu, the vectors ΛyI are mutually independent (since all miI vectors are independent of each other), so the joint density of all ΛyI is 36 where ZI is an incidence matrix that “picks up” the K breeding values of individual I (tuI) and relates these to its phenotypic records yI. Making a change of variables from ΛyI para yI (I = 1, 2, … , norte), the determinant of the Jacobian of the transformation is |Λ|. Hence, the density of is 37 This is the density of the product of the norte normal distributions highlighting that the data generation process can be represented in terms of the reduced model (24), with the only novelty here being the presence of the incidence matrix ZI, with the latter being a K × K identity matrix in (24). Hence, the entire data vector can be modeled as 38 where XΛ is an matrix (again, assuming that each of the norte individuals has measurements for the K traits), and ZΛ has order NK × (norte + PAG)K, where PAG is the number of individuals in the genealogy lacking phenotypic records (the corresponding columns of ZΛ being null). Observe that (38) is in the form of a standard multiple-trait mixed-effects linear model, save for the fact that the incidence matrices depend on the unknown structural coefficients contained in Λ. Hence 39 where is a block-diagonal matrix consisting of norte blocks of order K × K, and all such blocks are equal to Λ −1 R0Λ′ −1 . It follows that y|Λ, β, tu, R0norte(XΛβ + ZΛtu, RΛ). Hence, if simultaneity or recursiveness holds, the estimator of the residual variance-covariance matrix from a reduced model analysis is actually estimating Λ −1 R0Λ′ −1 this has a bearing on the interpretation of the parameter estimates.

Since it is assumed that tu|GRAMO0norte(0, A ⊗ G0), the likelihood function is given by 40 This likelihood has the same form as that for a standard multivariate mixed-effects model, except that, here, additional parameters (the nonnull elements of Λ) appear in both the location and dispersion structures of the reduced model (38). A pertinent issue, then, is whether or not all parameters in the model, that is, Λ, β, R0, y GRAMO0, can be identified (es decir., estimated uniquely) from the likelihood. This is discussed in the following section.


  • Incomplete Dominance: The hybrid phenotype is a mixture of the expression of both alleles, resulting in a third intermediate phenotype. Example: Red flower (RR) X White flower (rr) = Pink flower (Rr)
  • Co-dominance: The hybrid phenotype is a combination of the expressed alleles, resulting in a third phenotype that includes both phenotypes. (Example: Red flower (RR) X White flower (rr) = Red and white flower (Rr)
  • Incomplete Dominance: The phenotype may be expressed to varying degrees in the hybrid. (Example: A pink flower may have lighter or darker coloration depending on the quantitative expression of one allele versus the other.)
  • Co-dominance: Both phenotypes are fully expressed in the hybrid genotype.

Yeah, it is

The whole thing got started in about 2009, when Pozhitkov was a postdoctoral researcher at the Max Planck Institute for Evolutionary Biology in Germany. It was there that he got a chance to pursue a project he’d been thinking about for more than a decade.

Pozhitkov acquired about 30 zebrafish from the institute’s colony. (These tropical fish are commonly used in research because, among other things, they have transparent embryos, ideal for observing development.) He killed the animals by shocking them with a quick immersion in a cooler of ice water, then put them back in their regular 82-degree Fahrenheit tank.

Over the course of the next four days, he periodically scooped a few fish out of the tank, froze them in liquid nitrogen, and then analyzed their messenger RNA. These are threadlike molecules that do the work of translating DNA into proteins each strand of messenger RNA is a transcript of some section of DNA. Later Pozhitkov and his colleagues repeated the same process with mice, although their death was meted out by broken neck rather than cold shock.

When Pozhitkov’s colleague Peter Noble, then a biochemist at the University of Washington, dug into the data on how active the messenger RNA was on each day after death, something amazed him. In both the fish and the mice, the translation of genes into proteins generally declined after death, as would be expected. But the count of messenger RNA indicated that about 1 percent of genes actually aumentado in transcription after death. Some were chugging along four days after life ceased.

It wasn’t that the researchers had expected a total cessation of activity the moment the zebrafish and mice shuffled off this mortal coil. But to detect increases in transcription rather than just the blinking off of the lights one by one? That was “the most bizarre thing I’ve ever seen,” Noble says.

Not everyone was impressed. Noble and Pozhitkov heard a lot of criticism after the story made the rounds, first on the preprint site bioRxiv in 2016 and then in a paper in Biología Abierta in 2017. The main critique was that they might have misinterpreted a statistical blip. Because cells die off at different rates, perhaps the transcripts recorded in still-living cells merely made up a greater proportion of all the total transcripts, says Peter Ellis, a lecturer in molecular biology at the University of Kent. Think of the transcripts as socks in a drawer, he says. If you lost some of the red ones, the remaining white socks would make up a larger percentage of your total sock collection, but you wouldn’t have acquired more of them.

“The most bizarre thing I’ve ever seen.”

Since that original publication, though, there are hints that something more is going on in the cells that are still churning after the organism dies. In a study published in February in Comunicaciones de la naturaleza, other researchers examined human tissue samples and found hundreds of genes that alter their expression after death. Some genes declined in activity, but others increased. A gene that promotes growth, EGR3, began ramping up its expression four hours after death. Some fluctuated back and forth, like the gene CXCL2, which codes for a signaling protein that calls white blood cells to the site of inflammation or infection.

These changes weren’t merely the passive result of transcripts degrading at different rates like red socks being sporadically lost, says the University of Porto’s Pedro Ferreira, who led the study. Something, he says, was going on that actively regulated gene expression “even after the death of the organism.”


Surprising behavior of transcription factors challenges theories of gene regulation

Transforming progenitor cells into committed T-cell precursors in real time. Inset: Live imaging of a clone of future T cells, from progenitor stage (left) to commitment (right) in 3 days (courtesy, Mary A. Yui). Background: field of cells corresponding to a mixture of these stages, all processed to show individual molecules of RNA encoding key regulatory proteins. Runx1 (cyan dots) is expressed at similar levels in cells at early, middle, and late stages alike (courtesy, Wen Zhou). Credit: B. Shin

How cells develop and the diseases that arise when development goes wrong have been a decades-long research focus in the laboratory of Distinguished Professor of Biology Ellen Rothenberg. In particular, the lab studies the development of immune cells known as T cells, which act as "intelligence agents"—they circulate throughout the body, detect threats, and determine what kind of response the immune system should make. However, when the many stages of T cell development do not occur perfectly, leukemia occurs.

"Many of the genes that we study in normal developing T cells are the same genes that, when regulated incorrectly, lead to the cells becoming T-cell leukemia," says Rothenberg. "Understanding the precision of this process is really important. There's also an interesting aspect of irreversibility: Some of the genes we study only have activity at a specific time period in development, and then they turn off forever. But in leukemia, we see that these genes 'leak' back on again at a later stage when they are supposed to be off. We want to know the details of the process for turning genes on and keeping genes off, which will help us understand what goes wrong in leukemia."

Now, a new study from the Rothenberg lab examines certain proteins that supervise gene regulation in developing T cells and finds that these proteins behave in a manner quite different from that assumed in previous theory. The work suggests that theories of gene regulation may need to be reevaluated.

A paper describing the research appears in the journal procedimientos de la Academia Nacional de Ciencias on January 21, 2021. The study's first authors are Caltech postdoctoral scholar Boyoung Shin and former Caltech postdoctoral scholar Hiroyuki Hosokawa, now a faculty member at Tokai University in Japan.

Nearly every cell in the human body contains the same copy of the genome, but differences in the expression of particular genes give rise to different cell types, like muscles, neurons, and immune system cells. Gene expression can be thought of like a light bulb with a dimmer switch. Similar to how a light bulb on a dimmer switch can be turned on brightly, or dimly, or not at all, a gene can be expressed strongly, weakly, or be silenced. The "hands" that adjust these genomic dimmer switches are proteins called transcription factors, which bind to the genome to dial expression up or down.

There are many different kinds of transcription factors, with each acting upon defined sets of genes, sometimes with multiple transcription factors working together to regulate gene expression. The Rothenberg laboratory focused on two very similar transcription factors, Runx1 and Runx3, to find if they play a role during the cascade of sharp changes in gene expression that cause stem cell–like progenitors to become transformed into future T cells.

"The Runx transcription factors have traditionally been underappreciated in these early T cells—they are present in the cell at constant, steady levels throughout development, so scientists have reasoned that they must be unimportant in regulating genes that need to change in expression dramatically over time," says Rothenberg.

In previous studies, other researchers experimentally knocked out one of the Runx factors and subsequently found that little changed in the cell, leading to the conclusion that Runx was not very important. But in this new study, Rothenberg's team found that the two Runx transcription factors cover for each other, so that effects only show up when they are both removed—and those results now show that these transcription factors behave in very unexpected ways.

The conventional genetics theory is that when a factor regulates a target gene, the activity of the factor is correlated with the level of the target gene. But Rothenberg's study found that this was not the case for Runx factors. Although the Runx factors themselves stay active at steady levels through key developmental events, the great majority of genes that respond to the Runx factors change dramatically in expression during this period. In fact, the Runx factors act upon "incredibly important" genes for T cell development, according to Rothenberg, and regulate them strongly.

The findings open up new questions, such as how can the Runx factors cause these dramatic changes in gene expression when levels of Runx themselves do not change?

The team also found that the positions where the Runx factors bind to the genome change markedly over time, bringing Runx to different target DNA sites. At any one time, the study found, the factors are only acting on a fraction of the genes they could regulate they shift their "attention" from one set to another over time. Interestingly, in many of these shifts, large groups of Runx proteins leave their initial sites and travel to occupy clusters of new sites grouped across large distances of the genome, as they act on different genes at different times.

"There's no good explanation yet for this group behavior, and we find that Runx are interacting with the physical genomic architecture in a complex way, as they're regulating genes that have totally different expression patterns than the transcription factors themselves," says Shin. "What is controlling the deployment of the transcription factors? We still don't know, and it's far more interesting than what we thought."

"This work has big implications for researchers trying to model gene networks and shows that transcription factors are more versatile in their actions than people have assumed," Rothenberg says.

The paper is titled "Runx1 and Runx3 drive progenitor to T-lineage transcriptome conversion in mouse T cell commitment via dynamic genomic site switching."

More information: Boyoung Shin et al. Runx1 and Runx3 drive progenitor to T-lineage transcriptome conversion in mouse T cell commitment via dynamic genomic site switching, procedimientos de la Academia Nacional de Ciencias (2021). DOI: 10.1073/pnas.2019655118


Información de soporte

Figura S1.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of skin pigmentation [67] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between skin pigmentation and the selected trait with the effect of selection held constant at (B).

Figura S2.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of BMI [74] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between BMI and the selected trait with the effect of selection held constant at (B).

Figura S3.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of T2D [75] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between height and the selected trait with the effect of selection held constant at (B).

Figura S4.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of CD [26] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between CD and the selected trait with the effect of selection held constant at (B).

Figura S5.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of UC [26] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between UC and the selected trait with the effect of selection held constant at (B).

Figura S6.

The two components of for the skin pigmentation dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figura S7.

The two components of for the BMI dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S8.

The two components of for the T2D dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S9.

The two components of for the CD dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S10.

The two components of for the UC dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S11.

The genetic values for height in each HGDP population plotted against the measured sex averaged height taken from [127]. Only the subset of populations with an appropriately close match in the named population in [127]'s Appendix I are shown, values used are given in Supplementary table S1.

Figure S12.

The genetic skin pigmentation score for a each HGDP population plotted against the HGDP populations values on the skin pigmentation index map of Biasutti 1959. Data obtained from Supplementary table of [69]. Note that Biasutti map is interpolated, and so values are known to be imperfect. Values used are given in Supplementary table S2.

Figure S13.

The genetic skin pigmentation score for a each HGDP population plotted against the HGDP populations values from the [68] mean skin reflectance (685nm) data (their Table 6). Only the subset of populations with an appropriately close match were used as in the Supplementary table of [69]. Values and populations used are given in Table S2.

Figura S14.

The distribution of genetic height score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic height score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figura S15.

The distribution of genetic skin pigmentation score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic skin pigmentation score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S16.

The distribution of genetic BMI score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic BMI score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S17.

The distribution of genetic T2D risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic T2D risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S18.

The distribution of genetic CD risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic CD risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S19.

The distribution of genetic UC risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic UC risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Cuadro S1.

Genetic height scores as compared to true heights for populations with a suitably close match in the dataset of [127]. See Figure S11 for a plot of genetic height score against sex averaged height.

Cuadro S2.

Genetic skin pigmentation score as compared to values from Biasutti [69], [128] and [68]. We also calculate a genetic skin pigmentation score including previously reported associations at KITLG and OCA2 for comparisson. See also Figures S12 and S13.

Table S3.

Conditional analysis at the regional level for the height dataset.

Table S4.

Conditional analysis at the individual population level for the height dataset.

Table S5.

Conditional analysis at the regional level for the skin pigmentation dataset.

Table S6.

Conditional analysis at the individual population level for the skin pigmentation dataset.

Cuadro S7.

Condtional analysis at the regional level for the BMI dataset.

Cuadro S8.

Conditional analysis at the individual population level for the BMI dataset.

Cuadro S9.

Conditional analysis at the regional level for the T2D dataset.

Cuadro S10.

Conditional analysis at the individual population level for the T2D dataset.

Table S11.

Conditional analysis at the regional level for the CD dataset.

Table S12.

Conditional analysis at the individual population level for the CD dataset.

Table S13.

Conditional analysis at the regional level for the UC dataset.

Table S14.

Conditional analysis at the individual population level for the UC dataset.

Table S15.

Corresponding statistics for all analyses presented in Table 2.

Table S16.

Corresponding statistics for all analyses presented in Table 2.


Ver el vídeo: Eternals: Cómo Se Supone Que Debe Verse Cada Personaje? (Agosto 2022).