Información

Medición de la distancia genética: $ F_ {ST} $ frente a la distancia de Nei

Medición de la distancia genética: $ F_ {ST} $ frente a la distancia de Nei



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Hasta donde yo sé, la distancia genética de Nei es bastante antigua en comparación con $ F_ {ST} $. Sin embargo, recientemente leí más artículos que utilizaron la distancia genética de Nei junto con $ F_ {ST} $. Como no estoy muy familiarizado con Nei, ¿cuáles son algunas de las ventajas que tiene sobre $ F_ {ST} $?

¿La distancia genética de Nei sufre un sesgo de verificación?


Relación entre tres medidas de diferenciación genética GRAMOS T, Dest y GRAMO’S T: ¿Qué tan equivocados hemos estado?

Cuadro S1 Estudios incluidos en este metanálisis.

Tenga en cuenta: Wiley-Blackwell no es responsable del contenido o la funcionalidad de los materiales de apoyo proporcionados por los autores. Cualquier consulta (que no sea material faltante) debe dirigirse al autor correspondiente del artículo.

Nombre del archivo Descripción
MEC_4185_sm_TableS1.doc113 KB Elemento de información de apoyo

Tenga en cuenta: El editor no es responsable del contenido o la funcionalidad de la información de apoyo proporcionada por los autores. Cualquier consulta (que no sea el contenido faltante) debe dirigirse al autor correspondiente del artículo.


UNA PRUEBA SENCILLA DEL CONTENIDO DE INFORMACIÓN DE TAMAÑO ALLELE

La prueba indica si los tamaños de los alelos proporcionan información sobre la diferenciación de la población dado un conjunto de datos, es decir, si los cambios en los tamaños de los alelos resultantes de mutaciones escalonadas contribuyen a la diferenciación de la población. La contribución de mutaciones escalonadas a la diferenciación genética requiere (1) que el proceso de mutación sea al menos parcialmente similar a SMM y (2) que la tasa de mutación, μ, sea lo suficientemente grande en relación con el efecto de la deriva y la migración (p.ej., μ≥ metro de lo contrario, las nuevas mutaciones se propagan rápidamente más allá de su población nativa por la migración). La Tabla 2 describe las hipótesis nulas que pueden ser probadas, presentando una hipótesis nula general así como hipótesis nulas específicas que se sostienen bajo supuestos previos particulares.

El principio de la prueba se basa en obtener una distribución de un estadístico bajo la hipótesis nula (H0) que las diferencias en los tamaños de los alelos no contribuyen a la diferenciación de la población. Por lo tanto, utilizamos un procedimiento de aleatorización mediante el cual los diferentes tamaños de alelos observados en un locus para un conjunto de datos dado se permutan aleatoriamente entre estados alélicos. Para entender mejor el procedimiento, se puede disociar el estado alélico, identificado, por ejemplo, por una letra (por ejemplo, a, b, c, d, y mi si hay cinco alelos diferentes), y el tamaño del alelo, identificado por un número (p.ej., 4, 5, 7, 8 y 11, cada uno de los cuales representa el número de repeticiones de secuencia), dado que existe una correspondencia biunívoca entre el estado alélico y el tamaño del alelo. Antes de la aleatorización, el tamaño del alelo atribuido a cada estado alélico es el tamaño real del alelo (por ejemplo, un, 4 B, 5 C, 7 D, 8 y mi, 11). A lo largo del procedimiento de aleatorización, los genotipos se definen en términos de estados alélicos y no se modifican, pero los tamaños de los alelos se reasignan aleatoriamente entre los estados alélicos (por ejemplo, un, 7 B, 4 C, 11 D, 5 y mi, 8). Después de dicha aleatorización, dos genes cualesquiera que tengan originalmente el mismo tamaño de alelo permanecen idénticos, aunque puede ser para otro tamaño de alelo, mientras que dos genes cualesquiera que tengan originalmente alelos diferentes de pequeña diferencia de tamaño pueden tener alelos de gran diferencia de tamaño, o recíprocamente. Por tanto, la información sobre la identidad del alelo se mantiene intacta, pero no la información sobre el tamaño del alelo. Bajo la hipótesis nula (Cuadro 2, caso 1), el procedimiento de aleatorización no debería afectar la expectativa de una medida de diferenciación como RS T. Por el contrario, si los tamaños de los alelos contribuyen a la diferenciación genética, la RS T calculado después de la permutación del tamaño del alelo (en adelante llamado pRS T) dependería únicamente de la identidad / no identidad del alelo y, por lo tanto, tendría una expectativa menor que el valor calculado antes de la aleatorización. Por tanto, la prueba puede diseñarse comparando los valores observados RS T valor (antes de la aleatorización) a la distribución de pRS T valores obtenidos para todas las configuraciones posibles de permutaciones de tamaño de alelos (o un subconjunto representativo de ellas, ya que el número total de configuraciones diferentes rápidamente se vuelve enorme cuando el número de alelos excede 7 u 8). A partir de esta comparación, la probabilidad de que se cumpla la hipótesis nula se puede estimar como la proporción de pRS T valores mayores que los observados RS T (prueba de una cola). Tenga en cuenta que la media pRS T debe igualar en expectativa el FS T calculado sobre los mismos datos (sin tener en cuenta el sesgo estadístico potencial), como se confirma más adelante.

En un solo locus, tal prueba se puede aplicar solo si un número suficiente de alelos diferentes (norte) están en el conjunto de datos, ya que el número de configuraciones de permutación diferentes es igual a norte!. Por lo tanto, cinco alelos (120 configuraciones diferentes) parecen ser un mínimo para llevar a cabo dicha prueba con un criterio de tasa de error de tipo I de 5 o 1%. En un multilocus RS T estimación, la prueba se puede realizar permutando los tamaños de los alelos dentro de cada locus. Es de destacar que la prueba no hace suposiciones sobre el modelo de mutación: un resultado significativo (RS T significativamente & gtpRS T) sugiere que las mutaciones contribuyeron a la diferenciación genética (p.ej., porque μ≥ metro en un modelo de isla) y que el proceso de mutación sigue al menos parcialmente un SMM (la prueba sigue siendo válida bajo desviaciones del SMM). Sin embargo, se asume la neutralidad con respecto a la selección natural. Cuando la prueba es significativa, FS T Es probable que proporcione una estimación sesgada de los parámetros del flujo de genes, pero no se puede concluir a priori ese RS T necesariamente funcionaría mejor dada su mayor varianza (que es aún más pronunciada cuando pueden ocurrir mutaciones de más de un paso Z hivotovsky y F eldman 1995) y dado el sesgo que puede sufrir cuando el proceso de mutación se desvía de los supuestos del GSM (E stoup y A ngers 1998). Un resultado no significativo (RS T no significativamente diferente de pRS T) sugeriría que el tamaño del alelo no es informativo para la diferenciación de la población, porque el proceso de mutación no es escalonado y / o porque las mutaciones no han contribuido a la diferenciación (p.ej., porque μ⪡ metro en un modelo de isla). En este caso, FS T seguramente debería preferirse a RS T (aunque no aseguraría que FS T proporciona una estimación correcta del flujo de genes dadas las muchas otras fuentes de sesgo relacionadas con los modelos de población W hitlock y M c C auley 1999).

Hipótesis probadas por permutaciones de tamaño de alelo aplicadas en RS T

¿Qué hipótesis se pueden probar y con qué estadísticas? Las simulaciones permiten validar la prueba de permutación del tamaño del alelo y evaluar su poder. Pero primero es necesario insistir en lo que se puede probar (Tabla 2).

Aleatorizar los tamaños de los alelos crea réplicas de un conjunto de datos para un proceso de mutación que sigue a un KAM (o IAM) porque, según este modelo, el tamaño de los alelos es irrelevante e intercambiarlos es como replicar los procesos de mutación pasados ​​que conducen al conjunto de datos actual, pero con otros de forma aleatoria. alelos elegidos después de cada evento mutacional. Por lo tanto, una posible aplicación del procedimiento de aleatorización del tamaño del alelo es probar si el proceso de mutación sigue un KAM (Tabla 2, caso 3). Para este propósito, los tamaños de alelos aleatorios se pueden aplicar en cualquier estadística basada en el tamaño del alelo, no solo R-estadísticas pero también varias distancias genéticas para modelos de mutación paso a paso como (δμ) 2 (p.ej., G oldstein et al. 1995b S hriver et al. 1995), o simplemente en la varianza total en el tamaño de los alelos. Sin embargo, ya está bien establecido que la gran mayoría de los loci de microsatélites no se ajustan a un KAM, y la pregunta interesante sobre el proceso de mutación de los microsatélites es más bien cómo se desvía de un SMM ideal (E stoup y A ngers 1998). Por lo tanto, no se analiza más el uso del procedimiento de permutación del tamaño del alelo para probar el KAM.

Una segunda aplicación del procedimiento de permutación del tamaño del alelo, asumiendo aquí a priori que las mutaciones siguen al menos parcialmente un proceso similar al SMM, es para probar si la mutación ha contribuido a la divergencia de la población (Tabla 2, caso 2). En otras palabras, podemos probar si la tasa de migración (metro) entre poblaciones, o el recíproco del número de generaciones (t) debido a la divergencia de la población, es grande en comparación con las tasas de mutación (μ⪡ metro o μ⪡ 1 /t, respectivamente Tabla 2, casos 2a y 2b). La prueba de permutación del tamaño del alelo es la más interesante para abordar esta pregunta, porque hay suficiente evidencia de que la mayoría de los microsatélites siguen un proceso similar al SMM (p.ej., E llegren 2000 X u et al. 2000 Z hu et al. 2000 R enwick et al. 2001). Sin embargo, para este propósito, la permutación del tamaño del alelo no se puede aplicar a ninguna estadística basada en el tamaño del alelo: funciona bien en R-estadísticas, que son proporciones de los componentes de la varianza del tamaño de los alelos, pero no en distancias genéticas como G oldstein et al. (1995a) (δμ) 2, que es un componente entre poblaciones de la varianza del tamaño de los alelos. La razón es que las permutaciones aleatorias de los tamaños de los alelos no solo eliminan la covarianza dentro de la población entre los tamaños de los alelos para diferentes alelos, sino que también modifican la variación del tamaño del alelo en SMM o GSM, porque la distribución de frecuencia esperada de los tamaños de los alelos no es uniforme (D onnelly 1999). Las estadísticas que expresan un componente de la varianza del tamaño del alelo, como la estadística (δμ) 2, siempre se verán afectadas por un cambio en la varianza del tamaño del alelo, sin importar si las mutaciones contribuyeron o no a la diferenciación. Por el contrario, las estadísticas basadas en una relación de componentes de la varianza, como RS T, no se verá afectado si los componentes de varianza dentro y entre poblaciones se multiplican por factores que tienen las mismas expectativas. Las simulaciones que se presentan a continuación muestran que esto es lo que ocurre cuando no hay covarianza dentro de la población entre los tamaños de los alelos para diferentes alelos (es decir., diferenciación debida a la deriva y no a mutaciones escalonadas).

Para demostrar que la prueba de permutación del tamaño del alelo es adecuada para el RS T estadística pero no la estadística (δμ) 2 cuando se prueba metro ⪢ μ o 1 /t ⪢ μ (debajo del a priori Suponiendo que el proceso de mutación es escalonado como la Tabla 2, casos 2), simulamos una población de apareamiento aleatorio de individuos diploides (tamaño de la población norte = 1000 individuos) en equilibrio mutación-deriva (μ = 0,001) bajo el SMM. Luego se aplicó la prueba de permutación del tamaño del alelo (1000 aleatorizaciones) en RS T y (δμ) 2 calculado entre dos muestras independientes (tamaño de muestra norte = 100 individuos) de esa población para cada uno de los 200 loci simulados (las dos muestras representan subpoblaciones indiferenciadas). Los programas de computadora utilizados para simulaciones y cálculos se describen a continuación. Reportamos el porcentaje de loci para los cuales las pruebas fueron significativas (% RHo) según el criterio de la tasa de error tipo I (α, la probabilidad de rechazar la hipótesis nula cuando es verdadera). Debido a que la hipótesis nula que se va a probar (1 /t ⪢μ) se cumple mediante simulaciones, un procedimiento de prueba válido debe garantizar que% RHo = α, de lo contrario, significa que el procedimiento no es adecuado para probar esta hipótesis nula. La Figura 1 muestra que el procedimiento de prueba de aleatorización del tamaño del alelo es de hecho válido cuando se aplica en RS T pero no en (δμ) 2.

Poder de la prueba bajo SMM: Para investigar el poder de la prueba al probar si las mutaciones contribuyeron a la diferenciación de la población bajo el SMM (Tabla 2, casos 2), verificamos el procedimiento en conjuntos de datos artificiales con tamaños de muestra realistas derivados de simulaciones de Monte Carlo de poblaciones hechas de hermafroditas diploides. Se simularon tres conjuntos de situaciones demográficas: (1) un modelo de isla en equilibrio deriva-migración-mutación, (2) un modelo de dos poblaciones aisladas que divergieron de una población ancestral común en equilibrio mutación-deriva, y (3) un modelo lineal modelo de trampolín (flujo genético restringido a poblaciones adyacentes) en equilibrio deriva-migración-mutación. El modelo de la isla estaba compuesto por 10 poblaciones, de 100 individuos cada una, y las nuevas generaciones se obtuvieron extrayendo genes al azar de la población con probabilidad 1 - metro o de las otras poblaciones con probabilidad metro. El modelo de población aislada se compuso de dos poblaciones de apareamiento aleatorio, que constan de 500 individuos cada una, y que han divergido durante t generaciones. El modelo de trampolín estaba compuesto por 30 poblaciones alineadas, que constaban de 50 individuos cada una, y se obtuvieron nuevas generaciones extrayendo genes al azar de la población con probabilidad 1 - metro o de las dos poblaciones adyacentes con probabilidad metro.

—Control de la validez de la prueba de permutación del tamaño del alelo cuando se aplica en RS T Estadísticas (□) o (δμ) 2 (▵) calculadas entre dos muestras de una población en equilibrio de mutación-deriva bajo el SMM. El porcentaje de loci con la hipótesis nula rechazada (% RHo) se muestra como una función del criterio de tasa de error tipo I (α), y la línea discontinua muestra la relación% RHo = α esperada bajo la hipótesis nula para un procedimiento de prueba válido . La hipótesis nula de interés es si la tasa de mutación es insignificante, dado que el proceso de mutación es escalonado (Tabla 2, caso 2). Los resultados muestran que el procedimiento de permutación del tamaño del alelo aplicado en (δμ) 2 no es adecuado para probar esta hipótesis.

Los parámetros genéticos simulados fueron los siguientes: En la etapa inicial, todas las poblaciones se fijaron para un alelo, se simularon 10 loci con mutaciones siguiendo un SMM y μ = 10 -3 en todos los loci sin restricciones de tamaño. Las simulaciones se ejecutaron durante un tiempo suficiente para alcanzar un estado estable para los parámetros de diversidad genética total y dentro de la población, y luego se extrajo y analizó una muestra de individuos representativos de estudios experimentales comunes. Para obtener estimaciones precisas, se ejecutaron 200 réplicas para cada conjunto de condiciones. Las simulaciones se realizaron utilizando el software EASYPOP ver. 1.7.4 (B alloux 2001). Pruebas de permutación del tamaño de los alelos (con 1000 aleatorizaciones) y cálculos de FS T y RS T Las muestras extraídas se realizaron con el programa SPAGeDi (H ardy y V ekemans 2002). Locus único y multilocus FS T y RS T se estimaron según W eir y C ockerham (1984) y M ichalakis y E xcoffier (1996), respectivamente. Cabe señalar que este RS T (un estimador del parámetro llamado ρS T por Rousset 1996) difiere algo de la definición original de S latkin (1995) (M ichalakis y E xcoffier 1996) pero es más adecuada para la comparación con la FS T estimador de Weir y C ockerham (1984) (llamado θ por estos autores) y para estimaciones de parámetros demográficos (R ousset 1996). Ambos estos FS T y RS T Los estimadores proceden mediante un ANOVA jerárquico estándar donde la varianza observada (σ 2) de la identidad alélica por locus y por alelo (FS T), o la varianza del tamaño del alelo por locus (RS T), se divide en tres componentes (efectos aleatorios): entre poblaciones (σ a 2), entre individuos dentro de la población (σ b 2) y entre genes dentro de un individuo dentro de la población (σ c 2). FS T y RS T luego se estiman como σ a 2 ∕ (σ a 2 + σ b 2 + σ c 2) (locus único RS T) o Σ σ a 2 ∕ Σ (σ a 2 + σ b 2 + σ c 2), donde las sumas se aplican a todos los loci (multilocus RS T), todos los alelos de un locus (locus único FS T), o todos los alelos y loci (multilocus FS T E xcoffier 2001).

Para el modelo de isla, las simulaciones se ejecutaron durante 5000 generaciones con tasas de migración entre poblaciones que varían de 10 -4 a 10 -1 (es decir., metro = 0.1-100μ) de acuerdo con los recorridos. Global RS T, FS T, y pRS T (para 1000 aleatorizaciones) se calcularon en una muestra total de 300 individuos (30 individuos de cada población). Para el modelo de poblaciones aisladas, se simuló una sola población de 1000 individuos durante 5000 generaciones, y luego se dividió en dos subpoblaciones aisladas de 500 individuos que se ejecutaron durante 30-10 000 generaciones adicionales (es decir., 1/t = 0,1-33 μ). RS T, FS T, y pRS T (para 1000 aleatorizaciones) se calcularon en una muestra total de 100 individuos (50 individuos de cada subpoblación). Para el modelo de trampolín, se simularon 10.000 generaciones con una tasa de migración de 0,1 (0,05 entre dos poblaciones adyacentes). Los análisis se realizaron en una muestra de 20 individuos de cada una de las 30 poblaciones (tamaño total de la muestra de 600 individuos). Por parejas FS T/(1 - FS T) y RS T/(1 - RS T) se calcularon las proporciones para cada par de poblaciones, y estos valores se promediaron para todos los pares separados por 1, 2, 3. 20 pasos (20 clases de distancia). Las pruebas de permutación del tamaño de los alelos se aplicaron en pares promediados RS T/(1 - RS T) proporciones por clase de distancia para proporcionar pRS T/(1 - pRS T) valores por clase de distancia (1000 permutaciones). Aquí, por parejas FS T/(1 - FS T) y RS T/(1 - RS T) se calcularon las proporciones porque la teoría predice una relación lineal aproximada con la distancia lineal entre poblaciones en modelos unidimensionales de aislamiento por distancia (Rousset 1997).

La validez de algunos de los resultados de la simulación podría verificarse comparándolos con las expectativas teóricas. Por ejemplo, después de 5000 generaciones de simulación de una sola población de norte = 1000 individuos (para el modelo de población aislada), la heterocigosidad promedio y la varianza promedio del tamaño del alelo fueron iguales a He = 0.68 y V = 1,96, respectivamente, con un número medio de alelos por locus de 5,8 (rango, 3-11 alelos).Estos valores están cerca de sus expectativas en el equilibrio de mutación-deriva (E stoup y C ornuet 1999): Bajo SMM estricto, He = 1 - (1 + 8norteμ) -0,5 = 0,67 y V = 2norteμ = 2. En el modelo de isla con 10 poblaciones de 100 individuos cada una (D = 10, norte = 100), promedio RS T Los valores fueron iguales a 0.019, 0.197, 0.677 y 0.924 para metro = 10 -1, 10-2, 10-3 y 10 -4, respectivamente (Figura 2A), de acuerdo con los valores esperados aproximadamente iguales a 1 / (1 + 4Nm d/(D - 1)) = 0,022, 0,184, 0,692 y 0,957, respectivamente (Rousset 1996). En el modelo de poblaciones aisladas (norte = 500), tiempo de divergencia t se puede estimar a partir de la relación RS T/(1 - RS T) = t/2norte (S latkin 1995 Rousset 1996), dando estimaciones de t = 97, 1132 y 11,301 para valores reales de 100, 1000 y 10,000 generaciones, respectivamente. Finalmente, en el modelo lineal de trampolín (norte = 50, metro = 0,1), por pares RS T/(1 - RS T) los valores aumentaron linealmente con la distancia entre poblaciones (Figura 2C), dando una pendiente de regresión igual a 0.054, de acuerdo con el valor esperado aproximado 1 / (4Nuevo Méjico) = 0,050 para el modelo lineal de trampolín (Rousset 1997).

Los resultados de todas las simulaciones confirman que la media pRS T valores (es decir., valor medio calculado después de permutaciones aleatorias del tamaño del alelo) son muy cercanas, aunque no exactamente iguales, a las FS T valores (Figura 2). Por ejemplo, en el modelo de isla, la media y la desviación estándar de la diferencia entre FS T y significa pRS T Los valores por locus fueron iguales a 0,003 ± 0,007, 0,008 ± 0,012 y 0,010 ± 0,110 para metro = 10 -2, 10-3 y 10 -4, respectivamente. Por lo tanto, significa pRS T los valores fueron en promedio ligeramente inferiores a FS T valores aunque, para un locus dado, la diferencia entre los dos podría ser bastante sustancial, especialmente bajo tasas de migración muy bajas. Para las otras simulaciones, significa pRS T los valores eran generalmente ligeramente superiores a FS T (Figura 2, B y C). También observamos que la discrepancia entre FS T y significa pRS T fue mucho menor para las estimaciones multilocus que para las estimaciones de un solo locus.

Como se esperaba, RS T los valores son similares a FS T valores siempre que metro ⪢μ = 0.001 (modelo de isla), 1 /t ⪢μ (modelo de poblaciones divergentes), o poblaciones cercanas (modelo de trampolín con metro ⪢μ). De lo contrario, RS T se vuelve considerablemente más grande que FS T cuando metro ≤μ (modelo de isla), 1 /t ≤μ (modelo de poblaciones divergentes), o cuando las poblaciones están separadas por más de cinco pasos (modelo de trampolín Figura 2).

Para evaluar la potencia de la prueba de permutación del tamaño del alelo, presentamos en la Figura 2 (gráficos a la derecha) el porcentaje de pruebas estadísticamente significativas (% RHo) entre 200 réplicas de simulación (usando α = 5%) según (1) la migración índice metro (modelo de isla), (2) el tiempo de divergencia t en número de generaciones desde el aislamiento (modelo de dos poblaciones aisladas), y (3) la distancia D en número de pasos entre poblaciones (modelo de trampolín). Esto se hace para las pruebas aplicadas a cada locus, así como para una estimación multilocus basada en 10 loci.

—Resultados de simulación para (1) un modelo de isla con tasa de migración metro (A), (2) un modelo de dos poblaciones aislado para t generaciones (B), y (3) un modelo de trampolín lineal de 30 poblaciones (C). Los gráficos de la izquierda muestran RS T (□), FS T (○) y significa pRS T (⋄) valores (estimaciones multilocus medias basadas en 10 loci y 200 repeticiones) según metro (A), t (B), o el número de pasos que separan a las poblaciones (C). En C, promediado por pares RS T/(1 - RS T), FS T/(1 - FS T), y significa pRS T/(1 - pRS T) Se representan las proporciones de todos los pares separados por un número determinado de pasos. Los gráficos de la derecha ilustran el poder de las pruebas de permutación del tamaño del alelo al proporcionar los porcentajes de pruebas significativas (% RHo) en RS T estimaciones [o promedio por pares RS T/(1 - RS T) ratios] basado en un solo locus (×) o 10 loci (▵) (es decir., estimación multilocus) y considerando un criterio de tasa de error tipo I α del 5% (línea de puntos). Los símbolos (× y ▵) en los ejes horizontales de los gráficos A y B muestran los valores en los que los errores cuadrados medios de FS T y RS T son aproximadamente iguales.

En el modelo de isla,% RHo se acerca a α para tasas de migración relativamente altas (es decir., metro = 10-1-10-2 = 10-100μ), de acuerdo con nuestra a priori expectativa de que no deberíamos detectar un efecto significativo cuando metro ⪢μ (Figura 2A). Por el contrario, para tasas de migración más bajas, la mutación ya no es despreciable en comparación con la migración y la proporción de pruebas significativas aumenta por encima de α, alcanzando el 88 y el 100% cuando metro = 10 -4 (metro = 0.1μ) para pruebas en un solo locus o 10 loci, respectivamente (Figura 2A). Las pruebas basadas en 10 loci parecen en realidad bastante poderosas para tamaños de muestra típicos encontrados en estudios experimentales (300 individuos aquí), ya que el 100% de las pruebas fueron significativas cuando metro = μ y ya 24% cuando metro = 10μ. Los resultados de los dos modelos de población aislada son muy similares a los del modelo de isla si metro se sustituye por 1 /t (Figura 2B). Aquí, sin embargo, las pruebas parecen menos poderosas que en el modelo de isla simulada (p.ej., para 10 loci,% RHo & gt 50% cuando 1 /t ≤μ en el modelo de población aislada, y metro ≤ 0.3μ en el modelo de isla), lo que probablemente se deba al tamaño de muestra más pequeño (100 vs. 300 individuos) y el menor número de poblaciones muestreadas (2 vs. 10). B alloux y G oudet (2002) demostraron de hecho que la varianza de RS T aumenta sustancialmente con menos poblaciones muestreadas. En el modelo de trampolín, el% RHo aumenta con la distancia que separa a las poblaciones, pero alcanza una meseta más allá de ocho pasos en ∼60% para estimaciones basadas en 10 loci y solo 20% para estimaciones de locus único (Figura 2C). Sorprendentemente, el% RHo ya es significativamente mayor que α para poblaciones separadas por un solo paso e intercambiando migrantes a una tasa alta (metro/ 2 = 0,05) en relación con la tasa de mutación (μ = 0,001).

Utilidad de la prueba para determinar las estadísticas más adecuadas: Para verificar si la prueba proporciona una pauta adecuada para elegir entre RS T y FS T al evaluar la diferenciación poblacional, los errores cuadrados medios (MSE) de FS T y RS T fueron calculados. El MSE es una medida sintética de la eficiencia de un estimador que combina sesgo y varianza (MSE = sesgo 2 + varianza). Ya se ha utilizado para comparar la eficiencia de FS T y RS T estimadores (B alloux y G oudet 2002) o estimaciones de flujo genético basadas en FS T o RS T (G aggiotti et al. 1999). Las MPE se calcularon como Σ (I - mi) 2 /norte, dónde I es el FS T o RS T estimación de la Ila réplica, norte es el número de réplicas (norte = 200), y mi es el valor esperado dados los parámetros demográficos. El valor esperado es mi = 1/(1 + 4Nmd/(D - 1)) en el caso del modelo isla (con norte = 100 y D = 10), y mi = t/(2norte + t) en el caso del modelo de población aislada (con norte = 500). Estos son los valores esperados para RS T bajo SMM y para FS T bajo IAM (o KAM) y una tasa de mutación baja (S latkin 1995 Rousset 1996). Tenga en cuenta que mi no es lo esperado FS T en las condiciones de las simulaciones (SMM y μ relativamente altos), pero solo una buena aproximación cuando se puede despreciar la mutación.

Para el modelo de isla y μ = 0.001 (SMM), con una tasa de migración que varía de 0.0001 a 0.1, la razón MSE (RS T) / MSE (FS T) variaron, respectivamente, de 0,06 a 2,1 para estimaciones de un solo locus y de 0,02 a 2,3 para estimaciones de multilocus basadas en 10 loci. La tasa de migración a la que MSE (RS T) = MSE (FS T) estaba entre metro = 0.001 y 0.002 para estimaciones de un solo locus y entre metro = 0,003 y 0,005 para estimaciones multilocus. Como se puede observar en la Figura 2A, estos límites de tasa de migración bajo los cuales RS T funciona mejor que FS T, y por encima de la cual ocurre lo contrario, coinciden estrechamente con la tasa de migración bajo la cual la prueba de permutación del tamaño del alelo se vuelve a menudo significativa (es decir.,% RHo ≥ 30%). Se observa el mismo patrón para el modelo de poblaciones aisladas: Para t variando de 30 a 10,000 generaciones, MSE (RS T) / MSE (FS T) varió de 2,37 a 0,41 y de 4,00 a 0,01 para estimaciones de un solo locus y multilocus, respectivamente, y MSE (RS T) = MSE (FS T) por t = 2000 (es decir., 2 / μ) y t = 500 (es decir., 0.5 / μ) para estimaciones de un solo locus y multilocus, respectivamente. Por lo tanto, la prueba se vuelve frecuentemente significativa cuando MSE (RS T) está cerca de MSE (FS T) (Figura 2B).

Estos resultados sugieren fuertemente que la prueba de permutación del tamaño del alelo es adecuada para determinar cuál de FS T o RS T es el más adecuado para inferencias de parámetros demográficos, al menos sobre la base del criterio de MSE más bajo. Sin embargo, debe señalarse que el estadístico con el MSE más bajo no es necesariamente el estadístico que proporcionará el MSE más bajo en la estimación demográfica, porque las estimaciones demográficas generalmente no son funciones lineales de FS T o RS T. Por ejemplo, en el modelo de población aislada, τ = t/norte estimaciones que se pueden derivar usando τF = 2FS T/(1 - FS T) y τR = 2RS T/(1 - RS T) dar MSE (τR) & gt MSE (τF) para todo el tiempo de divergencia simulado con estimaciones de un solo lugar [τF también se puede estimar como -ln (1 - FS T) (R eynolds et al. 1983), pero esto conduce esencialmente a los mismos resultados]. Esto ocurre porque siempre que FS T o RS T se acerca a 1, el τ inferido toma rápidamente valores enormes, de modo que el impacto de la mayor varianza de RS T relativo a FS T se amplifica en gran medida en el τ inferido, aunque τR está mucho menos sesgado que τF para τ≥ 1. La buena noticia es que para las estimaciones multilocus obtuvimos MSE (τR) = MSE (τF) por t = 500 y MSE (τR) & lt MSE (τF) por t & gt 500, como se encontró anteriormente para MSE (RS T) = MSE (FS T). Del mismo modo, para el modelo de isla, donde Nuevo Méjico se puede estimar como Nuevo MéjicoF = (1/FS T - 1) / 4 y Nuevo MéjicoR = (1/RS T - 1) / 4, el metro valores correspondientes a MSE (Nuevo MéjicoF) = MSE (Nuevo MéjicoR) fueron exactamente iguales a los obtenidos para MSE (RS T) = MSE (FS T) para estimaciones de enfoque único y múltiple. Por lo tanto, la utilidad de la prueba de permutación del tamaño del alelo para determinar cuál de FS T o RS T es el más adecuado para propósitos de inferencia parece ser bastante general, excepto probablemente con un tamaño de muestra bajo y / o un número bajo de loci, cuando las inferencias son en cualquier caso dudosas porque las varianzas asociadas son demasiado grandes.

Ejemplos de aplicación: Para ilustrar la utilidad y el poder de la prueba de permutación del tamaño del alelo con datos reales, presentamos tres ejemplos de conjuntos de datos publicados que volvimos a analizar. Estos datos se recopilaron para evaluar la diferenciación de la población y verificar el aislamiento por distancia en tres organismos diferentes. Calculamos global o por pares FS T y RS T estadísticas como se describe anteriormente y aplicaron las pruebas de permutación del tamaño del alelo para obtener pRS T valores. Estos análisis se realizaron con SPAGeDi.

Biomphalaria pfeifferi, un caracol autofecundante introducido recientemente en Madagascar: Biomphalaria pfeifferi, un huésped intermedio de un trematodo parásito que causa bilharziasis intestinal, es un caracol hermafrodita de agua dulce distribuido en la mayor parte de África, Oriente Medio y Madagascar. Madagascar fue invadida relativamente recientemente por este caracol, probablemente como resultado de la ocupación humana hace unos cientos de años (C harbonnel et al. 2002a). Además, según un estudio a gran escala de la variación de microsatélites en Madagascar, las pruebas de cuellos de botella (C ornuet y Luikart 1996) y mezclas (B ertolle y E xcoffier 1998) sugieren que se produjeron al menos tres introducciones independientes de fuentes genéticamente diferenciadas (C. harbonnel et al. 2002a). Un estudio a pequeña escala de la variación de microsatélites también revela que las poblaciones experimentaron cuellos de botella recurrentes y que la migración ha sido frecuente dentro de las cuencas hidrográficas pero rara entre ellas (C harbonnel et al. 2002b). Esta dinámica poblacional y la alta tasa de autofecundación experimentada por este caracol explican la alta diferenciación genética entre las poblaciones observadas en Madagascar: FS T = 0,80 y 0,58 para escalas amplias y pequeñas, respectivamente (C harbonnel et al. 2002a, b).

En este contexto particular, podemos formular una hipótesis sobre el contenido de información que podrían soportar los tamaños de los alelos de microsatélites. Dadas las introducciones recientes postuladas de este caracol en Madagascar, esperamos que la mutación no haya contribuido a la diferenciación entre las poblaciones que se originan en la misma introducción, pero sí ha contribuido a la diferenciación entre las poblaciones que se originan en diferentes introducciones (al menos si las poblaciones de origen se han divergido durante el tiempo suficiente ). Se desconocen los lugares y el momento de las introducciones, pero es probable que las poblaciones de una sola cuenca se originen a partir de una sola introducción o, si los genotipos de diferentes introducciones se mezclan en una cuenca, es probable que la migración dentro de la cuenca haya evitado la acumulación de una cuenca. patrón filogeográfico a esta escala. Por lo tanto, podemos esperar RS T estar cerca de FS T para poblaciones pertenecientes a la misma cuenca hidrográfica y significativamente mayores que FS T para poblaciones de diferentes cuencas hidrográficas cuando estas últimas fueron originalmente colonizadas por individuos provenientes de introducciones independientes.

Diferenciación entre poblaciones de Biomphalaria pfeifferi a diferentes escalas

Para probar esta hipótesis, volvimos a analizar los datos de estudios a pequeña y gran escala realizados por C. harbonnel et al. (2002a, b). Global RS T y FS T valores así como por pares RS T y FS T Se calcularon los valores entre poblaciones. Al distinguir pares de poblaciones dentro o entre cuencas hidrográficas, los valores por pares se regresaron en distancias espaciales (se utilizaron pruebas de Mantel para evaluar la significancia de las pendientes de regresión), y los valores promedio por pares se calcularon para un conjunto de clases de distancia (definidas de tal manera que cada uno contenía ∼33 pares de poblaciones). Mil permutaciones aleatorias de los tamaños de los alelos proporcionaron una distribución de pRS T valores, intervalos de confianza del 95% que cubren los valores ordenados del 25 al 975, y PAG valores probando si RS T & gt pRS T.

Multilocus RS T los valores son significativamente más altos que la media pRS T a gran escala pero no a escala local (Tabla 3). Aplicadas a cada locus, estas pruebas también fueron significativas para cuatro de los ocho loci a gran escala, pero para ninguno a escala local.

El análisis de multilocus por pares promedio FS T y RS T Los valores por clase de distancia a gran escala muestran lo siguiente (Figura 3):

La diferenciación entre poblaciones que ocupan la misma cuenca es mucho menor que entre poblaciones de diferentes cuencas, incluso para poblaciones separadas por la misma distancia espacial. Esto está en consonancia con la mayor tasa de migración detectada dentro de las cuencas hidrográficas que entre ellas (C. harbonnel 2002b).

Se detecta un patrón de aislamiento por distancia dentro de las cuencas hidrográficas tanto para FS T y RS T (Pruebas de Mantel: PAG = 0,007 y 0,021, respectivamente). Entre las cuencas hidrográficas, este patrón no se detecta para FS T pero es para RS T (Pruebas de Mantel: PAG = 0,18 y 0,002, respectivamente).

Dentro de las cuencas hidrográficas, RS TNo son significativamente más altos que pRS T'S, mientras que entre las cuencas hidrográficas, RS TSon significativamente más altos que pRS TEs para todas las clases a distancia excepto la primera.

Promedio por pares pRS T los valores son siempre algo más bajos que por pares FS T valores, pero siguen de cerca su patrón de variación con la distancia espacial.

En conclusión, a escala local, RS T los valores están cerca de FS T Los valores y las pruebas de permutación del tamaño del alelo no revelan ninguna contribución significativa de las mutaciones escalonadas a la diferenciación de la población. Por el contrario, a gran escala, RS T los valores son sustancialmente más altos que FS T Los valores y las pruebas de permutación del tamaño de los alelos demuestran que los cambios en los tamaños medios de los alelos contribuyen significativamente a la diferenciación de la población. Pruebas significativas en RS T Se esperan valores si las poblaciones han divergido durante un tiempo suficientemente largo y / o si las poblaciones intercambiaron migrantes a una tasa similar o inferior a la tasa de mutación. Por tanto, los resultados son muy consistentes con a priori expectativas dado que (1) a gran escala, ambas condiciones probablemente se cumplan porque las poblaciones alejadas en Madagascar probablemente se originaron a partir de introducciones relativamente recientes e independientes de poblaciones continentales de origen aisladas durante mucho tiempo, y la tasa de migración es baja entre las cuencas hidrográficas, y (2) a escala local, particularmente dentro de las cuencas hidrográficas, es probable que no se cumpla ninguna de estas condiciones.

—Promedio por pares FS T (○ y •), RS T (□ y ▪), y significa pRS T (⋄ y ♦) entre poblaciones de Biomphalaria pfeifferi a lo largo de Madagascar para un conjunto de clases de distancia, distinguiendo comparaciones entre poblaciones dentro de cuencas hidrográficas (•, ▪, ♦) y entre cuencas hidrográficas (○, □, ⋄). Las líneas punteadas representan el rango del 95% central ordenado pRS T valores (es decir., después de la aleatorización del tamaño del alelo). Cada clase de distancia contiene 32-35 pares de poblaciones.

Fraxinus excelsior, un árbol europeo muy extendido: Fraxinus excelsior (Oleaceae, fresno común) es una especie arbórea europea muy extendida polinizada por el viento que se encuentra principalmente en lugares de llanuras aluviales y con una distribución dispersa dentro de los bosques naturales. La distribución de los haplotipos de ADN cloroplástico (ADNcp) en toda Europa sugiere que F. excelsior estuvo ubicado en al menos tres refugios diferentes durante la última glaciación, siendo un refugio putativo la zona de los Balcanes (G. G. V endramin, datos no publicados). H euertz et al. (2001) analizaron el polimorfismo de microsatélites en 10 poblaciones búlgaras (área de los Balcanes) de tres regiones (321 individuos). Las poblaciones estaban separadas por 0,5-22 km dentro de las regiones y 120-300 km entre las regiones.

En ausencia de evidencia de divergencia a largo plazo entre las poblaciones búlgaras (no hay evidencia de diferentes refugios), y dado que el flujo de genes debería extenderse relativamente en una especie polinizada por el viento, podemos esperar que las mutaciones escalonadas no hayan contribuido significativamente a diferenciación de la población en Bulgaria. El conjunto de datos de H euertz et al. (2001) se volvió a analizar para comparar el promedio por pares FS T y RS T valores entre poblaciones, distinguiendo pares dentro y entre las regiones búlgaras, y probando RS T valores por permutaciones de tamaño de alelo (1000 aleatorizaciones).

Las estimaciones medias de multilocus por pares fueron iguales a FS T = 0.074, RS T = 0.091 dentro de las regiones y FS T = 0.097, RS T = 0,180 entre regiones (Figura 4). Por tanto, mientras que la diferenciación aumenta ligeramente de escalas geográficas pequeñas a grandes según FS T, casi se duplica según RS T. Además, el promedio por pares RS T es mucho más grande que FS T entre regiones, pero solo un poco más grande que FS T dentro de las regiones. Dentro de las regiones, observado RS TEstán siempre dentro del rango del 95% de la central pRS T, pero entre regiones, el multilocus RS T La estimación, así como la estimación para el locus FEM19, es mayor que el rango del 95% de pRS T (Figura 4), lo que demuestra que las mutaciones escalonadas contribuyeron a la diferenciación de la población a gran escala geográfica para al menos un locus.

Varias causas pueden explicar el efecto significativo del tamaño del alelo en la diferenciación de la población entre las regiones de Bulgaria, por ejemplo:

El patrón puede reflejar aislamiento por distancia. Sin embargo, parece poco probable que la tasa de migración entre regiones sea débil en comparación con la tasa de mutación dado que el polen se dispersa por el viento.

El patrón puede deberse a la recolonización posglacial de diferentes refugios. Sin embargo, no hay evidencia de diferentes refugios del ADN citoplasmático heredado por la madre, ya que el mismo haplotipo único ocurre en las tres regiones (M. Heuertz, datos no publicados).

El patrón puede reflejar la introducción de Fraxinus mediada por humanos desde regiones remotas.

El patrón puede reflejar la hibridación que ocurre localmente entre F. excelsior y una especie relacionada como F. angustifolia o F. pallisiae. Dado que un total de cuatro especies de fresno (las tres primeras y F. ornus) se encuentran en Bulgaria y que diferentes especies se encuentran en los mismos bosques (M. H euertz, observación personal), esta última hipótesis merece una mayor investigación. En cualquier caso, la observación de que se observa un efecto significativo de mutaciones escalonadas a gran escala pero no a pequeña escala sigue siendo muy consistente con a priori expectativas, ya que las poblaciones cercanas deberían intercambiar genes a un ritmo relativamente alto.

—Mean por pares RS T, significar pRS T, y FS T valores entre poblaciones búlgaras de Fraxinus excelsior para poblaciones pertenecientes a la misma región (A) o diferentes regiones (B). Se dan valores para cada locus y las estimaciones multilocus. Barras de pRS T indicar la media pRS T valores de más de 1000 permutaciones de tamaño de alelo, y los intervalos correspondientes dan el rango del 95% central pRS T valores.

Centaurea corymbosa, una hierba rara y de rango estrecho que habita en acantilados: Centaurea corymbosa (Asteraceae) es una especie herbácea perenne de vida corta distribuida en un rango muy estrecho (dentro de un área de 3 km 2 de un macizo calcáreo a lo largo de la costa mediterránea francesa), donde se encuentra en solo seis poblaciones pequeñas (C olas et al. 1997). Se ha especializado en un hábitat extremo: la cima de los acantilados de piedra caliza donde pocas especies de plantas sobreviven. En un terreno más fértil, C. corymbosa está superado, por lo que el hábitat adecuado está muy fragmentado, apareciendo como pequeñas islas dispersas en el paisaje. Dado que la especie ocupa solo una pequeña fracción de estas “islas” (todo el macizo se extiende por más de 50 km 2), la capacidad de colonización debe ser muy limitada, probablemente como consecuencia de la limitada capacidad de dispersión de semillas y el sistema de autoincompatibilidad que impide una potencial recién llegado de fundar una nueva población por su cuenta (C olas et al. 1997 F réville et al. 2001). Patrones de isoenzimas (C olas et al. 1997) y microsatélite (F réville et al. 2001) la variación muestra altos niveles de diferenciación entre poblaciones, con FS T = 0,35 y 0,23, respectivamente, a pesar del estrecho rango de distribución de la especie (2,3 km entre las dos poblaciones más distantes). La alta diferenciación a una escala tan pequeña no puede atribuirse al sistema de apareamiento, ya que la especie es autoincompatible. Lo más probable es que se deba a un tamaño de población pequeño y al bajo flujo de genes entre las poblaciones. También podría ser una consecuencia de cuellos de botella más o menos recurrentes cuando se fundan nuevas poblaciones (aunque el recambio debería ser relativamente lento, dado que no se ha observado extinción o fundación de poblaciones desde 1994, cuando C. corymbosa Las poblaciones comenzaron a ser encuestadas de cerca, y los datos del herbario muestran que cinco de las seis poblaciones se conocían hace & gt100 años).

En este contexto, es interesante preguntarse si el flujo de genes entre poblaciones es lo suficientemente bajo como para permitir la divergencia por mutaciones. El más alto observado FS T El valor en los loci de aloenzimas que en los loci de microsatélites podría de hecho ser causado por altas tasas de mutación de microsatélites, siempre que μ≥ metro. F réville et al. (2001) señaló que esta hipótesis también fue apoyada por el hecho de que FS T Los valores en los dos loci de microsatélites más polimórficos (12B1 y 21D9, Tabla 4), los que probablemente tengan las tasas de mutación más altas, fueron más bajos que los de los dos loci con niveles intermedios de polimorfismo (13D10 y 28A7, Tabla 4).

El procedimiento de aleatorización del tamaño de los alelos es adecuado para abordar esta cuestión. Por lo tanto, global RS T, pRS T, y FS T se calcularon para los loci de microsatélites como se describe anteriormente, y RS T se comparó con la distribución de 1000 pRS T valores. Las pruebas de permutación no detectaron RS T valor significativamente & gtpRS T (Tabla 4). Esto sugiere, por tanto, que la diferenciación se debe principalmente a la deriva y que el flujo de genes, metro, y / o el recíproco del tiempo de divergencia, 1 /t, son grandes en comparación con la tasa de mutación, μ. Este resultado también implica que FS T debería ser un mejor estimador que RS T de diferenciación poblacional para esta especie. En realidad, dados los pequeños tamaños de población (C olas et al. 1997, 2001), se espera que la deriva sea alta. Por ejemplo, si las poblaciones tuvieran tamaños efectivos de ~ 100 individuos (en realidad hay mucha variación entre las poblaciones) y se ajustaran a un modelo de isla (en realidad hay algunos efectos de aislamiento por distancia), un valor de metro = 0.006 explicaría el observado FS T, un valor mayor que las tasas típicas de mutación de microsatélites (10 -3 -10 -4). Suponiendo que estas poblaciones han existido durante un tiempo suficientemente largo como para permitir potencialmente la diferenciación por mutaciones (cambio de tamaño de los alelos), la ausencia de dicha diferenciación impulsada por mutaciones también sugiere que la tasa de migración es mayor que la tasa de mutación, por lo que la nueva mutación variantes repartidas por todas las poblaciones.

Diferenciación entre poblaciones de Centaurea corymbosa, estimado por global RS T, significar pRS T, y FS T valores por locus y para un promedio multilocus

Las pruebas no significativas también podrían deberse a una falta de potencia, por lo que la prueba debe aplicarse a loci de microsatélites adicionales para confirmar estos resultados (actualmente, solo cuatro de seis loci tenían un número suficiente de alelos para realizar pruebas de permutación). La desviación de un SMM en algunos loci también podría reducir la potencia de la prueba. Por ejemplo, el locus de dinucleótidos 28A7 tiene seis alelos con tamaños que siguen una secuencia de un paso repetido más un alelo al menos seis repeticiones más pequeñas que las otras. Aunque este patrón no es necesariamente incompatible con un SMM puro (p.ej., D onnelly 1999), podría sugerir que una mutación de gran efecto creó el alelo externo.


Materiales y métodos

Estudio de simulación

Generando genotipos individuales:

Primero generamos genotipos individuales usando ms (Hudson 2002), asumiendo un modelo de isla de estructura poblacional (Wright 1931). Para cada escenario simulado, consideramos ocho demes, cada uno formado por individuos haploides. La tasa de migración (metro) se fijó para lograr el valor deseado de (0.05 o 0.2), usando la ecuación 6 en Rousset (1996) que conduce a, p.ej., para y para La tasa de mutación se estableció en dar. Consideramos tamaños de muestra fijos o variables a través de demes. En el último caso, el tamaño de la muestra haploide norte se extrajo de forma independiente para cada deme a partir de una distribución gaussiana con media 100 y SD 30, este número se redondeó al número entero más cercano, con un mínimo de 20 y un máximo de 300 haploides por deme. Generamos una gran cantidad de secuencias para cada escenario y muestreamos polimorfismos de nucleótido único (SNP) independientes de secuencias con un solo sitio de segregación. Cada escenario se replicó 50 veces (500 veces para la Figura 3 y la Figura S2).

Secuenciación de piscinas:

Para cada conjunto de datos simulados de ms, generamos datos Pool-seq extrayendo lecturas de una distribución binomial (Gautier et al. 2013). Más precisamente, asumimos que para cada SNP, el número de lecturas de tipo alélico k en la piscina I siguiente: (14) donde es el número de genes de tipo k en el Ith grupo, es el número total de genes en el grupo I (tamaño del grupo haploide), y es la cobertura total simulada para el grupo I. A continuación, consideramos una cobertura fija, con para todos los grupos y loci, o una cobertura variable entre grupos y loci, con

Error de secuenciación:

Simulamos errores de secuenciación que ocurren a una velocidad típica de los secuenciadores de Illumina (Glenn 2011 Ross et al. 2013). Asumimos que cada error de secuenciación modifica el tipo alélico de una lectura a uno de los otros tres estados posibles con la misma probabilidad (por lo tanto, hay cuatro tipos alélicos en total, correspondientes a cuatro nucleótidos). Tenga en cuenta que solo los marcadores bialélicos se conservan en los conjuntos de datos finales. También tenga en cuenta que, dado que iniciamos este procedimiento solo con marcadores polimórficos, descuidamos los errores de secuenciación que crearían SNP falsos a partir de sitios monomórficos. Sin embargo, estos SNP deberían ser poco frecuentes en conjuntos de datos reales, ya que los marcadores con un recuento mínimo de lecturas (MRC) bajo generalmente se filtran.

Error experimental:

Las cantidades no quimolares de ADN de todos los individuos en un grupo y la variación estocástica en la eficiencia de amplificación de los ADN individuales son fuentes de errores experimentales en Pool-seq. Para simular errores experimentales, utilizamos el modelo derivado de Gautier et al. (2013). En este modelo, se supone que la contribución de cada gen j a la cobertura total de la IEl grupo sigue una distribución de Dirichlet: (15) donde el parámetro ρ controla la dispersión de las contribuciones de genes en torno al valor que se espera si todos los genes contribuyen por igual al conjunto de lecturas. Por conveniencia, definimos el error experimental ϵ como el coeficiente de variación de es decir., (ver Gautier et al. 2013). Cuando ϵ tiende hacia 0 (o de manera equivalente, cuando ρ tiende a infinito), todos los individuos contribuyen por igual a la reserva y no hay error experimental. Probamos la solidez de nuestras estimaciones a valores de ϵ entre 0,05 y 0,5. El caso podría corresponder, por ejemplo, a una situación en la que (para) cinco personas aportan más lecturas que las otras cinco personas.

Otros estimadores

En aras de la claridad, en la Tabla 2 se ofrece un resumen de la notación de los estimadores utilizados a lo largo de este artículo.

Este estimador de está implementado por defecto en el paquete de software PoPoolation2 (Kofler et al. 2011). Se basa en una definición del parámetro como la reducción general de la heterocigosidad promedio en relación con la población total combinada (ver, p.ej., Nei y Chesser 1983): (16) donde es la heterocigosidad promedio dentro de las subpoblaciones y es la heterocigosidad promedio en la población total (obtenida al agrupar todas las subpoblaciones para formar una sola unidad virtual). En PoPoolation2, es el promedio no ponderado de heterocigosis dentro de subpoblaciones: (17) (usando la notación de la Tabla 1). Tenga en cuenta que en PoPoolation2, está restringido al caso de dos subpoblaciones solamente (). Las dos razones en el lado derecho de la Ecuación 17 fueron presuntamente tomadas de Nei (1978) para proporcionar una estimación insesgada, aunque no encontramos una justificación formal para la expresión en la Ecuación 17 para los datos de Pool-seq. La heterocigosidad total se calcula como (usando la notación de la Tabla 1):

Este es el estimador alternativo proporcionado en el paquete de software PoPoolation2. Se basa en una interpretación de Kofler et al. (2011) de Karlsson et al.'S (2007) estimador de, como: (19) donde y son las frecuencias de pares idénticos de lecturas dentro y entre grupos, respectivamente, calculadas por simple conteo de pares IIS. Estas son estimaciones de la probabilidad de IIS para dos lecturas en el mismo grupo (ya sea que estén secuenciadas del mismo gen o no) y la probabilidad de IIS para dos lecturas en grupos diferentes. Tenga en cuenta que la probabilidad de IIS es diferente de la de la Ecuación 1, que, según nuestra definición, representa la probabilidad de IIS entre genes distintos en el mismo grupo. Por lo tanto, este enfoque confunde pares de lecturas dentro de grupos que son idénticos porque se secuenciaron a partir de un solo gen a partir de pares de lecturas que son idénticas porque se secuenciaron a partir de genes IIS distintos.

FRP13:

Este estimador de fue desarrollado por Ferretti et al. (2013) (ver sus ecuaciones 3, 10, 11, 12 y 13). Ferretti et al. (2013) utilizan la misma definición de que en la Ecuación 16 anterior, aunque estiman heterocigosidades dentro y entre grupos como “diversidades promedio de nucleótidos por pares”, que, a partir de sus definiciones, son formalmente equivalentes a las probabilidades IIS. En particular, estiman la heterocigosidad promedio dentro de los grupos como (utilizando la notación de la Tabla 1): (20) y la heterocigosidad total entre las poblaciones como:

Análisis de datos Ind-seq

Para la comparación de los conjuntos de datos Ind-seq y Pool-seq, calculamos submuestras de 5000 loci. Estas submuestras se definieron de modo que solo se mantuvieran los loci que eran polimórficos en todas las condiciones de cobertura, y se utilizaron los mismos loci para el análisis de los datos de Ind-seq correspondientes. Para este último, usamos el estimador de Nei y Chesser (1983) basado en una razón de heterocigosidad (ver Ecuación 16 arriba), de aquí en adelante denotado por o el estimador de análisis de varianza desarrollado por Weir y Cockerham (1984), de aquí en adelante denotado por

Todos los estimadores se calcularon utilizando funciones personalizadas en el entorno de software R para cálculo estadístico, versión 3.3.1 (R Core Team 2017). Todas estas funciones se compararon cuidadosamente con los paquetes de software disponibles para garantizar que proporcionaran estimaciones estrictamente idénticas.

Ejemplo de aplicación: C. asper

Dennenmoser et al. (2017) investigaron la base genómica de la adaptación a las condiciones osmóticas en la espina espinosa (C. asper), un pez eurihalino abundante en el noroeste de América del Norte. Para ello, secuenciaron el genoma completo de grupos de individuos de dos poblaciones de estuarios (Estuario del río Capilano, Estuario del río CR Fraser, FE) y dos poblaciones de agua dulce (Lago Pitt, Lago PI Hatzic, HZ) en el sur de Columbia Británica (Canadá). . Descargamos los cuatro archivos BAM correspondientes del Dryad Digital Repository (http://dx.doi.org/10.5061/dryad.2qg01) y los combinamos en un solo archivo mpileup utilizando SAMtools versión 0.1.19 (Li et al. 2009) con opciones predeterminadas, excepto la profundidad máxima por BAM que se estableció en 5000 lecturas. El archivo resultante se procesó aún más utilizando un script awk personalizado para llamar a los SNP y calcular los recuentos de lectura, después de descartar las bases con una puntuación de calidad de alineación de base (BAQ) & lt25. Entonces, una posición se consideró un SNP si: (1) solo se observaron dos nucleótidos diferentes con un recuento de lectura & gt1 (los nucleótidos con lectura se consideraron un error de secuenciación) (2) la cobertura fue entre 10 y 300 en cada una de las cuatro alineaciones files (3) la frecuencia de los alelos menores, calculada a partir de los recuentos de lecturas, estaba en las cuatro poblaciones. El conjunto de datos final consistió en 608.879 SNP.

Nuestro objetivo aquí fue comparar la estructura de la población inferida de estimaciones por pares de usar el estimador (Ecuación 12) con la de PP2D. Para determinar cuál de los dos estimadores se desempeña mejor, luego comparamos la estructura poblacional inferida y con la inferida del modelo jerárquico bayesiano implementado en el paquete de software BayPass (Gautier 2015). BayPass permite la estimación robusta de la matriz de covarianza escalada de frecuencias alélicas entre poblaciones para datos Pool-seq, que se sabe que son informativos sobre la historia de la población (Pickrell y Pritchard 2012). Los elementos de la matriz estimada se pueden interpretar como estimaciones de diferenciación por pares y específicas de la población (Coop et al. 2010) y, por lo tanto, proporcionan una descripción completa de la estructura de la población que hace un uso completo de los datos disponibles.

Disponibilidad de datos

Un paquete R llamado poolfstat, que implementa estimaciones para los datos Pool-seq, está disponible en Comprehensive R Archive Network (CRAN): https://cran.r-project.org/web/packages/poolfstat/index.html.

Los autores afirman que todos los datos necesarios para confirmar las conclusiones presentadas en este artículo están completamente representados dentro del artículo, figuras y tablas. Material complementario (incluidas las Figuras S1-S4, Tablas S1-S3 y una derivación completa del modelo en el Archivo S1) disponible en Figshare: https://doi.org/10.25386/genetics.6856781.


3. Materiales y métodos

(i) Recolección de semillas y protocolo de germinación

En el verano de 2004, recolectamos frutos de plantas de nueve poblaciones a lo largo de las costas de Túnez (Cuadro 1). El tamaño de estas poblaciones varía desde casi 60 individuos hasta mucho más de 500 plantas individuales. Se sembraron diez semillas por familia en una placa Petri sobre papel de filtro humedecido. La germinación se llevó a cabo en condiciones de laboratorio (en la oscuridad a 20-25 ° C). Cuatro días después, se plantaron cuatro plántulas elegidas al azar por familia en macetas separadas y se distribuyeron al azar en un invernadero sin calefacción. Se cultivaron diez familias por población (es decir, 40 plántulas por población) en condiciones ambientales uniformes y se utilizaron para el estudio genético cuantitativo. De cada grupo de 40 plántulas, se utilizaron 30 para el análisis de aloenzimas.

Tabla 1. Cakile maritima Poblaciones tunecinas. Su región climática y su código alfanumérico.

(ii) Flotabilidad y viabilidad de la semilla

El rasgo de flotabilidad (capacidad de flotación) indica el potencial de las especies para ser dispersadas por el agua. Se da como la proporción de semillas que flotan después de un período de tiempo definido. Para ello, 100 semillas de C. maritima se colocaron en una botella cerrada que contenía 500 ml de agua de mar en octubre de 2005. El número de semillas que se hundieron se registró a lo largo del tiempo. En febrero de 2006, diez de las semillas flotantes se sembraron en arena filtrada y se regaron con agua del grifo para probar su viabilidad.

(iii) Medidas morfológicas

Se consideraron dos conjuntos de rasgos morfológicos rasgos discriminadores entre poblaciones: rasgos vegetativos (morfotipo de hoja (forma de hoja (LFF)) y longitud de hoja (LFL)) y rasgos reproductivos (emergencia de fecha de flor (FED), longitud de pétalo (PTLT), ancho de pétalo (PTW), color del pétalo (PTC), longitud del pistilo (PSL), tipo de fruto (FRT), tamaño del fruto (longitud del segmento superior (LUP) y longitud del segmento inferior (LLW) y número de semilla (SN)). Las características de las hojas se clasificaron de 1 a 10, siendo 1 hojas con márgenes enteros, 10 hojas con los márgenes pinnatificados más profundamente y las intermedias clasificadas por graduaciones entre estos extremos (Fig. 1). Las hojas seleccionadas para la determinación del morfotipo también se utilizaron para medidas de longitud. El tamaño de la fruta se midió por separado para los segmentos superior e inferior y se clasificó en tres modales discriminados: sin cuernos, intermedio y con cuernos cuantificados como una serie de 0, 1 y 2, respectivamente (Fig. 2). Longitud de hoja, longitud de pétalo y ancho, longitud del pistilo y el tamaño de la fruta se midió con un calibre electrónico. Las medidas de color y tamaño se realizaron en un pétalo elegido al azar de cada individuo.

Fig. 1. Morfotipos de hojas en Cakile organizados como una secuencia estándar, 1–10, para la evaluación de campo de la variación de hojas.

Fig. 2. Siliculas modales de Cakile (0: fruto sin cuernos 1: fruto intermedio 2: fruto con cuernos).

(iv) Análisis de datos

Se realizó un análisis de varianza anidado (ANOVA) que incluía la población y la familia (anidadas dentro de la población) como efectos aleatorios para cada rasgo cuantitativo. El nivel de diferenciación de la población en los rasgos cuantitativos se midió con Qst (Spitze, Reference Spitze 1993), que es análogo a Fst medido usando loci de marcadores de aloenzimas. Para estimar Qst, δB 2 se obtiene directamente de la varianza poblacional δpag 2, es decir, (δB 2 = δpag 2), mientras que la varianza familiar δF 2 tiene que convertirse en δw 2 por multiplicación con un coeficiente (C) que depende de la relación de los individuos dentro de las familias (δw 2 =CδF 2). Para medios hermanos, hermanos completos e individuos clonados, C es 4, 2 y 1 (bajo el supuesto de no dominancia y epistasis), respectivamente. Cuando las poblaciones están en desequilibrio de Hardy-Weinberg (Fis ≠ 0), el nivel de diferenciación en rasgos cuantitativos podría expresarse como: (Yang et al., Referencia Yang, Yeh y Yanchukt 1996) donde Qst tiene la expresión (Spitze, Referencia Spitze 1993) y otras (Lande, Referencia Lande 1992 Latta, Referencia Latta 2004).

V W se estima que es cuatro veces el componente de varianza entre familias V fam bajo el supuesto de que los efectos maternos eran débiles y que dentro de las familias de polinización abierta estaban emparentados como medios hermanos (Yang et al., Referencia Yang, Yeh y Yanchukt 1996), mientras V B es simplemente el componente de varianza entre poblaciones. Los valores aproximados de error estándar (SE) de Qst se obtuvieron mediante la técnica "delta" (Stuart & amp Ord, Reference Stuart y Ord 1987). Este método, utilizado por Podolsky & amp Holtsford (Referencia Podolsky y Holtsford 1995), proporciona estimaciones SE fiables de los componentes de la varianza genética para establecer límites de confianza (CL) a los parámetros genéticos (Hohls, Referencia Hohls 1996).

(v) Experimento de aloenzimas

Para el análisis de aloenzimas, se utilizó una encuesta de electroforesis para estimar la variabilidad genética dentro y entre C. maritima poblaciones. Se recolectaron aproximadamente 200 mg de tejido foliar de cada planta (1 mes de edad), se trituraron en nitrógeno líquido y se mezclaron con 100 μl de tampón de extracción (tampón de trituración de PVP-fosfato de potasio, pH 7), como describió Thrall et al. (Referencia Thrall, Andrew y Burdon 2000), y se centrifugaron a 19 000 gramo durante 20 min. El material molido se absorbió en mechas de papel de filtro Whatman 3MM y se almacenó en un congelador ultrafrío (-70 ° C) hasta el análisis. Se realizó electroforesis horizontal en gel de almidón para siete sistemas enzimáticos que revelaron un mínimo de 13 loci: peroxidasa (Px EC 1.11.1.7), isocitrato deshidrogenasa (IDH EC 1.1.1.42), glutamato oxaloacetato transaminasa (GOT EC 2.6.1.1), shikimate deshidrogenasa (SDH EC 1.1.1.25), leucina aminopeptidasa (LAP EC 3.4.11.1), 6-fosfogluconato deshidrogenasa (6-PGD EC 1.1.1.44) y malato deshidrogenasa (MDH EC 1.1.1.37). Las composiciones de tampones de gel y electrodos se describieron en Soltis et al. (Referencia Soltis, Haufler, Darrow y Gastony 1983) y los métodos utilizados para teñir las bandas de aloenzimas se describieron en Michaud. et al. (Referencia Michaud, Lumaret y Romane 1992) para Px y en Cardy et al. (Referencia Cardy, Stuber y Goodman 1980) para IDH, GOT, LAP, SDH, 6-PGD y MDH. Para el ácido fosfatasa (ACPH EC 3.1.3.2), se prepararon geles de poliacrilamida de zona vertical siguiendo Laemmli (Referencia Laemmli 1970) y se tiñeron de acuerdo con Selander et al. (Referencia Selander, Smith, Yang, Johnson y Gentry 1971). Los loci se numeraron secuencialmente con el locus de mayor migración anódica designado como locus 1. La interpretación genética para todos los loci fue sencilla.

(vi) Análisis de datos

En cada uno de los 13 loci estudiados en C. maritima, las frecuencias genotípicas y alélicas se evaluaron a partir de una encuesta de fenogramas en gel. Se calcularon tres coeficientes, que miden la variación genética, utilizando BIOSYS-1: (i) el porcentaje de loci polimórficos (PAG) utilizando el criterio 0 · 95 (un locus se considera polimórfico si el alelo más común tiene una frecuencia inferior al 95% en todas las poblaciones analizadas) (ii) el número medio de alelos por locus (A) y (iii) la heterocigosidad esperada (He) en el equilibrio de Hardy-Weinberg (Nei, Referencia Nei 1978). Estos tres coeficientes se estimaron para cada una de las poblaciones muestreadas. A continuación, se calcularon la media y la desviación estándar de los coeficientes mencionados anteriormente para todas las poblaciones muestreadas. La estructura genética dentro y entre las poblaciones también se evaluó utilizando el método de Wright (Referencia Wright 1965) F-estadísticas Fit, Fis y Fst. Se probó la frecuencia de heterocigotos para cada locus polimórfico en cada población para detectar una desviación significativa de las expectativas de Hardy-Weinberg con un análisis χ 2 (Li & amp Horvitz, Reference Li y Horvitz 1953) (BIOSYS-1). La estimación de Nm (el número de migrantes por generación) se basó en Fst (Wright, Reference Wright 1951) (Genetix 4.02). Para probar si las diferencias genéticas de las poblaciones siguieron el modelo de aislamiento por distancia, establecimos la relación entre los valores de la diferencia genética Fst entre pares de poblaciones y su distancia geográfica utilizando la prueba de Mantel (Genetix 4.02). Para examinar la distancia genética y la distancia geográfica, se realizaron los análisis de agrupamiento UPGMA (BIOSYS-1).

(vii) Correlación matricial

La asociación entre matrices morfológicas, genéticas, de velocidad de la corriente marina y de distancia geográfica se examinó con la prueba de Mantel (1967). La prueba de Mantel utiliza permutaciones aleatorias de filas y columnas de la matriz para probar si las correlaciones entre las matrices de distancia son mayores de lo esperado por azar (Sokal & amp Rohlf, Reference Sokal y Rohlf 1995). Comparamos matrices de distancia genéticas y morfológicas entre sí con matrices geográficas individualmente y luego comparamos Nm estimado a partir de Fst y Qst con la velocidad de la corriente del mar. La población por pares de la velocidad de la corriente del mar se midió utilizando la deriva del barco. La medición de la deriva del barco de la velocidad de la corriente superficial consiste en la diferencia vectorial entre la velocidad de un barco determinada a partir de dos posiciones fijas y la velocidad promedio estimada del barco a través del agua durante el mismo intervalo de tiempo, generalmente de 12 a 24 h. Se considera que la diferencia vectorial se debe a una corriente superficial. La ausencia de conexión se marcó como 0.

(viii) Pruebas de asignación

Para probar si las corrientes marinas, como se describe en la Fig. 5, impulsan la dirección del flujo de genes, será interesante utilizar las pruebas de asignación. Estos métodos son herramientas sólidas para detectar eventos de inmigración recientes incluso cuando la diferenciación general de la población es baja (Rannala & amp Mountain, Reference Rannala and Mountain 1997 Waser & amp Strobeck, Reference Waser y Strobeck 1998 Castric & amp Bernatchez, Reference Castric y Bernatchez 2004). De hecho, las pruebas de asignación son particularmente útiles para rastrear la dinámica contemporánea de las poblaciones naturales sin requerir supuestos de equilibrio basados ​​en procesos genéticos a largo plazo (Manel et al., Referencia Manel, Gaggiotti y Waples 2005). Dado que el patrón de clasificación errónea de los individuos dentro de una población se puede utilizar para determinar la dirección de la migración, las pruebas de asignación podrían ser un método útil para examinar la influencia de las corrientes marinas en el flujo de genes. La probabilidad de que un individuo muestreado dentro de una población determinada sea un migrante procedente de otra población se determinó mediante un método bayesiano (software Geneclass2) (Piry et al., Referencia Piry, Alapetite, Cornuet, Paetkau, Baudouin y Estoup 2004).


Discusión

Los enfoques de agrupamiento permiten la partición de una muestra de individuos en grupos genéticamente distintos sin un a priori definición de estos grupos. La mayoría de los avances recientes en la metodología de agrupamiento se han realizado utilizando modelos estadísticos bayesianos [3, 20, 5, 21, 22]. Los métodos bayesianos asignan a los individuos a grupos según sus genotipos y la suposición de que los marcadores están en Hardy-Weinberg y en equilibrio de enlace dentro de cada subpoblación.

En este estudio se utilizó un nuevo método para inferir la estructura oculta en una población, basado en la maximización de la distancia genética y sin hacer ningún supuesto sobre HWE y LE, y mostramos que arroja un buen desempeño bajo diferentes escenarios simulados y con un conjunto de datos reales. Por tanto, podría ser una herramienta útil para determinar grupos genéticamente homogéneos, especialmente en aquellas situaciones en las que el número de conglomerados es elevado, con una estructura poblacional compleja y donde están presentes HWD y / o LD.

Los resultados de la simulación indican que el método BAPS es el menos preciso, ya que necesitaba una gran cantidad de marcadores genotipados para alcanzar la partición correcta, especialmente cuando la población había alcanzado el equilibrio mutación-migración-deriva. Para los escenarios original / básico, los rendimientos de MGD y STRUCTURE fueron similares (buenos) cualquiera que sea el parámetro de comparación, aunque el nuevo método presentó una ligera ventaja (ver Tabla 3 y Figura 2).

Hemos demostrado que las desviaciones de los supuestos implícitos en los métodos bayesianos sobre Hardy-Weinberg y el equilibrio de vinculación dentro de las poblaciones afectan su precisión, especialmente para BAPS, lo que lleva a un número sobreestimado de agrupaciones y una proporción reducida de agrupaciones correctas. Estas observaciones están de acuerdo con Kaeuffer et al. [35] quienes han demostrado que un valor alto del coeficiente de correlación LD aumenta la probabilidad de detectar agrupaciones espúreas con STRUCTURE. La asignación al azar de alelos (y también la asignación al azar de genotipos y haplotipos hasta cierto punto) restablece tanto HWE como LE. En estas situaciones, los dos métodos evalúan correctamente el número de agrupaciones y dan una mayor proporción de agrupaciones correctas. Por el contrario, la MGD es más precisa en situaciones de desequilibrio y su desempeño no cambia significativamente después de la aleatorización, lo que demuestra la independencia del método novedoso de la existencia o no de HWE y LE. A partir de los resultados presentados aquí, una alternativa para probar la precisión de los resultados de cualquier método de agrupamiento sería comparar los resultados obtenidos después de la aleatorización de la información molecular dentro de cada subpoblación predefinida cuando esta información esté disponible.

La precisión de los tres métodos es excelente para F S Ttan bajo como 0.03. Esto está de acuerdo con los resultados de Latch et al. [10], quienes han demostrado que STRUCTURE y BAPS disciernen la subestructura de la población extremadamente bien en F S T= 0,02 - 0,03. Sin embargo, en nuestras simulaciones solo la ESTRUCTURA determina el número correcto de grupos en F S T= 0,01. No obstante, existe controversia sobre el nivel mínimo de diferenciación necesario para que una población sea considerada genéticamente estructurada. Waples y Gaggiotti [36] han sugerido que si F S Tes demasiado reducidop.ej. F S T= 0.01) entonces probablemente no se pueda asociar con evidencia estadísticamente significativa de desviaciones de panmixia. En estas situaciones, no está claro si la solución más apropiada para MGD (y también las otras metodologías de agrupamiento) es separar diferentes subpoblaciones o mantener las subpoblaciones como una población indiferenciada.

Los escenarios simulados que tienen en cuenta diferentes tasas de autofecundación indicaron tanto un aumento en la diferenciación entre subpoblaciones (es decir. más alto F S Tvalores) y un aumento en el desequilibrio de Hardy-Weinberg (F ESpasa de 0,01 a 0,81). Sin embargo, el aumento de F S TLos valores (de 0,27 a 0,42) no son tan grandes como los del F ESvalores que indican que el desequilibrio de Hardy-Weinberg no puede ser enmascarado por el efecto del nivel de diferenciación. Además, el aumento de F S TLos valores deben ayudar a distinguir los diferentes grupos y, por lo tanto, el HWD debe alcanzar al menos el límite más bajo de su efecto.

Nuestros resultados obtenidos con el método MGD del conjunto de datos humanos son, en general, similares a los obtenidos con STRUCTURE [34] y también concuerdan con un estudio más reciente de 525910 SNP [37], aunque existen algunas discrepancias con los resultados de Li et al. [38] utilizando 650000 SNP. Rosemberg et al. [34] han indicado múltiples soluciones de agrupamiento para K = 7 con ESTRUCTURA. Sin embargo, los resultados obtenidos con MGD para K = 7 están en completo acuerdo con las siete regiones geográficas. Una inspección cuidadosa de los resultados detecta grupos donde los individuos agrupados tienen múltiples fuentes de ascendencia, especialmente aquellos en el Medio Oriente y Asia Central y del Sur. Esta situación (es decir. la ascendencia mixta estimada) podría deberse a una mezcla reciente oa una ascendencia compartida antes de la divergencia de dos poblaciones, pero sin un flujo de genes posterior entre ellas. Se ha indicado que la variación genética humana global está muy influenciada por la geografía [39-41]. Además, Serre y Pääbo [42] han indicado que las agrupaciones obtenidas por Rosenberg et al. [34] han sido generados por muestreo heterogéneo y que estos desaparecerían si se analizaran más poblaciones.

En este estudio, se ha considerado un modelo de isla simple con tamaños de población constantes y migración simétrica invariante, lo cual es poco probable en sistemas naturales. El rendimiento de STRUCTURE ha sido evaluado recientemente [23] mediante la simulación de varios escenarios de dispersión y parece funcionar bien con estructuras de población más complejas que el modelo de isla finita (modelo de isla jerárquica, modelo de zona de contacto). En este estudio, el desempeño del método MGD fue mejor que el de los enfoques bayesianos en los escenarios simulados con un mayor número de conglomerados y una estructura poblacional más compleja. Sin embargo, se requieren más investigaciones para determinar la capacidad del método MGD para hacer frente a otros tipos de estructura de población.

El tiempo de cálculo puede ser una limitación del nuevo método, especialmente cuando se trata de grandes cantidades de marcadores.Sin embargo, debe tenerse en cuenta que el análisis de agrupamiento no se realiza con mucha frecuencia y, por lo general, los resultados no se necesitan con urgencia. Por lo tanto, puede valer la pena esperar los resultados obtenidos con el método más preciso.

Si la distancia genética calculada a partir de la coancestría molecular se ha evaluado como una alternativa, entonces el uso de otras distancias genéticas previamente publicadas en la literatura [24] podría investigarse como el parámetro para maximizar tanto los marcadores moleculares codominantes como los dominantes. Además, la distancia mínima de Nei [25] podría ser inadecuada cuando se trabaja con varios marcadores, por ejemplo, al mezclar datos obtenidos con marcadores con diferentes niveles de heterocigosis (p.ej. mezcla de datos de microsatélites y SNP). Además, también podría implementarse un procedimiento de ponderación [43, 44] teniendo en cuenta el tamaño de la subpoblación, el número de loci o el número de alelos. No obstante, la naturaleza del nuevo método (es decir. la maximización de la distancia genética) permite el uso de cualquier medida que pueda ajustarse mejor a los datos moleculares disponibles, más allá de la distancia Nei.

La informatividad de los marcadores tiene un efecto claro sobre la eficiencia de los métodos de agrupamiento, especialmente para BAPS. Aumentar el número de marcadores (escenario 1 frente a 2, 3 frente a 4, 5 frente a 6 y 7 frente a 8) casi siempre produce mejores resultados: el número correcto de conglomerados se estima en más casos y el porcentaje de agrupaciones correctas es más alto. Paralelamente, al comparar un número similar de marcadores pero con diferentes grados de polimorfismo (escenario 2 vs.5, microsatélites vs SNP) los marcadores bialélicos arrojan peores rendimientos. No obstante, cuando se utiliza un número razonable de marcadores (50 microsatélites y 300 SNP), MGD y STRUCTURE, al menos, proporcionan una alta precisión. Sin embargo, al comparar los resultados obtenidos con STRUCTURE, sorprende que este método mostrara menos precisión con 10 microsatélites que con 50 microsatélites.

Aunque en el presente trabajo el método ha sido desarrollado para marcadores codominantes, cualquiera que sea el enfoque (coancestría molecular o frecuencias alélicas), la metodología también puede extenderse fácilmente a marcadores moleculares dominantes reemplazando la matriz de coancestría molecular con una matriz de cualquiera disponible. medida de similitud para los marcadores dominantes [45] o estimando las frecuencias alélicas de los recesivos (ver [46] y sus referencias) y luego usando las distancias genéticas típicas.

La presente formulación del método no explica explícitamente la presencia de individuos mezclados. Para hacerlo, se debe dar un conjunto diferente de probabilidades a cada locus en cada individuo (en el enfoque de frecuencias alélicas) permitiendo que cada locus se asigne a diferentes grupos. El aumento en el tiempo de cálculo y la capacidad del algoritmo de optimización para tratar con un espacio más grande de soluciones merecen más investigaciones.

Un archivo compilado del código utilizado para inferir el número de conglomerados y la asignación de los individuos a cada conglomerado en una muestra dada de la matriz de coancestría molecular o las frecuencias alélicas estará disponible en el sitio web http: //www.uvigo. es / webs / c03 / webc03 / XENETICA / XB2 / Jesus / Fernandez.htm.


RESULTADOS

Detección de hibridación con métricas de diversidad genética poblacional frente a ecología comunitaria

De las cuatro métricas genéticas poblacionales y los tres índices de diversidad de especies, todos calculados utilizando un enfoque multilocus, solo uno (Hnorte) detectaron un cambio en la diversidad genética en poblaciones híbridas (Fig. 1). En relación con las poblaciones de remolacha marina silvestre, las poblaciones híbridas exhibieron estadísticamente significativamente mayor Hnorte (Mann & # x02013Whitney U = 16, z = & # x022122.09, PAG = 0,037). Sin embargo, no detectamos diferencias en otras métricas multilocus de diversidad genética, incluido el porcentaje de loci polimórficos (U = 40, z = 0.04, PAG = 0,10), número de alelos por locus polimórfico (U = 40, z = 0.04, PAG = 0,10), número total de alelos (U = 30, z = & # x022120.84, PAG = 0,40), Shannon & # x02013Weiner & # x02019s H (U = 23, z = & # x022121.47, PAG = 0,14), Simpson & # x02019s D (U = 26, z = & # x022121.20, PAG = 0,23) o McIntosh & # x02019s mi (U = 47, z = & # x022121.41, PAG = 0.16).

En contraste con los resultados de multilocus, las comparaciones de un solo locus utilizando métricas de diversidad de especies fueron más informativas. En relación con las poblaciones silvestres de remolacha marina, las poblaciones híbridas exhibieron una mayor diversidad de Shannon & # x02013Weiner (H, en 11 de 12 loci, prueba de signos: PAG = 0.003, por ejemplo, Fig.2), Simpson & # x02019s más grande D (en 10 de 12 loci, P = 0.02) y McIntosh & # x02019s más grandes mi valores (en 11 de 12 loci, PAG = 0,003). Además, las comparaciones de diversidad de un solo locus utilizando métricas genéticas de poblaciones tradicionales fueron menos sensibles que las métricas de ecología comunitaria a los cambios en la diversidad o composición de los alelos. En relación con las poblaciones silvestres de remolacha marina, las poblaciones híbridas exhibieron más alelos (en 10 de 12 loci, PAG = 0.02), pero las poblaciones híbridas no difirieron significativamente de las poblaciones silvestres en el porcentaje de loci polimórficos (disminuyó en nueve de 12 loci, PAG = 0.073) o número de alelos por locus polimórfico (aumentado en ocho de 12 loci, PAG = 0.19).

Estimaciones de diversidad media de Shannon & # x02013 Weiner de un solo locus para 12 loci (líneas separadas) promediadas en 10 salvajes u ocho híbridos putativos Beta vulgaris subsp. maritima poblaciones. Los 12 loci se representan aquí con abreviaturas: AAT (aspartato aminotransferasa, EC 2.6.1.1), ACO (aconitasa EC 4.2.1.3), GDH (glutamato deshidrogenasa EC 1.4.1.2), LAP (leucina aminopeptidasa EC 3.4.11.1), MDH1, MDH2 (NAD + malato deshidrogenasa EC 1.1.1.37), PGM1, PGM2 (fosfoglucomutasa EC 5.4.2.2), SKD (shikimato deshidrogenasa EC 1.1.1.25), TPI1, TPI2 (triosa fosfato isomerasa EC 5.3.1.1) y UDP (uridina difosfoglucosa pirofosforilasa EC 2.4.1.1). Las estimaciones de error no se muestran para mayor claridad.

Las consecuencias de la hibridación para la diversidad genética

En los 12 loci, las supuestas poblaciones híbridas de remolacha poseían solo una cuarta parte de los alelos raros que se encuentran en las poblaciones silvestres (& # x003c7 2 = 22.5, df = 1, PAG & # x0003c 0,001 Figura 3). Según el coeficiente de similitud de Jaccard, las poblaciones híbridas eran un 10,8% (& # x000b1SE = 0,6%) más similares a los cultivares de acelga que a las poblaciones silvestres (una muestra t prueba: t = 18.66, df = 47, PAG & # x0003c 0,001). Además, las poblaciones híbridas eran un 3,7% (& # x000b1SE = 1,1%) más similares a los cultivares de remolacha azucarera que las poblaciones silvestres (t = 3.45, df = 47, PAG = 0,001). Finalmente, según las comparaciones pareadas, las poblaciones híbridas fueron significativamente más similares a las acelgas que a los cultivares de remolacha azucarera (pares t prueba: t = & # x022126.62, df = 47, PAG & # x0003c 0,001).

Número medio de alelos que no contribuyen significativamente a la diversidad genética (es decir, alelos raros, & # x000b1SE) por locus estimado para 12 loci de aloenzimas promediados en 10 salvajes u ocho híbridos putativos Beta vulgaris subsp. maritima poblaciones.


Resultados y discusión

Para ilustrar la aplicabilidad de nuestro enfoque, lo aplicamos a dos conjuntos de datos publicados anteriormente que se analizaron en [37] y [17], respectivamente.

Datos del escarabajo

El primer conjunto de datos se utilizó como parte de un estudio filogeográfico de la especie de escarabajo. Brachyderes rugatus rugatus en La Palma (Islas Canarias) [37]. En este estudio se tomaron muestras de 138 escarabajos individuales. Las 18 ubicaciones de muestreo se muestran en la Figura & # x200B Figura 3. 3. Utilizando datos de secuencia del gen COII mitocondrial (para más detalles, véase [37]), las 138 muestras se agruparon posteriormente en 69 haplotipos, y se construyó una filogenia de haplotipos basada en el criterio de parsimonia utilizando el programa TCS [38]. Esta filogenia se presenta en la Figura & # x200B Figura 4 4.

Lugares y regiones de muestreo para datos de escarabajos. Un mapa de La Palma con ubicaciones de muestreo indicadas por puntos negros [37]. Los lugares de muestreo donde se encontraron los haplotipos de un filogrupo particular (véase la Figura 4) están representados por las curvas de trazos. Tenga en cuenta que el lugar de muestreo Altos de Jedey es el único en el que se encontraron haplotipos de dos flogrupos distintos (a saber, 1 y 2). Los seis grupos de ubicaciones de muestreo correspondientes a las seis regiones R1, R2, . R6 también se indican en el texto.

Filogenia de haplotipos para datos de escarabajos. La red de haplotipos presentada en [37] para los haplotipos recogidos en La Palma. Tenga en cuenta que todos los bordes tienen una longitud 1. Los puntos de colores (negro, rojo y verde) representan los haplotipos muestreados y los puntos blancos intermedios hipotéticos. Los recuadros punteados corresponden a los tres flogrupos, 1-3, identificados en [37]. Los haplotipos encontrados en la región R2 están resaltados en rojo, los que se encuentran en R6 en verde y los que se encuentran en R3 se indican mediante círculos azules.

De acuerdo con esta filogenia, los haplotipos se dividieron en 3 filogenia, como se indica en la filogenia y en la Figura & # x200B Figura 3. 3. Sobre la base de estas agrupaciones se concluyó Brachyderes rugatus rugatus que (i) hay una región de contacto secundario, o crisol, en el sur de la isla en la superposición de las regiones 1 y 2, y (ii) que hay una región ancestral o un punto caliente en la región que contiene las tres ubicaciones de muestreo en la parte superior derecha de la región 2. Tenga en cuenta que en [37] el apoyo a la conclusión (i) se proporcionó al realizar la prueba dada en [8] para detectar zonas de contacto secundario, que esencialmente implica el cálculo de la distancia promedio entre los centros geográficos de clados en niveles crecientes de anidación en una filogenia sobre los haplotipos de interés.

Para investigar si nuestro nuevo método apoyó las conclusiones (i) y (ii) o no, primero agrupamos las ubicaciones de muestreo en 6 regiones R1, . R6 como se muestra en la Figura & # x200B Figura 3. 3. Usamos estas regiones en lugar de los lugares de muestreo individuales, ya que el número de muestras tomadas en cada lugar era muy pequeño (entre 2 y 8). Al formar los grupos, las ubicaciones geográficamente cercanas se agruparon. También consideramos otras agrupaciones en función de la proximidad geográfica (datos no mostrados) y el resultado fue similar, aunque menos pronunciado cuando se redujo el número de agrupaciones (la menor cantidad de agrupaciones utilizadas fue 3). Luego medimos la diversidad (usando la medida PD) y conectividad de haplotipos para los haplotipos encontrados en cada región RIen relación con las distancias filéticas dadas por la filogenia en la Figura & # x200B Figura 4, 4, como se describe en la sección de Métodos.

Los resultados para las 6 regiones se resumen en la Tabla & # x200B Tabla 1. 1. En esta tabla, presentamos el tamaño del subconjunto Y de haplotipos encontrados en la región (columna 2), los valores PD(Y), PDmin(|Y|), PDmax(|Y|) (columnas 3-5) y la puntuación de diversidad normalizada PD*(Y) (columna 6) como se define en la sección de Métodos. Del mismo modo, presentamos los valores HC(Y), HCmin(|Y|), HCmax(|Y|) y HC*(Y) (columnas 7-10).

Tabla 1

RegiónNúmero de haplotipos en la regiónDiversidadConectividad de haplotipos
PDPDminPDmaxPD*HCHCminHCmaxHC*
R6214725870.35143250.50
R3112810670.32161270.58
R2183320810.2173250.18
R47146550.1651270.15
R5182920810.1553250.09
R15104480.1471280.22

Puntuaciones de diversidad y conectividad de haplotipos para las regiones geográficas de La Palma indicadas en la Figura 3, clasificadas de acuerdo con puntuaciones de diversidad filogenética normalizadas, PD*, como se define en el texto principal. Las columnas etiquetadas con PDmin, PDmax, HCmin y HCmax contienen la puntuación mínima / máxima de todos los subconjuntos que contienen el mismo número de haplotipos que se encuentran en la región.

Como puede verse en Table & # x200B Table1, 1, las dos regiones con el mayor PD* la puntuación es R6 y R3, que también tienen una mayor HC* puntuación que cualquiera de las otras cuatro regiones. Esto apoya la conclusión (i), es decir, que R6 es probablemente un crisol. De hecho, en la Figura & # x200B Figura 4 4 los haplotipos encontrados en la región R6 están resaltados en verde y se puede ver que se agrupan en dos grupos. Esto también indica por qué obtuvimos un alto HC* puntuación para esta región. Del mismo modo, el alto PD * y HC * puntuaciones para la región R3 sugiere que esta región también es un crisol, una conclusión que es consistente con los hallazgos en [37] donde se sugiere que en R3 las expansiones de la cordillera hacia el sur y el noroeste se superpusieron parcialmente.

Con respecto a la conclusión (ii), vemos que entre las regiones restantes R2 claramente tiene el más alto PD * puntaje y mucho más bajo HC * puntuación que R6 y R3. Este patrón de puntuaciones, es decir, una diversidad relativamente alta y una conectividad de haplotipos baja, apoya más un escenario de puntos calientes que un escenario de crisol, de acuerdo con la conclusión (ii). Examinando la Figura & # x200B Figura 4, 4, vemos que los haplotipos en R2 (resaltados en rojo) están relativamente dispersos sobre la filogenia del haplotipo, de ahí la baja puntuación de conectividad del haplotipo.

Datos de pino

El segundo conjunto de datos que consideramos formó parte de un estudio de la historia filogeográfica de la especie. Pinus pinaster alrededor del Mediterráneo [17]. Se tomaron muestras de 10 ubicaciones como se indica en la Figura & # x200B Figura 5. 5. Los datos de secuencia que constan de nueve marcadores de repetición de secuencia simple de cloroplasto dieron lugar a 34 haplotipos diferentes (para más detalles, véase [17]). Para estos 34 haplotipos, se calculó una matriz de distancia utilizando la diferencia haplotípica por pares (es decir, para dos haplotipos cualesquiera, la suma de la diferencia entre el tamaño del alelo sobre los nueve loci).

Lugares de muestreo para datos de pino. Lugares de muestreo para el conjunto de datos en [17].

Para comprender la estructura filogeográfica de estos datos, en [17] la distribución de frecuencias de las distancias por pares entre haplotipos, a veces también llamado espectro de diversidad genética (GDS) [12], se calculó. Hemos vuelto a calcular esto y representamos el resultado en la Figura & # x200B Figura 6. 6. En particular, en base a consideraciones, como la forma del GDS para las ubicaciones de Landes y Pantelleria, se planteó la hipótesis de que Landes y Pantelleria son puntos calientes, aunque también se afirmó que la hipótesis de que son ollas de fusión no podría ser excluido [[17], p.462]. De hecho, en un estudio filogeográfico ampliado más reciente de Pinus pinaster [39] Se llegó a la conclusión de que era más probable que las Landas fueran un crisol.

Espectro de diversidad genética. El espectro de diversidad genética (GDS) para (a) la ubicación de las Landas y (b) la ubicación de Pantelleria en la Figura 5. Para cada distancia posible, se representa el número de pares de haplotipos que están separados por esa distancia.

Usando la misma matriz de distancia, calculamos las puntuaciones de conectividad de diversidad y haplotipo para cada una de las 10 ubicaciones de muestreo como se explica en la sección de Métodos (usando la medida ANUNCIO por la diversidad). Estos se presentan en la Tabla & # x200B Tabla2. 2. Tenga en cuenta que, a diferencia de [17], nuestras puntuaciones no tienen en cuenta la frecuencia con la que se encontró un haplotipo en una ubicación en particular, sino más bien qué haplotipos se encontraron.

Tabla 2

Lugar de muestreoNúmero de haplotipos en la regiónDiversidadConectividad de haplotipos
ANUNCIOANUNCIOminANUNCIOmaxANUNCIO*HCHCminHCmaxHC*
Landas62.450.337.140.3161100.56
Pantelleria91.670.375.660.2531100.22
Leiria80.730.366.060.0611100.00
Cerdeña90.700.375.660.0621100.11
Marruecos80.690.366.060.0611100.00
Córcega80.680.366.060.0611100.00
Liguria50.640.318.060.0421110.10
Moncao60.330.337.140.0011100.00
Toscana50.310.318.060.0011110.00
Alcacier50.310.318.060.0011110.00

Puntuaciones de diversidad y conectividad de haplotipos para las ubicaciones de muestreo que se muestran en la Figura 5, clasificadas de acuerdo con la puntuación de diversidad de distancia cuadrática promedio normalizada (ANUNCIO*). Las columnas etiquetadas con ANUNCIOmin, ANUNCIOmax, HCmin y HCmax contienen la puntuación mínima / máxima de todos los subconjuntos que contienen el mismo número de haplotipos que se encuentran en la región.

Como puede verse en Table & # x200B Table2, 2, las dos ubicaciones con mayor ANUNCIO* las puntuaciones de diversidad son Landes y Pantelleria. En vista de HC* puntuaciones para estas ubicaciones, esto respalda el escenario del crisol, especialmente para la ubicación de las Landas. Tenga en cuenta que la bimodalidad del GDS para la ubicación de las Landas también es indicativa de dos grupos de haplotipos que tienen distancias internas bajas y distancias altas entre los grupos, lo que también podría considerarse como una firma que respalda un escenario de crisol. Sin embargo, la forma del GDS para la ubicación de Pantelleria es algo menos distintiva y, por lo tanto, al menos en este caso, el enfoque de conectividad del haplotipo proporciona información adicional útil.


Conceptos y Definiciones

Comencemos con una breve revisión sobre la diversidad de especies (alias diversidad comunitaria, biodiversidad o diversidad ecológica) para explicar los dos elementos esenciales del concepto de diversidad en general, lo que debería facilitar la introducción de nuestras medidas de diversidad y similitud de SNP a continuación. La diversidad de especies se refiere a la diversidad ecológica de especies en una comunidad ecológica, pero el concepto de diversidad es igualmente aplicable a la diversidad genética (p.ej. Nei 1973, Wehenkel et al., Bergmann et al.) 13,23,24 u otras entidades como la diversidad metagenómica (Ma y Li) 20. Conceptualmente, la diversidad posee dos elementos esenciales: la variedad y el variabilidad de variedades (Gaston Chao et al.) 10,25. Por ejemplo, los dos elementos de la diversidad de especies son las especies (variedad) y la variabilidad de la abundancia de especies. Para cuantificar el concepto de diversidad de especies, se examina una comunidad (generalmente por muestreo), cuenta las abundancias de cada especie en la comunidad y obtiene pagI = (la abundancia relativa de especies I) = (el número de individuos de especies I) / (el total de individuos de todas las especies en la comunidad), y también cuenta el número de especies en la comunidad (S). El conjunto de datos de dicha encuesta (muestreo) es un vector de abundancia de especies en forma de (pag1, pag2, …, pagI, …pags). Para tal vector de abundancias relativas (frecuencias), un enfoque para caracterizarlo es ajustar una distribución estadística, que se conoce como distribución de abundancia de especies (SAD) en ecología comunitaria. Los SAD más utilizados incluyen distribuciones log-series, log-normal y de ley de potencias. Una propiedad común de los SAD es que son distribuciones de cola larga y muy sesgadas, pero rara vez siguen la distribución normal o la distribución uniforme.En cambio, el SAD está altamente agregado (sesgado o no aleatorio), al igual que la distribución SNP no aleatoria mencionada anteriormente en la sección de introducción. Aunque el SAD describe completamente la frecuencia de abundancia de las especies y, por lo tanto, captura de manera adecuada todas las características de la diversidad de especies, el uso de un SAD para medir la diversidad no presenta medidas intuitivas para sintetizar los dos elementos de la diversidad (es decir., variedad y variabilidad). Un enfoque alternativo para ajustar el SAD es utilizar varias métricas de diversidad (también conocidas como medidas o índices). Se han propuesto numerosas métricas de diversidad para medir la diversidad de especies, siendo la entropía de Shannon la más conocida.

Las métricas de diversidad pertenecen a las denominadas agregar funciones, que combinan varios valores en un solo valor (Beliakov et al., James) 6,7. La media aritmética (promedio) es la función de agregación más comúnmente utilizada, pero es una métrica bastante pobre para medir la diversidad debido a la distribución altamente no aleatoria de la abundancia de especies. En cambio, la función de agregación basada en entropía es adecuada para medir la diversidad. La primera y también una de las métricas de diversidad basada en entropía más utilizadas es la entropía de Shannon, que se atribuyó a Claude Shannon, el cofundador de la teoría de la información (Shannon, Shannon y Weaver) 8,26, pero Shannon nunca había estudiado la propia biodiversidad. Lo que sucedió fue que los ecólogos tomaron prestada la idea de la teoría de la información de Shannon, en la que la entropía de Shannon mide el contenido de la información o la incertidumbre en los sistemas de comunicación. Por supuesto, la entropía de Shannon es suficientemente general para medir la biodiversidad porque la diversidad es esencialmente heterogeneidad, y tanto la heterogeneidad como la incertidumbre pueden medirse mediante el cambio de información. es decir., la información reduce la incertidumbre.

Usando la entropía de Shannon como ejemplo, la diversidad de especies (H), con mayor precisión la uniformidad de las especies, se puede calcular con la siguiente fórmula,

dónde S es el número de especies en la comunidad, y pagI es la abundancia relativa de cada especie en la comunidad. En términos de variedad-variabilidad noción para definir la diversidad, la variedad es la especie y variabilidad es la abundancia de especies, obviamente. De hecho, la noción de variedad-variabilidad se puede utilizar para definir la diversidad de cualquier sistema (ni siquiera limitado a los sistemas biológicos) que se puede abstraer como los dos elementos de variedad y variabilidad, incluida la diversidad de SNP, como se expone a continuación.

Definiciones de diversidades de SNP

Usando una analogía, un cromosoma que tiene muchos loci es similar a una comunidad ecológica de muchas especies, y cada lugar puede tener un número diferente de SNP. Con la noción de variabilidad de variedad para definir la diversidad, el locus es el variedad (similar a las especies en una comunidad), y el número de SNP en cada locus es el variabilidad (similar a la abundancia de especies en una comunidad). Asumiendo S es el numero de loci con cualquier SNP, y pagI es el relativo abundancia de SNP en el locus I (es decir., el número o abundancia de SNP en el locus I dividido por el número total de SNP de todos los loci), entonces la diversidad de SNP se puede medir con la entropía de Shannon (Ec. 1). Estrictamente hablando, SNP también puede denominarse lugar diversidad, ya que lugar es esencialmente el "hábitat" donde residen los SNP. La Figura 1 ilustró conceptualmente la distribución de SNP en un cromosoma específicamente cómo pagI está definido y calculado.

Un diagrama conceptual que muestra la distribución de SNP en un cromosoma con referencia al cromosoma de referencia: el cromosoma es similar a una comunidad ecológica y el número de SNP en un locus de genes es similar a la abundancia de especies en una comunidad ecológica. Por ejemplo, hay tres SNP en el locus del gen 1, asumiendo que el total de SNP en el cromosoma es norte (o 10 mostrados con los primeros 3 genes mostrados), entonces la abundancia relativa de SNP para el gen-1 es igual a 3 /norte (o 3/10 = 0,3 con los 3 genes mostrados). Similar, pag2, pag3,… Se puede calcular. Cuando las abundancias relativas de SNP están disponibles, la diversidad (números de Hill) se puede calcular con base en las definiciones de diversidad [Ecs. (2-15)]. Los códigos R que calculan los perfiles de diversidad alfa, diversidad beta (incluida la similitud) se proporcionan en el OSI.

Aunque la entropía de Shannon se ha utilizado ampliamente para medir la diversidad de especies, un consenso reciente entre los ecologistas es que los números de Hill, que se basan en la entropía general de Renyi, ofrecen las métricas más apropiadas para medir la diversidad alfa y para dividir multiplicativamente la diversidad beta (Chao et al. 2012, 2014, Ellison 2010, Kaplinsky & amp Arnaout) 9,10,12,19. Dadas las ventajas de los números de Hill sobre otros índices de diversidad existentes, creemos que los números de Hill también deberían ser una opción preferida para definir la diversidad de SNP.

Diversidad alfa de SNP

Los números de Hill fueron derivados por Hill (1973) basándose en la entropía general 15,16 de Renyi (1961). Aquí proponemos aplicarlo para definir la diversidad alfa de SNP, es decir.,

dónde GRAMO es el número de loci de genes con cualquier SNP, pagI es la abundancia relativaes decir., los Frecuencia de ocurrencia) de SNP en el locus I, q = 0, 1, 2,… es el pedido número de diversidad de SNP, q D es la diversidad alfa de SNP en el orden de diversidad q, es decir., los números de Hill del q-ésimo orden.

El número de Hill no está definido para q = 1, pero su límite como q Las aproximaciones a 1 existen en la siguiente forma:

El orden de diversidad (q) determina la sensibilidad del número de Hill a la abundancia relativa (es decir., la frecuencia de aparición) de SNP. Cuando q = 0, la frecuencia SNP no cuenta en absoluto y 0 D = G, es decir., los Riqueza de SNP, Similar a riqueza de especies en el concepto de diversidad de especies. Cuando q = 1, 1 D es igual al exponencial de la entropía de Shannon, y se interpreta como el número de SNP con frecuencias típicas o comunes. Por lo tanto, el índice de Shannon es esencialmente un caso especial de números de Hill en orden de diversidad. q = 1. Cuando q = 2, 2 D es igual al recíproco del índice de Simpson, es decir.,

que se interpreta como el número de SNP dominantes o ocurridos con mucha frecuencia. Por lo tanto, los dos índices de diversidad más utilizados, el índice de Shannon y el índice de Simpson, son los casos especiales y, más exactamente, las funciones de los números de Hill.

En general, necesitamos especificar una entidad (unidad o alcance) para definir y medir la diversidad de SNP. Con fines demostrativos en este artículo, elegimos un cromosoma individual como la entidad para definir la diversidad de SNP, similar al uso de la comunidad para definir la diversidad de especies. La interpretación general de la diversidad de orden q es que el cromosoma contiene q D = X loci con igual frecuencia SNP. Tenga en cuenta que la entidad para definir la diversidad de SNP pueden ser otras unidades apropiadas, como la genoma completo de un organismo o segmento de cromosoma.

La diversidad de SNP definida anteriormente mide la diversidad de SNP en una entidad genética individual (como un cromosoma o genoma), similar al concepto de diversidad alfa en la diversidad de especies de la comunidad, y lo denominamos Diversidad alfa de SNP. A continuación, definimos las contrapartes de la diversidad beta y la diversidad gamma de especies en la ecología comunitaria para los SNP, es decir., Diversidad beta de SNP y Diversidad gamma de SNP.

Diversidad gamma de SNP

Mientras que la diversidad alfa de SNP previamente definida tiene como objetivo medir la diversidad de SNP dentro de una entidad genética (como un cromosoma o genoma), la siguiente diversidad de gama de SNP se define para medir la total Diversidad de SNP de agrupados, múltiples (norte) cromosomas de una población (cohorte) de norte diferentes individuos, uno de cada individuo pero con la misma numeración cromosómica.

Asumiendo que hay norte individuos en una población (cohorte), definimos el Diversidad gamma de SNP con la siguiente fórmula, similar a la diversidad gamma de especies en ecología (p.ej., Chao et al. Chiu et al.) 9,10,27 ,

donde ( overline <

_> ) es la frecuencia SNP en el I-th locus (I = 1, 2,…, G) en la población agrupada de norte individuos (denominados norte-población).

Comparando la Ec. (5) para diversidad gamma con Eq. (2) para la diversidad alfa revela que la diversidad gamma son los números de Hill basados ​​en el SNP frecuencia a I-th locus en el norte-población. Similar a Chao et al. 9,10 Chiu et al. 27, derivación para la diversidad gamma de especies en la comunidad ecológica, asumiendo yij es la frecuencia SNP en I-th locus de j-th individuo, yI+ es el valor total de SNP en I-th locus contenido en el norte individuos, y+j es el SNP total de j-th individuo, y++ es el SNP total contenido en norte individuos, pagij es la frecuencia SNP en I-th locus de j-th individuo, wj es el peso del j-th individuo,

se puede deducir fácilmente que,

Plug Eq. (6) para ( overline <

_> ) en la definición de Diversidad gamma de SNP [Eq. (5)], obtenemos las siguientes fórmulas para calcular Diversidad gamma de SNP de norte-población de la siguiente manera:

Diversidad beta de SNP

En ecología comunitaria, hay dos esquemas para definir la diversidad beta: uno es la partición aditiva y otro es la partición multiplicativa de la diversidad gamma en diversidad alfa y diversidad beta supuestamente independientes. Consenso reciente (p.ej., Jost Ellison Chao et al., Gotelli & amp Chao, Gotelli & amp Ellison) 9,10,11,12,28,29 recomendaron el uso de partición multiplicativa. Deje ( (<> ^D _ < alpha> )) y ( (<> ^D _ < gamma> )) son la diversidad alfa y gamma medida con los números de Hill, respectivamente, la diversidad beta se define como:

Adoptamos exactamente la misma partición multiplicativa de los números de Hill en la diversidad de especies para medir la diversidad beta de SNP, excepto que las diversidades alfa y gamma se calculan con la frecuencia de SNP (abundancia relativa), en lugar de con la abundancia de especies.

Esta diversidad beta de SNP ( (<> ^D _ < beta> )) derivada de la partición multiplicativa anterior toma el valor de 1 si todas las comunidades son idénticas, y el valor de norte (el número de individuos en la población) cuando todos los individuos son completamente diferentes entre sí (es decir., sin SNP compartidos).

Aunque la ecuación. (2) define correctamente la diversidad alfa del SNP, se requieren algunas adaptaciones para solicitar la partición de la diversidad gamma con el fin de obtener la diversidad beta con la ecuación. (9). Similar a la derivación para la diversidad alfa de especies como se demostró en Chiu et al. 27, podemos derivar las siguientes fórmulas para la diversidad alfa de SNP en norte- entorno de población, es decir.,

El cálculo de la diversidad beta de SNP se puede realizar con las Ecs. (7-11), es decir., Ecs. (7 y 8) para diversidad gamma, (9) para diversidad beta y (10-11) para diversidad alfa.

Definimos una serie de números de Hill para la diversidad de SNP en diferentes órdenes de diversidad. q = 0, 1, 2,… como Perfil de diversidad SNP, es decir, una serie de números de Hill correspondientes a diferentes niveles de no linealidad ponderados de manera diferente con la distribución de frecuencia SNP.


IMPLICACIONES DE GESTIÓN

Nuestro estudio demuestra que el muestreo genético repetido en escalas de tiempo biológicamente relevantes (por ejemplo, intervalos de 10 generaciones o

5 años para el bilby) permitirá a las partes interesadas evaluar si las prácticas de manejo establecidas son suficientes para mantener la diversidad genética a niveles comparables a los de las poblaciones ancestrales. Donde la pérdida excesiva de heterocigosidad es una preocupación (es decir, la diversidad genética ha caído a un nivel significativamente más bajo que el de los grupos fundadores), la translocación de individuos de poblaciones genéticamente divergentes a una tasa de 1-10 migrantes por 1- 2 generaciones deberían ser suficientes para mitigar los peores efectos de la endogamia, al tiempo que se asegura que el flujo de genes no altere por completo el carácter distintivo genético entre las unidades de manejo individuales. Cuando sea posible, los programas de translocación deben introducir individuos de poblaciones genéticamente divergentes que ocupan entornos y zonas climáticas comparables.

Cuando el número de fundadores es alto, puede ser ventajoso dividir las metapoblaciones cautivas o cercadas de conservación en varias unidades de manejo o subpoblaciones discretas. Aunque esto puede conducir a una pérdida a corto plazo de heterocigosidad a nivel de las unidades de manejo individuales, el cruce de representantes de diferentes subpoblaciones durante o dentro de una generación de translocación debería ser suficiente para restaurar la diversidad genética a los niveles previos a la fragmentación. preservando el potencial adaptativo de la especie en su conjunto. Mantener la metapoblación como una serie de unidades de gestión discretas también garantizará que las reservas genéticas existentes se puedan utilizar para futuras translocaciones, minimizando la probabilidad de eventos de cuello de botella debido al movimiento repetido de individuos de las mismas poblaciones de origen.


Ver el vídeo: Distancia rectilinea y euclidiana (Agosto 2022).