Información

¿Existe alguna prueba de análisis estadístico que pueda realizar que me dé una estimación de la población total a partir de mis propios conjuntos de datos más pequeños?

¿Existe alguna prueba de análisis estadístico que pueda realizar que me dé una estimación de la población total a partir de mis propios conjuntos de datos más pequeños?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Haciendo mi disertación sobre las tendencias a largo plazo en las poblaciones de polillas. Estoy mirando las tendencias de especies específicas. ¿Existe algún método para obtener una estimación de la población total a partir de muestras más pequeñas?


Supongo que está preguntando cómo estimar el tamaño de la población en función de la cantidad de individuos que captura. Sí, hay muchos enfoques para esto. La biblioteca R SPECIES-R ofrece varios métodos para calcular esto. Se describen en el manuscrito SPECIES: An R Package for Species Richness Estimation. Algunos de los métodos descritos son:

  • Chao, A. (1984), Estimación no paramétrica del número de clases en una población, Scandinavian Journal of Statistics, 11, 265-270.
  • Norris, J. L. I. y Pollock, K. H. (1998), MLE no paramétrico para modelos de abundancia de especies de Poisson que permiten la heterogeneidad entre especies, estadísticas ambientales y ecológicas, 5, 391-402.
  • Chao, A. y Bunge, J. (2002), Estimación del número de especies en un modelo de abundancia estocástico, Biometrics, 58, 531-539.

y muchos más.


Conjuntos de datos públicos gratuitos para análisis

Oye, los datos están en todas partes. Probablemente ya lo sabías, ya que es difícil pasarlo por alto cuando está constantemente en las noticias, un campo profesional en crecimiento y las habilidades de datos son cada vez más valiosas en todos los mercados laborales. Sin embargo, los datos no son solo para grandes empresas y no es necesario que recopile sus propios datos para analizarlos. ¡Hay toneladas de conjuntos de datos públicos por ahí!

Si está buscando aprender a analizar datos, crear visualizaciones de datos o simplemente mejorar sus habilidades de alfabetización de datos, los conjuntos de datos públicos son un lugar perfecto para comenzar. A continuación, presentamos algunos conjuntos de datos públicos excelentes que puede analizar de forma gratuita en este momento. Si necesita ayuda para plasmar sus hallazgos en forma, también tenemos artículos sobre blogs de visualización de datos para seguir y los mejores ejemplos de visualización de datos para inspirarse.


¿Cuándo usar una prueba t?

Una prueba t es una de las más populares pruebas estadísticas de ubicación, es decir, se ocupa de los valores medios de la (s) población (es). Existen diferentes tipos de pruebas t que puede realizar:

En la siguiente sección explicamos cuándo usar cuál. Recuerda que un La prueba t solo se puede utilizar para uno o dos grupos. Si necesita comparar tres (o más) medias, utilice el análisis de varianza (ANOVA) método.

La prueba t es una prueba paramétrica, lo que significa que sus datos deben cumplir algunas suposiciones:

Si su muestra no se ajusta a estos supuestos, puede recurrir a alternativas no paramétricas, por ejemplo, la prueba U de Mann & # x2013Whitney, la prueba de rango con signo de Wilcoxon o la prueba de signo.


Grados de libertad: prueba t de 1 muestra

Ahora imagina que no te gustan los sombreros. Te gusta el análisis de datos.

Tiene un conjunto de datos con 10 valores. Si no está estimando nada, cada valor puede tomar cualquier número, ¿verdad? Cada valor es completamente libre de variar.

Pero suponga que desea probar la media de la población con una muestra de 10 valores, utilizando una prueba t de 1 muestra. Ahora tiene una restricción: la estimación de la media. ¿Cuál es esa restricción, exactamente? Por definición de la media, debe cumplirse la siguiente relación: La suma de todos los valores en los datos debe ser igual a norte x significa, donde norte es el número de valores en el conjunto de datos.

Entonces, si un conjunto de datos tiene 10 valores, la suma de los 10 valores debe igual a la media x 10. Si la media de los 10 valores es 3,5 (puede elegir cualquier número), esta restricción requiere que la suma de los 10 valores sea igual a 10 x 3,5 = 35.

Con esa restricción, el primer valor del conjunto de datos puede variar libremente. Sea cual sea el valor, aún es posible que la suma de los 10 números tenga un valor de 35. El segundo valor también puede variar libremente, porque sea cual sea el valor que elija, aún permite la posibilidad de que la suma de todos los valores tiene 35 años.

De hecho, los primeros 9 valores podrían ser cualquier cosa, incluidos estos dos ejemplos:

34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9

Pero para que los 10 valores sumen 35 y tengan una media de 3,5, el décimo valor no poder variar. Debe ser un número específico:

34, -8.3, -37, -92, -1, 0, 1, -22, 99 ----- & gt 10 TH valor debe ser 61,3
0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9 ---- & gt valor de 10 TH debe ser 30,5

Por lo tanto, tiene 10 - 1 = 9 grados de libertad. No importa qué tamaño de muestra utilice o qué valor medio utilice; el último valor de la muestra no puede variar libremente. Terminas con norte - 1 grado de libertad, donde norte es el tamaño de la muestra.

Otra forma de decir esto es que el número de grados de libertad es igual al número de "observaciones" menos el número de relaciones requeridas entre las observaciones (por ejemplo, el número de estimaciones de parámetros). Para una prueba t de 1 muestra, se gasta un grado de libertad en estimar la media y el resto norte - Variabilidad estimada de 1 grados de libertad.

Observe que para tamaños de muestra pequeños (n), que se corresponden con grados de libertad más pequeños (norte - 1 para la prueba t de 1 muestra), la distribución t tiene colas más gruesas. Esto se debe a que la distribución t se diseñó especialmente para proporcionar resultados de prueba más conservadores al analizar muestras pequeñas (como en la industria cervecera). A medida que aumenta el tamaño de la muestra (n), aumenta el número de grados de libertad y la distribución t se aproxima a una distribución normal.


Tipos de análisis estadísticos para grupos independientes y dependientes

Después de elegir el tipo de muestras y realizar el experimento, debe utilizar el análisis estadístico correcto. La tabla muestra pares de análisis relacionados para muestras independientes y dependientes.


Varias notas sobre la mesa.

Si bien los análisis para grupos dependientes generalmente se enfocan en cambios individuales, la prueba de McNemar & rsquos es una excepción. Esa prueba compara las proporciones generales de dos grupos dependientes.

La regresión y el ANOVA pueden modelar muestras independientes y dependientes. Es sólo cuestión de especificar el modelo correcto.


Uso de puntuaciones Z para detectar valores atípicos

Los puntajes Z pueden cuantificar lo inusual de una observación cuando sus datos siguen la distribución normal. Las puntuaciones Z son el número de desviaciones estándar por encima y por debajo de la media en la que cae cada valor. Por ejemplo, una puntuación Z de 2 indica que una observación está dos desviaciones estándar por encima del promedio, mientras que una puntuación Z de -2 significa que está dos desviaciones estándar por debajo de la media. Una puntuación Z de cero representa un valor que es igual a la media.

Para calcular la puntuación Z de una observación, tome la medida bruta, reste la media y divida por la desviación estándar. Matemáticamente, la fórmula para ese proceso es la siguiente:

Cuanto más lejos esté de cero una puntuación Z de observación y rsquos, más inusual será. Un valor de corte estándar para encontrar valores atípicos son puntuaciones Z de +/- 3 o más de cero. La siguiente distribución de probabilidad muestra la distribución de puntuaciones Z en una distribución normal estándar. Los puntajes Z más allá de +/- 3 son tan extremos que apenas se puede ver el sombreado debajo de la curva.

En una población que sigue la distribución normal, los valores de puntuación Z más extremos que +/- 3 tienen una probabilidad de 0,0027 (2 * 0,00135), que es aproximadamente 1 en 370 observaciones. Sin embargo, si sus datos no siguen la distribución normal, este enfoque podría no ser exacto.

Puntajes Z y nuestro conjunto de datos de ejemplo

En nuestro conjunto de datos de ejemplo a continuación, muestro los valores en el conjunto de datos de ejemplo junto con los puntajes Z. Este enfoque identifica la misma observación como un valor atípico.

Tenga en cuenta que las puntuaciones Z pueden ser engañosas con conjuntos de datos pequeños porque la puntuación Z máxima se limita a (norte& menos1) / & radic norte.*

3.6 está muy cerca del valor máximo para un tamaño de muestra de 15. Los tamaños de muestra de 10 o menos observaciones no pueden tener puntuaciones Z que excedan un valor de corte de +/- 3.

Además, tenga en cuenta que la presencia de valores atípicos & rsquos elimina las puntuaciones Z porque infla la media y la desviación estándar, como vimos anteriormente. Observe cómo todas las puntuaciones Z son negativas, excepto el valor atípico y rsquos. Si calculamos las puntuaciones Z sin el valor atípico, ¡podrían ser diferentes! Tenga en cuenta que si su conjunto de datos contiene valores atípicos, los valores Z están sesgados de manera que parecen ser menos extremos (es decir, más cercanos a cero).


CONCLUSIONES

Antes de seleccionar una prueba estadística, un investigador simplemente tiene que responder las siguientes seis preguntas, lo que conducirá a la elección correcta de la prueba.

¿Cuántas variables independientes covarían (varían en el mismo período de tiempo) con la variable dependiente?

¿A qué nivel de medición se encuentra la variable independiente?

¿Cuál es el nivel de medición de la variable dependiente?

¿Son las observaciones independientes o dependientes?

¿Las comparaciones involucran poblaciones con poblaciones, una muestra con una población, o se comparan dos o más muestras?


¿Existe alguna prueba de análisis estadístico que pueda realizar que me dé una estimación de la población total a partir de mis propios conjuntos de datos más pequeños? - biología

La prueba real comienza considerando dos hipótesis. Se llaman nulos hipótesis y el hipótesis alternativa. Estas hipótesis contienen puntos de vista opuestos.

H0: La hipótesis nula: Es una declaración sobre la población que se cree que es cierta o se usa para presentar un argumento a menos que se pueda demostrar que es incorrecta más allá de una duda razonable.

Ha: La hipótesis alternativa: Es una afirmación sobre la población que contradice a H0 y lo que concluimos cuando rechazamos H0.

Dado que las hipótesis nula y alternativa son contradictorias, debe examinar la evidencia para decidir si tiene suficiente evidencia para rechazar la hipótesis nula o no. La evidencia está en forma de datos de muestra.

Una vez que haya determinado qué hipótesis respalda la muestra, tome una decisión. Hay dos opciones para decisión. Son & # 8220reject H0& # 8221 si la información de la muestra favorece la hipótesis alternativa o & # 8220 no rechace H0& # 8221 o & # 8220 declinar para rechazar H0& # 8221 si la información de la muestra es insuficiente para rechazar la hipótesis nula.

H0 Ha
igual (=) no igual (≠)
o mayor que (& gt) o menos que (& lt)
mayor o igual a (≥) menos que (& lt)
menor o igual a (≤) más que (& gt)

H0 siempre tiene un símbolo con un igual. Ha nunca tiene un símbolo con un igual en él. La elección del símbolo depende de la redacción de la prueba de hipótesis. Sin embargo, tenga en cuenta que muchos investigadores (incluido uno de los coautores del trabajo de investigación) utilizan = en la hipótesis nula, incluso con & gt o & lt como símbolo en la hipótesis alternativa. Esta práctica es aceptable porque solo tomamos la decisión de rechazar o no rechazar la hipótesis nula.

Ejemplo

H0: No más del 30% de los votantes registrados en el condado de Santa Clara votaron en las elecciones primarias. pag ≤ 30

Ha: Más del 30% de los votantes registrados en el condado de Santa Clara votaron en las elecciones primarias. pag & gt 30

Intentalo

Se lleva a cabo un ensayo médico para evaluar si un nuevo medicamento reduce el colesterol en un 25%. Enuncie las hipótesis nula y alternativa.

H0 : El medicamento reduce el colesterol en un 25%. pag = 0.25

Ha : El medicamento no reduce el colesterol en un 25%. pag ≠ 0.25

Ejemplo

Queremos probar si el promedio de calificaciones de los estudiantes en las universidades estadounidenses es diferente de 2.0 (de 4.0). Las hipótesis nula y alternativa son:

Intentalo

Queremos probar si la altura media de los alumnos de octavo grado es de 66 pulgadas. Enuncie las hipótesis nula y alternativa. Complete el símbolo correcto (=, ≠, ≥, & lt, ≤, & gt) para las hipótesis nula y alternativa. H0: μ __ 66 Ha:μ __ 66

Ejemplo

Queremos evaluar si los estudiantes universitarios tardan menos de cinco años en graduarse de la universidad, en promedio. Las hipótesis nula y alternativa son:

Intentalo

Queremos probar si se necesitan menos de 45 minutos para enseñar un plan de lección. Enuncie las hipótesis nula y alternativa. Complete el símbolo correcto (=, ≠, ≥, & lt, ≤, & gt) para las hipótesis nula y alternativa.
H0: μ __ 45 Ha:μ __ 45

Ejemplo

En una cuestión de U.S. News and World Report, un artículo sobre los estándares escolares indicó que aproximadamente la mitad de todos los estudiantes en Francia, Alemania e Israel toman exámenes de nivel avanzado y un tercero aprueban. El mismo artículo indicó que el 6,6% de los estudiantes estadounidenses toman exámenes de nivel avanzado y el 4,4% aprueba. Pruebe si el porcentaje de estudiantes de EE. UU. Que toman exámenes de ubicación avanzada es más del 6.6%. Enuncie las hipótesis nula y alternativa.

Intentalo

En una prueba de conductor estatal & # 8217s, aproximadamente el 40% pasa la prueba en el primer intento. Queremos probar si pasa más del 40% en el primer intento. Complete el símbolo correcto (=, ≠, ≥, & lt, ≤, & gt) para las hipótesis nula y alternativa.
H0: pag __ 0.40 Ha: pag __ 0.40


Tipos de ANOVA

Desde el ANOVA básico unidireccional hasta las variaciones para casos especiales, como el ANOVA clasificado para variables no categóricas, existe una variedad de enfoques para usar ANOVA para su análisis de datos. A continuación, se incluye una introducción a algunos de los más comunes.

¿Cuál es la diferencia entre las pruebas ANOVA unidireccionales y bidireccionales?

Esto se define por la cantidad de variables independientes que se incluyen en la prueba ANOVA. Unidireccional significa que el análisis de varianza tiene una variable independiente. Bidireccional significa que la prueba tiene dos variables independientes. Un ejemplo de esto puede ser la variable independiente que es una marca de bebida (unidireccional), o variables independientes de la marca de bebida y cuántas calorías tiene o si es original o dietética.

ANOVA factorial

ANOVA factorial es un término general que cubre las pruebas ANOVA con dos o más variables categóricas independientes. (Un ANOVA bidireccional es en realidad una especie de ANOVA factorial). Categórico significa que las variables se expresan en términos de categorías no jerárquicas (como Mountain Dew vs Dr Pepper) en lugar de usar una escala clasificada o un valor numérico.

Prueba F de Welch ANOVA

Stats iQ recomienda una prueba F de Welch sin clasificar si se mantienen varias suposiciones sobre los datos:

  • El tamaño de la muestra es mayor que 10 veces el número de grupos en el cálculo (se excluyen los grupos con un solo valor) y, por lo tanto, el teorema del límite central satisface el requisito de datos distribuidos normalmente.
  • Hay pocos o ningún valor atípico en los datos continuos / discretos.

A diferencia de la prueba F ligeramente más común para varianzas iguales, la prueba F de Welch no asume que las varianzas de los grupos que se comparan sean iguales. Asumir varianzas iguales conduce a resultados menos precisos cuando las varianzas no son, de hecho, iguales, y sus resultados son muy similares cuando las varianzas son realmente iguales.

ANOVA clasificado

Cuando se violan las suposiciones, es posible que el ANOVA no clasificado ya no sea válido. En ese caso, Stats iQ recomienda el ANOVA clasificado (también llamado “ANOVA en rangos”). Stats iQ clasifica los datos (reemplaza los valores con su orden de rango) y luego ejecuta el mismo ANOVA en esos datos transformados.

El ANOVA clasificado es robusto para valores atípicos y datos no distribuidos normalmente. La transformación de rango es un método bien establecido para proteger contra la violación de supuestos (un método "no paramétrico") y se ve más comúnmente en la diferencia entre la correlación de Pearson y Spearman. La transformación de rango seguida por la prueba F de Welch tiene un efecto similar a la prueba de Kruskal-Wallis.

Tenga en cuenta que los tamaños del efecto ANOVA clasificados y no clasificados de Stats iQ (f de Cohen) se calculan utilizando el valor F de la prueba F para varianzas iguales.

Prueba por pares de Games-Howell

Stats iQ ejecuta pruebas de Games-Howell independientemente del resultado de la prueba ANOVA (según Zimmerman, 2010). Stats iQ muestra pruebas por pares de Games-Howell clasificadas o no clasificadas según los mismos criterios que se utilizan para ANOVA clasificadas vs.

El Games-Howell es esencialmente una prueba t para variaciones desiguales que explica la mayor probabilidad de encontrar resultados estadísticamente significativos por casualidad cuando se ejecutan muchas pruebas por pares. A diferencia de la prueba b de Tukey, un poco más común, la prueba de Games-Howell no asume que las variaciones de los grupos que se comparan sean iguales. Asumir varianzas iguales conduce a resultados menos precisos cuando las varianzas no son de hecho iguales, y sus resultados son muy similares cuando las varianzas son realmente iguales (Howell, 2012).

Tenga en cuenta que mientras que la prueba por pares sin clasificar prueba la igualdad de las medias de los dos grupos, la prueba por pares clasificada no prueba explícitamente las diferencias entre las medias o medianas de los grupos. Más bien, prueba la tendencia general de un grupo a tener valores más grandes que el otro.

Además, aunque Stats iQ no muestra los resultados de las pruebas por pares para ningún grupo con menos de cuatro valores, esos grupos se incluyen en el cálculo de los grados de libertad para las otras pruebas por pares.


Prueba t de muestras pareadas: definición, fórmula y ejemplo

A prueba t de muestras pareadas se utiliza para comparar las medias de dos muestras cuando cada observación en una muestra se puede emparejar con una observación en la otra muestra.

Este tutorial explica lo siguiente:

  • La motivación para realizar una prueba t de muestras pareadas.
  • La fórmula para realizar una prueba t de muestras pareadas.
  • Los supuestos que deben cumplirse para realizar una prueba t de muestras pareadas.
  • Un ejemplo de cómo realizar una prueba t de muestras pareadas.

Prueba t de muestras pareadas: motivación

Una prueba t de muestras pareadas se usa comúnmente en dos escenarios:

1. Se toma una medición en un sujeto antes y después de algún tratamiento. & # 8211 p. Ej. El salto vertical máximo de los jugadores de baloncesto universitarios se mide antes y después de participar en un programa de entrenamiento.

2. Se toma una medición en dos condiciones diferentes & # 8211 p. Ej. el tiempo de respuesta de un paciente se mide con dos fármacos diferentes.

En ambos casos, nos interesa comparar la medición media entre dos grupos en los que cada observación de una muestra se puede emparejar con una observación de la otra muestra.

Prueba t de muestras pareadas: Fórmula

Una prueba t de muestras pareadas siempre utiliza la siguiente hipótesis nula:

La hipótesis alternativa puede ser de dos colas, de la izquierda o de la derecha:

  • H1 (de dos colas): μ1 ≠ μ2 (las dos medias poblacionales no son iguales)
  • H1 (de cola izquierda): μ1 & lt μ2 (la media de la población 1 es menor que la media de la población 2)
  • H1 (de cola derecha): μ1& gt μ2 (la media de la población 1 es mayor que la media de la población 2)

Usamos la siguiente fórmula para calcular el estadístico de prueba t:

  • X diff: media muestral de las diferencias
  • s: desviación estándar muestral de las diferencias
  • norte: tamaño de la muestra (es decir, número de pares)

Si el valor p que corresponde al estadístico de prueba t con (n-1) grados de libertad es menor que el nivel de significancia elegido (las opciones comunes son 0.10, 0.05 y 0.01), entonces puede rechazar la hipótesis nula.

Prueba t de muestras pareadas: supuestos

Para que los resultados de una prueba t de muestras pareadas sean válidos, deben cumplirse las siguientes suposiciones:

  • Los participantes deben seleccionarse al azar de la población.
  • Las diferencias entre los pares deben tener una distribución aproximadamente normal.
  • No debe haber valores atípicos extremos en las diferencias.

Emparejado Prueba t de muestras : Ejemplo

Supongamos que queremos saber si un determinado programa de entrenamiento puede aumentar el salto vertical máximo (en pulgadas) de los jugadores de baloncesto universitarios.

Para probar esto, podemos reclutar una muestra aleatoria simple de 20 jugadores de baloncesto universitarios y medir cada uno de sus saltos verticales máximos. Luego, podemos hacer que cada jugador use el programa de entrenamiento durante un mes y luego mida su salto vertical máximo nuevamente al final del mes.

Para determinar si el programa de entrenamiento realmente tuvo o no un efecto en el salto vertical máximo, realizaremos una prueba t de muestras pareadas con un nivel de significancia α = 0.05 usando los siguientes pasos:

Paso 1: Calcule los datos de resumen para las diferencias.

  • X diff: media muestral de las diferencias = -0.95
  • s: desviación estándar muestral de las diferencias = 1.317
  • norte: tamaño de la muestra (es decir, número de pares) = 20

Paso 2: Defina las hipótesis.

Realizaremos la prueba t de muestras pareadas con las siguientes hipótesis:

  • H0: μ1 = μ2 (las dos medias poblacionales son iguales)
  • H1: μ1 ≠ μ2 (las dos medias poblacionales no son iguales)

Paso 3: Calcule la estadística de prueba t.

t = x diff / (sdiff/ √n) = -0.95 / (1.317/20) = -3.226

Paso 4: Calcule el valor p del estadístico de prueba t.

De acuerdo con la Calculadora de puntaje T a valor P, el valor p asociado con t = -3.226 y grados de libertad = n-1 = 20-1 = 19 es 0.00445.

Paso 5: saca una conclusión.

Dado que este valor p es menor que nuestro nivel de significancia α = 0.05, rechazamos la hipótesis nula. Tenemos evidencia suficiente para decir que el salto vertical máximo medio de los jugadores es diferente antes y después de participar en el programa de entrenamiento.

Nota: También puede realizar toda esta prueba t de muestras emparejadas simplemente usando la Calculadora de prueba t de muestras emparejadas.

Recursos adicionales

Los siguientes tutoriales explican cómo realizar una prueba t de muestras emparejadas utilizando diferentes programas estadísticos:


Encuentre conjuntos de datos públicos gratuitos para su proyecto de ciencia de datos

Completar su primer proyecto de ciencia de datos es un hito importante en el camino para convertirse en científico de datos y ayuda tanto a reforzar sus habilidades como a proporcionar algo que pueda discutir durante el proceso de entrevista. También es un proceso intimidante. El primer paso es encontrar un conjunto de datos de ciencia de datos interesante y apropiado. Debe decidir qué tan grande y desordenado es el conjunto de datos con el que desea trabajar, mientras que la limpieza de datos es una parte integral de la ciencia de datos, es posible que desee comenzar con un conjunto de datos limpio para su primer proyecto, de modo que pueda concentrarse en el análisis en lugar de en limpiar los datos.

Basándonos en los aprendizajes de nuestro Curso de Introducción a la Ciencia de Datos y la Carrera de Ciencia de Datos, hemos seleccionado conjuntos de datos de diversos tipos y complejidad que creemos que funcionan bien para los primeros proyectos (¡algunos de ellos también funcionan para proyectos de investigación!). Estos conjuntos de datos cubren una variedad de fuentes: datos demográficos, datos económicos, datos de texto y datos corporativos.

¿Alguna vez se preguntó qué hace realmente un científico de datos? Consulte la guía completa de Springboard sobre ciencia de datos. ¡Le enseñaremos todo lo que necesita saber para convertirse en científico de datos, desde qué estudiar hasta habilidades esenciales, guía salarial y más!

1. Datos del censo de Estados Unidos

La Oficina del Censo de EE. UU. Publica una gran cantidad de datos demográficos a nivel de estado, ciudad e incluso código postal. Es un conjunto de datos fantástico para los estudiantes interesados ​​en crear visualizaciones de datos geográficos y se puede acceder a él en el sitio web de la Oficina del Censo. Alternativamente, se puede acceder a los datos a través de una API. Una forma conveniente de usar esa API es a través del choroplethr. En general, estos datos son muy limpios, muy completos y matizados, y son una buena opción para proyectos de visualización de datos, ya que no requieren que los limpies manualmente.

2. Datos sobre delitos del FBI

Los datos sobre delitos del FBI son fascinantes y uno de los conjuntos de datos más interesantes de esta lista. Si está interesado en analizar datos de series de tiempo, puede usarlos para trazar los cambios en las tasas de criminalidad a nivel nacional durante un período de 20 años. Alternativamente, puede mirar los datos geográficamente.

3. Causa de muerte de los CDC

Los Centros para el Control y la Prevención de Enfermedades mantienen una base de datos sobre la causa de muerte. Los datos se pueden segmentar de casi todas las formas imaginables: edad, raza, año, etc. Dado que se trata de un conjunto de datos tan masivo, es bueno utilizarlo para proyectos de procesamiento de datos.

4. Calidad hospitalaria de Medicare

Los Centros de Servicios de Medicare y Medicaid mantienen una base de datos sobre la calidad de la atención en más de 4,000 hospitales certificados por Medicare en los EE. UU., Lo que proporciona comparaciones interesantes. Dado que estos datos se distribuirán en varios archivos y es posible que se requiera un poco de investigación para comprenderlos por completo, este podría ser un buen proyecto de limpieza de datos.

5. Incidencia de cáncer SEER

El gobierno de EE. UU. También tiene datos sobre la incidencia del cáncer, nuevamente segmentados por edad, raza, sexo, año y otros factores. Proviene del Programa de Vigilancia, Epidemiología y Resultados Finales del Instituto Nacional del Cáncer. Los datos se remontan a 1975 y tienen 18 bases de datos, por lo que tendrá muchas opciones para el análisis.

6. Oficina de Estadísticas Laborales

Muchos indicadores económicos importantes para los Estados Unidos (como el desempleo y la inflación) se pueden encontrar en el sitio web de la Oficina de Estadísticas Laborales. La mayoría de los datos se pueden segmentar tanto por tiempo como por geografía. Este gran conjunto de datos se puede utilizar para proyectos de procesamiento y visualización de datos.

7. Oficina de Análisis Económico

La Oficina de Análisis Económico también tiene datos económicos nacionales y regionales, incluido el producto interno bruto y los tipos de cambio. Existe una gran variedad en los diferentes grupos de datos que se encuentran aquí (puede navegar por lugar, cuentas económicas y temas) y estos grupos están organizados en subconjuntos aún más pequeños en todo momento.

8. Datos económicos del FMI

Para acceder a estadísticas financieras globales y otros datos, visite el sitio web del Fondo Monetario Internacional. Aquí hay algunos conjuntos diferentes, por lo que puede usarlos para una amplia gama de proyectos como visualización o incluso limpieza.

9. Devoluciones semanales de Dow Jones

La predicción de los precios de las acciones es una aplicación importante del análisis de datos y el aprendizaje automático. Un conjunto de datos relevante para explorar son los retornos semanales del índice Dow Jones del Center for Machine Learning and Intelligent Systems de la Universidad de California, Irvine. Este es uno de los conjuntos especialmente diseñados para proyectos de aprendizaje automático.

10. Data.gov.uk

El portal de datos oficial del gobierno británico # 8217 ofrece acceso a decenas de miles de conjuntos de datos sobre temas como el crimen, la educación, el transporte y la salud. Dado que se trata de una fuente de datos abierta con millones de entradas, podrá practicar la limpieza de datos en diferentes agrupaciones.

11. Correos electrónicos de Enron

Después del colapso de Enron, se lanzó un conjunto de datos gratuito de aproximadamente 500,000 correos electrónicos con mensajes de texto y metadatos. El conjunto de datos ahora es famoso y proporciona un excelente campo de pruebas para el análisis relacionado con el texto. También puede explorar otros usos de investigación de este conjunto de datos a través de la página.

12. Google Books Ngrams

Si está interesado en datos verdaderamente masivos, el conjunto de datos del visor de Ngram cuenta la frecuencia de palabras y frases por año en una gran cantidad de fuentes de texto. ¡El archivo resultante es de 2,2 TB! Si bien esto puede ser difícil de usar para un proyecto de visualización, es un excelente conjunto de datos para la limpieza, ya que tiene matices y requerirá investigación adicional.

13. UNICEF

Si los datos sobre la vida de los niños en todo el mundo son de interés, UNICEF es la fuente más creíble. Los conjuntos de datos públicos de la organización se refieren a la nutrición, la inmunización y la educación, entre otros, lo que los convierte en un gran recurso para los proyectos de visualización.

14. Comentarios de Reddit

Reddit publicó un conjunto de datos realmente interesante de cada comentario que se haya hecho en el sitio. Tiene más de un terabyte de datos sin comprimir, por lo que si desea que un conjunto de datos más pequeño funcione con Kaggle, ha alojado los comentarios de mayo de 2015 en su sitio.

15. Wikipedia

Wikipedia proporciona instrucciones para descargar el texto de los artículos en inglés, además de otros proyectos de la Fundación Wikimedia. La descarga de la base de datos de Wikipedia está disponible para duplicación y uso personal e incluso tiene su propia aplicación de código abierto que puede usar para descargar la totalidad de Wikipedia a su computadora, dejándole opciones ilimitadas para procesar y limpiar proyectos.

16. Club de préstamos

Lending Club proporciona datos sobre las solicitudes de préstamos que ha rechazado, así como el rendimiento de los préstamos que ha emitido. El conjunto de datos gratuito se presta tanto a las técnicas de categorización (en caso de incumplimiento de un préstamo determinado) como a las regresiones (cuánto se devolverá en un préstamo determinado).

17. Walmart

Walmart ha publicado datos históricos de ventas para 45 tiendas ubicadas en diferentes regiones de los Estados Unidos. Esto ofrece un gran conjunto de datos para leer y analizar, y muchas preguntas diferentes para hacer al respecto, lo que lo convierte en un recurso sólido para proyectos de procesamiento de datos.

18. Airbnb

Inside Airbnb ofrece diferentes conjuntos de datos relacionados con los listados de Airbnb en docenas de ciudades de todo el mundo. Este conjunto de datos, dada su especificidad para la industria de viajes, es ideal para practicar sus habilidades de visualización.

19. Yelp

Yelp mantiene un conjunto de datos gratuito para su uso con fines personales, educativos y académicos. Incluye 6 millones de reseñas que abarcan 189.000 empresas en 10 áreas metropolitanas. Los estudiantes pueden participar en el desafío del conjunto de datos de Yelp, lo que les brinda varias opciones y un incentivo adicional para varios tipos de proyectos de datos.

20. Datos de Tendencias de Google

Google tiene uno de los conjuntos de datos más interesantes para analizar. Mientras usamos "e-learning" en este ejemplo, puede explorar diferentes términos de búsqueda y remontarse hasta 2004. Todo lo que tiene que hacer es descargar el conjunto de datos en un archivo CSV para analizar los datos fuera de Google Trends. Página web. Puede descargar datos sobre los niveles de interés para un término de búsqueda determinado, interés por ubicación, temas relacionados, categorías, tipos de búsqueda (video, imágenes, etc.), ¡y más! Google también enumera una gran colección de conjuntos de datos disponibles públicamente en Google Public Data Explorer. ¡Asegúrese de comprobarlo!

21. Organización Mundial del Comercio

Para los estudiantes que buscan aprender a través del análisis, la Organización Mundial del Comercio ofrece muchos conjuntos de datos disponibles para descargar que brindan a los estudiantes información sobre los flujos comerciales y las predicciones. Aquellos con una habilidad especial para la información empresarial apreciarán particularmente este conjunto de datos, ya que brinda toneladas de oportunidades no solo para ingresar a la ciencia de datos, sino también para profundizar su comprensión de la industria comercial.

22. Fondo Monetario Internacional

Este sitio tiene varios conjuntos de datos de Excel gratuitos para descargar sobre diferentes indicadores económicos clave. Del Producto Interno Bruto (PIB) a la inflación. Tomar los datos de varios archivos y condensarlos para mayor claridad y patrones es una forma excelente (¡y satisfactoria!) De practicar la limpieza de datos.

23. Datos abiertos de la Administración de información energética de EE. UU.

Esta fuente tiene datos abiertos y gratuitos que están disponibles en el archivo masivo, en Excel a través del complemento, en Google Sheets a través de un complemento y mediante widgets que integran visualizaciones de datos interactivos de los datos de EIA en cualquier sitio web. El sitio web también señala que los datos de la EIA están disponibles en formatos legibles por máquina, lo que los convierte en un gran recurso para proyectos de aprendizaje automático.

24. Conjunto de datos de imágenes de TensorFlow: CelebA

Para practicar con el aprendizaje automático, necesitará un conjunto de datos especializado como TensorFlow. La biblioteca de TensorFlow incluye todo tipo de herramientas, modelos y guías de aprendizaje automático junto con sus conjuntos de datos. CelebA es una red extremadamente grande, disponible públicamente en línea y contiene más de 200,000 imágenes de celebridades.

25. Conjunto de datos de texto de TensorFlow

Otro conjunto de TensorFlow es C4: Corpus de rastreo web de Common Crawl. Disponible en más de 40 idiomas, este repositorio de código abierto de datos de páginas web abarca siete años de datos, lo que lo convierte en un excelente recurso para la práctica de conjuntos de datos de aprendizaje automático.

26. Nuestro mundo en datos

Our World In Data es un interesante caso de estudio en datos abiertos. No solo puede encontrar los conjuntos de datos públicos subyacentes, sino que las visualizaciones ya se presentan para unir los datos. El sitio se ocupa principalmente de comparaciones a gran escala país por país sobre tendencias estadísticas importantes, desde la tasa de alfabetización hasta el progreso económico.

27. Descarga de datos criptográficos

¿Quieres conocer el surgimiento de las criptomonedas? Cryptodatadownload ofrece conjuntos de datos públicos gratuitos de intercambios de criptomonedas y datos históricos que rastrean los intercambios y precios de las criptomonedas. Úselo para hacer análisis históricos o intente reconstruir si puede predecir la locura.

28. Kaggle Data

Los conjuntos de datos de Kaggle son una agregación de conjuntos de datos seleccionados y enviados por el usuario. It’s a bit like Reddit for datasets, with rich tooling to get started with different datasets, comment, and upvote functionality, as well as a view on which projects are already being worked on in Kaggle. A great all-around resource for a variety of open datasets across many domains.

29. Github Collection (Open Data)

GitHub is the central hub of open data and open-source code. With different open datasets that are hosted on GitHub itself (including data on every member of Congress from 1789 onwards and data on food inspections in Chicago), this collection lets you get familiar with Github and the vast amount of open data that resides on it.

30. Github (Awesome Public Data sets)

The Awesome collection of repositories on Github is a user-contributed collection of resources. In this case, the repository contains a variety of open data sources categorized across different domains. Use this resource to find different open datasets—and contribute back to it if you can.

31. Microsoft Azure Open Datasets

Microsoft Azure is the cloud solution provided by Microsoft: they have a variety of open public data sets that are connected to their Azure services. You can access featured datasets on everything from weather to satellite imagery.

32. Google BigQuery Datasets

Google BigQuery is Google’s cloud solution for processing large datasets in a SQL-like manner. You can have a preview of these very large public data sets with the subreddit Wiki dedicated to BigQuery with everything from very rich data from Wikipedia, to datasets dedicated to cancer genomics.

33. SafeGraph Data

SafeGraph is a popular source for all things location data. While their data is not free to everyone, academics can download the data for free for locations in the U.S., Canada, and the UK via the SafeGraph Shop.

This data is great for economists, social scientists, public health researchers, and anyone who is interested in knowing where a location is and how people move between these locations. It seems to be popular since SafeGraph data has been used in over 600 academic papers.

Is data science the right career for you?

Springboard offers a comprehensive data science bootcamp. You’ll work with a one-on-one mentor to learn about data science, data wrangling, machine learning, and Python—and finish it all off with a portfolio-worthy capstone project.

Not quite ready to dive into a data science bootcamp?

Springboard now offers a Data Science Prep Course, where you can learn the foundational coding and statistics skills needed to start your career in data science.


Ver el vídeo: FQAASAB - Proceso Analítico, Métodos, Muestreo, Datos, Precisión y Exactitud, Pruebas Q y G (Agosto 2022).