Estadísticas de aprendizaje, desde la presentación hasta las medidas de distribución de datos

La estadística es una ciencia matemática que estudia la recopilación, el procesamiento, el análisis y la presentación de datos. Las estadísticas se utilizan ampliamente en las compañías de seguros, una de las cuales es determinar el monto de la prima en una póliza de seguro. Todo asegurado debe pagar una contribución denominada prima. La prima pagada está de acuerdo con la cobertura de seguro que obtiene.

Aquí, la compañía de seguros utiliza estadísticas para que el monto de la prima esté de acuerdo con el monto de cobertura que se puede brindar al asegurado. De esa forma, ambas partes se benefician.

Como se mencionó anteriormente, las estadísticas no solo recopilan y procesan, sino que también presentan datos. La estadística también utiliza varias medidas de distribución de datos en el procesamiento de datos. Hoy, discutiremos los tipos de presentación, así como el tamaño de la difusión de datos en las estadísticas.

Tipos de presentación de datos

Los tipos de presentación de datos en estadísticas incluyen tablas de distribución de frecuencia, histogramas, polígonos y ojivas.

La primera forma de presentación de datos es utilizar una tabla de distribución de frecuencias. Como su nombre lo indica, utilizamos tablas para mostrar el tipo y la cantidad de datos obtenidos. La tabla de distribución de frecuencia también tiene varios tipos, a saber, la tabla de distribución de frecuencia para datos individuales y datos de grupo.

(Lea también: Dos datos de medición en estadísticas)

Se utiliza una única tabla de distribución de frecuencia de datos para presentar pequeñas cantidades de datos, al menos menos de 30 datos. Un ejemplo de presentación de datos utilizando una única tabla de distribución de frecuencia de datos es el siguiente.

Los datos a continuación son los puntajes de las pruebas de 30 estudiantes. Sirva en una sola tabla de distribución de frecuencia de datos.

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Si prestamos atención, el puntaje más bajo obtenido en la prueba es 3, mientras que el puntaje más alto es 10. Luego, de estos puntajes, cuente cuántos estudiantes lo obtienen. Para una calificación de 3, por ejemplo, solo 1 estudiante. Para el cuarto grado, hay 4 estudiantes y así sucesivamente. Esta figura se presenta luego en una tabla como la siguiente.

turbinas en el suelo del parque eólico marino

El siguiente tipo de tabla de distribución de frecuencia es la tabla de distribución de frecuencia de datos de grupo. Esta tabla se utiliza para presentar una gran cantidad de datos, que son más de 30 datos. Veamos el siguiente ejemplo.

La siguiente es la altura de las plantas de chile (en milímetros) en una plantación de chile. Presente los datos en una tabla de distribución de datos grupales.

123131120128126124125122

121, 126, 124, 123, 122, 120, 125, 126

123, 123, 134, 125, 125, 126, 128, 135

120, 126, 124, 133, 126, 127, 123, 126

122, 125, 123, 132, 124, 132, 128, 124

A diferencia de los datos individuales, aquí tenemos que calcular el número de clases y la duración de las clases que se mostrarán en la tabla. Usando los datos anteriores, aquí están los cálculos.

Muchos datos (n) = 40

Altura máxima (x max ) = 135

Altura mínima (x min ) = 120

Rango (J) = x max  - x min = 135 - 120 = 15

Número de clases (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868… ≈ k = 6

La longitud de la clase (c) = J / k = 15/6 = 2.5 ≈ c = 3

A partir de estos resultados, podemos mostrar la tabla de distribución de datos del grupo de la siguiente manera.

turbinas en el suelo del parque eólico marino

A continuación, analizaremos otros tipos de presentación de datos agrupados, concretamente en forma de histogramas, polígonos de frecuencia y ojivas. Eche un vistazo a la tabla de frecuencias a continuación, que contiene información sobre el peso de 80 miembros del club deportivo.

turbinas en el suelo del parque eólico marino

Para presentar los datos usando un gráfico de histograma, primero construimos un gráfico cartesiano. El eje x muestra los límites superior e inferior de cada clase, mientras que el eje y muestra la frecuencia.

estadística4 (1)

A diferencia de un histograma, un gráfico de polígonos de frecuencia toma el valor medio del intervalo de clase y lo muestra con líneas según la frecuencia.

estadística5 (1)

Por último, la presentación de datos utiliza una curva de frecuencia positiva acumulativa o negativa. Primero, marque los valores de frecuencia acumulados de cada clase de intervalo en el eje y. Luego, marque las coordenadas de los puntos de acuerdo con los pares de límite superior de la clase de intervalo y la frecuencia acumulada. Conecte los puntos en una curva suave.

Tamaño de difusión de datos

En estadística, hay dos tipos de medición de datos, a saber, el tamaño de la concentración de datos y el tamaño de la distribución de datos. ¿Cuál es la explicación y la diferencia?

El tamaño del centro de datos es un valor que representa la ubicación de los datos. En las medidas centradas en datos, hay media, moda y mediana.

El promedio o media es el cociente entre la suma de todos los datos observados con una gran cantidad de datos. Podemos formular la media de la siguiente manera.

Media = (suma de todos los datos) / (muchos datos)

Para entender mejor, trabajemos en el siguiente problema de ejemplo. El número de horas semanales que necesitan 5 personas para actividades sociales en su entorno son 10, 7, 13, 20 y 15 horas. ¡Determina la cantidad promedio de horas a la semana que dedican a actividades sociales!

En base a los problemas anteriores, podemos ingresar los números en la fórmula de la siguiente manera.

Media = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Esto significa que el promedio de horas que dedican a actividades sociales es de 13 horas.

Aparte de la media o media, también hay modos. La moda es el valor que ocurre con mayor frecuencia en un dato. Veamos un ejemplo del siguiente problema.

A continuación se muestran los datos de peso (en kilogramos) de algunos estudiantes de grado 7. ¡Determine la moda de los datos!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

En primer lugar, debemos contar el número de veces que aparece cada valor en los datos. Con base en estos datos, obtenemos 31 (x3), 32 (x2), 33 (x1), 34 (x2) y 35 (x4). Dado que 35 ocurre con mayor frecuencia, la moda de los datos anteriores es 35.

El último tipo de medida de centrado es la mediana. La mediana divide los datos en dos partes iguales, de modo que la mediana es el valor medio de los datos ordenados.

Para determinar la mediana, primero tenemos que ordenar todos los datos en orden descendente o ascendente. En segundo lugar, defina muchos datos y simbolícelos como "n". Si n es impar, la fórmula que usamos es la siguiente.

Mediana = número de datos - ((n + 1) / 2)

Mientras tanto, si n es par, usamos la siguiente fórmula.

Mediana = (dato ith (n / 2) + dato ith (n / 2 + 1)) / 2

La segunda medición de datos en estadística es una medida de la difusión de datos. El tamaño de la distribución de datos es un valor que indica qué tan lejos están los datos del centro de datos. El tamaño de la distribución de los datos consiste en el rango, el cuartil y el rango intercuartil.

El rango es la diferencia entre el valor de datos más grande y el valor de datos más pequeño. Podemos obtener alcance restando los datos más grandes de los datos más pequeños. Por ejemplo, si en una clase, el alumno más alto tiene una altura de 160 cm y el alumno más bajo tiene una altura de 143 cm, obtendremos un alcance de 23 cm.

Mientras tanto, el cuartil es la agrupación de datos estadísticos en cuatro partes iguales. El tamaño del cuartil se divide en 3, a saber, el cuartil inferior (Q 1 ), el cuartil medio (Q 2 o mediana) y el cuartil superior (Q 3 ). Para determinar cada cuartil, hay varios pasos que debemos seguir.

Primero, clasifique los datos en orden ascendente o descendente. En segundo lugar, determine el valor medio o mediano de los datos. En tercer lugar, determine el cuartil inferior (Q 1 ), que es el valor medio del grupo de datos por debajo de la mediana (Q 2) . Finalmente, determine el cuartil superior (Q 3 ), que es el valor medio del conjunto de datos por encima de la mediana (Q 2) .

El último tipo de medida de distribución de datos es el rango intercuartílico. El rango intercuartil es la diferencia entre los cuartiles superior e inferior. La fórmula es la siguiente.

Q d = Q 3 - Q 1