sábado, 28 de marzo de 2020

ESTADÍSTICA (CENTRALIZACIÓN)






PRESENTACIÓN DEL TEMA


En la vida diaria, quizás aun no lo han notado, pero todo lo que hay u ocurre a nuestro alrededor es susceptible de ser analizado numéricamente, es decir, que se puede traducir en números y llevar a tablas de datos, luego con un poco de cálculo se pueden realizar algunos interesantes análisis, con los cuales es posible tomar decisiones con una buena base de confianza.




 La estadística tiene múltiples aplicaciones, y dentro de los usos más relevantes se cuentan los siguientes:

  • En los deportes: se oberva cuando se muestra el "average" de bateo de un jugador de béisbol, número de goles por partido de un delantero en el fútbol, cantidad de asistencias y cestas que hace un jugador de básquet, etc.
  • En las ventas: el comportamiento en las ventas de un producto se registra por día, mes, año, marca, etc. Esto permite que las empresas decidan las mejores estrategias de venta para lograr las mayores ganancias.
  • En preferencia de ciertas marcas: es empleada la estadística para conocer cuáles son las marcas de productos más preferidas por los consumidores, de manera que se pueden conocer muchas informaciones útiles para las venta, la distribución, colocación de precio, entre otras cosas.
  • En las finanzas personales: observando los ingresos y los egresos de la economía familiar, se puede tomar un registro que permita en el tiempo observar la tendencia de los gastos, y proyectar a futuro un presupuesto que permita hacer una planificación en las finanzas.
  • En el campo laboral: se emplea la estadística para controlar los procesos en las empresas, llevar las finanzas bajo monitoreo, pronosticar los presupuestos, crear políticas de prevención de accidentes, entre otras.

Por esto y mucho más, resulta de gran importancia tener conocimentos fundamentales sobre la estadística, nunca están de más en el desempeño personal.



TEORÍA + EJEMPLOS




Los valores de centralización o valores de tendencia central, son esos números que representan la parte central de un conjunto de datos, por ejemplo, uno de ellos es la "Media". Con este y otros dos valores (mediana y moda), se reúne el grupo de indicadores que representan los valores centrales de una "distribución de datos"




Entrando en materia, ahora se van a presentar algunos conceptos básicos que permitirán comprender mejor el tema.


  • Estadística:lEstadística es la parte de las Matemáticas que se encarga del estudio de una determinada característica en una población, recogiendo los datos, organizándolos en tablas, representándolos gráficamente y analizándolos para sacar conclusiones de dicha población. (Calmaestra, 2005)
  • Distribución de datos: se llama distribución de datos al conjunto de números que se han recolectado sobre algún fenómeno ocurrido, comportamiento de algún proceso, informaciones específicas de sujetos, etc, los cuales se presentan de forma agrupada o no. A este conjunto de datos se le pueden aplicar diferentes análisis estadísticos para obtener conclusiones importantes sobre el grupo.
  • Datos No Agrupados: se llama así al conjunto de datos que se suministran de forma "suelta", es decir, que se muestran todos los datos en una sucesión separada por comas, no necesariamente ordenados.
  • Datos Agrupados: se llama así al conjunto de datos que previamente se han organizado en "tablas de contingencia", lo cual simplemente es clasificar los valores de la distribución de datos original en "Intervalos de Clase" de datos.
  • Tabla de Contingencia: es la tabla en donde se oganizan ordenadamente los datos recolectados inicialmente, presentados de una forma clasificada por intervalos. (Una vez agrupados los datos ya no se tiene acceso a cada dato original por separado).
  • Intervalo de clase: rango utilizado para dividir el conjunto de posibles valores numéricos al trabajar con grandes cantidades de datos. 
  • Media: es la "media aritmética" o simplemente el promedio de los valores de un determinado conjunto de datos analizados. Representa el valor promedio de toda la distribución de datos. El símbolo de la media, es una X con un segmento encima.
  • Mediana: es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos (EcuRed, 2012). La Mediana se representa Me o Md.
  • Moda: es el valor que más se repite en una distribución de datos. En ocasiones son varios los valores que cumplen esta condición, tomándose en cuenta todos, pudiendo existir distribuciones con una sóla moda (unimodales), dos modas (bimodales), tres modas (trimodales), etc...

Como información adicional, al saber la cantidad total de datos que componen una distribución, ese valor es conocido como "n" o "N".


Ejemplos de datos no agrupados

Un conjuntos de datos no agrupados podría verse así (agregando un  enunciado que lo acompañe):

En una prestigiosa institución educativa de la ciudad, se ha visitado una de las secciones de estudiantes de 4to año para realizar una sencilla encuesta sobre el peso en kg de cada unos de los estudiantes, para un estudio de salud de un proyecto de medicina. Los valores recolectados fueron los siguientes:


62, 55, 60, 63, 58, 64, 64, 57, 59, 61, 62, 58, 60, 54, 56, 62, 59

n = 17 (Es decir que hay 17 datos)

Ejemplo de datos agrupados

Un conjunto de datos agrupados podría verse así (colocando un enunciado para darle sentido):

Un equipo de vigilancia controló en un tramo de carretera la velocidad de100 carros;  y obtuvo los resultados mostrados en la siguiente tabla:



n = 100 (es decir, que hay 100 datos)

En esta tabla se pueden obser var los rangos o intervalos de clase (70-80), (80,90), etc... y dentro de cada uno de esos intervalos se cuenta la cantidad de carros observados.


Una vez revisados todos estos términos necesarios y mostrado ejemplos de las distribuciones de datos, vamos a ver la aplicación de las medidas de tendencia central sobre los dos casos fundamentales:
  • Para datos no agrupados y 
  • Para datos agrupados

Valores de centralización para datos no agrupados.

Al disponer datos de tipo no agrupado, la aplicación de los valores de tendencia central es muy simple, llevando poco cálculo para llegar a los resultados.

Media

Para calcular la media, se procede a calcular el promedio de los datos suministrados.

La Fórmula que se emplea es la siguiente:

Media = Suma de todos los datos / número total de datos 





El símbolo 




Representa la "sumatoria", en este caso la sumatoria de todos los datos suministrados.



La expresión "Xi" representa a cada uno de los valores de X que componen la distribución de datos.



n es el número de datos de la distribución.



Ejemplo: 


Tomando los datos no agrupados mostrados anteriormente,


62, 55, 60, 63, 58, 64, 64, 57, 59, 61, 62, 58, 60, 54, 56, 62, 59


(n =17)


La media se calcularía:













Se concluye que el peso promedio de los estudiantes de esa sección de 4to año es de 59,6 kg.

Mediana

Para calcular la mediana, es preciso antes ordenar los datos de forma creciente:

(es recomendable volver a contar los datos después de transcribirlos para asegurarnos de que están completos...)


54, 55, 56, 57, 58, 58, 59, 59, 60, 60, 61, 62, 62, 62, 63, 64, 64


Existen dos casos para la determinación de la mediana en datos no agrupados:
  • Cuando la distribución de datos es impar (n es impar)
  • Cuando la distribución de datos es par (n es par)
Estamos ante el caso de una distribución impar, por lo que la explicación es la siguiente:

Con los datos ordenados de menor a mayor, se procede a identificar y seleccionar como valor de la mediana, aquel que se encuentre exactamente a la mitad de la distribución:




54, 55, 56, 57, 58, 58, 59, 59, 6060, 61, 62, 62, 62, 63, 64, 64



En nuestro caso, sería el valor "60" que se observa destacado arriba. Fíjense que a la izquierda y a la derecha de él hay exactamente la misma cantidad de datos.



Por lo tanto se puede afirmar que mediana del peso de los estudiantes de 4to año es de 60 kg, o sea, Me = 60 kg.



Nota: el otro caso, cuando la distribución de datos resulta "par" se resuelve de la siguiente manera:

Modificando sólamente para esta explicación los datos de trabajo, vamos a colocar la siguiente distribución de datos:

54, 55, 56, 57, 58, 58, 59, 59, 60, 60, 61, 62, 62, 62, 63, 64

Ahora son 16 datos, es decir, una distribución "par" (n = 16)



Ahora, para calcular la mediana, se procede a ubicar los dos valores centrales de la distribución, y se promedian.




54, 55, 56, 57, 58, 58, 59, 596060, 61, 62, 62, 62, 63, 64




Se puede observar que estos valores son ahora el 59 y el 60, así que su promedio se calcula de esta forma:



Me = (59 + 60) / 2



Me = 119 / 2



Me = 59,5



Con lo que se puede declarar como respuesta, que la mediana del peso de los estudiantes de 4to año sería de 59,5 kg. 



(no olvidemos que tuvimos que modificar los datos originales del ejercicio para poder incluir la explicación del segundo caso de cálculo de la mediana)




Moda



El cálculo de la moda es sumamente sencillo, ya que sólo hay que identificar aquel o aquellos valores en la distribución que se han repetido más.



Continuando el ejemplo anterior y tomando los valores ya ordenados, podemos observar que el valor que más se repite es el 62.





54, 55, 56, 57, 58, 58, 59, 59, 60, 60, 61, 62626263, 64, 64


Por lo tanto se puede declarar que en esta distribución, la moda es de 62 kg.



Mo = 62 kg.




Ahora veamos a aplicación de estas medidas de centralización en datos agrupados...


Valores de centralización para datos agrupados.





En este caso, la información que se va a disponer viene dada en forma de tabla, una tabla de contingencia.

Vamos nuevamente a tomar el ejemplo inicial de la publicación, las velocidades de los carros. La tabla es la siguiente:









En este caso se presentan 5 intervalos de frecuencias, empezando por 70-80 km/h y terminando en 110-120 km/h.




Aquí se incorporan nuevos elementos, uno de ellos es llamado "frecuencia absoluta" y se representa como "fi".



Cuando se recibe una tabla de datos para analizar, los valores de "fi" ya vienen dados. En este caso, el número de carros por rango de velocidad se refiere a la frecuencia absoluta.


Definimos entonces a la freciencia absoluta como la cantidad de elementos que se cuentan en cada rango o intervalo de clase. De modo que en la primera clsae hay 3 carros (fi es 3), para la clase 2 hay 17 carros (fi es 17), para la tercera clase son 32 (fi es 32), y así sucesivamente.




a partir de aquí se empieza a construir una tabla ampliada que se va a ver así:




En la tabla, la columna de "N° de carros" es correspondiente a la frecuencia absoluta (fi), y se generan 4 nuevas columnas:


  • N° de Clase
  • Pmi
  • fi.Pmi
  • fa
N° de clase: se agrega esta primera columna simplemente para facilitar la identificación de cada uno de los "intervalos de clase" (clase 1, clase 2, clase 3, etc...)

Pmi: es llamado "marca de clase". La marca de clase es un número que se genera a partir de los extremos de cada intervalo de clase, y es el representante numérico cada clase. Veamos como se calcula:

Pmi = (Límite inferior + Limite superior) / 2

Así, para la primera clase [70 -80], el Pmi se calcula así:

Límite inferior   = 70

Límite superior = 80

Pmi = (70 + 80) / 2

Pmi = 150 / 2

Pmi = 75

Este procedimiento se repite para cada intervalo de clase, obteniendo así una avance en el llenado de la tabla como se muestra a continuación:



Ahora que tenemos completa la columna de Pmi (marca de clase), se debe proceder a calcular loa valores de la siguiente columna, la de "fi.Pmi".

fi.Pmi indica que para cada intervalo de clase debemos efectuar la multiplicación de la frecuencia absoluta por su marca de clase. Por ejemplo, para el primer intervalo de clase se calcula fi.Pmi así:

En el primer intervalo
fi = 3
Pmi = 75

fi.Pmi = 3 . 75 = 225

En el segundo intrevalo

fi = 17

Pmi = 85

fi . Pmi = 17 . 85 = 1445... y así sucesivamente, hasta completar la tabla.

Una vez culminados todos estos cálculos se verá la tabla de esta forma:





En este punto se presenta una nueva cantidad llamada "fa". "fa" representa la frecuencia acumulada, lo que significa que va sumando intervalo a intervalo el valor de frecuencia absoluta. Se comprenderá mucho mejor con un ejemplo.


El primer valor de fa, será igual al primer valor de fi, es decir, fa = 3.

Para el segundo intervalo

Una vez colocado el primer fa, este valor (3) se suma con el siguiente valor de fi (17) para obtener el siguiente fa.

fa = 3 + 17 = 20

Para el tercer intervalo

fa = 20 +32 = 52

Para el cuarto intervalo

fa = 52 +28 = 80

Para el quinto intervalo

fa = 80 + 20 = 100


Nótese que el último valor de fa, coincide con el total de valores de la tabla (n = 100). Esto debe suceder en todos los análisis.

Ahora la tabla llena debe verse de esta forma:






Como paso final, se le deberán agregar a la tabla dos totales a calcular de la siguiente manera:




Sumatoria de la columna de "fi"
Sumatoria de la columna de "fi.Pmi"

Viéndose así la tabla:







Una vez que tenemos la tabla llena, se procede a efectuar el cálculo de los valores de centralización (media, mediana y moda)



Media

La media se calcula mediante la siguiente fórmula


Observe que la parte superior de la fracción es exactamente el resultado inferior que da la tabla, es decir 9950. Por otra parte, n = 100.

Entonces el cálculo de la media se reduce a dividir:




Se afirma entonces, que la velocidad promedio de los carros fue de 99,5 km/h


Mediana

Para este cálculo, se requiere saber cuánto vale n.

Luego se divide   n / 2           (En nuestro ejemplo sería 100 / 2 = 50)

El resultado de esa división se anota. ("50")


Con ese valor, se va a la tabla, observando específicamente en la columna de fa. Allí, en esa columna, deberemos identificar desde arriba hacia abajo el primer valor que iguale o supere al valor que resultó dividir n / 2 (en este caso 50)




Se observa que para el tercer intervalo de clase, aparece el primer valor que "iguala o supera" al número obtenido (50), observando un "52" en la columna de fa... (observar la tabla)




Ya que ha sido en la clase # 3, se toma el valor de Pmi de esa misma clase (95), como el valor de la mediana. 




Se declara entonces que la velocidad mediana de los carros fue de 95 km/h.



Me = 95 km/h




Moda




Finalmente, para el cálculo de la moda, se debe realizar una simple observación en la columna de "fi". Allí hay que identificar cuál es el mayor valor de fi, para ubicar en cuál clase se ubica. 



En nuestro ejemplo, el valor más alto de fi es 32, y este valor se ubica en la clase # 3 (por coincidencia). Ya que se ubicó el intervalo de clase con mayor fi (frecuencia absoluta), entonces se procede a tomar el valor de Pmi de esa misma clase como valor de la moda. Observe la tabla.





De manera que  se puede declarar que:

"la velocidad de los carros que más se repitió fue de 95 Km/h", 



Mo = 95 Km/h.



Es importante saber, que en muchas ocasiones, puede coincidir el resultado de la Mediana y la Moda, pero esto no constituye una norma, todo dependerá de la distribución de los datos en las clases.




Con esto queda explicado el tema de los valores de centralización tanto para datos no agrupados, como para datos agrupados.


EJERCICIOS DE PRÁCTICA


A continuación se colocan varios ejercicios de práctica para que sean desarrollados en el cuaderno por los estudiantes, como forma de preparación para la asignación de este tema.





Actividades de repaso

Para datos no agrupados. Calcular la media, mediana y moda en cada caso.

  1. Número de hermanos y hermanas de un grupo de personas: 1, 3, 6, 5, 6, 7, 4, 3, 4, 8, 3, 2, 7, 6, 3, 1, 5, 8, 9.                                                                         
  2. El número de empresas creadas en 8 meses en un país fue: 17, 14, 21, 19, 23, 32, 17, 20, 28, 31, 28, 26.
Para datos agrupados. Calcular la media, mediana y moda en cada caso.

  1. En un colegio se han pesado 100 estudiantes, recolectando los datos que se muestran en la siguiente tabla. Determine la media, mediana y moda de esa distribución de dados.                                                                                      

  2. El peso de unos bebés recien nacidos en una clínica durante un fin de semana, se muestra en la siguiente tabla. Determine los valores de tendenciaa central con esos datos (Media, mediana y moda).



Como nota importante deben saber que:


COPIAR TODA LA TEORÍA Y EJEMPLOS MÁS LOS EJERCICIOS PROPUESTOS EN EL CUADERNO TIENEN UN VALOR DE 5%
(Estos serán posteriormente revisados para su evaluación)

ASIGNACIÓN Y CONDICIONES DE ELABORACIÓN


A continuación se presenta una selección de ejercicios que deben ser resueltos en hojas blancas, y luego remitidos al docente en la fecha establecida para su posterior evaluación.

Lo primero es colocar una portada básica que lleve todos los datos de la asignación: 
  • Año académico
  • Sección
  • Nombre y Apellido del estudiante
  • Número de la asignación (#1)
  • Fecha de entrega
Los ejercicios a resolver son los siguientes:

 1.- Las calificaciones obtenidas por 20 alumnos  de un curso en una asignatura fueron:
 12, 13, 18, 09, 07, 11, 14, 05, 15, 13, 12, 16, 08, 17, 12, 14, 16, 12, 10, 14.

Determine la Media, mediana y moda. (Deben dar la respuesta larga)


 2.-  En un parque marino hay muchos lugares con diversas especies acuáticas en sus espacios. Una persona contó cuántos animales hay en cada uno de los espacios, obteniendo los sigientes valores:


32, 34, 54, 65, 23, 53, 12, 4, 27, 18, 19, 25, 27, 42, 28, 33, 24, 15, 34

Determine los valores de centralización con esos datos (Media, mediana y moda) (Colocar siempre las respuestas largas)


 3.-  Las alturas, en centímetros, de un grupo de estudiantes aparecen en la siguiente tabla, agrupadas en eintervalos de clase:





Determine los valores de centralización (recuerde expresar las respuestas largas)

 4.- Al medir el tamaño de un grupo de insectos, un científico obtuvo los siguientes datos:





Determinar los valores de centralización (Respuestas largas) 


  5.- Pregunta de Investigación: 

Investigue qué es la fórmula de Sturges, para qué se utiliza, y por qué fue criticada y modificada.


Condiciones de elaboración y entrega de la asignación:

  • Debe ser realizada a mano.
  • Debe llevar los datos solicitados en la portada
  • El plazo máximo de entrega es hasta el 13-14 de abril. (Todo el día).
  • Las consultas finalizan el viernes de la semana previa a la entrega de la asignación.
  • La asignación debe ser fotografiada y enviada al docente  únicamente al correo electrónico.
  • Quienes lo deseen, pueden enviar el trabajo como un documento Word o PDF con la portada solicitada y las imágenes adentro.

Enviar al correo electrónico:

ernestovaquero@gmail.com



RECURSOS ADICIONALES

Como alternativas de complemento a las explicaciones que he colocada en esta entrada se encuentran las siguientes:

  • Temas 



Esto es todo por el tema de estadística. Espero sus consultas en el horario establecido.


Hasta la próxima entrada, 



¡Si todos colaboramos, la tempestad pasará en menos tiempo, y volveremos a la normalidad. Mantengámonos unidos!


M.Sc. Ernesto Vaquero
Matemáticas UEP Kalil Gibrán


No hay comentarios.:

Publicar un comentario