Article Index

 

Representación Gráfica

 

 

 

.En Estadística

 

 

 



Para poder visualizar los datos relevados y sacar algunas conclusiones primarias, podemos utilizar las gráficas como una herramienta útil, para ello aclaremos algunos conceptos. Para identificar los patrones en un conjunto de datos es necesario agrupar las observaciones en un número relativamente pequeño de clases que no se superpongan entre sí, de forma que no haya datos superpuestos. El número de observaciones de una clase recibe el nombre de frecuencia de la clase, mientras que el cociente de la frecuencia con respecto a las observaciones totales se llama frecuencia relativa. Al graficar la frecuencia relativa contra sus respectivos intervalos en forma de rectángulos obtenemos el llamado histograma de frecuencias relativas o distribución de frecuencia relativa.
El número de clases que se usará dependerá de la cantidad de datos con los que trabajemos, para una pequeña cantidad de observaciones podemos usar unas 5 clases, para valores muy importantes podemos usar hasta 12 o a lo sumo 15 clases, igualmente cada caso debe estudiarse de forma independiente, ya que si mantenemos grandes agrupaciones de datos en una única clase podemos estar afectando nuestra lectura de los posibles resultados.

Podríamos detenernos en detalles como las longitudes de las clases (generalmente serán iguales salvo que los datos lo ameriten) o la forma más adecuadoa de establecer los límites de cada clase (para no tener observaciones que puedan caer en 2 clases a la vez) pero eso alargaría demasiado nuestro tema y confiamos en el uso de la razón o el estudio exhaustivo cuando el caso lo necesite.

 



Medidas Numéricas

 



Además de las gráficas, muchas veces se utilizan algunas medidas que nos aportarán datos importantes para ampliar nuestra lectura de las observaciones.
Existen 2 medidas de interés para cualquier conjunto de datos, donde se ubica el centro y la variación de los datos. La tendencia central como se la conoce es la disposición par agruparse alrededor de algún o algunos datos en particular, la variabilidad es la dispersión de los mismos datos. Existen principalmente 3 medidas de tendencia central la moda, la mediana y la media.

La moda de un conjunto es el valor que se repite con mayor frecuencia en el conjunto.
La mediana es el valor para el cual, al ordenar los datos de forma creciente quedan la mitad de los valores de un lado y la otra mitad de el otro lado de dicho valor.
La media es el promedio aritmético.
Vale aclarar que en lo anterior nos referimos a los llamados datos no agrupados; esto es, todavía no se han agrupado las observaciones en clases. Los problemas mas frecuentes que conllevan estos datos son:
La moda: puede ser que en una cantidad pequeña de datos no haya repetidos, o incluso que varios se repitan la misma cantidad de veces.
La mediana: requiere que los datos estén ordenados, lo que lleva trabajo en muestras grandes (en especial sin la ayuda de ordenadores)
La media:por sus características puede ser seriamente afectado por observaciones remotas.

Todos estos valores tienen su forma especial de calcularse cuando los datos están agrupados, o sea

Media:    o            

 

siendo punto medio de la clase y es la frecuencia de esa clase,  es la suma de las frecuencias totales.

 

 

Mediana: siendo L limite inferior de la clase donde se encuentra la mediana y la frecuencia de esa clase, c la longitud de esa clase y j el número de observaciones de esta clase, necesarias para completar n/2.

Es por todo esto que en general no se encuentran solas en el estudio de muestras sobre poblaciones sino acompañadas de otras medidas.

La varianza s² de las observaciones es el promedio del cuadrado de las distancias entre cada observación y la media del conjunto de observaciones.
La varianza es una medida razonable de la variabilidad aunque también puede sufrir grandes cambios por la existencia de valores extremos.
La raíz cuadrada positiva de la varianza se conoce como desviación estándar s.
La desviación media D.M. Es el promedio de los valores absolutos de las diferencias  entre cada observación y la media de las observaciones.
El recorrido R de las observaciones es la diferencia entre el valor más grande y el más pequeño.


Additional information