Introducción a La Estadística

 

 

 

 

 

 

 

________________

 

 

 

La Estadística es el estudio de los fenómenos aleatorios. Una definición por demás simple,  aunque los procedimientos necesarios para alcanzar éste objetivo no comparten necesariamente tal característica.

 

 

 

Para desarrollar este trabajo se necesita obtener y procesar datos experimentales para por medio de ellos sacar conclusiones. A este proceso se le conoce como inferencia estadística,  en éste contexto consideramos la inferencia como un razonamiento inductivo (generalización) ya que nuestro trabajo va de lo particular a lo general.

 

 

 

Como paso fundamental es  necesario entender el concepto de población y muestra, la población es la colección de toda posible información que caracteriza a un fenómeno, como verán para la estadística el concepto de población tiene un significado mucho más amplio del que se le da en el lenguaje común; de esta manera consideramos una población a un conjunto finito (aunque puede ser muy grande) de datos acerca de algo de nuestro interés.

 

 

 

Por otro lado una muestra es un subconjunto representativo seleccionado de una población. Nuestro principal interés recae en el concepto de muestra representativa; una buena muestra debe reflejar las características esenciales de la población de la cuál se tomó. Parte importante de la estadística es asegurar que cada observación de la población tenga la misma oportunidad de estar incluida en la muestra. Tales procesos llamados muestreos, permiten llegar a una muestra aleatoria, ésta se usará para calcular ciertos valores de la muestra llamadas estadísticas y a partir de las estadísticas se realizan inferencias acerca de ciertas características de la población que se denominan parámetros.

 

 

 

Como es notorio vemos presentes en nuestra exposición inicial una cantidad importante de conceptos, que deberán conocerse bien; para luego llegar a aplicarlos a situaciones complejas.

 

Cualquier proceso de inferencia, trae aparejado la posibilidad de errores, nunca se podrá suponer algo con una seguridad del cien porciento, sin embargo el proceso utiliza como herramienta para calcular su grado de confiabilidad la probabilidad, o sea que en cada proceso de inferencia se calcula la probabilidad de que la misma sea correcta.

 

 

 


 

Representación Gráfica

 

 

 

.En Estadística

 

 

 



Para poder visualizar los datos relevados y sacar algunas conclusiones primarias, podemos utilizar las gráficas como una herramienta útil, para ello aclaremos algunos conceptos. Para identificar los patrones en un conjunto de datos es necesario agrupar las observaciones en un número relativamente pequeño de clases que no se superpongan entre sí, de forma que no haya datos superpuestos. El número de observaciones de una clase recibe el nombre de frecuencia de la clase, mientras que el cociente de la frecuencia con respecto a las observaciones totales se llama frecuencia relativa. Al graficar la frecuencia relativa contra sus respectivos intervalos en forma de rectángulos obtenemos el llamado histograma de frecuencias relativas o distribución de frecuencia relativa.
El número de clases que se usará dependerá de la cantidad de datos con los que trabajemos, para una pequeña cantidad de observaciones podemos usar unas 5 clases, para valores muy importantes podemos usar hasta 12 o a lo sumo 15 clases, igualmente cada caso debe estudiarse de forma independiente, ya que si mantenemos grandes agrupaciones de datos en una única clase podemos estar afectando nuestra lectura de los posibles resultados.

Podríamos detenernos en detalles como las longitudes de las clases (generalmente serán iguales salvo que los datos lo ameriten) o la forma más adecuadoa de establecer los límites de cada clase (para no tener observaciones que puedan caer en 2 clases a la vez) pero eso alargaría demasiado nuestro tema y confiamos en el uso de la razón o el estudio exhaustivo cuando el caso lo necesite.

 



Medidas Numéricas

 



Además de las gráficas, muchas veces se utilizan algunas medidas que nos aportarán datos importantes para ampliar nuestra lectura de las observaciones.
Existen 2 medidas de interés para cualquier conjunto de datos, donde se ubica el centro y la variación de los datos. La tendencia central como se la conoce es la disposición par agruparse alrededor de algún o algunos datos en particular, la variabilidad es la dispersión de los mismos datos. Existen principalmente 3 medidas de tendencia central la moda, la mediana y la media.

La moda de un conjunto es el valor que se repite con mayor frecuencia en el conjunto.
La mediana es el valor para el cual, al ordenar los datos de forma creciente quedan la mitad de los valores de un lado y la otra mitad de el otro lado de dicho valor.
La media es el promedio aritmético.
Vale aclarar que en lo anterior nos referimos a los llamados datos no agrupados; esto es, todavía no se han agrupado las observaciones en clases. Los problemas mas frecuentes que conllevan estos datos son:
La moda: puede ser que en una cantidad pequeña de datos no haya repetidos, o incluso que varios se repitan la misma cantidad de veces.
La mediana: requiere que los datos estén ordenados, lo que lleva trabajo en muestras grandes (en especial sin la ayuda de ordenadores)
La media:por sus características puede ser seriamente afectado por observaciones remotas.

Todos estos valores tienen su forma especial de calcularse cuando los datos están agrupados, o sea

Media:    o            

 

siendo punto medio de la clase y es la frecuencia de esa clase,  es la suma de las frecuencias totales.

 

 

Mediana: siendo L limite inferior de la clase donde se encuentra la mediana y la frecuencia de esa clase, c la longitud de esa clase y j el número de observaciones de esta clase, necesarias para completar n/2.

Es por todo esto que en general no se encuentran solas en el estudio de muestras sobre poblaciones sino acompañadas de otras medidas.

La varianza s² de las observaciones es el promedio del cuadrado de las distancias entre cada observación y la media del conjunto de observaciones.
La varianza es una medida razonable de la variabilidad aunque también puede sufrir grandes cambios por la existencia de valores extremos.
La raíz cuadrada positiva de la varianza se conoce como desviación estándar s.
La desviación media D.M. Es el promedio de los valores absolutos de las diferencias  entre cada observación y la media de las observaciones.
El recorrido R de las observaciones es la diferencia entre el valor más grande y el más pequeño.


Additional information