miércoles, 25 de noviembre de 2009

ESTADISTICA DESCRIPTIVA


Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una variable y describir con ellas ciertas características de los conjuntos, logrando una comparación más precisa de los datos que la que se puede conseguir con tablas y gráficas.

MEDIDAS DE TENDENCIA CENTRAL

Los promedios son una medida de posición que dan una descripción compacta de como están centrados los datos y una visualización más clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones.

Es importante poner en relieve que la notación de promedio lleva implícita la idea de variación y que este número promedio debe cumplir con la condición de ser representativo de conjunto de datos.

El promedio como punto típico de los datos es el valor al rededor del cual se agrupan los demás valores de la variable.

MEDIA ARITMÉTICA

Es una medida matemática, un número individual que representa razonablemente el comportamiento de todos los datos.

Características de la Media:

1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno afecta la media.

2. La suma algebraica de las desviaciones de los valores individuales respecto a la media es cero.

3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier número A es mínimo si A = X

4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por los valores extremos, y de esa forma llegar a ser una medida menos representativa, por lo que si la distribución es asimétrica, la media aritmética no constituye un valor típico.

LA MODA

Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como el valor más típico de una serie de datos.

Para datos agrupados se define como Clase Modal el intervalo que tiene más frecuencia.

La moda puede no existir o no ser única, las distribuciones que presentan dos o más máximos relativos se designan de modo general como bimodales o multimodales.

Características de la Moda.

1. Representa más elementos que cualquier otro valor

2. No está afectada por los valores extremos pero para datos continuos es dudoso su cálculo.

3. La moda para una distribución de frecuencias de datos agrupados no puede ser calculada exactamente, el valor de la moda puede ser afectado por el método de agrupación de los intervalos de clase.

4. La moda no permite conocer la mayor parte de los datos

5. Algunas veces el azar interviene de manera importante y hace que un valor no representativo se repita frecuentemente.

6. Puede usarse para datos cuantitativos como cualitativos

7. La moda como estadístico, varía mucho de una muestra a otra

8. Cuando se tienen dos o más modas es difícil su interpretación

9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la distorsionan, pero no se presta para un tratamiento matemático.

LA MEDIANA

Es el valor de la observación que ocupa la posición central de un conjunto de datos ordenados según su magnitud. Es el valor medio o la media aritmética de los valores medios. La mediana es un valor de la variable que deja por debajo de él un número de casos igual al que deja por arriba.

Geométricamente la mediana es el valor de la variable que corresponde a la vertical que divide al histograma en dos áreas iguales.

Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con respecto a los demás, entonces la media aritmética se puede distorsionar y perder su carácter representativo, en esos casos es conveniente utilizar la mediana como medida de tendencia central.

Características de la mediana

1. Es un promedio de posición no afectado por los valores extremos.

2. No está definida algebraicamente

3. Cuando la localización del elemento central puede ser determinada y los límites de clase mediana son conocidos, la mediana para la distribución de frecuencias puede ser calculada por interpolación, no importando que ésta contenga intervalos abiertos, cerrados, iguales o diferentes.

4. La suma de los valores absolutos, sin considerar el signo, de las desviaciones individuales respecto a la mediana es mínimo.

5 La mediana en caso de una distribución asimétrica, no resulta desplazado del punto de tendencia central.

6. Si el universo tiene curtosis excesiva la mediana como estadístico, varía menos que cualquier otra medida.

7. Si la mediana se calcula por interpolación y hay lagunas en los valores de la clase mediana o los datos son irregulares, esta medida no es buena ya que su ubicación puede resultar falsa.

8. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada, ya que por comparación pone en evidencia si un elemento está en la mitad superior a ella o en la inferior.


MEDIA GEOMÉTRICA

Útil cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del promedio de tasas, razones, proporciones geométricas y relaciones de variables. Se utiliza en Matemáticas Financieras y Finanzas para promediar números índices, tasas de cambio, etc.

La media Geométrica de una serie de números es la raíz n-ésima del producto de esos números

M = n e (x 1 * x 2 * x 3 *.....*x n )

Se ve afectada por todos los números y valores extremos pero en menor grado que la Media Aritmética, su valor siempre es menor que el de ésta.

MEDIDAS DE DISPERSIÓN

Un rasgo principal de los datos es su dispersión o amplitud, que se refiere a su variabilidad, a la evaluación de cuán separados o extendidos están estos datos o bien cuanto difieren unos de otros.

Variación: es el grado en que los datos numéricos tienden a extenderse al rededor de un valor, generalmente el valor medio

LOS CUARTILES

Son valores que dividen a la distribución en n partes iguales

Cuartiles, cuatro partes iguales: Q1, Q2, Q3

Deciles, diez pares iguales : D1, D2..........D9

Percentiles o centiles, cien partes iguales: P1, P2.....P99

Los cuantiles permiten hacer un análisis minucioso de la distribución, se utilizan generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo. Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc.


RANGO

Mide la dispersión de la totalidad de los datos. Es la más obvia de las mediadas ya que es la distancia entre los valores máximo y mínimo.

El rango o recorrido da alguna idea del grado de variación que ocurre en la población, pero con frecuencia los resultados pueden ser engañosos, pues este depende de los valores extremos e ignora la variación de las demás observaciones. Está afectado por ocurrencias raras o extraordinarias.

VARIANZA

Otro tratamiento para evadir la suma cero de las desviaciones de las observaciones respecto a su Media Aritmética, consiste en recurrir al proceso de elevar al cuadrado estas desviaciones y sumar los cuadrados, dividiendo la suma por el número de casos, a esta cantidad se le denomina varianza, y es la más importante de las medidas de variación porque tiene la ventaja de no prescindir de los signos de las desviaciones, pero al igual que la desviación media los valores extremos pueden distorsionarla

s 2 = S ( xi - X ) 2 / n

s 2 = S fi (xi-X ) 2 / S fi

S 2 = S (xi-X) 2 / ( n)

S 2 = S fi ( xi-X ) 2 / ( S fi )

S 2 * = S (xi-X) 2 / ( n-1)

S 2 *= S fi ( xi-X ) 2 / ( S fi -1)

En inferencia, con una muestra tomada de una población grande se pretende descubrir cuanto varían los datos al rededor de la media poblacional, si embargo cuando no se conoce la media de la población se estima a partir de la media aritmética de la muestra y esto hace que parezca menos variable de o que es en realidad, al dividir por n-1 se está compensando por la variabilidad más pequeña que se observa en la muestra, por lo que S 2 * , la suma de cuadrados dividida por n-1 es considerado un estimador más eficiente para la varianza poblacional.

DESVIACION ESTANDAR

Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de trabajar con distintas dimensiones en la media y en la medida de variabilidad es necesario definir la Desviación estándar como la raíz cuadrada de l varianza.

La Desviación Estándar es útil para describir cuanto se apartan de la media de la distribución los elementos individuales. Una medida de ello se denomina puntuación estándar número de desviaciones a las que determinada observación se encuentra con respecto a la media.

Puntuación estándar de xi = (xi - X) / s

Al comparar distribuciones también hacemos uso de la calificación estándar.

Característica de la Desviación Estándar:

1. Es afectada por el valor de cada observación

2. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis en las desviaciones extremas que en las demás desviaciones.

3. Si en el eje X de la distribución de frecuencias normal, se mide a ambos lados de la media una distancia igual a :

Una desviación estándar se forma un intervalo en el cual se encuentra el 68.27% de los valores centrales de la variable

Dos desviaciones estándar, se forma un intervalo donde se encuentra el 95.43% de los valores centrales

Tres desviaciones estándar, se forma un intervalo que contiene el 99.73% de los valores centrales

4. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviación estándar no hay pérdida de información por lo que la desviación para los datos observados es igual que para los datos tabulados.

En la construcción de una tabla de una variable continua hay pérdida de información por el agrupamiento de los valores en intervalos y se traduce en la discrepancia entre el valor de la desviación observada y tabulada.
Resumen: