jueves, 28 de enero de 2010
CORRELACIÒN Y REGRESIÒN
El análisis de correlación simple nos permite obtener relación entre dos conjuntos de puntuaciones.
Para investigar la relación entre dos variables es conveniente considerar:
*Las observaciones que muestran los valores de las variables
*Si se tiene “n” observaciones bidimensionales, cada par de puntos(X, Y) se representa en un sistema de coordenadas rectangulares por un punto como parejas de observaciones se tenga.
El grado de asociación entre dos variables “X” e “Y” podemos describirlos como fuerte, bajo positivo, negativo o moderado; pero estos términos carecen de precisión y objetividad.
El análisis del grado de asociación entre la variable independiente “X” y la variable dependiente “Y” constituye la correlación..
Grupo de técnicas estadísticas empleado para medir la intensidad de la relación (correlación) entre dos variables.
Gráfica que representa la relación entre las dos variables de interés (peso y talla).
COMO TRAZAR UN DIAGRAMA DE DISPERSIÓN
COEFICIENTE DE CORRELACIÒN
El coeficiente de correlación describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo o de nivel de razón. Y se le denota con r, con frecuencia se menciona tambien como r de Pearson.
Correlación = Nubes de Puntos
Sea un conjunto de pares de valores de las variables X e Y. Si los representamos en un diagrama de dispersión obtendremos una “nube de puntos” que nos dará una idea gráfica de la posible correlación entre ambas variables.
CALCULO DEL COEFICIENTE DE CORRELACION SIMPLE
Coeficiente de determinación R2
R2 x 100 es el por ciento de la variación total de los datos que es explicada por la línea de regresión.
*Permite establecer numéricamente el ajuste entre las variables.
*R2 cercano a cero significa que “y” no se explica a partir del comportamiento de “x”.
*R2 cercanos o iguales a 1 que y se explica por el comportamiento de “x”.
ANALISIS DE REGRESIÒN
El análisis de regresión sirve para predecir una medida en función de otra medida (o varias).
Y = Variable dependiente predicha explicada
X = Variable independiente predictora explicativa
¿Es posible descubrir una relación?
Y = f(X) + error
f es una función de un tipo determinado el error es aleatorio, pequeño, y no depende de X
Ecuaciòn e regresiòn
Determinar la Ecuación de la Linea de Regresión;
Y = a + bX
Usada para predecir el valor de la Variable Dependiente (Y) basado en los valores de la Variable Independiente (X).
Variable Dependiente (Y): La variable que queremos estimar o predecir.
Variable Independiente (X): La variable que se usa para hacer la predicción o estimación.
Modelo de regresiòn
En el modelo de regresión lineal simple, dado dos variables:
Y (dependiente)
X (independiente, explicativa), buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante
Ŷ = b0 + b1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad
e=Y-Ŷ se le denomina residuo o error residual
Error estandsar de estimaciòn
*La media del error es = a cero.
*Si se es pequeño los errores tienden a estar cerca de cero (cerca de la media del error). Entonces, el modelo ajusta bien los datos.
*Por lo tanto, se puede usar se como una medida de la conveniencia de usar un modelo lineal.
*El estimador de se se simboliza como se
El Error Estándar del Estimado mide la dispersión o variabilidad de los datos alrededor de la linea de regresión
Las fórmulas usadas para calcular el Error Estándar son:
Coeficiente de determinación R2
Permite establecer numéricamente el ajuste entre las variables
R2 cercano a cero significa que “y” no se explica a partir del compramiento de “x”
R2 cercanos o iguales a 1 que y se explica por el comportamiento de “x”
Es una medida de la bondad de ajuste del modelo de regresión hallado.
Donde:
SSR representa la suma de cuadrados debido a la regresión y SST representa la suma de cuadrados del total.
El coeficiente de determinación es simplemente el cuadrado del coeficiente de correlación.
El coeficiente de Determinación varía entre 0 y 1.
R2 indica qué porcentaje de la variabilidad de la variable de respuesta Y es explicada por su relación lineal con X.
PRUEBAS ESTADÌSTICAS PUEDEN SER PARAMETRICAS Y NO PARAMÈTRICAS
Las pruebas no parametricas no asumen acerca de los parametros de distribuciòn ni se preocupa por el tipo de distribuciòn, sino trabajan con simple ordenaciòn y recuento (asignando rankings) a los valores de la variable sin importar la distribuciòn.
Pruebas paramètricas
*Para usarlas deben cumplirse supuestos:
*Las variables tienen que ser cuantitativas y estar medidas en escalas de intervalo o razón
*Los datos siguen una distribución normal
*Las varianzas son iguales
*Muestras grandes (n > 30)
A veces se usa sin cumplir los supuestos pero debe usarse con cautela en muestras màs pequeñas o con varianzas desiguales, en estos casos prefiera usar pruebas no parametricas.
Pruebas no parametricas
Se deben usar con:
*Datos de distribución libre (no necesariamente normal). Si un grupo tiene distribución normal mientras el otro no.
*Si se trata de datos cuantitativos, ordinales o nominales
*Con varianza grande, un grupo con varianza 0 y el otro no
*Al trabajar con muestras pequeñas.
¿Que ventajas tienen las pruebas paramètricas sobre las no paramètricas?
Las pruebas parametricas tienen más poder de contraste y pueden analizar interacciones entre variables independientes
PRUEBAS NO PARAMETRICAS
*Chi cuadrado de Pearson (independencia, bondad de ajuste, homogeneidad)
*Prueba exacta de Fischer
*U de mann Whitney – W de Wilcoxon
*T de Wilcoxon
*Mac Nemar
*Kruskall Wallis
*Friedman
*Q de Cochran
Las mas utlizadas son:
CHI CUADRADO
Prueba de bondad de ajuste
Ho: La muestra se ajusta a una distribución teorica (esperado o modelo)
Ha: La muestra no se ajusta a una distribución teorica (esperado o modelo)
Criterio de independencia
Ho: Las variable son independientes
Ha: Las variable estan relacionadas
Criterio de homogeneidad
Ho= Las poblaciones son homogeneas
Ha= Las poblaciones no son homogeneas
MANN WHITNEY
*Contrasta si dos poblaciones muestreadas son equivalentes en su posición
*Es recomendable pero no imprescindible que las poblaciones comparadas tengan el mismo tamaño
*Compara 2 grupos relacionados y variables cuantitativas que no tienen distribución normal o que sean ordinales
*Paralela a la prueba parametrica de contraste t para muestras relacionadas
*Contrasta si dos poblaciones muestreadas son equivalentes en su posición
*Es recomendable pero no imprescindible que las poblaciones comparadas tengan el mismo tamaño
KRUSKALL WALLIS
*Compara k grupos independientes y variables cuantitativas que no tienen distribución normal o que sean ordinales
*Paralela a la prueba parametrica de ANOVA para muestras indpendientes
*Contrasta si K poblaciones muestreadas son equivalentes en su posición
*Es recomendable pero no imprescindible que las poblaciones comparadas tengan el mismo tamaño
ANÀLISIS DE VARIANZA (ANOVA)
¿Cómo funciona el análisis de varianza, en el modelo de clasificación simple?
Esta técnica de lo que trata es de expresar una medida de la variación total de un conjunto de datos como una suma de términos, que se pueden atribuir a fuentes o causas específicas de variación; pues bien esta descomposición de la varianza total se denomina: Identidad fundamental. Ella junto a la formación del estadístico de prueba, se refleja en una tabla llamada “Tabla de Análisis de Varianza”, que resume los principales aspectos teóricos prácticos de la técnica.
Análisis de Varianza
El análisis de varianza consiste en dividir la suma de cuadrado total en dos fuentes de variación y proceder al análisis de las mismas, estas son la variación dentro del grupo y la variación entre grupos. Como son variaciones la vamos a expresar como sumas de cuadrados, es decir:
jueves, 14 de enero de 2010
INFERENCIA ESTADÍSTICA
DEFINICIÓN
ESTIMACIÓN
1. Por punto. Se usan las medidas de la muestra para calcular un único valor numérico que es la estimación del parámetro poblacional.
2. Por intervalo. Las medidas de la muestra pueden también usarse para calcular dos valores numéricos que definen un intervalo el cual, con un cierto nivel de confianza, se considera que incluye al parámetro. La “bondad” de un estimador se evalúa observando su comportamiento en repetidas muestras.
PRUEBA DE HIPÒTESIS
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.
Paso 1: Se plantea la hipotesis nula y alternativa
Paso 2: Se seleciona el nivel de significancia.
Paso 3: Se identifica el estadistico de prueba
Paso 4: Se formula la regla de desicion.
Paso 5: Se toma una muestra y se decide (no se rechaza Ho o se rechaza Ho y se acepta la Ha).
Las pruebas de contraste de hipótesis pueden ser:Bilaterales
La hipótesis alternativa es que las muestras son diferentes (los medicamentos se comportan de forma diferente - es el medicamento A mejor que el B, o el medicamento B mejor que el A).
Unilaterales
La hipótesis alternativa es que una de las muestras es superior a la otra (el medicamento A es mejor que el B), careciendo de importancia para el investigador la otra posibilidad.
TIPOS DE ESRRORES
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.
El valor “p” es el nivel de significacion mas pequeno que conduce al rechazo de la
hipotesis nula, se calcula de la siguiente manera:
Sea Z0 el estadistico de prueba.
*Prueba de dos extremos (solo para curvas simetricas)
P = 2 [1 – P (Z< p =" 1" p=" P">
Se rechaza H0 cuando α ≥p
Prueba de Hipótesis para μ con muestras grandes y σ2 conocida
Por formula (para el estadistico de prueba Z):
Para el estadístico de prueba t solo sustituya en la fórmula a Z por t.
miércoles, 25 de noviembre de 2009
MUESTREO
El muestreo es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población. El error que se comete debido a hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versión simplificada de la población, que reproduzca de algún modo sus rasgos básicos.
Muestra: En todas las ocasiones en que no es posible o conveniente realizar un censo, lo que hacemos es trabajar con una muestra, entendiendo por tal una parte representativa de la población. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, ejemplificar las características de la misma.
Cuando decimos que una muestra es representativa indicamos que reúne aproximadamente las características de la población que son importantes para la investigación.
a. Población Los estadísticos usan la palabra población para referirse no sólo a personas si no a todos los elementos que han sido escogidos para su estudio. b. Muestra Los estadísticos emplean la palabra muestra para describir una porción escogida de la población. Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la Media, Mediana, la moda, la desviación estándar. Cuando éstos términos describen una muestra se denominan estadísticas.
Una estadística es una característica de una muestra, los estadísticos emplean letras latinas minúsculas para denotar estadísticas y muestras. 2. - Tipos de muestreo Los autores proponen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.
Terminología
*
Población objeto: conjunto de individuos de los que se quiere obtener una información.
*
Unidades de muestreo: número de elementos de la población, no solapados, que se van a estudiar. Todo miembro de la población pertenecerá a una y sólo una unidad de muestreo.
*
Unidades de análisis: objeto o individuo del que hay que obtener la información.
*
Marco muestral: lista de unidades o elementos de muestreo.
*
Muestra: conjunto de unidades o elementos de análisis sacados del marco.
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:
El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad no es nula para ningún elemento.
Los métodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población.
(En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.)
Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos:
1. Muestreo aleatorio simple
2. Muestreo estratificado
3. Muestreo sistemático
4. Muestreo polietápico o por conglomerados
MUESTREO ALEATORIA SIMPLE
El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.
MUESTREO ALEATORIO SITEMATICO
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k.
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.
MUESTREO ALEATORIO ESTRATIFICADO
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...).
La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos:
Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales.
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato.
Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación.
MUESTREO ALEATORIO CONGLOMERADOS
Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población.
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos.
Refuerzo:
http://docs.google.com/present/edit?id=0AcbVB_Jxr6M9ZGR4NWh0cjhfMTczaGNiNDZiaGI&hl=es
TEORIA DE LA PROBABILIAD
Muestra todos los resultados posibles de un experimento y la probabilidad de cada resultado.
¿Cómo generamos una distribución de probabilidad?
Supongamos que se quiere saber el numero de caras que se obtienen al lanzar cuatro veces una moneda al aire
Es obvio que, el hecho de que la modena caiga de costado se descarta.
Los posibles resultados son: cero caras, una cara, dos caras, tres caras y cuatro caras.
La distribución de probabilidades esta muy relacionado con el tipo de variables. Nosotros conocemos dos tipos de variables:
a.Variable discreta, y
b.Variable continúa.
Las principales distribuciones de variables discretas se presentaran a continuación. Una distribución de probabilidades para una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultados numéricos posibles para esa variable aleatoria tal que una probabilidad específica de ocurrencia se asocia con cada resultado.
El valor esperado de una variable aleatoria discreta es un promedio ponderado de todos los posibles resultados, donde las ponderaciones son las probabilidades asociadas con cada uno de los resultados.
Donde: Xi = i-ésimo resultado de X, la variable discreta de interés.
P(Xi) = probabilidad de ocurrencia del i-ésimo resultado de X
La varianza de una variable aleatoria discreta (s 2) se define como el promedio ponderado de los cuadros de las diferencias entre cada resultado posible y su media (los pesos son las probabilidades de los resultados posibles).
Donde: Xi = i-ésimo resultado de X, la variable discreta de interés.
P(Xi) = probabilidad de ocurrencia del i-ésimo resultado de X
Las distribuciones de probabilidades discretas más importantes son:
1.Distribución Binomial, y
2.Distribución de Poisson
DISTRIBUCION BINOMIAL
La distribución binomial es una distribución de probabilidades que surge al cumplirse cinco condiciones:
1.Existe una serie de N ensayos,
2.En cada ensayo hay sólo dos posibles resultados,
3.En cada ensayo, los dos resultados posibles son mutuamente excluyentes,
4.Los resultados de cada ensayo son independientes entre si, y
5.La probabilidad de cada resultado posible en cualquier ensayo es la misma de un ensayo a otro.
Cuando se cumple estas condiciones, la distribución binomial proporciona cada resultado posible de los N ensayos y la probabilidad de obtener cada uno de estos resultados.
Para este tipo de distribución de probabilidad, la función matemática es la siguiente:
Donde: P(X) = probabilidad de X éxitos dados los parámetros n y p
n = tamaño de la muestra
p = probabilidad de éxito
1 – p = probabilidad de fracaso
X = numero de éxitos en la muestra ( X = 0, 1, 2, …….. n)
El término indica la probabilidad de obtener X éxitos de n observaciones en una secuencia específica. En término indica cuantas combinaciones de los X éxitos entre n observaciones son posibles.
Entonces dado el número de observaciones n y la probabilidad de éxito p, la probabilidad de X éxitos es:
P(X) = (numero de de secuencia posibles) x (probabilidad de un secuencia especifica)
Por eso que llegamos a la función matemática que representa esta distribución.
DISTRIBUCION DE POISSON
Se dice que existe un proceso de Poisson si podemos observar eventos discretos en un área de oportunidad – un intervalo continuo (de tiempo, longitud, superficie, etc.) – de tal manera que si se reduce lo suficiente el área de oportunidad o el intervalo,
1.La probabilidad de observar exactamente un éxito en el intervalo es constante.
2.La probabilidad de obtener más de un éxito en el intervalo es 0.
3.La probabilidad de observar un éxito en cualquier intervalo es estadísticamente independiente de la de cualquier otro intervalo.
Esta distribución se aplica en situaciones como:
•El numero de pacientes que llegan al servicio de emergencia de un hospital en un intervalo de tiempo.
•El numero de radiaciones radiactivas que se recibe en un lapso de tiempo,
•El numero de glóbulos blancos que se cuentan en una muestra dada.
•El numero de partos triples por año
Su utilidad en el área de la salud es muy amplia.
La expresión matemática para la distribución de Poisson para obtener X éxitos, dado que se esperan l éxitos es:
Donde: P(X) = probabilidad de X éxitos dado el valor de l
l = esperanza del número de éxitos.
e = constante matemática, con valor aproximado 2.711828
X = número de éxitos por unidad
La distribución de Poisson se considera una buena aproximación a la distribución binomial, en el caso que np <> 100 y p < l =" np." color="#33cc00">
Distribuciones continua (curva normal):
http://personal5.iddeo.es/ztt/Tem/t21_distribucion_normal.htm
Alguno ejemplos de distribucion binomial y de poisson:
http://www.vadenumeros.es/sociales/ejemplos-distribucion-binomial.htm
http://docs.google.com/viewer?a=v&q=cache:Xyb2BQg-AycJ:www.ugr.es/~jsalinas/weproble/T3res.PDF+ejercicios+resueltos+de+distribucion+binomial&hl=es&gl=ec&pid=bl&srcid=ADGEESgpChtlfEpMbLWIK1hsKAWtBMDlYRewY0ywZUo045z5EMY5uKNygrupLeiBbaAHFHgSmrCsQAXD11hnmRqfHoJX49VssHPuZb_h-zOgoojYE9VTQk6T-jSn6M67slULv6WrYIM5&sig=AHIEtbQfMd9A13mYIWxiTitXoq3nn9vpbw
http://docs.google.com/present/edit?id=0AcbVB_Jxr6M9ZGR4NWh0cjhfMTMxZ2c5OGN0ZDY&hl=es