sábado, 30 de mayo de 2015

TABLA DE DISTRIBUCIÓN NORMAL TIPIFICADA Y TABLA DE VALORES CHI-2


Os dejo la tabla de distribución normal tipificada para la realización de problemas.










                                                                                                                                 

 
También la tabla de valores de chi cuadrado, recordad que si el valor que os da es mayor que el que está en la tabla para un determinado error, hay que rechazar la hipótesis nula!!!!

TEMA 10. HIPÓTESIS ESTADÍSTICAS. TEST DE HIPÓTESIS

Bueno, este fue el último tema que vimos en clase, en concreto el chi cuadrado.

Para controlar los errores aleatorios, además de los intervalos de confianza, contamos con otra herramienta como es el test o contraste de hipótesis.
Con los intervalos nos hacemos una idea de un parámetro de una población dado un par de números entre los que confiamos que esté el valor desconocido.

Son herramientas estadísticas para responder a preguntas de investigación, cuantifica la relación entre una hipótesis previamente establecida y los resultados obtenidos. El test de hipótesis siempre va a contrastar la hipótesis nula (la que no establece relación entre las variables).

Hay varios tipos de análisis estadísticos según el tipo de variables implicadas en el estudio aunque nosotros solo podemos investigar con chi cuadrado.

El test de hipótesis mide la variabilidad de error que cometo si rechazo la hipótesis nula. Con una misma muestra, podemos aceptar o rechazar la hipótesis nula. Todo ello depende de dos errores que podemos cometer.
El error alfa es la probabilidad de equivocarnos al rechazar la hipótesis nula, es decir rechazarla siendo ésta verdadera.
El error beta es la probabilidad de equivocarnos al aceptar la hipótesis nula, es decir, aceptarla siendo falsa.
Es lo que llamamos significación estadística.


  • Test de hipótesis Chi-cuadrado
Se utiliza para comparar variables cualitativas (dependiente e independiente).
En primer lugar suponemos la hipótesis cierta y estudiamos como es de probable que siendo iguales dos grupos a comparar se obtengan resultados como los obtenidos o haber encontrado diferencias más grandes por grupos.
Para ello voy a poner un ejemplo explicado con el que seguramente lo entendáis mejor.


https://www.youtube.com/watch?v=-osaBBWFIDk


TEMA 9. ESTADÍSTICA INFERENCIAL. MUESTREO Y ESTIMACIÓN

Bueno, pues llegados a este punto, puede decirse que este es el tema de mayor importancia dentro de la asignatura  ya que abarca numerosos puntos, todos ellos fundamentales para la realización de problemas.
Este tema puede encasillarse en varios puntos importantes: cálculo del error estándar y Teorema central del límite, intervalos de confianza y finalmente el muestreo (tipos y cálculo de tamaños muestrales).

Para empezar, voy a explicar algunos conceptos previos a los cálculos. Por un lado, la población de estudio, que es el conjunto de pacientes o individuos sobre los que queremos estudiar alguna cuestión y se distingue de muestra en que ésta son los individuos concretos que participan en el estudio. Siendo el conjunto de ellos el tamaño muestral.

Al conjunto de procedimientos que permiten pasar de lo particular de la muestra a lo general, la población, le denominamos inferencia estadística o con palabras cotidianas ''extrapolar''.

Finalmente señalar la diferencia entre un parámetro que es la medida que queremos obtener, y un estimador que es la variable de estudio obtenida en la muestra.


  • Error estándar
Es la medida que trata de captar la variabilidad de los valores del estimador. Mide el grado de variabilidad de los valores en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población.

Error de una media
Cuanto más pequeño es el error estándar de un estimador, más nos podemos fiar del valor de una muestra concreta.
Error de una proporción
Para calcularlo debemos diferenciar si se trata de una media o una proporción. Siendo para una media la fórmula que aparece en primer lugar y para una proporción la de abajo.
s= desviación típica.
n=tamaño de la población.
p=proporción del estimador.

De ambas fórmulas se deduce que a mayor tamaño de la muestra, menor será el error que cometamos.



  • Teorema central del límite
Para estimadores que pueden ser expresados como suma de valores muestrales, la distribución de sus valores sigue una distribución normal con media de la población y desviación típica igual al error estándar del estimador que se trate.
Si sigue una distribución normal como ya dije en anteriores entradas, 1S abarca un 68,26% de las observaciones, 2S un 95,45% de las observaciones y 3S un 99%.


  • Intervalos de confianza
Los intervalos de confianza son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error aleatorio).
IC de una media
Se trata de un par de números tales que, con un nivel de confianza determinados, podemos asegurar que el valor del parámetro es mayor que el límite inferior y menor que el superior.
Se calcula considerando que el estimador muestral sigue una distribución normal, como establece la teoría central del límite mediante la siguiente fórmula.
IC de una proporción


Siendo la p la proporción o la media X , Z el valor que depende el intervalo de confianza que nos piden (95%- z=1,96) (99%- z=2,58).

El signo significa que cuando elija el signo negativo se conseguirá el límite inferior y cuando se elija el positivo se tendrá el extremo superior.
Mientras mayor sea la confianza que queramos otorgar al intervalo, éste será más amplio, es decir, los extremos estarán más distanciados y por tanto el intervalo será menos preciso.


  • Muestreo y tipos
Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estamos estudiando.
La población general de la que queremos obtener conclusiones las vamos a elegir al azar, para obtener la muestra y a partir de esta hacer inferencia de la población entera.

Encontramos diferentes tipos, el probabilístico en el que todos los sujetos de la población tienen una probabilidad distinta de cero en la selección de la muestra. Dentro de este grupo se encuentran: el aleatorio simple, aleatorio sistemático, estratificado, conglomerado y multietápico.
Por otro lado el no probabilístico en el que se sitúan el accidental o por cuotas y finalmente el de conveniencia del estimador.


  • Tamaño muestral
El tamaño de la muestra va a depender del error estándar, de la mínima diferencia entre los grupos de comparación, la variabilidad de la variable a estudiar (varianza) y del tamaño de la población de estudio. Se diferencia al igual que el IC en si es sobre una media o una proporción.

Para una media:  
Siendo Z el valor que depende del nivel de confianza, S la desviación típica y E el error máximo aceptado por los investigadores. Todo ello elevado al cuadrado.         (desviación típica al cuadrado= varianza)


Para una proporción:

Datos iguales a la anterior fórmula siendo N el tamaño de la población y p la proporción.

Se redondea siempre hacia arriba el número de sujetos de la muestra.

Espero que se entienda, al final de todo pondré varios ejemplos de cada tipo de fórmula para practicar. A trabajar!!!!!

CONTINUACIÓN. DISTRIBUCIONES NORMALES Y TIPIFICACIÓN DE VALORES

Como dije en la anterior entrada, voy a continuar describiendo el tema 8, en concreto las distribuciones normales y la tipificación de valores. Esto último de gran importancia de cara a los posibles problemas del examen.

Distribuciones normales
En estadística las distribuciones normales, también conocidas como distribución de Gauss o gaussiana, son distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.
La gráfica tiene una vista acampanada y simétrica respecto a los valores de posición central (media, mediana y moda) que en estas distribuciones coinciden.
La gráfica anterior se conoce como campana de Gauss y tiene las siguientes características: al sumarle una desviación típica a ambos lados, se obtienen el 68,26% de las observaciones, si se le suman dos, un 95,45% de las observaciones y si le sumamos tres desviaciones, un 99% de las mismas.
Por otro lado se encuentran las simetrías y curtosis.
La asimetría se mira según el lado contrario al que se encuentre el pico de la curva, es decir, si el pico se encuentra a la derecha es asimetría a la izquierda y viceversa.
Esto nos sirve para ver es grado de asimetría de una variable que no es más que la distribución de los datos en torno a su media.
Los resultados pueden ser los siguientes:
  • g1=0. Distribución simétrica, existen la misma concentración de valores a la derecha y a la izquierda de la media.
  • g1>0. Distribución asimétrica positiva, existe una mayor concentración de valores a la derecha que a la izquierda de la media.
  • g1<0. Distribución asimétrica negativa, existe una mayor concentración de valores a la izquierda que a la derecha de la media.
La curtosis o aplanamiento de una variable, sirve para medir el grado de concentración de valores en torno a su media. Se elige como referencia una variable con distribución normal.
Los resultados pueden ser los siguientes:
  • g2=0. Distribución mesocúrtica. Presenta un grado de concentración medio alrededor de los valores centrales de la variable.
  • g2>0. Distribución leptocúrtica. Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
  • g2<0. Distribución platicúrtica. Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Tipificación de valores
Para ello utilizaremos variables que tienen una distribución normales y compararlos con una tabla de valores ya establecida. Lo único que debe reunir es que sigan una distribución normal y que tengan más de 100 unidades.
La tipificación de valores o normalización nos permite conocer si otro valor corresponde o no a esa distribución de frecuencia.


Para ello voy a poner un ejemplo:
En una muestra de 500 mujeres que reciben asistencia queremos saber como la pobreza afecta a su autoestima.
Medimos la autoestima con una escala de actitud de 20 puntos (variable continua). Suponemos que la distribución sigue una curva normal.
Media autoestima: 8 
Desviación típica: 2
Nos preguntan, ¿Qué porcentaje de las destinatarias de la asistencia tienen puntuaciones de autoestima entre 5 y 8?

Para hallarlos hay que transformar las puntuaciones en tipificadas (Z).
Nos vamos a la tabla de la distribución normal y buscamos 1,50 que sale 0,4332, en % 43,32.
O lo que es lo mismo: un poco más del 43% de las destinatarias de asistencia están entre 5 y 8 de autoestima
O si una persona selecciona al azar hay un 43% de posibilidades que la persona tenga una autoestima entre 5 y 8.

Espero que os haya sido de utilidad, si me da tiempo pondré más ejemplos de este tipo en otras entradas. 

viernes, 29 de mayo de 2015

TEMA 8. MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DISPERSIÓN

Durante las clases del tema 8, estuvimos viendo las medidas de tendencia central, posición y dispersión.

Por un lado se encuentran las medidas de posición que nos indican la magnitud o tamaño de los datos y lo que establecen principalmente es la posición de un individuo dentro de una muestra o serie estadística.
Dentro de éstas se sitúan los cuantiles, siendo los más habituales los percentiles que dividen a la muestra ordenada en 100 partes, aunque también se encuentran los deciles (10 partes) ó cuartiles (en 4 partes).

Las medidas de tendencia central por otra parte, nos indican el comportamiento de la mayoría de los sujetos. Dentro de ésta están datos estadísticos que hemos utilizado desde la infancia como son la media, mediana y moda.


  • La media se calcula para hallar el centro geométrico de las variables cuantitativas, es la suma de todos los valores dividida entre el número de observaciones. Sin embargo ésto solo nos funciona cuando los datos están desagrupados, cuando nos encontramos ante una tabla de frecuencia por ejemplo, en la que los datos están agrupados, la fórmula de la media es diferente, siendo en este caso el sumatorio de las marcas de clase por la frecuencia absoluta dividida entre el número de observaciones.






  • La mediana por otro lado es el dato que deja al 50% de los demás por encima y al otro 50% por debajo. Aspecto a tener en cuenta es que si los datos son pares, la mediana será la media de los dos valores centrales, si son impares el valor será el que ocupe la posición n+1/2.Destaca de ella que es una medida tanto de tendencia central como de posición.



  • La moda, se utiliza tanto para datos cuantitativos como cualitativos, pero precisa de una desagrupación de los datos. Es el valor con mayor frecuencia, o dicho de otro modo ''el que más se repite''.                           Si los datos están agrupados se habla de intervalo modal y corresponde al intervalo en el que el cociente de la frecuencia relativa y la amplitud es mayor. También puede observarse donde la frecuencia absoluta es mayor.


Finalmente se encuentran las medidas de dispersión, dentro de ellas se encuentra el rango o recorrido, que no es más que la diferencia entre el valor mayor y el menor de la muestra [Xn-X1], la desviación típica, que se presenta como la media aritmética de las distancias de cada observación con respecto a la media de la muestra que se diferencia de la desviación media o estándar en que ésta cuantifica el error que cometeríamos si representáramos un muestra únicamente con su media.








La varianza que es el cuadrado de la desviación tipica y el coeficiente de variación que es la diferencia entre la desviación tipica y la media.



Bueno y para no ser muy pesada con este tema que tiene lo suyo, la parte final de las distribuciones normales y tipificación voy a ponerla en otra entrada, para que no se creen dudas sobre lo anterior y entenderlo lo mejor posible.

domingo, 17 de mayo de 2015

TEMA 7. INTRODUCCIÓN A LA BIOESTADÍSTICA

Durante el tema 7, comenzamos a ponernos en marcha con los problemas y para ello lo primero que debíamos saber el concepto de estadística. La estadística es el cuerpo de conocimientos para aprender de la experiencia, frecuentemente en de forma de números provenientes de medias que muestran variaciones entre los diferentes individuos. Parte del supuesto de que las características clínicas que se observan cambian de un paciente a otro: las variable. Éstas pueden ser de dos tipos según el punto de vista de la medición. 

En primer lugar se encuentran las variables cualitativas que se refieren a propiedades que no pueden ser medidas como el nivel de conocimientos o el estado civil y por otro lado variables cuantitativas que miden términos numéricos. Éstas últimas pueden ser discretas si solo pueden tomar un número finito de valores como el número de hijos, o continuas si pueden ser divididas de forma infinita como la talla, la tensión arterial etc.. 
Ambas categorías deben ser exhaustas y exclusivas.

Una vez que tenemos diferenciadas las variables, es hora de ponerlas ordenadas y de forma visiblemente clara representando los datos, y esto es elaborando una tabla de frecuencia. Para ello os pongo un ejemplo y os detallo cómo hay que hacerlo.

Por ejemplo, obtenemos los pesos en kg de niños atendidos en una consulta y queremos ordenarlos y clasificar en intervalos.


Pesos En Kg De Niños Atendidos En La Consulta De Niño Sano. N = 40
3,9            4,7          3,7        5,6       4,3        4,9    5,0       6,1        5,1     4,5
5,3            3,9          4.3        5.0       6.0        4.7    5.1       4.2        4.4     5.8
3.3            4.3          4.1        5.8       4.4        4.8    6.1       4.3        5.3     4.5

4.0            5.4          3.9        4.7       3.3        4.5    4.7       4.2        4.5     4.8

En primer lugar lo que haremos será buscar el peso mayor y el peso menor del grupo de datos para así averiguar el rango o recorrido de la muestra. En este caso:
El que más pesa tiene un peso de 6,1 Kg y el que menos pesa tiene un peso de 3,3 Kg, por lo que el recorrido es 6,1-3,3= 2,8

A continuación, para calcular el número de intervalos en los que los vamos a dividir le hacemos la raíz cuadrada al  número total de individuos de la muestra y vemos que la raíz de 40 es 6,32. Por tanto los clasificaremos en 6 intervalos.
Al ser el recorrido 2,8 lo dividiremos entre el número de intervalos para así saber la amplitud de dicho intervalo que en este caso será  2,8/6= 0,46

Tras estos pasos, podemos proceder a realizar la tabla de frecuencia.











Al ser variables continuas debemos poner paréntesis y corchetes en los extremos de cada intervalo para excluirlos del siguiente. 

Como se observa, la fi o frecuencia absoluta es el número de niños de la muestra que se encuentran en ese intervalo de peso, y la Fi es la frecuencia absoluta acumulada que se averigua sumando los valores de fi. Ejemplo:  Fi 2=  3+8= 11, Fi 3= 11+14=25

La hi es la frecuencia relativa que se halla dividiendo la frecuencia absoluta entre el número total de la muestra (fi/N). La Hi es el porcentaje y para comprobarlo debemos sumarlos todos y que el resultado sea el 100%.

Otro punto importante del tema es la representación de gráficas, que son la imagen de las ideas o forma de representación numérica. Entre las más importantes destacan: el diagrama de barra, el pictograma (variante del diagrama de barra), el histograma, el gráfico de tronco y hojas, gráfico de sectores y finalmente el gráfico para datos bidimensionales y multidimensionales.

Para no extenderme mucho voy a hacer un pequeño resumen de lo más importante de cada uno.

  • Diagrama de barra                    Se utilizan para medir variables cualitativas, nominales y policotómicas. Una variante de      éste es el pictograma que se diferencia del diagrama en que se sustituyen las barras por iconos  referidas a lo que estamos estudiando pero no aportan información adicional.


  • Histograma y polígonos        de frecuencia                           Solo se usa para variables continuas y en este caso los dos ejes no proporcionan información. Si la amplitud del intervalo es la misma, las columnas irán juntas, de lo contrario habrá que ajustar el área del rectángulo según una proporción.



El polígono de frecuencia se realiza  haciendo las marcas de clase que es el resultado de la media entre la suma de los dos extremos de cada intervalo.


  • Gráfico de tronco (o tallo) y hojas              Se utiliza para expresar variables cuantitativas continuas. Es un híbrido  entre la tabla y el  histograma: nos muestra la forma de la distribución y  los valores de la variable. Cada dato de la seria se divide en tres partes:  tronco(decenas), las ramas (centenas) y la hoja (unidades).

  • Gráfico de sectores                                                                           Se utilizan para variables cualitativas y con pocas categorías preferentemente dicotómicas.






  • Gráfico de datos bidimensionales y multidimensionales                                                                                                                                   
    Son gráficos en los que se representan varias variables al mismo tiempo. Suelen mezclar variables cualitativas y continuas.


Diagrama de estrella (estadística avanzada)







viernes, 8 de mayo de 2015

SEMINARIO 2

Durante la sesión del seminario 2, en primer lugar procedimos a exponer las búsquedas bibliográficas avanzadas de los tres casos, y más tarde aprendimos a utilizar un programa llamado Epi Info que utilizaremos para el trabajo final de investigación en los próximos seminarios.

Con este programa entre otras cosas, se pueden crear formularios, muy útiles en el ámbito de la investigación, y posteriormente grabar los datos obtenidos.

Una vez dentro del programa, aprendimos a establecer un título a nuestro caso en la hoja de diseño, dentro del apartado título, y nos dirigimos a donde pone ''texto''. Tras esto, podemos empezar a añadir las preguntas a nuestro cuestionario. Éstas pueden ser preguntas de Si/No, preguntas con respuesta excluyente (dentro del apartado option) ó preguntas de respuesta múltiple (en checkbox). Todo ello para acotar nuestros resultados y obtener datos en un rango estrecho.
Una vez terminado el cuestionario, para guardarlo y grabar los datos le damos a Enter Data.

El seminario nos ha sido muy útil ya que gracias a este programa podemos realizar la investigación del trabajo final y encontrar datos suficientes para realizar el análisis estadístico. Espero que lo encontréis igual de práctico que yo.

domingo, 3 de mayo de 2015

TEMA 6. ETAPA EMPÍRICA DE LA INVESTIGACIÓN.

Durante las clases que componían el tema 6, y una vez hecho el marco teórico, debemos clasificar el estudio teniendo en cuenta estos cuatro parámetros:

FINALIDAD:  Analítico, descriptivo o experimental.
SECUENCIA TEMPORAL: transversal o longitudinal.
CONTROL DE LA ASIGNACIÓN DE LOS FACTORES DE ESTUDIO: Experimental u observacional.
CRONOLOGÍA: prospectivo o retrospectivo.


Elegidos estos parámetros, ya nos podemos dirigir a elegir el tipo de estudio. La clasificación de estudios os la dejo en la siguiente imagen.


¿Qué queremos medir?
Aquí empiezan los cálculos:
Si queremos medir la situación de un punto en el tiempo, hay que medir la prevalencia.
Si queremos medir lo que está pasando durante un periodo de tiempo, hay que medir la incidencia.

La prevalencia describe qué proporción de la población tiene la enfermedad en un punto específico en el tiempo. Esto se halla calculando el nº de individuos con la enfermedad en un tiempo específico/nº de individuos en la población en un punto en el tiempo. Adopta siempre valores entre 0 y 1.

La incidencia describe la frecuencia de nuevos casos que ocurren durante un periodo de tiempo. Es el flujo de sanos a enfermos. Ésta se halla calculando el nº de nuevos casos detectados durante el seguimiento que desarrollan la enfermedad/nº de sujetos libre de enfermedad al comienzo del seguimiento. Adopta valores entre 0 e infinito (es una tasa).

Os dejo una foto con las fórmulas para que os aclaréis.