martes, 1 de enero de 2013

Tamaño de la muestra

En estadística el tamaño de la muestra es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población.

Por ejemplo, en un estudio de investigación epidemiológico la determinación de un tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así:
- Si el número de sujetos es insuficiente habría que modificar los criterios de selección, solicitar la colaboración de otros centros o ampliar el período de reclutamiento. Los estudios con tamaños muestrales insuficientes, no son capaces de detectar diferencias entre grupos, llegando a la conclusión errónea de que no existe tal diferencia.
- Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vista económico y humano. Además es poco ético al someter a más individuos a una intervención que puede ser menos eficaz o incluso perjudicial.


Normalmente calculamos el tamaño de la muestra para resolver dos grandes tipos de problemas:

1) Estimación de parámetros
La estimación de parámetros consiste en el cálculo aproximado del valor de un parámetro en la población, utilizando la inferencia estadística, a partir de los valores observados en la muestra estudiada. Para el cálculo del tamaño de la muestra en una estimación de parámetros son necesarios los conceptos de Intervalo de confianza, variabilidad del parámetro, error, nivel de confianza, valor crítico y valor α (véase estimación por intervalos).

2) Contraste de hipótesis
Para conocer el tamaño de la muestra en un estudio de investigación en el que queremos conocer las diferencias existentes entre dos hipótesis, debemos conocer previamente:
error tipo I y tipo II: Hay que establecer el riesgo de cometer un error de tipo I que se está dispuesto a aceptar. Normalmente de forma arbitraria se acepta un riesgo del 5%. Además hay que establecer el riesgo que se acepta de cometer un error tipo II, que suele ser entre el 5 y el 20%.
Si la hipótesis es unilateral o bilateral: El planteamiento de una hipótesis bilateral o "de dos colas" requiere mayor tamaño muestral.
Definir la Magnitud de la diferencia efecto o asociación que se desea detectar: A mayores diferencias preestablecidas en el planteamiento de la hipótesis, menor tamaño muestral, y a menor diferencia, mayor espacio muestral.
Conocer la variabilidad del criterio de evaluación en la población.





Fuente: Wikipedia.org

7 comentarios:

  1. Buenas tardes Antonio y compañer@s de master,
    Soy Cristina García, DUI de un servicio de urgencias de un hospital comarcal, en la provincia de Barcelona.
    Perdonad, en primer lugar, por mi inexperiencia en temas estadísticos.
    En primer lugar, en mi propuesta de proyecto, he elegido una muestra aleatoria de mi población (personal sanitario de servicio de urgencias) con los que quiero hacer un ensayo clínico; muestra que según la fórmula dada en los apuntes es representativa ( si la he resuelto de manera eficaz??).
    Mi pregunta es: ¿puedo comparar dos muestras aleatorias, dentro de una misma población, con diferente número de sujetos?; estadísticamente hablando, ¿es significativo?. O mejor comparar con el mismo “n”.
    Si son diferentes, ¿cuánto de diferentes pueden llegar a ser para ser relevantes?
    Muchas gracias,

    Cristina.

    ResponderEliminar
    Respuestas
    1. Estimada Cristina,

      Una vez tienes tu muestra elegida aleatoriamente y con 1 tamaño adecuado, podemos decir que es representativa de la población.

      Ahora como estás en 1 estudio de intervención lo que haces es asignar aleatoriamente cada individuo a 1 tratamiento, placebo, ...

      Entonces por decirlo así, llega el primer individuo y tiras 1 moneda y sale cara-> Tratamiento 1

      Llega el segunda individuo y obtienes una cruz-> Tratamiento 2

      ...

      Ahora imaginate que han llegado 10 individuos y has obtenido 3 caras y 7 cruces, por lo que tienes 3 en el trat1 y 7 en el trat 2.

      Así que ahora que creo que entiendes el mecanismo de aleatorización que te he explicado con este ejemplo, te puedo decir que pueden ser los tamaños completamente diferentes ;), de hecho es lo más habitual.

      Espero haberte ayudado,
      Antonio

      Eliminar
  2. Buenas tardes Antonio y compañer@s de master,
    Soy Cristina García, DUI de un servicio de urgencias de un hospital comarcal, en la provincia de Barcelona.
    Perdonad, en primer lugar, por mi inexperiencia en temas estadísticos.
    En primer lugar, en mi propuesta de proyecto, he elegido una muestra aleatoria de mi población (personal sanitario de servicio de urgencias) con los que quiero hacer un ensayo clínico; muestra que según la fórmula dada en los apuntes es representativa ( si la he resuelto de manera eficaz??).
    Mi pregunta es: ¿puedo comparar dos muestras aleatorias, dentro de una misma población, con diferente número de sujetos?; estadísticamente hablando, ¿es significativo?. O mejor comparar con el mismo “n”.
    Si son diferentes, ¿cuánto de diferentes pueden llegar a ser para ser relevantes?
    Muchas gracias,

    Cristina.

    ResponderEliminar
  3. Buenas tardes Antonio.
    Estoy realizando el trabajo fin de máster y me han surgido varias dudas que me gustaría comentar.
    Con el estudio que planteo quiero determinar el efecto de una intervención enfermera para la adherencia al tratamiento y disminución de la ansiedad sobre las cifras de presión arterial de los paciente hipertensos que van a ser intervenidos de cirugía ambulatoria.
    He definido como la variable independiente, la intervención de enfermería para la adherencia al tratamiento y disminución de la ansiedad, y como variables dependientes tengo varias entre ellas destacar:
    Nivel de ansiedad: variable cuantitativa continua, que será medida por la escala STAI estado.
    Cumplimiento terapéutico: variable cualitativa dicotómica, que será medida por el test de morinsky Green cuyos resultados son cumplidor o no cumplidor.
    Presión arterial: variable cuantitativa discreta, que será medida por un monitor paramétrico. Tendremos dos variables, una para la presión arterial sistólica cuyo rango puede variar de 90 a 200 mm Hg, y otra para la presión arterial diastólica, cuyo rango puede variar de 40 a 100 mm Hg.
    Mis dudas son las siguientes:
    1) ¿Cómo puedo cruzar estas tres variables; nivel de ansiedad, cumplimiento terapéutico y presión arterial? A nivel de estadística inferencial no sé que prueba estadística debo utilizar para saber si los resultados son significativamente estadístico.
    2) Para ver la relación entre dos variables cuantitativas continuas, en este caso por un lado el nivel de ansiedad con la presión arterial, y por otro lado el nivel ansiedad del grupo intervención con el nivel de ansiedad del grupo control ¿se pueden contrastar a través de la prueba T de Student?
    3) Si quiero ver la relación entre dos variables cualitativas, en este caso grado de cumplimiento antes de la intervención enfermera y grado de cumplimiento después de la intervención enfermera. ¿Se pueden contrastar ambas variables con la prueba de Chi Cuadrado?
    4) Las variables cualitativas, dependiendo del tipo que sea dicotómicas, nominales, etc, se pueden presentar en porcentajes para realizar el cálculo de contraste o tenemos que calcular la media de individuos con su desviación típica.

    Espero su amable colaboración, y reciba un cordial Saludo.

    José Manuel González González.

    ResponderEliminar
    Respuestas
    1. Buenos días José Manuel,

      Vamos a analizar el problema detenidamente.

      Primero de todo necesito saber una cosa importante, ¿tu estudio es aleatorizado?, es decir, hay gente que recibe la intervención y otra que no la recibe, y esta se elige de forma aleatoria (por ejemplo, con sobres, dados, cartas, etc).
      ¿o la intervención no es asignada aleatoriamente?

      Voy hay explicartelo suponiendo que la intervención es asignada aleatoriamente, sino es tu caso, dímelo y lo adaptamos.

      Simplemente la metodología estadística es la siguiente:

      Para describir nuestras variables se emplean frecuencias (absolutas y relativas), medias y desviaciones estándar, según corresponda a la tipología de cada variable.
      Para comprobar que los dos grupos han sido homogéneos en la aleatorización, se emplearon pruebas basadas en la Chi2 (Pearson y Fisher) y en la t de student. Tras esta comprobación se calculan los riesgos relativos (RR) de la variable grupo (intervención/control) con las variables dependientes cualitativas (cumplimiento), y se compararon las medias de las variables cuantitativas (ansiedad, TAS, TAD) en cada uno de los grupos (intervención/control). Todos los análisis se realizaron con una significancia del 5% y de cada parámetro relevante se calcula su intervalo de confianza asociado.

      Respondiendo a tus preguntas:

      1) Al ser un estudio de intervención aleatorizado, analizas cada variable dependiente (ansiedad, cumplimiento y grupos de tensión arterial) por separado. La relación entre las tres ya sería otro tipo de estudio. Si quieres que te lo explique por aprender me lo comentas y te respondo sin problemas.

      2) ansiedad-presión serían correlaciones, pues las dos son continuas. ansiedad-grupo(intervención/control), si que seria una t de student.

      3) Perfecto, siempre y cuando los dos grupos sean homogéneos.

      4) Para variables cualitativas en ciencias de la salud, se suele emplear n(%).



      Espero haberte ayudado, si no es aleatorizado el estudio, te adapto la respuesta, si quieres aprender más sobre como cruzar varias variables a la vez, te daré indicaciones, si no te ha quedado claro también. Estoy a la completa disposición de todas vuestras dudas.

      Saludos cordiales,
      Antonio

      Eliminar
  4. Buenas tardes Antonio.

    En primer lugar te confirmo que el estudio planteado es aleatorio.

    La respuesta la comprendo a medias. En primer lugar se haría una comprobación para ver si los dos grupos son homogéneos, para ello se utiliza las pruebas de Chi2 de pearson y la prueba exacta de Fisher para las variables cualitativas y la prueba t de Student para las variables cuantitativas. ¿Este cálculo sería una prueba de homocedasticidad?

    Ahora bien, para saber si las variables cumplimientos, TAS, TAD y ansiedad están relacionadas se calcularía por un lado el riesgo relativo (RR) entre los grupos intervención y grupo control a través de la tabla 2x2, y una vez hallado este RR (¿Cuál es el siguiente paso?);_ El RR se compara con la variable cualitativa cumplimiento y con las variables cuantitativas ansiedad, TAS y TAD. _O se comparan por grupos (intervención/control) las pruebas de Chi2 para la variable cumplimiento y se comparan por grupos (intervención/control) las pruebas t de Student para las variables ansiedad, TAS y TAD (sin tener en cuenta el valor del RR).

    Dado que se emplea el RR para saber conocer la eficacia de la intervención ¿Sería útil calcular la RRR reducción del riesgo relativo, la RAR redución absoluta del riesgo y el NNT el número de paciente a tratar, para conocer la relevancia clínica de la intervención enfermera? Tenía pensado en colocarlo al final del análisis estadístico.

    Por último, para ver si tiene relación la ansiedad con la PA, ¿no se pueden realizar cálculos de correlación a través de regresión, como el coeficiente de correlación de pearson? De este modo, lo que pretendo es conocer si a mayor ansiedad existe mayor PA.

    Espero que entiendas mis planteamientos. Y sobre todo muchas gracias por tu ayuda, pues tengo que reconocer que en estadística inferencial me pierdo.

    Saludos.
    José Manuel

    ResponderEliminar
    Respuestas
    1. Hola José Manuel,

      Vamos a analizar tus nuevas dudas:

      1) La palabra "homocedasticidad" en estadística significa que los errores tienen la misma variabilidad, es una cosa diferente. Grupos homogéneos significa que tanto el grupo intervención como el control son similares en todas las características medidas (variables), salvo en aquellas en la que uno piensa que la intervención va a cambiar (tensión arterial, cumplimiento y estres). NO te lies con los nombres, esto simplemente se dice que son homogéneos.

      2) Sería la segunda opción que propones: "se comparan por grupos (intervención/control) las pruebas de Chi2 para la variable cumplimiento y se comparan por grupos (intervención/control) las pruebas t de Student para las variables ansiedad, TAS y TAD (sin tener en cuenta el valor del RR).". El RR lo podrias calcular para el cumplimiento como una tabla 2x2.

      Imaginate que obtienes un RR=0.67 (para el incumplimiento) y una diferencia media de tensión de 15 mmHg y de estres de 1 punto: La conclusión sería que la intervención disminuye en un 33% el incumplimiento, la tensión arterial en 15 mmHg y el nivel de estres en 1 punto.

      3) Sí, es necesario. Se me había olvidado comentartelo. Pero como la única tabla 2x2 que tienes es el incumplimiento, a no ser que agrupes la tensión y el estres en grupos, por ejemplo, buen y mal control de la tensión, estres alto y estres bajo.

      4) Puedes hacerlo, pero como es un estudio de intervención con objetivo ver si disminuye incumplimiento, TA y estres, no lo había planteado.

      Podrías plantearlo como objetivo secundario: Por otro lado, estudiaremos la relación entre PA y estres empleando el coeficiente de correlación oportuno (Pearson o Spearman).



      Espero haberte ayudado,
      y si no has entendido cualquier cosa o te salen dudas nuevas, no dudes en preguntarlo,
      saludos cordiales,
      Antonio

      Eliminar