TFG(Re)Search Investigación en Matemáticas

Diseño y Análisis Estadístico de Encuestas por Muestreo

Profesores implicados

  • María del Mar Rueda García (Departamento de Estadística e Investigación Operativa)
  • Beatriz Cobo Rodríguez (Departamento de Métodos Cuantitativos)
  • Ramón Ferri García (Departamento de Estadística e Investigación Operativa)

Tipologías posibles

  • Complementario de profundización
  • Herramientas informáticas
  • Iniciación a la investigación

Breve descripción

La temática de nuestra investigación es la aplicación de la teoría del muestreo estadístico a situaciones reales, ya sea en muestras extraídas a partir de encuestas o en el análisis de grandes volúmenes de datos que representan subconjuntos de poblaciones mayores. Concretamente, estas aplicaciones suelen conllevar una serie de errores y sesgos que terminan afectando a los estimadores usuales que se aplican en el muestreo. Algunos ejemplos de estos errores serían:

  • Errores de respuesta: cuando la unidad informante da un valor que no se corresponde con la realidad (p. ej. sesgos de deseabilidad social).
  • Errores de cobertura: cuando se extrae la muestra a partir de un marco muestral (listado de todas las unidades que pueden pertenecer a ella) que no cubre a toda la población objetivo.
  • Falta de respuesta: cuando una unidad seleccionada para la muestra no proporciona ningún valor para la variable objeto de estudio.
  • Sesgo de autoselección: cuando las unidades se seleccionan a sí mismas para pertenecer a la muestra, por lo que las probabilidades de inclusión son desconocidas. Las líneas de investigación se basan en el desarrollo de técnicas que permitan reducir estos errores, como son las técnicas de respuesta indirecta para el caso de los errores de respuesta, la calibración o la estimación con marcos múltiples en el caso de los errores de cobertura, la reponderación o la imputación en el caso de la falta de respuesta, y la estimación de las probabilidades de selección o la imputación en masa en el caso del sesgo de autoselección. El uso de estas técnicas implica un desarrollo teórico que en ocasiones imposibilita la obtención de expresiones analíticas para algunos estimadores complejos, como los estimadores de las varianzas, por lo que parte de la investigación se centra en el desarrollo de técnicas para obtener estos estimadores mediante métodos de explotación intensiva de las muestras como el Jackknife o el Bootstrap.

Descripción de líneas

Línea 1: métodos de respuesta indirecta

En esta línea, investigamos los métodos de entrevista que permiten a la persona entrevistada proporcionar una respuesta indirecta, en la cual el anonimato de su respuesta quede completamente garantizado. De esta forma, se puede reducir el sesgo de deseabilidad social (responder a una pregunta con lo que el entrevistado considera que es socialmente deseable, en lugar de responder con sinceridad), al tener la seguridad de que no será juzgado. Algunas de las técnicas que estudia nuestro grupo son: las respuestas aleatorizadas, las técnicas de conteo de ítems, las técnicas nominativas y los modelos no aleatorizados.

Línea 2: métodos para mitigar la falta de respuesta

Esta línea se centra en el estudio y desarrollo de métodos para paliar los efectos que tiene la falta de respuesta (tanto parcial como total) sobre las estimaciones a partir de muestras. Si dicha falta de respuesta está relacionada de alguna manera con la variable objeto de estudio, los efectos de cara a las estimaciones pueden ser muy significativos. Los métodos más habituales en la literatura son: la reponderación a partir de información auxiliar poblacional, la imputación de datos faltantes mediante técnicas paramétricas y no paramétricas, y la sustitución de unidades no seleccionadas.

Línea 3: tratamiento de muestras no probabilísticas

Las muestras no probabilísticas son aquellas en las que las probabilidades de inclusión (probabilidad de un miembro de la población de pertenecer a la muestra que se extraiga de ella) de cada individuo de la población o bien son desconocidas o bien son nulas para un subconjunto de ellos. Estos casos son habituales al emplear muestras de conveniencia (p. ej. encuestas online) donde los individuos se autoseleccionan, o al emplear muestras extraídas de marcos muestrales que no cubren toda la población (p. ej. listines telefónicos desactualizados o que no cubren toda la red de teléfonos móviles). Nuestro grupo de investigación trabaja desde hace años con técnicas como el Propensity Score Adjustment y la calibración para estimar las probabilidades de inclusión y mitigar el error de cobertura, así como con otros métodos basados en la modelización (modelos de superpoblación, imputación en masa).

Enlaces de interés

  • http://ofertaimasd.ugr.es/fqm/grupos-de-investigacion/fqm-365-diseno-y-analisis-estadistico-de-encuestas-por-muestreo-dae/

  • https://www150.statcan.gc.ca/n1/edu/power-pouvoir/toc-tdm/5214718-eng.htm