El Método de Captura y Recaptura

Captura y Recaptura' Method

Estimando el tamaño de una población sin contarla

Cuando captures a nuestros individuos, asegúrate de no hacerles daño, ya que después tendrás que liberarlos nuevamente. Foto de Anne Nygård en Unsplash

En este artículo, quiero presentar un método estadístico para estimar el tamaño de una población sin contarla completamente, que se llama método de Captura-Recaptura. Proveniente de dominios biológicos, el procedimiento también se puede aplicar a muchos otros campos y escenarios que pueden ser de interés para científicos de datos y profesiones relacionadas.

Primero demostraré el procedimiento en un ejemplo biológico antes de hablar sobre su antecedente estadístico y las propiedades que permiten su uso. Después, presentaré algunos ejemplos de diferentes dominios para demostrar las capacidades que el método de Captura-Recaptura tiene para diferentes escenarios.

¿Cuántas babosas hay en mi jardín?

A muchas personas no les gustan las babosas, pero yo sigo pensando que son adorables. Contémoslas sin hacerles daño. Foto de Krzysztof Niewolny en Unsplash

Imaginemos que quiero saber cuántas babosas viven en mi jardín. Podría intentar contarlas todas, pero ¿cómo sabré cuándo terminé? Incluso si no encuentro más babosas, nunca puedo estar seguro de que no haya ninguna. En cambio, hay un método diferente que puedo usar.

El primer día, dedico media hora a recolectar babosas y contarlas. Además, marco cada una con un punto de pintura antes de liberarlas nuevamente en mi jardín. Digamos que he recolectado 21 babosas. ¿Ya puedo dar una estimación sobre el número total de babosas en mi jardín? No, aún no (además del hecho de que debe haber al menos 21 babosas), pero no he terminado.

Un día después, vuelvo a mi jardín y comienzo a contar babosas durante media hora. Algunas de las babosas que encuentro ese día ya tienen un punto de pintura en su caparazón, es decir, ya las encontré ayer, mientras que otras no (es decir, no encontré esa babosa en particular ayer). Digamos que cuento 28 babosas ese día, 9 de las cuales ya están marcadas con un punto de pintura. Ahora puedo dar una estimación del número total de babosas. Hagamos la cuenta.

En el segundo día, una proporción de 9/28 de las babosas ya las había encontrado el día anterior. Esa proporción debería ser igual a la proporción de las babosas que encontré el primer día sobre el número total de babosas, es decir, 21/N = 9/28, donde N es el número total de babosas. Puedo reformular eso para obtener el número de babosas como N = (21*28)/9 = 65.

¿Por qué es eso? En el segundo día, una cierta proporción de individuos (digamos p%) tiene una cierta propiedad (es decir, estar marcados). Si tomo una muestra aleatoria de la población, esperaría que p% de mi muestra también tenga esa propiedad. Eso es muy intuitivo: si tomas una muestra aleatoria de la población de tu ciudad, también esperarías que la proporción de géneros en tu muestra refleje la proporción de géneros en total, ¿verdad? Sin embargo, en el segundo día conocemos esta proporción p, que no conocíamos en el primer día (cuando pintamos babosas en el primer día, no sabíamos qué fracción de babosas ya habíamos capturado), por lo que en el primer día pintamos p% de todas las babosas. Ahora es fácil deducir el número total de babosas a partir de eso: si pinté 21 babosas y ahora sé que esto es el 9/28=32% de la población, hay aproximadamente 65 babosas en total (siendo 21 aproximadamente el 32% de 65).

Condiciones para la recaptura

Antes de utilizar el método Capture-ReCapture, asegúrese de que se cumplan las condiciones requeridas. Foto de Sung Jin Cho en Unsplash

Además de contar el número de caracoles en su jardín, hay muchos otros escenarios donde puede aplicar el procedimiento mencionado anteriormente. Como puede imaginar, la distancia entre los dos pasos de muestreo no tiene que ser un día, y la marcación también se puede realizar de una manera diferente a la marcación literal de individuos. También puede simplemente mantener una lista de los individuos que ha seleccionado en la primera ronda, siempre y cuando pueda determinar fácilmente si un individuo que encuentra en la segunda iteración ya está presente en la lista. Sin embargo, para que el método Capture-ReCapture sea aplicable, hay algunas propiedades que deben cumplirse, que son las siguientes:

  • En ambos puntos de recolección de datos, la población debe ser la misma. En particular, eso requiere que no se agreguen ni se eliminen individuos entre los dos puntos en el tiempo.
  • En ambos puntos de recolección de datos, se debe seleccionar al azar e independientemente de la distribución. Es decir, cada individuo debe tener la misma probabilidad de ser capturado. En particular, estar marcado o no no debe hacer ninguna diferencia en la probabilidad de ser seleccionado en la otra ocasión.
  • El número de individuos seleccionados en cada ocasión debe ser lo suficientemente grande como para crear una superposición significativa. Puede imaginar fácilmente que muestrear al azar 100 libros de su biblioteca local, donde el número de libros está en los millones, no crea ninguna superposición y, por lo tanto, no ayuda a su estimación.

Casos de uso de ejemplo

Spoiler: La medicina es un ámbito donde se utilizan mucho las variantes del método Capture-ReCapture. Foto de Ksenia Yakovleva en Unsplash

Ahora que hemos comprendido el método Capture-ReCapture, echemos un vistazo a algunos ejemplos de dónde usarlo. Es útil cuando queremos determinar el tamaño de una población sin poder contarla completamente. Sin embargo, diferentes escenarios pueden tener diferentes obstáculos en los requisitos previos del método que deben tenerse en cuenta.

Contar el número de invitados en una fiesta

En la próxima fiesta a la que asistirá, puede tomar cinco minutos para marcar a algunos individuos (ya sea marcándolos literalmente o llevando una lista de ellos) y, algunos minutos después, seleccionar individuos al azar nuevamente. Sin embargo, asegúrese de seleccionar al azar e independientemente. Es decir, debe capturar personas de todas partes y no tener preferencia hacia las personas que conoce o no conoce. Además, asegúrese de que la distancia entre los dos puntos de recolección de datos no sea demasiado grande; de lo contrario, su estimación podría verse sesgada por el hecho de que las personas abandonaron la fiesta en el ínterin.

Capturar de dos listas independientes

Una variante del método Capture-ReCapture no utiliza la recaptura en un momento diferente, sino que utiliza dos fuentes de datos independientes (que se han extraído de la misma distribución) y su superposición. De esta manera, el método se utiliza a menudo en escenarios médicos, así que veamos un ejemplo donde estimamos la prevalencia de una enfermedad.

Supongamos que tengo una lista de pacientes de un hospital que enumera a 142 personas que tienen una cierta enfermedad, y tengo otra lista proveniente del Servicio Nacional de Salud que enumera a 442 personas que tienen esa enfermedad. Supongamos que 71 personas aparecen en ambas listas. Luego podemos usar la fórmula anterior y obtener nuestro resultado (142*442)/71 = 884. Es decir, se estima que 884 personas sufren de la enfermedad.

Lo más importante para esa variante es que las dos listas sean realmente independientes. Es decir, la probabilidad de que un individuo forme parte de una lista no debe diferir si ese individuo forma parte de la otra lista o viceversa.

Estimar el número de clientes potenciales

Digamos que tienes un sitio web para vender tu nuevo y deslumbrante producto. En un día capturas a todos los visitantes de tu sitio web (por ejemplo, rastreando su IP) y haces lo mismo algunos días después. Con la superposición entre los dos días, puedes estimar el número de posibles clientes para tu producto. Sin embargo, debes tener en cuenta que este escenario puede incluir fácilmente una violación de una suposición importante, a saber, las capturas independientes en ambos momentos. En particular, se podría argumentar que visitar el sitio web en el primer día puede aumentar la probabilidad de visitar el sitio web nuevamente.

Resumen

Ahora hemos visto algunos ejemplos del método de Captura y Recaptura, que nos permite estimar el tamaño de una población sin contarla por completo. En lugar de contar a cada individuo de la población, el método exige realizar dos muestras independientes de la población (ya sea en diferentes momentos o desde diferentes fuentes) y utilizar su superposición para estimar el tamaño de la población. Esto se puede utilizar en una variedad de ámbitos, cuando una observación completa de la población no es factible.

Lectura adicional

El ejemplo de contar caracoles en el jardín lo adapté del siguiente libro:

  • Kit Yates (2019). La matemática de la vida y la muerte. Por qué las matemáticas son (casi) todo. Quercus Editions Ltd, Londres.

Se puede encontrar una descripción general del método de Captura y Recaptura utilizado en ámbitos médicos aquí:

  • Ramos, P. L., Sousa, I., Santana, R., Morgan, W. H., Gordon, K., Crewe, J., … & Macedo, A. F. (2020). Una revisión de los métodos de captura-recaptura y sus posibilidades en oftalmología y ciencias de la visión. Epidemiología oftálmica, 27(4), 310–324.

¿Te gustó este artículo? Sígueme para recibir notificaciones de mis futuras publicaciones.