Читать книгу Guía práctica para la evaluación de impacto - Raquel Bernal - Страница 14
2
ОглавлениеDEFINICIÓN DE PARÁMETROS DE IMPACTO DEL TRATAMIENTO
El problema de evaluación consiste en medir el impacto del programa (o tratamiento) sobre un conjunto de variables de resultado en un conjunto de individuos. Por ejemplo, el efecto que tiene un programa de nutrición en los indicadores antropométricos (estatura y peso) de los individuos participantes. Las variables de resultado son las variables sobre las cuales se espera que el programa tenga un efecto en los individuos beneficiarios del programa evaluado. En nuestro ejemplo, serían los indicadores de estado nutricional porque el programa es un programa de nutrición.
El problema de evaluación de impacto consiste entonces en establecer la diferencia entre la variable de resultado del individuo participante en el programa en presencia del programa y la variable de resultado de ese individuo en ausencia del programa. Esta diferencia es lo que se conoce como efecto del tratamiento o programa. El problema fundamental que se enfrenta en una evaluación de impacto es que para construir el efecto del tratamiento necesitaríamos conocer la diferencia entre la variable de resultado del individuo participante una vez se ha implementado el programa y la variable de resultado que habría obtenido ese individuo en el caso hipotético de que no existiera el programa. Claramente, no se pueden observar ambos resultados para el mismo individuo al mismo tiempo. El segundo resultado, es decir, el resultado del individuo participante si el programa no existiera, es hipotético y, por ende, no se observa. Este resultado hipotético se denomina resultado contrafactual en la literatura de evaluación de impacto.
El marco teórico estándar para formalizar el problema de la evaluación de impacto se basa en el modelo de resultado potencial o modelo Roy-Rubin (Roy (1951) y Rubin (1974)). Formalmente, definimos el indicador del tratamiento como Di. En el caso en que el tratamiento es binario (por ejemplo, el niño participa en el programa de nutrición o no participa) entonces Di = 1 si el individuo i recibe el tratamiento (es tratado) y 0 de lo contrario. Las variables de resultado las definimos como Yi(Di) para cada individuo i = 1 … N y N denota la población total. Es decir, Yi(1) es la variable de resultado si el individuo i es tratado y Yi(0) es la variable de resultado si el individuo i no es tratado. El efecto del tratamiento (o impacto del programa) para un individuo i se puede escribir como:
De nuevo, el problema fundamental de la evaluación de impacto es que en la realidad sólo se da uno de los dos resultados potenciales Yi(1) o Yi(0) para cada individuo i pero no ambos. Es decir, en los datos solamente queda registrado Yi(1) si Di = 1 y Yi(0) si Di = 0. En otras palabras, el investigador no dispone del resultado con tratamiento si el individuo no fue tratado, Yi(1) si Di = 0, ni dispone del resultado en ausencia del tratamiento si el individuo ha sido efectivamente tratado, Yi(0) si Di = 1. Note que el impacto del programa (medido por la diferencia (2.1)) se refiere a un momento dado en el tiempo y, por tanto, no es equivalente a comparar el mismo individuo en dos momentos distintos del tiempo (antes y después de la intervención).7 Por tanto, el resultado observado se puede escribir como:
En este caso, y en adelante, se entiende que una variable es observada si la información existe y está registrada en los datos a disposición del investigador. De manera análoga, una variable no observada es aquella que no existe o no quedó registrada en la base de datos disponible.
En últimas, debido a que uno de los dos resultados en la ecuación (2.1) no es observable para cada individuo i, no es posible estimar el efecto individual del tratamiento, i. El análisis se debe concentrar en el impacto promedio del programa en la población o en subconjuntos de la población (dependiendo del interés de política que se tenga). En primera instancia, se puede estimar el impacto promedio del programa (o efecto medio del tratamiento) en la población (o ATE8):
donde E[·] denota el operador de expectativas.
Una representación simple de la variable de resultado con base en el modelo de regresión lineal está dada por:
El efecto ATE se interpreta como el cambio promedio en la variable de resultado cuando un individuo escogido al azar pasa aleatoriamente de ser participante a ser no participante. Este parámetro es particularmente relevante en el caso de la evaluación de un programa universal. En la mayoría de los casos, sin embargo, el tratamiento o programa no es universal sino que sólo está disponible para un subconjunto de la población, generalmente porque el programa ha sido focalizado. En este caso, es posible utilizar un estimador que únicamente promedie el efecto sobre la población elegible.
Por un lado, se puede utilizar el impacto promedio del programa sobre los tratados (o ATT9), que es, por lo general, el parámetro de mayor interés en una evaluación de impacto. Es decir, el efecto promedio del tratamiento en el subconjunto de individuos que fueron efectivamente tratados. Éste corresponde a la diferencia entre la media de la variable de resultado en el grupo de los participantes y la media que hubieran obtenido los participantes si el programa no hubiera existido:
donde E[.|D] denota el operador de expectativas condicional.
En este caso, E[Yi(0)|Di = 1] es el valor esperado de la variable de resultado en el grupo de tratamiento en presencia del tratamiento y E[Yi(0)|Di = 1] que se conoce como el resultado contrafactual, es el valor esperado de la variable de resultado en el grupo de tratamiento en ausencia del tratamiento. Evidentemente, el promedio contrafactual, es decir, el resultado promedio de los individuos tratados de no haber existido el programa o tratamiento, es un resultado hipotético, por lo cual no se observa en la realidad, y por tanto no queda registrado en los datos. El efecto promedio del programa sobre los tratados es particularmente relevante para definir si un programa existente debe continuar o, por el contrario, debe eliminarse o modificarse.
Por otra parte, se puede estimar el impacto promedio del programa sobre los no participantes (o ATU10), que corresponde a la diferencia entre la media de la variable de resultado que habrían tenido los no participantes si hubieran participado en el programa y la media de la variable de resultado que efectivamente tuvieron los no participantes al no haber participado:
En este caso, el resultado contrafactual, E[Yi(0)|Di = 1], corresponde al promedio de la variable de resultado de los no participantes si hubieran participado en el programa, dado que estos individuos no han sido tratados. Evidentemente, este contrafactual es hipotético, por lo cual no se observa en la realidad, y por tanto no queda registrado en los datos. El parámetro ATU es relevante cuando la evaluación tiene por objetivo investigar si el programa se debe extender o no a otros grupos de la población.
En cualquiera de los dos casos, ATT o ATU, es necesario escoger una aproximación apropiada (o sustituto) del contrafactual dado que este es un resultado hipotético que no se observa en la realidad, y por tanto no queda registrado en los datos. Por ejemplo, en el caso del ATT se requiere una aproximación de E[Yi(0)|Di = 1], es decir, el promedio de la variable de resultado entre los participantes en ausencia del programa. En principio, se podría utilizar el promedio de la variable de resultado entre los individuos no participantes pero elegibles para participar en el programa (conocido en la jerga de evaluación de impacto como el grupo de control o grupo de comparación), E[Yi(0)|Di = 1], como una aproximación de E[Yi(0)|Di = 1] Es decir, se podría utilizar el resultado de los no participantes (pero elegibles) como una aproximación del resultado que habrían tenido los participantes si el programa no hubiera existido.
Sin embargo, esta comparación podría generar estimaciones inexactas del efecto del programa, dado que los participantes y los no participantes generalmente son diferentes, aun en ausencia del programa.11 Por ende, las variables de resultado del grupo de tratamiento y el grupo de control podrían ser diferentes, aun si el programa no existiera. Este problema se conoce como sesgo de autoselección. Por ejemplo, es posible que los niños participantes en el programa de nutrición provengan de familias más vulnerables que los niños elegibles pero que no participan en el programa. Las variables de vulnerabilidad, como el ingreso del hogar y la educación de los padres, pueden tener efectos directos sobre los indicadores antropométricos que estamos utilizando como variable de resultado, aparte del efecto directo del programa evaluado. Por ejemplo, en hogares con más ingreso la dieta puede ser mejor que en hogares con menos ingresos. De ser así, al comparar los resultados de desnutrición, por ejemplo, del grupo de tratamiento con los del grupo de control podríamos estar atribuyendo al programa un efecto negativo que en realidad se debe a que el grupo de niños tratados es más pobre y de padres menos educados que el grupo de niños usados como control. En este caso, estaríamos subestimando el efecto del programa, debido a que no hemos tenido en cuenta las diferencias preexistentes entre los dos grupos que afectan tanto la probabilidad de participación en el programa como la variable de resultado (desnutrición).12
Además de posibles diferencias observadas entre los dos grupos (como ingresos del hogar y educación de los padres), es también posible que existan diferencias no observadas o no medidas entre los dos grupos. Por ejemplo, puede ser que las madres de familia participantes en el programa estén más motivadas o atentas o sean más proactivas respecto al desarrollo de sus hijos, por lo cual se esmeraron en lograr la participación en el programa. El problema de autoselección radica en que la motivación de las madres (que no observamos y sería difícil de medir) afecta no sólo la probabilidad de participar en el programa, sino también el estado nutricional de los niños. Esto es porque las madres más motivadas podrían vigilar mejor la dieta de sus hijos. Por tanto, la diferencia observada en el estado nutricional de los niños de los dos grupos se podría deber parcialmente a la diferencia en el nivel de motivación de las madres, y no exclusivamente a que un grupo participa en el programa y el otro no.
Note que la comparación entre el promedio de la variable de resultado de los participantes y el promedio de la variable de resultado de los no participantes está dada por:
Adicionalmente, sabemos que el ATT está dado por:
Restando E[Yi(0)|Di = 1] a ambos lados de la ecuación obtenemos:
donde el lado derecho de la ecuación (2.7) es la diferencia entre el promedio de la variable de resultado de los participantes y el promedio de la variable de resultado de los no participantes.
De la ecuación (2.7) se deduce que utilizar E[Yi(0)|Di = 1] como aproximación del contrafactual, E[Yi(0)|Di = 1], permite recuperar el ATT si y sólo si
Esta condición implica que la variable de resultado en ausencia del programa debería ser idéntica para el grupo de individuos tratados (D = 1) y el grupo de individuos no participantes o grupo de control (D = 0), lo cual, como ya se ha expuesto, es un supuesto bastante fuerte. Por esta razón, la simple comparación de medias de las variables de resultado entre el grupo de tratamiento y el grupo de control generaría una aproximación inexacta del efecto del programa sobre el grupo de niños tratados, con excepción de un programa implementado a manera de experimento aleatorio. Este caso será estudiado en detalle en el capítulo 4.
Si el supuesto (2.8) se cumple, es decir, si el valor promedio de la variable de resultado en ausencia del programa fuera idéntico para el grupo de individuos tratados (D = 1) que para el grupo de individuos no participantes (D = 0), entonces el efecto del programa estaría dado por:
En este caso, el estimador de ATT estaría dado por el análogo muestral de (2.9), es decir:
donde Ȳ|D es el promedio muestral de la variable de resultado, dado el estatus de participación D. Es decir, el estimador del efecto del programa bajo el supuesto (2.8) resulta de comparar el promedio muestral de Y en el grupo de tratamiento con el promedio muestral de Y en el grupo de control. Esta comparación de medias se puede implementar fácilmente por el método de regresión de la siguiente manera:
donde Yi es la variable de resultado para el individuo i, Di es una variable binaria13 que toma el valor de 1 si el individuo i participa en el tratamiento (o programa) y 0 si el individuo i es elegible pero no participa en el programa, y ui es el término de error de la regresión que recoge las variables observadas y no observadas del individuo i, aparte de Di , que afectan la variable de resultado. Como ATT es generalmente el parámetro de interés en evaluación de impacto, en adelante nos referimos simplemente a .
Si el supuesto (2.8) se cumple, entonces no existe correlación entre la participación en el programa (el indicador Di) y todas las características del individuo contenidas en ui porque el supuesto implica que los individuos participantes son idénticos a los individuos no participantes. En otras palabras, la participación es independiente de las características del individuo y, por tanto, E[Yi(0)|Di = 0] es una aproximación adecuada del contrafactual E[Yi(0)|Di = 1]. Formalmente, esto implica que
Éste se conoce como el supuesto de independencia condicional e indica que conocer Di no añade ninguna información adicional acerca de ui. En otras palabras, los individuos que participan en el programa no son sistemáticamente distintos de los individuos que no participan en el programa en características contenidas en ui .
Bajo el supuesto (2.12), el estimador de β1 por el método de mínimos cuadrados ordinarios (MCO)14 es consistente e insesgado.15 Lo primero implica que el estimador de β1 por MCO, , converge en probabilidad a β1, es decir, el límite del estimador a medida que aumenta el tamaño de muestra es exactamente el parámetro que se va a estimar. Lo segundo significa que el valor esperado del estimador de MCO es igual al valor del parámetro, es decir, E() = β1, independientemente del tamaño de la muestra.
El parámetro β1 en la ecuación (2.11) se interpreta como el efecto del programa o la diferencia de medias de la variable de resultado entre el grupo de tratamiento y el grupo de control. Note que tomando expectativa condicional en la ecuación (2.11) se obtiene:
porque
Entonces
El estimador de MCO de β1 estaría dado por:16
que coincide precisamente con la definición del ATT provisto en la ecuación (2.10).
Éste se conoce como el supuesto de independencia condicional e indica que conocer Di no añade ninguna información adicional acerca de ui. En otras palabras, los individuos que participan en el programa no son sistemáticamente distintos de los individuos que no participan en el programa en características contenidas en ui .
Bajo el supuesto (2.12), el estimador de β1 por el método de mínimos cuadrados ordinarios (MCO)14 es consistente e insesgado.15 Lo primero implica que el estimador de β1 por MCO, , converge en probabilidad a β1, es decir, el límite del estimador a medida que aumenta el tamaño de muestra es exactamente el parámetro que se va a estimar. Lo segundo significa que el valor esperado del estimador de MCO es igual al valor del parámetro, es decir, , independientemente del tamaño de la muestra.
El parámetro β1 en la ecuación (2.11) se interpreta como el efecto del programa o la diferencia de medias de la variable de resultado entre el grupo de tratamiento y el grupo de control. Note que tomando expectativa condicional en la ecuación (2.11) se obtiene:
porque
Entonces
El estimador de MCO de β1 estaría dado por:16
que coincide precisamente con la definición del ATT provisto en la ecuación (2.10).
Ejemplo 2.1:
Suponga que debemos evaluar el impacto del programa Canasta, que es un programa de nutrición dirigido a niños entre los 0 y 6 años de edad. El programa consiste en la provisión de un mercado por valor de $X al mes a las madres participantes de niños en el rango de edad elegible. La composición del mercado es revisada por nutricionistas expertos para asegurarse de que la ingesta diaria por nutriente sea la adecuada, dada la edad de los niños beneficiarios. El programa está dirigido a familias de Sisbén17 1 y 2.
El indicador de participación en el programa se define como:
Los niños de familias de Sisbén 1 y 2 entre los 0 y 6 años de edad que participan en el programa constituyen el grupo de tratamiento, mientras que los niños de familias de Sisbén 1 y 2 entre los 0 y 6 años de edad que no participan en el programa son el grupo de control. Como variable de resultado, Yi, se identifica el puntaje Z (Z-score) de estatura según la edad. El puntaje Z corresponde a la estatura del niño estandarizada de acuerdo con las medias y varianzas poblacionales, según grupos de edad y sexo. El puntaje Z de estatura según la edad resulta de restarle a la estatura del niño la media poblacional de estatura para su grupo de edad y sexo, y dividir esta diferencia por la desviación estándar de la estatura de su grupo de edad y sexo en la población. El resultado indica el número de desviaciones estándar que el niño está por encima (o por debajo) de su media poblacional. Un puntaje Z de cero indica que el niño se ubica exactamente en la media de su grupo.
E[Yi(1)|Di = 1] es en este caso el promedio del puntaje Z de estatura en el grupo de tratamiento en presencia del programa. E[Yi(0)|Di = 1] es el promedio del puntaje Z de estatura en el grupo de tratamiento en ausencia del programa. Es decir, cuál habría sido el promedio del puntaje Z de estatura según la edad en el escenario hipotético de que el programa no hubiera existido. Este contrafactual no se observa, y esto constituye la principal dificultad de la evaluación de impacto.
E[Yi(0)|Di = 0] es el promedio del puntaje Z de estatura en el grupo de niños no participantes (o grupo de control).
Suponga que la variable de resultado en que estamos interesados es la incidencia de desnutrición crónica, es decir, la probabilidad de que la estatura del niño esté dos desviaciones estándar por debajo de lo que debería estar, dados su edad y su sexo (es decir, que el puntaje Z de estatura según la edad sea menor que –2). En este caso E[Yi(1)|Di = 1] sería el porcentaje de niños participantes con desnutrición crónica en presencia del programa.
Si sucediera que los promedios del puntaje Z de estatura en el grupo de tratamiento y en el grupo de control son idénticos en ausencia del programa (es decir, se cumpliera el supuesto (2.8)), entonces el efecto del programa se podría estimar simplemente comparando la media de la variable de resultado en el grupo de tratamiento con la media de la variable de resultado en el grupo de control. Esto se puede implementar con una regresión lineal del puntaje Z de estatura según la edad (Yi) sobre la variable binaria de participación, Di, estimada por MCO:
β1 sería el efecto del programa de nutrición sobre el indicador antropométrico escogido si se cumple el supuesto de independencia condicional (2.12).
En este capítulo hemos asumido que el investigador sabe exactamente cuál es la variable de resultado Y que quiere medir y tiene los datos a disposición. En general, la elección de una variable de resultado Y con base en la cual se determinará la efectividad de un programa no es una pregunta trivial. La elección de Y debe estar guiada principalmente por los objetivos y lineamientos del programa que se evalúa. Por ejemplo, el programa Canasta es un programa cuyo objetivo es mejorar el estado nutricional de los niños beneficiarios, con base en la provisión de un mercado que contiene un porcentaje de los requerimientos nutricionales diarios. Por tanto, es razonable que la variable de resultado seleccionada sea un indicador del estado nutricional de los niños (estatura según la edad, peso según la edad, o estatura según el peso). Existen casos como éste en que la escogencia de la variable de resultado es relativamente obvia, pero otros casos en los que no es elemental.
Por ejemplo, suponga un programa para los adultos mayores de grupos vulnerables (económica y socialmente). El programa consiste en la provisión de una suma de dinero mensual que corresponde a un determinado número de salarios mínimos diarios. En los objetivos y lineamientos se establece que el programa está diseñado para proteger a las personas de la tercera edad contra el riesgo económico de la imposibilidad de generar ingresos, disminuir la vulnerabilidad de los adultos mayores de bajos recursos y propiciar su inserción en la comunidad. En este caso, ¿cuál sería la variable de resultado Y ideal si le pidieran evaluar este programa? No es tan sencillo. En principio, podría ser un indicador de salud y nutrición, puesto que el adulto mayor podría estar mejorando su estado nutricional como resultado del aumento en el ingreso del hogar asociado a la participación en el programa. Sin embargo, el adulto mayor podría estar gastando el dinero en cosas diferentes a alimentos, medicamentos u otros elementos asociados con un mejor estado de salud o nutrición, por lo cual la evaluación podría generar una conclusión muy negativa acerca del programa.
Por otra parte, la variable de resultado Y podría ser más bien una medición del estado de ánimo del beneficiario. Si los adultos mayores se sienten olvidados, viven solos en su gran mayoría, tienen estado de salud deficiente, etc., entonces el hecho de que les ofrezcan el programa les puede dar una esperanza, y el impacto podría verse más bien reflejado en un mejor estado de ánimo. Resulta que no es tan sencillo diseñar instrumentos que midan adecuadamente el estado de ánimo de los individuos o el nivel de inserción del individuo en su comunidad. Como se puede apreciar, encontrar una variable de resultado adecuada en este caso es todo un reto para el evaluador. Note, sin embargo, que en principio éste es el resultado de una política cuyo diseño es demasiado general y, por tanto, evaluar los logros de tales intervenciones es generalmente muy difícil. En suma, el evaluador debe tratar de relacionar, de la mejor manera posible, los objetivos, lineamientos y forma de operación del programa, con variables de resultado que se espera que puedan medir de manera relativamente razonable el desempeño del programa.