Читать книгу La institucionalización de la evaluación de políticas públicas - Oscar Barberá Aresté - Страница 8
Оглавление1.LA EVALUACIÓN DE LAS POLÍTICAS PÚBLICAS Y SU INSTITUCIONALIZACIÓN
En este capítulo se presentan los principales conceptos utilizados a lo largo del informe. Su función fundamental es proveer un mínimo marco de referencia al que los lectores puedan recurrir durante la lectura. Es importante tener en cuenta que cada uno de los términos utilizados remite a un debate dentro de la academia que no puede tratarse aquí en profundidad por alejarse en exceso del propósito de este trabajo. Para aquellos lectores que deseen profundizar más en alguno de estos conceptos o debates les remitimos a la literatura especializada citada en las páginas correspondientes, a los principales manuales sobre evaluación publicados en castellano durante los últimos años (Ballart: 1992; Bañon: 2003; García Pérez: 2014; Morra y Rist: 2009; Vedung: 1997) así como a las diversas guías publicadas por los principales centros dedicados a la evaluación de políticas públicas (AEVAL, IVÀLUA...). El capítulo está estructurado en dos apartados. El primero es fundamentalmente conceptual y se dedica a clarificar significados y presentar los principales tipos de evaluaciones. El segundo discute las nociones de institucionalización y cultura de evaluación y presenta las principales preguntas que han guiado el trabajo de campo y su aplicación en la Comunitat Valenciana que se analiza con más detalle en el capítulo 7.
1.LA EVALUACIÓN DE POLÍTICAS PÚBLICAS
La evaluación y su práctica
El uso común de la evaluación alude a significados distintos. En su sentido más genérico evaluar es poner en relación valores (criterios, normas) con hechos. En términos aplicados al análisis de políticas públicas, la evaluación se refiere «al proceso de establecer el valor o el significado de una actividad, política o programa, [...] tan sistemático y objetivo como sea posible, de una intervención planeada, en curso o completa» (OCDE, 2000: 21). En otras palabras, evaluar políticas o programas públicos supone (Ballart: 1992; Weiss: 1972): definir los objetivos de la política, establecer criterios de éxito, proveer evidencias sobre los resultados obtenidos y sobre su relación con los criterios de éxito, señalar la relación de los resultados con la teoría del cambio social que fundamenta la intervención y, finalmente, prescribir consejos para su mejora.
Es preciso tener presente, sin embargo, que toda evaluación es potencialmente controvertida. Hay diversos motivos para ello: puede que no haya acuerdo en la relación entre los resultados y valores normativos establecidos (v. g. se discute que los resultados de un programa se puedan interpretar como «malos»); puede que la falta de acuerdo esté en los mismos criterios o valores (v. g. se cuestiona el baremo de evaluación que debe establecerse en unos u otros niveles); o que se cuestione la imparcialidad o intencionalidad de quien realiza la evaluación, etc. En este sentido, Fisher ha distinguido diversos niveles de la evaluación en función de su impugnación social y política (Fisher: 1995). En el primer nivel, el de verificación (program verification), la evaluación se centra en señalar si el programa funciona o no, es decir, si cumple los objetivos inicialmente establecidos. En este nivel la clave es el impacto social (outcomes) y el discurso predominante es el científico-técnico. En el segundo nivel, el análisis se centra en la pertinencia del programa (situational validation). Lo que se evalúa no es ya si el programa cumple sus objetivos, sino si sirve para resolver el problema social por el que se puso en marcha. En este sentido, lo que se pone en cuestión es si la teoría del cambio que provocó la intervención pública es efectivamente válida o no. En un tercer nivel, más propiamente socio-político, estarían aquellas evaluaciones que lo que pretenden es cuestionar los valores u objetivos del programa (societal vindication). La clave de este tipo de evaluaciones es cuestionar si el problema es relevante, es decir, si merece la pena la intervención pública en comparación con otros posibles problemas sociales. Finalmente, el nivel más abstracto de la evaluación es el que entra a considerar en qué medida la aproximación o la ideología política que está en la base de una intervención es deseable o no como instrumento para la resolución de conflictos sociales.
Es por estas razones que la evaluación va obviamente más allá del control administrativo y no puede considerarse una actividad puramente científica o aislada del contexto en que se produce. De hecho, la naturaleza política de la evaluación ha sido abundantemente subrayada en este campo desde sus orígenes (v. g. Fisher: 1995; Palumbo: 1987; Scriven: 1980; Taylor y Balloch: 2005). Bustelo señala como mínimo tres implicaciones de esta especificidad que se traducen en demandas de credibilidad e imparcialidad para poder sobrevivir al contexto político y social en que se produce la evaluación, de flexibilidad para adaptar esta práctica a las diversas circunstancias que puede producirse durante su desarrollo y de temporalidad para dar cuenta de los resultados en el momento oportuno para alimentar procesos de retroalimentación en la toma de decisiones (Bustelo: 2003).
La necesidad de diferenciar la evaluación de otras prácticas profesionales y académicas cercanas marcó los orígenes de esta disciplina. La vía para hacerlo fue a través de técnicas cuantitativas o experimentales y de una concepción fuertemente positivista sobre la objetividad y la imparcialidad de los analistas (v. g. Langbein: 1980; Rossi y Freeman: 1985). Las limitaciones de estos estudios han sido señaladas por la literatura posterior que aboga por una orientación más pluralista que generalmente tiende a incluir las visiones de más actores además del analista (Ballart: 1992; Guba y Lincoln: 1989; Subirats: 1995). Esto no obsta para que, con el tiempo, se haya generado un cierto acuerdo para diferenciar la evaluación de la investigación y de la monitorización (Blasco: 2009a; Bustelo: 2003). La evaluación se diferencia de la investigación en su carácter aplicado y por su finalidad centrada en la mejora de la intervención pública, no en la construcción de conocimiento. La particular finalidad de la evaluación implica, a su vez, destinatarios diferentes. La diferencia entre evaluación y el seguimiento o monitorización de políticas es un tanto más difusa. En un sentido estricto, la monitorización tiene relación con la gestión de los programas para garantizar su cumplimiento mientras que la evaluación pretende emitir juicios globales sobre sus impactos. Sin duda evaluar no es hacer un mero seguimiento de indicadores, pero también lo es que hay aspectos de la monitorización que comportan actividad evaluativa. En la práctica no es extraño considerar la monitorización como un tipo un tanto particular de evaluación (Lázaro y Obregón: 2009; Rossi, Freeman y Lipsey: 1999; Royse, Thyer et al.: 2009).
Finalmente, conviene también señalar la diferencia entre evaluación y meta-evaluación entendida esta última como juicios de valor sobre la bondad y méritos de una o diversas evaluaciones (Scriven: 1969 citado por García Sanchez: 2011). El propósito central de la metaevaluación es verificar el grado de validez de los resultados y conclusiones de estudios ya previamente existentes. El desarrollo de este subcampo ha seguido debates muy parecidos al de la evaluación, por ejemplo, respecto del uso de técnicas de investigación y ya hay instituciones que empiezan a especializarse en este campo (Newcomer, Hatry y Wholey: 2013, cap. 25). En un texto relativamente reciente, Chalmers y sus colegas han tratado de establecer una clasificación de diferentes investigaciones que tradicionalmente encajarían como metaevaluaciones. En este sentido diferencian (Chalmers, Hedges, y Cooper: 2002): las revisiones sistemáticas (systematic review) que utilizan estrategias destinadas a limitar los posibles sesgos en la recolección y enfoque de los estudios relevantes sobre un tema; los metaanálisis (meta-analysis) que utilizan datos comparables pero procedentes de distintos estudios para realizar nuevas investigaciones sobre un tema; mientras que las síntesis de evaluación (evaluation synthesis) son aquellas investigaciones que integran las conclusiones de distintas evaluaciones disponibles sobre un tema y tratan de obtener nuevas generalizaciones.
Tipos de evaluación
Existen diversas tipologías de evaluación. En términos generales, cabe distinguir entre las que utilizan como criterio básico el momento de realización de la evaluación de las que se centran en los enfoques. En realidad, las conexiones entre ambas tipologías son bastante claras (v. g. Blasco: 2009; Subirats et al.: 2008).
En función del momento se tiende a diferenciar los análisis previos (ex ante), de proceso (in itinere) y final (ex post) (Harguindéguy: 2014; Palumbo: 1987). Los análisis previos se centran en evaluar la necesidad y viabilidad de la intervención pública. El foco de atención de los análisis de proceso es asegurar que la política pública se lleva a cabo tal y como se había previsto. Finalmente, la evaluación ex post tiende a valorar los impactos producidos.
La figura 1 resume los principales tipos de evaluación en función del enfoque utilizado (Ballart: 1992; Blasco: 2009a): La evaluación de necesidades sirve para analizar la viabilidad técnico-política de una política pública. Por eso pone en relación las particularidades del problema con los recursos disponibles para afrontarla. Las evaluaciones de diseño tratan de poner de manifiesto la verosimilitud de la teoría del cambio social en que se fundamenta una o diversas políticas públicas. Tratan de mostrar en qué medida los impactos esperados del programa van a servir para solucionar el problema social en el que se pretende intervenir. Generalmente suelen realizarse antes de la intervención pública. Las evaluaciones de proceso o de implementación tratan de señalar lo que la política pública está realizando para, eventualmente, llevar a cabo las oportunas correcciones antes de que esta se dé por terminada. Trata de asegurar que el uso de los recursos, las actividades realizadas y los productos obtenidos se ajusten a lo que estaba establecido inicialmente. Las evaluaciones de eficiencia ponen en relación los recursos utilizados con los resultados e impactos obtenidos. Son evaluaciones fundamentalmente económicas y suelen ser ex post. Finalmente, las evaluaciones de impacto lo que pretenden es establecer las principales consecuencias sociales de la intervención pública. En este sentido, tratan de señalar en qué medida los impactos sociales de un programa se deben a una política pública u a otros factores externos y son evaluaciones ex post.
Figura 1.1
Tipos de evaluación según su enfoque
Fuente: Guía IVÀLUA n.º 1
Principales técnicas y metodologías de evaluación
Las técnicas y metodologías de evaluación cambian de modo notable en función del enfoque de evaluación utilizado. En general, las técnicas de recogida de información, así como de su análisis suelen combinar el uso de una variada gama de metodologías cualitativas y cuantitativas típico de las ciencias sociales. Por razones de espacio y economía en este apartado no se pueden entrar a considerar los detalles de cada una de las técnicas. Para un análisis más detallado puede consultarse la numerosa bibliografía aplicada que existe (v. g. Laughlin y Broadbent: 1996; Newcomer, Hatry y Wholey: 2013; Royse, Thyer et al.: 2009).
La evaluación de necesidades (needs assessment) suele combinar metodologías tanto cualitativas como cuantitativas (Casado: 2009; Royse, Staton-Tindall et al.: 2009). Su uso depende en gran medida de la disponibilidad de tiempo y recursos económicos. Cuanto menos tiempo y dinero se disponga, más frecuente es el uso de técnicas cualitativas y de fuentes de información secundarias. Entre las principales técnicas cualitativas de recogida de información están el método Delphi (uso de cuestionarios entre expertos) o los focus groups (reuniones de discusión con pequeños grupos). La principal técnica de recogida de datos cuantitativa es la encuesta, muy utilizada por ejemplo en sanidad (encuestas de salud). Aunque puedan parecer menos importantes, el uso de bases de datos ya existentes o de otras fuentes secundarias de información suele ser también muy habitual. Es importante señalar que en este tipo de estudios lo habitual es combinar el máximo de información disponible.
La evaluación de diseño pretende contrastar la validez de la teoría del cambio social asociada con la política pública que se analiza (Blasco: 2009b). Contrastar la teoría sin haber realizado la intervención (es decir, sin tener evidencias) supone un reto considerable. Por esta razón la evaluación de diseño no utiliza metodologías de análisis de tipo cuantitativo o cualitativo, sino que tiende a centrarse en contrastar la coherencia lógica de la teoría y en buscar evidencias comparadas que ayuden a reforzar su plausibilidad. Una de las herramientas más utilizadas en la evaluación de diseño es la llamada Metodología del Marco Lógico (MML, logic models) (Ortegón, Pacheco y Prieto: 2005; Wholey, Hatry y Newcomer: 2010). Este tipo de herramientas tratan de ayudar a explicitar las principales hipótesis y, sobre todo, los mecanismos causales en los que se basa el programa. La búsqueda de otras experiencias de intervención que hayan utilizado teorías de cambio parecidas en contextos sociales similares resulta una estrategia también muy útil para reforzar su plausibilidad.
La evaluación de proceso (formative evaluation o process evaluation) se centra en verificar que, durante la fase de implementación, los resultados se adecuen a lo establecido en el diseño del programa y que estos llegan a los grupos sociales adecuados (Lázaro y Obregón: 2009). En otras palabras, trata de identificar qué servicios se proveen, a quién y (cada) cuánto (Royse, Thyer et al.: 2009). Como en la evaluación de necesidades, el elemento fundamental de las evaluaciones de proceso es el establecimiento de fuentes de recogida de información lo más fiables y exhaustivas posible. Royse y sus colegas distinguen tres grandes herramientas de recogida y análisis de información para la evaluación de procesos (Royse, Thyer et al.: 2009): la monitorización (program monitoring), los sistemas de garantía de calidad (quality assurance) y los sistemas de mejora continua (total quality management o continuous quality improvement).
La monitorización de programas requiere el establecimiento y el adecuado mantenimiento de sistemas de información sobre los avances y resultados del programa. Para ello es bastante habitual establecer herramientas de gestión como los Cuadros de Mando (v. g. Fernández Hatre: 2004). La evaluación aplicada a la monitorización precisa, como mínimo, cierto contraste entre los resultados producidos y los objetivos o estándares fijados en el diseño del programa. También es bastante usual utilizar comparaciones en el tiempo o con datos de otros programas (Newcomer, Hatry y Wholey: 2013). Por otro lado, los sistemas de calidad se caracterizan por tratar de identificar y, eventualmente, corregir, aquellas deficiencias que puedan surgir en la adecuada provisión de los servicios. Desde hace tiempo es bastante habitual que estos sistemas se rijan por estándares de calidad internacionales como los de la International Standards Organization (ISO) u otros (v. g. Ruíz López, Cuellar Martín y Del Pino Matute: 2009). La existencia de estos estándares (y no los criterios internos del programa) es lo que diferencia los sistemas de calidad frente a los de monitoreo. Finalmente, los sistemas de mejora continua pretenden ir un paso más allá al dejar que sean los usuarios los que (re)definan la calidad y que, por tanto, las mejoras se ajusten constantemente a sus preferencias. Los sistemas de mejora continua sí incorporan técnicas cuantitativas y/o cualitativas de recogida de información, especialmente para medir la satisfacción de los usuarios de los servicios y, de modo más general, de todos los grupos implicados en la política (Goetsch y Davis: 2014). La principal crítica a todos los sistemas de evaluación de proceso reside en que implican cargas suplementarias de trabajo o tiempo para el personal (e incluso para los usuarios).
La evaluación de la eficiencia (cost-analysis) implica una valoración del uso de los recursos. Por esta razón también suelen denominarse evaluaciones económicas (Parera: 2009; Raya y Moreno: 2013). Entre las principales metodologías de estos análisis destacan los análisis coste-beneficio (cost-benefit) y los análisis de rendimiento (cost-efectiveness). Dado que el análisis económico es un campo que escapa del enfoque adoptado en este informe, no se profundizará mucho más en sus metodologías de análisis.
La evaluación de impacto trata de contrastar la validez de la teoría del cambio que guía todo programa de intervención. En la mayoría de casos esto supone utilizar herramientas de control de cierta complejidad metodológica que, además, pueden ser notablemente variadas (v. g. Blasco y Casado: 2009; Gertler et al.: 2011; Khandker, Koolwal y Samad: 2010). El diseño con mayor capacidad explicativa es el experimental basado en selección aleatoria de diversos grupos con controles previos y posteriores a la intervención. Si además de la selección aleatoria es posible realizar controles en el tiempo, se habla entonces de la utilización del método de las dobles diferencias o diferencias en diferencias (double difference). Cuando no es posible la selección aleatoria previa se tiende a utilizar otros diseños como el pareamiento (matching) o la regresión discontinua que pretenden solucionar mediante métodos estadísticos los problemas de sesgo en la selección de los grupos. Otros diseños de control menos rigurosos, pero también comunes, son los llamados cuasi-experimentos que tratan de establecer controles temporales (antes-después o series temporales) sobre uno o diversos grupos no seleccionados aleatoriamente. Finalmente, cuando ni la selección aleatoria ni los controles temporales son posibles, todavía pueden realizarse ciertos controles a través de estimaciones estadísticas multivariantes.
Los usos y propósitos de la evaluación
Siguiendo a Stufflebeam y Shinkield (1987), Bustelo ha señalado las tres principales funciones que suele darse a la evaluación (Bustelo: 2003): la función de mejora (improvement) que está fundamentalmente pensada como retroalimentación y aprendizaje institucional de la experiencia de la intervención pública; la función de rendimiento de cuentas (accountability), que señala el valor de la evaluación como instrumento para informar a los distintos agentes implicados en la política pública de las actuaciones que se están llevando a cabo así como de su éxito o fracaso. La última función, y más abstracta, es la de constituirse como guía para futuras acciones (enlightenment).
Más allá de estas funciones generales, Subirats y sus colegas han señalado diversos usos más instrumentales que los actores pueden hacer de la evaluación (Subirats et al.: 2008). En primer lugar, puede utilizarse como una herramienta de ventaja competitiva. La información proporcionada por las evaluaciones, especialmente cuando son realizadas por trabajos de consultoría directa puede servir para detectar puntos muy sensibles para la organización. En segundo lugar, las evaluaciones pueden utilizarse para reforzar la posición estratégica de una agencia o departamento, especialmente si su actuación ha sido cuestionada. Estos autores identifican algunas situaciones típicas en que esto sucede como movilizar apoyos a favor o en contra de un proyecto o medida concreta, para contribuir a delimitar el ámbito de actuación de una política pública frente a otras, o como herramienta para argumentar a favor de mayor o menor regulación pública. En tercer lugar, las evaluaciones pueden proporcionar información «objetiva» sobre la situación de una política pública en distintos contextos políticos y sociales, sobre todo si tienen carácter comparado o supranacional. Los informes de la OCDE o del Banco Mundial pueden ser buenos ejemplos de este tipo de usos. En cuarto lugar, el recurso creciente de las diversas administraciones a utilizar evaluaciones puede generar comunidades de investigadores (públicos o privados) especializados en este tipo de prácticas. Las comunidades de evaluadores pequeñas y muy cerradas pueden terminar teniendo efectos un tanto perversos por la dependencia de estos grupos del dinero público. En cambio, si estas son abiertas y plurales sin duda pueden evitar estos problemas y constituir un recurso muy valioso para las diversas administraciones. Finalmente, más allá de sus contenidos específicos, las evaluaciones pueden utilizarse como actos simbólicos dedicados a ganar tiempo por parte de administraciones o agencias en determinados momentos críticos. La evaluación puede servir para posponer, por ejemplo, la asunción de responsabilidades o frenar determinadas actividades legislativas.
2.LA INSTITUCIONALIZACIÓN DE LA EVALUACIÓN
La institucionalización de los sistemas de evaluación y la cultura de evaluación
Históricamente, el desarrollo de la evaluación de las políticas públicas está vinculado tanto con los intentos por racionalizar el gasto en los programas públicos como con la consolidación del Estado de Bienestar. La introducción de medidas de racionalización como el Programming, Planning and Budgeting System (PPBS) en el Departamento de Defensa de los ee. uu. con evaluaciones ex ante de la eficacia y eficiencia de programas, así como el desarrollo de sistemas presupuestarios multianuales es un hito incontestable en este proceso. Sin embargo, la expansión del PPBS a otros departamentos no tuvo el mismo éxito (Ballart: 1992; Derlien: 1990). Por otro lado, la evaluación también se ha ido desarrollando tanto en EE. UU. como en diversos países occidentales como una herramienta para tratar de establecer el impacto y la eficiencia del gasto en programas sociales, educativos y de salud.
Los estudios sobre el desarrollo de la evaluación tienen dos dimensiones básicas: la primera se centra en la creación de normas y estructuras administrativas que aseguren su realización y difusión. Estos estudios tienden a hacer énfasis en lo que denominan la institucionalización de la evaluación. La segunda dimensión se centra en las actitudes, predisposiciones y usos de la evaluación por los diversos actores implicados en la gestión de la política. Esta segunda dimensión tiende a centrarse en valores y comportamientos y suele denominarse cultura de evaluación. Ambas dimensiones están muy presentes en los principales intentos que la academia ha hecho para medir el desarrollo de la evaluación en distintos países y departamentos. También en las recomendaciones que se hacen para su mejora.
Hasta la fecha, el International Atlas of Evaluation constituye uno de los principales esfuerzos académicos para dar una visión lo más exhaustiva posible del desarrollo de la evaluación en distintos países (Furubo, Rist y Sandahl: 2002; Jacob, Speer y Furubo: 2015). Los autores de este estudio combinaron el análisis de las estructuras administrativas (institucionalización) en el ejecutivo, como de las actitudes y comportamientos (cultura) en otras instituciones y en la sociedad civil. Los principales aspectos que se abordaron en el Atlas fueron:
1.Una visión de conjunto histórica de cómo las instituciones se han relacionado con la evaluación.
2.Una descripción de la profesionalización en el campo de la evaluación.
3.Una descripción de la evaluación en la rama ejecutiva y ministerial.
4.Una descripción de la evaluación en la rama legislativa-parlamentaria del Gobierno.
5.Realización de observaciones concluyentes de dónde el sistema nacional está presente y hacia dónde tiene que ir.
Una de las principales innovaciones de Atlas fue la combinación de todas estas cuestiones en un índice de institucionalización de la evaluación. Este índice permitió elaborar rankings y comparaciones sincrónicas entre países en 2001 y en 2011 (Furubo, Rist y Sandahl: 2002; Jacob, Speer y Furubo: 2015; Varone y Jacob: 2004). Sin embargo, lo más importante es que sirven para dar evidencias de los ámbitos en que esta se extiende (o no) en cada país y, eventualmente, comprobar sus cambios en el tiempo. De hecho, lo más importante de este índice no es la cuestionable capacidad de comparar entre países, sino la posibilidad de realizar estudios diacrónicos para mostrar el desarrollo de la evaluación en un mismo país o entre varios países en el tiempo.
El índice de institucionalización de la evaluación propuesto en el International Atlas of Evaluation consta de nueve indicadores (Furubo, Rist y Sandahl: 2002):
1.La evaluación tiene lugar en diversas políticas sectoriales (policy domains). Este indicador mide la extensión y frecuencia de las actividades de evaluación: si se llevan a cabo de modo aislado y exclusivamente en una política pública o programas concretos; si lo hacen con frecuencia en algunas (pero no todas) las políticas públicas; o si su uso es común y está extendido en todo el sector público.
2.Hay oferta de evaluadores especializados en diferentes disciplinas y con dominio de diversas metodologías.
Este criterio pretende captar el pluralismo de metodologías y de instituciones que realizan tareas de evaluación. Se diferencia entre aquellos países donde solo unas pocas instituciones (públicas o privadas) realizan evaluaciones con un único enfoque metodológico, de aquellos donde existe una gran diversidad de centros y una amplia pluralidad de enfoques.
3.Hay un enfoque propio sobre cómo debe llevarse a cabo la evaluación.
Con este indicador se analiza en qué medida el debate sobre los criterios de evaluación, la organización de las estructuras de evaluación o la formación de los evaluadores se basa en la experiencia adquirida por la comunidad o se trata de una importación (policy transfer). Fundamentalmente opone aquellos países que han tendido a desarrollar su propio enfoque (en diálogo con la experiencia comparada), de los que se dedican a importar directamente la metodología o estructuras de otros contextos políticos.
4.Existe una comunidad de evaluadores.
Este criterio se centra en el desarrollo de sociedades nacionales o, más genéricamente, de entidades dedicadas a compartir experiencias (a través de reuniones y/o publicaciones periódicas) y/o a debatir las normas éticas de la profesión. Se distingue entre aquellos países en los que existen dichas sociedades nacionales, los que organizan reuniones periódicas, pero sin que exista una única institución promotora, y aquellos en los que solo hay encuentros esporádicos de expertos.
5.El Gobierno dispone de mecanismos para realizar evaluaciones y difundir sus resultados entre los decisores políticos.
La realización de evaluaciones puede ser poco efectiva si luego no son utilizadas por los responsables de tomar decisiones. Este criterio trata de dar cuenta en qué medida existen mecanismos o protocolos formalizados para la realización de evaluaciones y, también, para asegurar que al menos formalmente las evaluaciones son tenidas en cuenta por los responsables de los distintos programas dentro del ejecutivo. Esto separa aquellos países que han desarrollado estructuras y procesos tanto para realizar evaluaciones como para diseminar sus resultados de aquellos que no los tienen.
6.El Parlamento dispone de mecanismos para realizar evaluaciones y difundir sus resultados entre los decisores políticos.
Este indicador mide lo mismo que el anterior, pero aplicándolo al ámbito parlamentario. La razón para separarlos es que la perspectiva del parlamento no tiene por qué coincidir con la de los responsables de los programas en el Gobierno. Esto puede llevar a que se planteen evaluaciones con preguntas y perspectivas distintas a las del Gobierno.
7.Hay pluralismo dentro de las distintas políticas sectoriales (policy domains): diferentes agencias o instituciones encargan y realizan evaluaciones.
Este criterio pretende capturar el pluralismo en la realización de evaluaciones dentro de cada ámbito político. Cuando en un campo hay un solo responsable de la evaluación este suele decidir también la metodología, los evaluadores, etc., lo que limita el pluralismo y, por lo tanto, el contraste de pareceres. Lo contrario sucede cuando existen varios actores que encargan y realizan evaluaciones.
8.La institución suprema de auditoría lleva a cabo actividades de evaluación. Este es seguramente uno de los criterios más cuestionables del índice porque las actividades de evaluación no tienen por qué estar vinculadas con las instituciones supremas de auditoría (Tribunal de Cuentas, etc.). Pese a ello, parece existir cierta relación entre el grado de desarrollo de la evaluación y el trabajo llevado a cabo por estas instituciones. Por esto los autores dividen entre aquellos países en los que la evaluación juega un papel muy importante dentro de estas autoridades y aquellos en los que no realizan ningún tipo de evaluación.
9.Las evaluaciones no solo se centran en la producción o en la relación entre insumos y productos.
Este indicador analiza si las evaluaciones tienen como objeto medir la producción y el coste de bienes y servicios (km de carreteras, horas de clase) o, por el contrario, analizan los impactos de estos bienes y servicios en la sociedad. Como ya hemos señalado, este tipo de enfoque va más allá de centrarse en la correcta gestión del gasto o en la eficiencia económica de los programas. El criterio distingue, por lo tanto, aquellos países que realizan evaluación pensando en los impactos de los que se centran en la producción de bienes y servicios, así como en sus criterios de eficiencia económica.
Este índice ha sido contrastado con los resultados de otras investigaciones parecidas que, en vez de medir madurez, se centran en el concepto (similar) de institucionalización de distintos sistemas de evaluación de modo comparado (Jacob, Speer y Furubo: 2015; Jacob y Varone: 2004; Varone y Jacob: 2004). Una de las principales dificultades de estas investigaciones reside en la metodología utilizada para la recolección de datos. Casi todas ellas se basan en unas pocas entrevistas a expertos nacionales y, solo en menor medida, en el uso de documentación indirecta referente a cada país. El trabajo más sistemático de recolección de la información de modo comparado fue el del Atlas aunque también allí la información procedente de las entrevistas a expertos era determinante para el análisis comparado.
En este informe se ha adoptado un enfoque distinto con respecto a la recolección de las evidencias para la Comunitat Valenciana. En vez de una encuesta a expertos se ha optado por utilizar una combinación de información procedente de entrevistas semiestructuradas y datos procedentes de fuentes tanto primarias como secundarias. Todo esto se analiza con más detalle en los anexos metodológicos del libro.
Principales etapas de desarrollo de la evaluación y factores de su institucionalización
En la introducción hemos abordado las principales dimensiones vinculadas con la institucionalización o maduración de los sistemas de evaluación. También de las principales propuestas de medición realizadas por la literatura comparada. En este apartado abordamos las principales lecciones que pueden extraerse de la literatura comparada.
Los estudios comparados sobre los procesos de institucionalización de los sistemas de evaluación son todavía bastante escasos (Derlien: 1990, 2001; Furubo, Rist y Sandahl: 2002; Jacob, Speer y Furubo: 2015; Jacob y Varone: 2004; Varone y Jacob: 2004). Uno de los trabajos pioneros en este campo ha dividido el desarrollo de la evaluación en los países occidentales en tres grandes etapas (Derlien: 1990, 2001): en la primera, durante las décadas de 1960 y 1970, la evaluación tuvo como uso predominante la información para la mejora del funcionamiento de los programas públicos. Los responsables de la evaluación eran los responsables de los distintos proyectos en distintos departamentos del Gobierno que impulsaban nuevas políticas públicas. A partir de los años 1980, los problemas fiscales de muchos estados propiciaron cambios importantes en su uso. Los responsables pasaron a ser ahora los ministerios de Hacienda o el entorno (unidades centrales) de los presidentes y primeros ministros que ahora tenían como propósito la contención o el recorte del gasto público. La función básica de estos estudios de evaluación era favorecer una mejor reasignación del dinero público, lo que también desplazó el interés por los impactos hacia el interés por la eficiencia en la provisión de resultados (outputs) de las políticas. A partir de finales de los años 1990, Derlien observa un cierto desplazamiento de la evaluación hacia el Parlamento y, en los países europeos, una creciente importancia de la evaluación promovida por la Unión Europea. Este desplazamiento también ha sido detectado por otros autores posteriores (v. g. Furubo, Rist y Sandahl: 2002). Es posible que con la crisis económica de finales de la primera década del siglo XXI se haya regresado de nuevo al uso de la evaluación como contención y reasignación del gasto público.
Más allá de esta breve caracterización general sobre el proceso de institucionalización de la evaluación, la academia ha centrado parte de sus esfuerzos en tratar de señalar cuáles son los factores que explican las diferencias en su desarrollo y maduración. Derlien (2001) ha indicado, desde una perspectiva fundamentalmente institucionalista, diversos factores que han tendido a propiciar desarrollos diferenciados de la evaluación en los países que primero la adoptaron:
1.La situación fiscal de los países que impulsaron procesos de evaluación durante años de expansión económica frente a los que los empezaron a desarrollarlos en un contexto de crisis (finales de los años 70). De este modo, unos países fueron más expansivos en la evaluación de sus políticas, mientras que otros fueron más comedidos en el gasto dedicado a evaluación.
2.El color político de los Gobiernos puede haber favorecido que las políticas se lleven hacia una determinada dirección u otra. Gobiernos conservadores han tendido a centrarse más en la rentabilidad económica, mientras que los Gobiernos más progresistas han dado prioridad a analizar los impactos sociales de los distintos programas.
3.Las relaciones entre el ejecutivo y el legislativo. Por un lado, en los sistemas parlamentarios la evaluación se ha llevado a cabo fundamentalmente por el ejecutivo. Por otro lado, en los sistemas presidenciales ha sido llevada a cabo por el poder legislativo.
4.La evaluación ha sufrido cambios significativos en función del nivel de descentralización territorial. En algunos países los principales programas públicos se han desarrollado desde las instituciones centrales del Gobierno (Francia o Reino Unido); en otros, por el contrario, se han llevado a cabo a través de distintos niveles de gobierno (Canadá o Alemania).
Por su parte, Furubo, Rist y Sandahl (2002) también trataron de determinar los principales factores que explican la adopción de la evaluación por parte de distintos países. A diferencia de Derlein, estos autores centraron su explicación en dos conjuntos de presiones: las internas y las externas. Las presiones internas obedecen fundamentalmente a factores culturales:
1.Cierta predisposición social y política a rendir cuentas por el hecho de ser democracias con un cierto arraigo y, sobre todo, por partir de una determinada cultura política orientada hacia actitudes racionalistas.
2.La relevancia de una cultura administrativa abierta a la innovación y a la adopción de procedimientos típicos de las ciencias sociales y, eventualmente, a la influencia de la tradición de evaluación de los Estados Unidos.
3.El tercer elemento que destacan es que la evaluación crece con el desarrollo de amplios programas de intervención social típicos del Estado del Bienestar.
Además de estos factores los autores también tratan de indicar aquellos otros vinculados a las teorías de la difusión que pueden haber contribuido a la institucionalización de la evaluación. Entre este conjunto de presiones externas destacan:
1.La presión exterior bien en forma de ayudas al desarrollo del Banco Mundial u otras organizaciones internacionales similares.
2.En el caso de gran parte de los países europeos, la importancia decisiva de la Unión Europea.
El estudio de Furubo, Rist y Sandahl se realizó en paralelo a otra investigación muy parecida llevada a cabo en 18 países de la OCDE por Varone y Jacobs. Estos han tratado de explicar la relación entre diversos factores contextuales e institucionales y el grado de institucionalización de los sistemas de evaluación (Varone y Jacob: 2004). Sus principales factores explicativos son:
1.Complejidad de la acción política que tiene cada país en función de su contexto político-administrativo. No será la misma situación la que ocurra en un país ultracentralizado como Francia, que en un país con una gran descentralización como Alemania.
2.Las dificultades de su legitimación y puesta en marcha. Este hecho tiene que ver con la cultura política que tiene cada país y con cómo se aceptan por la sociedad civil las nuevas implementaciones en materia de evaluaciones.
3.La profesionalización del análisis de las políticas públicas. En función de cada país, puede que existan —o no—, organismos creados ad hoc que sirvan el análisis efectivo de las políticas públicas.
Las conclusiones de su estudio son un tanto sorprendentes pues señalan que ninguna de las variables analizadas parece tener una relación muy directa con el nivel de institucionalización de la evaluación de los países analizados. Esto lo atribuyen a los casos seleccionados y a la forma de medición de sus variables.
Cambios en la institucionalización de la evaluación
A partir de las presiones internas y externas anteriormente mencionadas, Furubo y sus colegas elaboran una clasificación de cómo se ha producido el proceso de institucionalización de la evaluación en diversos países. La hipótesis central (si bien un tanto implícita) del Atlas of International Evaluation parece ser que aquellos países que tengan presiones internas (o internas y externas) avanzarán más en la institucionalización de sus sistemas de evaluación que aquellos que tengan solo tengan presiones externas. Una hipótesis derivada de esta es que allí donde la institucionalización de la evaluación se produzca por presiones externas este proceso puede chocar con importantes resistencias internas e incluso generar «islas de cultura de evaluación» limitadas a aquellas políticas donde la presión externa ha obligado a cambiar las dinámicas institucionales.
Tabla 1.1
Institucionalización de la evaluación en diversos países en función de presiones internas y externas (2001)
Presiones internas | |
Presiones externas | |
DinamarcaFinlandiaFranciaAlemaniaPaíses BajosSueciaReino Unido | ChinaItaliaIrlandaEspañaZimbabue |
AustraliaCanadáCorea del SurNoruegaEstados Unidos | IsraelJapónNueva ZelandaSuiza |
Fuente: Furubo, Rist y Sandahl: 2002, 21.
Para tratar de comprobar estas y otras hipótesis los autores elaboraron el índice de institucionalización de la evaluación que ha sido comentado anteriormente y situaron en sus diferentes indicadores a un conjunto de 19 países con datos del año 2001 (Tabla 1.1). Sin duda, uno de los aspectos más cuestionables del estudio era el carácter eminentemente subjetivo de la clasificación. Con todo, la comparación entre los distintos países dio resultados visiblemente diferentes. Los tres países que más puntuación obtuvieron fueron los Estados Unidos (18), Canadá (17) y Australia (16); mientras que los peores valorados son Nueva Zelanda, Irlanda e Italia (7), España (5) y Japón (3). Estos datos parecían subrayar la importancia de la presión interna como factor clave en el desarrollo de la institucionalización. Aquellos países con una presión interna fuerte eran los que obtenían mejores puntuaciones mientras que los de presión débil quedaban más rezagados. La presión exterior parecía jugar un papel secundario. De hecho, algunos de los países con menor puntuación como España o Italia ya en los primeros años del siglo XXI tenían fuertes presiones exteriores para mejorar sus sistemas de evaluación.
Tabla 1.2
La cultura de la evaluación en diferentes países (2001)
Fuente: Furubo, Rist y Sandahl: 2002
Una década después de la primera investigación, un nuevo equipo de investigadores trató de compilar información similar a la del Atlas para ver los cambios producidos en los distintos países. El resultado de su análisis mostró algunos cambios notables con respecto a los hallazgos de 2001 (Tabla 1.2). En esta ocasión en 2011 (Tabla 1.3), los países que consiguieron mejor puntuación fueron Finlandia (16.6), Suiza (16.4) y Canadá (16). Excepto el caso suizo, el resto de países tenían presiones internas fuertes en 2001 (Tabla 1.1). El caso de Suiza sorprende por los espectaculares avances en institucionalización de un país que una década antes partía de presiones internas y externas débiles. Los países con peores puntuaciones de 2011 seguían siendo España (11.3), Italia (10.7) e Irlanda (9). En los tres casos, el incremento paulatino de la presión externa por parte de la Unión Europea y otros organismos internacionales (OCDE) no parecían ser suficientes para dejar las últimas posiciones de la lista. Sin embargo, esto no significa que no hubiera habido progresos. La media general se situaba esta vez en 13,7 y era algo superior a la del proceso anterior (11,2). Lo más destacado era, además, la reducción de la distancia entre los mejores y los peores países de 11 a 6 puntos de diferencia.
Tabla 1.3
La cultura de la evaluación en diferentes países (2011)
Fuente: Jacob, Speer y Furubo: 2015.
El contraste entre los resultados del año 2001 y 2015 permite, además, realizar un análisis longitudinal de los progresos (o retrocesos) experimentados por los diversos países. Por un lado, vemos un salto cualitativo en países que, teniendo puntuaciones muy bajas en la primera etapa, ahora han crecido en gran medida. El caso de Japón es especialmente paradigmático, ya que pasó de tener 3 puntos en 2001 a alcanzar la cifra de 11,3 en el 2011. En esta misma línea encontramos el caso de Suiza, que obtuvo un incremento de 8,4 puntos en el segundo estudio respecto del primero. España también experimentó un crecimiento significativo al pasar de 5 puntos a 11,3. Por otro lado, hubo países que bajaron su puntuación ligeramente, como es el caso de Estados Unidos de 18 a 15,8; Australia de 16 a 13,7; o Canadá de 17 a 16. Otros, como Alemania y los Países Bajos, se quedaron prácticamente con las mismas puntuaciones. Al mismo tiempo, cabe señalar que las distancias entre los países más puntuados y los más rezagados se redujo considerablemente. En el 2001 la media de los que más puntuación obtuvieron fue de 17 puntos, pero en el 2011 bajó a 16,3. Por su parte, la media de los que menos puntos consiguieron en 2001 fue de 6,2 puntos, mientras que en el 2011 aumentó hasta 10,3.
Principales recomendaciones de la literatura dedicada a implantar sistemas de evaluación
Además de la literatura comparada sobre los procesos de institucionalización de la evaluación en diversos países, también es posible extraer algunas recomendaciones de las obras especializadas en la implantación de sistemas de seguimiento y evaluación. Este tipo de obras es de carácter básicamente normativo y suele basarse en la experiencia acumulada por sus autores o en la institución por la que trabajan. Las recomendaciones no están dirigidas a países sino a los responsables de la implementación de estos sistemas en sus respectivos departamentos (altos cargos y altos funcionarios).
Un ejemplo de este este tipo es la obra Manual para gestores del desarrollo. Diez pasos hacia un sistema de seguimiento y evaluación basado en resultados (Kusek y Rist: 2004). Sus autores son asesores habituales del Banco Mundial en temáticas relacionadas con la evaluación y el desarrollo de las misma en políticas públicas. Según comentan Kusek y Rist en su obra, la implantación de sistemas de seguimiento y evaluación constituye una fantástica herramienta pública de gestión que puede mejorar la manera en que los Gobiernos logran sus resultados, ya que posibilita rastrear los avances de un proyecto, programa o políticas determinadas y demostrar su impacto.
La primera recomendación que hacen estos autores para implantar estos sistemas es la existencia de un compromiso riguroso, continuado en el tiempo y una voluntad política firme. Además, nos proponen una metodología basada en 10 pasos que resumimos brevemente.
1.Hacer una estimación de la preparación
Se trata de ofrecer un contexto analítico en el que evaluar la capacidad organizativa de un país o departamento determinado y ver, además, la voluntad política que se tiene para hacer el seguimiento, así como para evaluar las metas que se proponen. Dicho de otra manera, el análisis de los recursos y la voluntad política es fundamental para saber si puede iniciarse el proceso ya que brinda el contexto analítico para calificar la habilidad que tiene cada país o departamento para hacer un seguimiento efectivo y la evaluación de sus planes y programas.
2.Elegir los impactos (outcomes) para monitorearlos y evaluarlos
Los impactos nos van a ayudar a entender cuál será el éxito del plan. A partir de ellos se mostrará qué decisiones se van a tomar para corregirlos. De lo que se trata, pues, es de que haya el mayor acuerdo posible en la identificación de los efectos para así hacer su seguimiento y poder evaluarlos. Los outcomes remiten al impacto (económico, social, ambiental...) de la intervención de las administraciones en la sociedad, no a los bienes y servicios generados.
3.Seleccionar los indicadores clave para monitorear los efectos
El adecuado control de los efectos de una política precisa de la correcta selección y medición de indicadores. Sin indicadores ni evidencias (cuantitativas o cualitativas) es imposible saber los cambios o el impacto social que producen las medidas propuestas. Los indicadores son necesarios para hacer un seguimiento a los avances respecto de los recursos utilizados, las actividades llevadas a cabo, los productos y los servicios ofrecidos. Pero también, y, sobre todo, de los efectos generados en la sociedad. De este modo, los indicadores nos van a servir para entender si se están haciendo progresos tanto en la implementación de la política como en los efectos esperados.
4.Recoger información antes de la intervención
Se trata de recoger datos básicos que ayuden a determinar la situación actual y establecer un plan de seguimiento para cambios futuros. Los datos servirán para informar a los encargados del proceso decisorio sobre las circunstancias actuales (necesidades) y con ello llevar a cabo unos patrones de intervención y de seguimiento. Eso sí, será necesario que la construcción y análisis de los datos básicos sea rigurosa. Para ello es importante identificar fuentes de datos y métodos de recolección de datos fiables.
5.Planificar para mejorar. Seleccionar objetivos de resultados.
La identificación de los objetivos que pretenden conseguirse, así como de las políticas que se demandan para su consecución es fundamental. La confección de los objetivos debe permitir identificar el nivel deseado de resultados y seleccionar los objetivos de desempeño, esto es, el nivel deseado de desempeño que debe alcanzarse dentro de un periodo determinado.
6.Hacer seguimiento (monitorización) para obtener resultados
El seguimiento de cómo se está desarrollando el plan es necesario para su éxito. Los datos deben proporcionar no solo evidencias sobre el desempeño, sino marcar los cambios que se puedan producir en la sociedad. De este modo se analizará no solamente la eficiencia del plan, sino también su efectividad. Para esta consecución serán necesarios, entre otras cosas, hacer un seguimiento de la ejecución y de resultado, así como del nexo entre ellos.
7.Determinar el papel de las evaluaciones
Si bien es cierto que el sistema de seguimiento proporciona una información permanente, estos datos no pueden abordar las fortalezas y debilidades en el diseño del proyecto, ni tampoco la certeza de que los impactos se producen debido a la intervención. Por eso se hace necesario abordar la fortaleza de la teoría del cambio social en el momento de diseño el plan. Y también establecer metodologías para ser capaces de vincular los impactos sociales con las intervenciones producidas. Con la evaluación se consigue una suerte de mediación planificada que determina la pertenencia, eficiencia, eficacia, impacto y sostenibilidad del plan. Desde este punto de vista, el seguimiento y la evaluación son complementarios.
8.Presentar informes sobre hallazgos
La información el seguimiento y la evaluación debe ser continua, crítica y en tiempo real. Por ello, los informes sobre los hallazgos deberán estar previstos en el tiempo y bien articulados. Esto obliga también a la organización a planificar y concentrarse en las dimensiones metodológicas de acumular, estimar y preparar análisis e informes.
9.Utilizar los hallazgos
Los sistemas de seguimiento y evaluación no se limitan a generar una información continuada porque sí, sino a garantizar que esa información llegue a los usuarios apropiados para que sea utilizada para corregir errores y articular una mejor gestión. De este modo, a través de la retroalimentación, se podrán perfeccionar o ampliar proyectos, programas y políticas implementadas.
10)Sustentar el seguimiento y evaluación en la organización.
Los sistemas de seguimiento y evaluación tienen que ser establecidos y vistos como un trabajo a largo plazo. Para ello, es importante que en el interior de los Gobiernos o de las organizaciones se perciba este sistema como útil y productivo. Para que esto se consiga es preciso: una demanda sostenida y consistente a través de requerimientos, informes o institucionalización en los Gobiernos; establecer funciones y responsabilidades claras para analizar y presentar informes sobre información de desempeño; se debe producir una información confiable y creíble, transparente y estar al alcance de todas las personas; la rendición de cuentas debe estar presente; el sistema de evaluación y seguimiento tiene que ser sostenible y estar compuesto de una serie de destrezas técnicas que faciliten el análisis de datos; es indispensable introducir incentivos para alentar la utilización de la información de desempeño.
Tradicionalmente los sistemas de evaluación gubernamentales han carecido del componente de retroinformación en relación a los resultados e impactos. Por ello, las recomendaciones de Kusek y Rist pueden proporcionar herramientas muy útiles para la gestión efectiva y eficiente del sector público. Las siguientes secciones están dedicadas a ilustrar cómo se ha procedido a la institucionalización de la evaluación en el caso español y catalán.