PRomotion des Initiatives Sociales en Milieux Educatifs


Evaluation – CIP par Jean-Yves Mérindol,le 18 mai 2004.

Les débats autour des questions d’évaluations prennent souvent un tour polémique, dû (entre autres) à la méconnaissance des dispositifs existants et à la confusion entre divers types possibles d’évaluation, ce qui nécessite de préciser les termes employés. Il s’agit en particulier de clairement définir la différence entre auto-évaluation et évaluation externe. Les termes anglais (internal assessment et externalreview) expriment plus clairement la différence entre ces deux pratiques. Mon point de vue tient compte du fil conducteur suivant:

– Qui décide des critères (et de la nature) de l’évaluation ?
– L’auto-évaluation nécessite souvent un recours à des experts « extérieurs »
– Quel est l’usage des évaluations ?

Contrairement à une pratique courante, la grille de lecture que je propose n’est pas centrée sur la structure (ou le programme)évalué mais sur l’établissement (ou l’agence, le ministère …) qui décide de l’évaluation, et qui doit (ou devrait) ensuite prendre des décisions tenant compte des résultats de cette évaluation. Ceci permet de mieux maîtriser le rapport entre évaluation et décision. Je suis conscient que le troisième item mériterait d’autres commentaires que ceux qui vont suivre: cette note est cependant déjà assez longue pour que je n’aille pas plus loin.

Je termine ce petit préambule par un paradoxe. Les débats récents ont donné le sentiment que la recherche était (au choix) pas évaluée ou évaluée par copinage. On arrive là à un résultat extraordinaire : la recherche est le secteur relevant de politiques publiques où la culture et la pratique de l’évaluation sont les plus présents(pour les personnes comme pour les structures). Que l’on doive mieux faire est une chose. Que l’on dise que rien n’est fait est excessif : il suffit de penser aux activités pilotées par d’autres ministères. Je crois même que certains secteurs de l’enseignement supérieur et de la recherche souffrent d’un excès d’évaluation (ce qui fait perdre du temps, et de l’argent).Mais d’autres n’en n’ont pas assez : il faut regarder les choses dans le détail et les discours trop globaux à ce sujet ne sont guère pertinents. Je ne peux m’empêcher de penser que cette (hyper)-critique masque souvent l’idée que la seule évaluation digne de ce nom est l’évaluation hiérarchique, pourtant peu adapté à nos activités.

Auto-évaluation et évaluation externe :

J’appelle auto-évaluation (internal assessment) l’évaluation dont les modalités, le tempo et les objectifs sont définis par l’établissement (ou les établissements) ayant la responsabilité des structures (ou des programmes, des formations …) évaluées. En ce sens, l’évaluation actuelle des unités de recherche liées au CNRS (via un comité d’évaluation et/ou le CoNRS) est, au moins sur le plan des principes, une auto-évaluation, même si cette évaluation n’est pas menée par l’unité elle-même. Le point de vue que j’adopte est donc celui de l’établissement, et pas celui de l’unité. En particulier, l’auto-évaluation n’implique pas le « localisme »: cette pratique, bien entendu possible, est une dérive qui affecte (en règle générale) la qualité de cette auto-évaluation.

J’appelle évaluation externe (external review)les évaluations décidées et menées par des instances indépendantes de l’établissement concerné. Ainsi, les évaluations menées par le CNE (vis à vis des EPCP), par le CNER (vis à vis des EPST), par la MSTP (vis-à-vis des formations ou des laboratoires des universités) ou par le CNU (vis à vis des universitaires) sont externes.

Nécessité de l’auto-évaluation :

Un établissement a besoin d’avoir un tableau de bord, en relation avec sa politique, pour connaître son état, pour savoir si ses objectifs sont atteints ou pas, pour pouvoir estimer les chances de réalisation de sa stratégie et donc, en retour, pour définir une stratégie réaliste. Ce tableau de bord est composé d’indicateurs quantitatifs (nombre d’étudiants par filière, situation du personnel, indicateurs financiers et patrimoniaux, nombre de diplômés, dépôt de brevets et demandes de licences …) semi-qualitatifs (insertion professionnelle des diplômés, nombre et impact des publications scientifiques…) ou purement qualitatifs (estimation de la qualité des formations, qualité et originalité des unités de recherche …). Les thèmes retenus pour ce tableau de bord dépendent très directement de la politique de l’établissement. Ainsi, en matière de recherche, certains EPST essaient de mesurer la façon dont leur politique donne un appui aux politiques publiques (par exemple en matière de développement durable, de coopération internationale …) alors que d’autres ne sont pas intéressés par ces questions. En matière de formation, certains établissements cherchent à connaître, pour certaines de leurs filières, les taux de réussite en fonction des origines sociales, alors que la même question n’intéresse pas d’autres établissements, ou d’autres filières.
Il n’y a donc pas d’évaluation « en soi » même si, par exemple, certains éléments de base sont communs à la plupart des évaluations de la qualité de la recherche menée (intérêt et notoriété des publications scientifiques, intérêt et pertinence des programmes d’activité présentés par les structures de recherche).
Un établissement un tant soi peu autonome a besoin de définir les critères utilisés pour l’évaluation de ses activités et de ses structures internes. Bien entendu, il peut sous-traiter une partie, voire la totalité, de cette évaluation à des organismes extérieurs. Dans ce cas, il doit définir avec précision un cahier des charges, cohérent avec sa politique. J’appellerai ceci une auto-évaluation « externalisée ».
L’Etat exerce divers contrôles, en général a posteriori, sur les activités des établissements publics (inspections, cour et chambres régionales des comptes …). Même s’ils s’en rapprochent parfois, ces contrôles ne peuvent être confondu avec l’évaluation : les corps concernés n’ont d’ailleurs pas de compétence directe sur la qualité des deux missions principales des établissements d’enseignement supérieur et de recherche (formation / recherche).

La situation actuelle :

Elle est très variable d’un établissement à l’autre et il est difficile d’en dresser un tableau synthétique. Voici quelques exemples significatifs.

Le CNRS

Les principaux EPST réalisent une auto-évaluation (non locale) de leurs unités de recherche. Prenons l’exemple du CNRS. Le décret d’organisation du CNRS confie des missions importantes d’évaluation (des unités et des personnes) au CoNRS, structure intégrée au CNRS, même si une partie de ses membres sont extérieurs à l’organisme. Cette intégration (via les commissions mélangeant élus et nommés par le CNRS) caractérise, en première approche au moins, d’une auto-évaluation. Cependant, comme tout cette organisation est définie dans un décret qui s’impose au CNRS, on peut considérer qu’il s’agit partiellement d’une évaluation externe. Enfin, comme la direction de l’organisme nomme une partie de ces commissions, on se rapproche à nouveau d’une auto-évaluation. On est ici dans une situation hybride entre auto-évaluation et évaluation externe. Les critères de l’évaluation sont définis par la « communauté scientifique » (en clair, par les commissions elles-mêmes), ce qui amène parfois des contradictions avec la politique du CNRS. C’est l’une des raisons qui ont conduit le CNRS à proposer la mise en place systématique, pour les unités existantes, d’un « comité d’évaluation » : cette seconde forme d’évaluation est totalement (au sens donné ci-dessus) un dispositif d’auto-évaluation. Les organismes ont fait des efforts récents pour que leur auto-évaluation soit réalisée par des experts «extérieurs» (scientifiques étrangers, industriels), ce qui limite, en partie au moins, les pièges du localisme et des réseaux d’influence (encore que les grands laboratoires soient capables d’avoir de bons réseaux internationaux).

Le comité scientifique du CNRS est lui aussi hybride, intégré au CNRS et composé pour une grande majorité de membres d’unités liées au CNRS, ce qui en fait essentiellement un organe d’auto-évaluation. Ses avis ne pèsent qu’assez peu sur les décisions de l’organisme. Les autres aspects de la vie du CNRS (gouvernance, administration, structures de service) ne font pas l’objet d’une auto-évaluation systématique (il s’agit plutôt d’audits à la demande) .

Le CNER est chargé de l’évaluation externe des organismes. En 12 ans d’activité, il a publié sept rapports d’évaluation concernant directement les organismes (l’IFREMER, le CSTB, l’INSU, l’IRD, le CIRAD, le département SPI du CNRS, le contrat quadriennal de l’INRIA). Si ce bilan n’est pas négligeable, on voit qu’aucun des organismes n’a encore été évalué deux fois et que les plus gros (CNRS, INRA, INSERM et INRIA), n’ont pas encore été évalués dans leur ensemble.

En résumé, l’auto-évaluation du CNRS existe (mais sous une formule hybride) pour les unités, et peu pour le reste, alors que l’évaluation externe est limitée, et ne concerne pas les unités elles-mêmes.

L’enseignement supérieur

Les universités (et écoles) réalisent très rarement une auto-évaluation systématique sur leurs deux missions clefs (formation et recherche).

Recherche : L’évaluation des unités de recherche liées aux organismes est (avec les définitions données plus haut) une auto-évaluation dont les modalités sont définies conjointement par l’organisme et l’université. Cet équilibre entre universités et organismes n’est qu’apparent :en pratique, l’influence du CNRS sur la composition de ces commissions et comités est plus forte que celle des universités, ce qui transforme cette auto-évaluation en évaluation semi-externe. Ainsi, il est souvent difficile de faire comprendre aux comités que les résultats de l’évaluation des unités mixtes doivent être communiqués simultanément au président de l’université concernée et au département ad hoc du CNRS, ce qui est l’un des multiples indices montrant que ces comités se considèrent comme dépendant du CNRS, et pas de l’université.
Les unités qui ne sont pas liées aux organismes sont examinées par des experts de la MSTP. Il s’agit ici d’une évaluation externe, suivant des critères qui sont définis librement par cette mission. Pour savoir si un dossier mérite d’être transmis à un organisme ou à la MSTP, certains établissements (pas tous, loin de là) ont défini une procédure interne faisant appel à des expertises extérieures (ce qui est une des conditions de la crédibilité de cette auto-évaluation),. Cette procédure a un premier rôle (limité mais non négligeable) de filtre. Elle permet aussi de pousser à des regroupements, à des fermetures, à des changements de thématiques en utilisant les marges d’autonomie des universités. Ces actions constituent l’un des éléments déterminants d’une politique scientifique.

Formation : certains établissements (de plus en plus nombreux) ont mis en place des procédures d’auto-évaluation utilisant des questionnaires remplis par les étudiants, ou tenant compte de l’insertion professionnelle des diplômés. En règle générale, y compris pour beaucoup d’écoles, on est très en dessous de ce qui serait nécessaire pour pouvoir parler d’une véritable démarche qualité.

Les universités sont soumises à de nombreuses évaluations externes. On a déjà cité les évaluations menées par la MSTP (pour la recherche et les demandes de création de diplômes nationaux). On doit y rajouter les évaluations menées par le CNE (en 20 ans, toutes les universités ont été évaluées au moins une fois, beaucoup deux fois et l’une trois fois) qui est une évaluation « institutionnelle » particulièrement centrée sur la gouvernance des universités et écoles (dont l’existence – ou pas- d’une stratégie de recherche) et sur les rapports avec leurs partenaires du site ou de la région.

Quels objectifs ?

Je crois évidemment que les deux formes d’évaluation (auto-évaluation et évaluation externe)sont nécessaires.

L’auto-évaluation est nécessaire au pilotage d’un établissement. C’est pour cette raison qu’il ne me paraît pas imaginable d’imaginer que la création d’une (ou de plusieurs) agence(s) nationale(s) d’évaluation pourrait dispenser les établissements de faire face à leurs responsabilités auto-évaluatives. Cette auto-évaluation doit se faire de façon rigoureuse, en explicitant les critères et les procédures utilisés. Elle doit faire une place importante aux experts extérieurs à l’établissement : l’établissement doit veiller à trouver un bon équilibre entre la nécessité de la prise en compte de sa politique et la nécessité du regard extérieur Elle peut être externalisée en faisant appel à d’autres structures (par exemple à d’autres établissements, ou à des agences nationales ou internationales). Si l’auto-évaluation concerne à priori toutes les échelles de la vie d’un établissement, il appartient à ce dernier de définir ses priorités et de choisir les points essentiels de cette auto-évaluation : il ne peut y avoir une réponse uniforme. Il est cependant (presque) certain que l’auto-évaluation doit porter notamment sur le pilotage général : la façon dont sont décidés les choix stratégiques est l’un des éléments clefs de la gouvernance.

Les établissements publics doivent pouvoir dresser un bilan de leurs activités (je suis d’ailleurs frappé de voir que les universités n’ont pas -en règle générale- l’habitude de publier régulièrement un rapport d’activité). Ce bilan doit être soumis à une évaluation externe, indépendante et contradictoire, permettant de confirmer (ou de contester) les affirmations de ces établissements, mais aussi de vérifier la qualité de l’adéquation entre politique d’établissement, les résultats et moyens de cette politique.
La façon dont l’établissement conduit son auto-évaluation, et la façon dont les résultats de cette auto-évaluation influence sa politique et ses décisions, constituent deux points centraux de sa qualité générale : on se rapproche ici de l’un des fondements des démarches qualité.
L’évaluation externe ne peut se limiter à l’évaluation des procédures internes d’auto-évaluation. Elle doit porter aussi, peut-être pas de façon systématique mais de façon représentative, sur les missions mêmes de ces établissements. La culture centralisée française se conjugue malheureusement avec l’importance majeure accordée à l’évaluation a priori (c’est manifeste pour les diplômes nationaux, pour la création de certaines unités de recherche, pour les financements des allocations de recherche, voire de bourses post-doctorales) sur l’évaluation a posteriori. L’évaluation externe et nationale a priori n’a guère de sens (sauf cas particuliers) : c’est en étant proche des acteurs que l’on est capable de faire, avec la rapidité nécessaire, les paris indispensables. Autrement dit, l’évaluation a priori devrait plutôt relever des dispositifs d’auto-évaluations des établissements, alors que l’évaluation externe (nationale ou internationale) est plus adaptée à l’évaluation a posteriori, permettant de vérifier la qualité de ce qui a été réalisé. Pour la recherche, cette évaluation a posteriori mériterait d’ailleurs de se faire suivant des modalités différentes suivant le « niveau » que l’unité (ou l’équipe, ou le programme …) prétend atteindre : on n’a pas besoin du même type d’évaluation pour savoir si une telle unité est simplement bonne (on devrait avoir alors une évaluation assez légère), ou si elle est dans les toutes premières au niveau international (une évaluation approfondie est nécessaire lorsqu’on doit décider de concentrer des moyens pour maintenir ces équipes dans la compétition à ce niveau). Ce point demande des développements que je renonce à faire ici.

Enfin, et ce n’est pas le moindre problème, l’évaluation externe doit être menée par des instances indépendantes des universités, des organismes et du pouvoir politique (qu’il s’agisse d’une « agence » ou d’une autorité administrative indépendante comme le CNE). La dernière condition ne va pas de soi dans un pays qui a notre tradition jacobine et qui ne manifeste pas la vigilance anglo-saxonne devant les conflits d’intérêt. Les rapports de cette instance doivent être public : c’est l’une des conséquences naturelles de l’appartenance à un service public (et du financement public). La publicité de ces rapports est l’une des voies pour engager les établissements dans des démarches plus affirmées, et plus rigoureuses, d’auto-évaluation, comme condition de leur pilotage.

Un dernier aspect est une évaluation de la cohérence entre la politique des établissements publics et la politique nationale( pour autant que cette politique ait été clairement explicitée par le parlement et le gouvernement), voire européenne. On voit que ces divers aspects de l’évaluation externe (le détail des activités des établissements, leur stratégie générale, la cohérence entre celle-ci et la politique nationale ou européenne) ne relèvent pas tous de la même logique, et donc probablement pas tous des mêmes procédures.

Dernier élément du paysage, les ministres européens en charge de l’enseignement supérieur ont pris à Berlin en 2003 les engagements suivants : The quality of higher education has proven to be at the heart of the setting up of a European Higher Education Area. Ministers commit themselves to supporting further development of quality assurance at institutional, national and European level. They stress the need to develop mutually shared criteria and methodologies on quality assurance.They also stress that consistent with the principle of institutional autonomy, the primary responsibility for quality assurance in higher education lies with each institution itself and this provides the basis for real accountability of the academic system within the national quality framework.
Therefore, they agree that by 2005 national quality assurance systems should include:
• A definition of the responsibilities of the bodies and institutions involved.
• Evaluation of programmes or institutions, including internal assessment, external
review, participation of students and the publication of results.
• A system of accreditation, certification or comparable procedures.
• International participation, co-operation and networking.

Quelles conséquences ?

Les établissements ne seront vraiment encouragés à mettre en place des mécanismes d’auto-évaluation crédibles que s’ils ont la capacité réelle d’utiliser les conclusions de ces évaluations. Une condition nécessaire est que la réglementation leur donne la capacité juridique de le faire.
Ainsi, les universités (et écoles) ne se lanceront dans l’évaluation des personnes que si elles ont la capacité de mener une véritable politique de ressources humaines (pour les promotions, les recrutements, la modulation des activités). Les traditions de notre pays conduisent à maintenir des instances nationales (qui peuvent avoir une capacité directe dans ce domaine : cf l’IUF, ou jouer un rôle de recours) mais leur rôle ne doit pas être si étendu qu’il conduise à dessaisir (comme aujourd’hui) les universités de la plupart des compétences importantes sur ces sujets. Si le statu quo perdure, les universités n’ont aucune raison de mettre en place une évaluation sérieuse sur les personnes. On peut multiplier les exemples : habilitation des diplômes, reconnaissance d’unités de recherche émergentes…
Il est tentant, parce que logique, de considérer qu’on ne peut augmenter l’autonomie des universités que lorsque les mécanismes d’évaluation et de prise de décisions seront au point. Mais la mise en avant d’un tel préalable ne permet pas de sortir du cercle vicieux actuel. La méthode à utiliser doit être plus dynamique : il faut encourager les universités à se mettre ne mouvement, puis« récompenser » celles qui le font avec efficacité. Le contrat quadriennal que passent l’université et l’Etat est, au moins sur le plan des principes, un instrument efficace. Il faut cependant que le ministère accepte, voire encourage, une plus grande diversité de ces contrats.

Les établissements ne peuvent se passer d’auto-évaluation. C’est pourquoi je ne suis pas favorable, dans l’état actuel de sa description, à la création d’une « agence nationale de l’évaluation ». On ne sait pas ce que cette agence aurait à évaluer (les institutions, les laboratoires, les programmes, les personnes ?). On ne sait pas qui commanditerait ces évaluations (les établissements ? le ministère ? l’agence elle-même ?) ce qui ne permet pas de comprendre son rôle dans les prises de décision pour le financement des laboratoires, des programmes, des formations (a-t-elle de l’argent à distribuer ? se contente-t-elle de faire connaître son avis aux commanditaires de l’évaluation ?)…Reste enfin à décider de sa composition, ce qui n’est pas un mince problème si l’on veut garantir son indépendance.

Il est cependant manifeste que la situation actuelle n’est guère satisfaisante. Prenons l’exemple du CoNRS. On a déjà signalé qu’il s’agit d’une instance hybride, jouant un rôle intermédiaire entre une instance d’auto-évaluation conjointe du CNRS et des universités et une instance externe, pilotée par une « communauté scientifique » définie par les découpages en sections. Cette ambiguïté est problématique, c’est ce qui explique qu’il puisse être reproché au CNRS à la fois d’être dirigé par le CoNRS (ce qui ne serait pas possible si le CoNRS était véritablement une structure d’auto-évaluation mise en place sous l’autorité de la direction et des conseils de l’organisme) et de ne pas avoir d’évaluation externe (notamment d’évaluation stratégique). Par ailleurs, au-delà des aspects formels, les universités ne peuvent considérer le CoNRS ni comme sur un véritable instrument d’auto-évaluation, ni comme une structure d’évaluation externe. Il est donc positif que la direction du CNRS fasse des propositions pour mettre fin à ces confusions. La suggestion d’en faire une structure extérieure au CNRS et de lui confier aussi la mission d’évaluer les laboratoires universitaires a le mérite de mieux délimiter sa mission : il devient un organisme d’évaluation externe pour les universités et le CNRS. Cette suggestion mérite cependant des précisions : la direction du CNRS propose que les nommés soient plus nombreux, sans préciser qui les nomme (si la structure devient indépendante du CNRS, ce ne peut être la direction de cet organisme ; si on souhaite une indépendance des pouvoirs politiques, ce ne peut être le ministre : alors qui ?). Il reste donc, pour creuser cette idée intéressante, à:
– clarifier le champ de ses compétences,
– préciser les relations entre ce CoNRS rénové et les structures d’auto-évaluation que chaque établissement (notamment le CNRS) mettra en place,
– indiquer comment il est composé.

Aucune de ces questions n’est simple. Comme je plaide pour que chaque établissement ait une politique active de ressources humaines, je ne peux défendre l’idée qu’un organisme externe au CNRS (et aux universités) décide des promotions des chercheurs et des enseignants-chercheurs : pour l’envisager, il serait nécessaire que ce nouveau CoNRS puisse connaître, et accepter, les politiques de ressources humaines de chacun de plus de 200 établissements, ce qui est absurde. Au mieux, et ce ne serait pas rien, ce nouveau CoNRS pourrait donner un avis motivé et comparatif sur la composante « publications scientifiques et notoriété » des chercheurs et enseignants-chercheurs, remplaçant ainsi une partie des activités de l’actuel CoNRS et l’essentiel de celles du CNU. L’évaluation des laboratoires (ou des programmes) bute sur une limite analogue, bien que plus facile à surmonter. En effet, un établissement peut vouloir créer une unité de recherche en raison d’une stratégie que le CoNRS ne partage pas ; en ce cas, les critères de l’évaluation nationale ne seront pas pertinents et c’est l’auto-évaluation qui peut donner à cet établissement des éléments pour prendre une décision en connaissance de cause, et à ses risques et périls.

Bilan provisoire : la création de ce nouveau CoNRS peut avoir son intérêt (surtout parce qu’elle simplifie le paysage dispersé de l’évaluation des unités de recherche), mais il faut précisément définir ses missions. Je pense qu’elles devraient se limiter à l’examen de la qualité « académique » des réalisations et des projets (qualité des publications, notoriété nationale et internationale, originalité) par des comparaisons relatives. Il ne serait pas chargé des évaluations de lastratégie des universités et organismes, évaluation qui ne peut se faire disciplines par disciplines, pas plus que de la gestion des carrières des personnels.

Ce nouveau CoNRS aurait donc deux types d’activités, proches dans la pratique, mais différentes dans les objectifs :
– Il pourrait être chargé par les d’autorités de tutelle (ministères), de financement (agences ou assimilées) de l’évaluation « externe » des unités ou des programmes. Il serait donc à la disposition des pouvoirs publics pour mener des évaluations a posteriori sur les activités menées dans les unités de recherche dépendant d’universités, organismes , voire ailleurs. Il pourrait aussi exercer les mêmes tâches à la demande d’agences d’évaluation des établissements (du type CNE ou CNER).
– Il pourrait aussi être saisi par des universités, écoles et organismes, de demandes pour effectuer une évaluation (a posteriori ou a priori) de la recherche menée dans des laboratoires sous leur responsabilité. Il s’agit alors d’une auto-évaluation externalisée.

Dans le second cas, les établissements demandeurs devraient savoir réintégrer d’autres critères pour leur prise de décision.

Je ne crois pas qu’il soit sage d’obliger les établissements à passer systématiquement par cette agence : ils peuvent avoir de bonnes raisons pour passer par un autre processus, qu’ils considèrent comme plus sérieux ou plus adapté. A charge pour eux de donner des explications a posteriori aux autorités de tutelle, notamment pour les demandes de financement.
Ce nouveau CoNRS n’aura probablement pas d’évaluation pertinente sur tous les sujets (c’est difficile de mener une évaluation nationale sur les questions de valorisation, de qualité de l’enseignement, de culture scientifique …). Il restera donc des domaines sur lesquels les établissements devront organiser leur propre auto-évaluation en fonction de leurs politiques.

La composition de ce nouveau CoNRS pose des questions redoutables (mode de désignation ou d’élection de ses membres, façon dont se gèrent les conflits d’intérêt, indépendance des pouvoirs politiques, indépendance des directions d’établissements…) que je n’approfondis pas ici. Le fait de ne pas lui confier la gestion des carrières des personnels simplifie cependant une partie de ces questions : le système de type paritaire, bien connu dans la fonction publique, n’est pas un modèle obligé.

Je ne crois pas que l’on doive confier à ce nouveau CoNRS l’évaluation stratégique des établissements. D’ailleurs, si l’on essaie de créer une grande structure capable de tout faire, on arrivera inévitablement à un énorme monstre, tiraillé entre plusieurs métiers et peuplé d’apparatchiks de moins en moins au fait de l’état de l’art des sciences. Les évaluations stratégiques externes sont actuellement confiées à deux comités : le CNE et le CNER. Rien ne s’oppose, sur les principes au moins, à une fusion de ces deux instances. Elles ont d’ailleurs multiplié leurs collaborations depuis quatre ans (rapports coordonnés sur les sites de Grenoble et de Montpellier) ce qui est un premier pas vers une meilleure connaissance mutuelle. Le reste est affaire de détails, ce qui n’est jamais négligeable.

L’évaluation des politiques publiques est d’une autre nature. Ce point est directement lié à la mise en place de la LOLF et aux thématiques générales sur la « modernisation de l’Etat ». On doit évoquer ici l’office parlementaire de l’évaluation des choix technologiques et scientifiques. Il serait intéressant que les parlementaires en dressent un bilan : ceci permettrait de savoir si c’est un choix d’organisation à étendre. Il manque certainement aujourd’hui une instance jouant un rôle voisin pour les questions d’enseignement supérieur. On s’approche ainsi du vieux problème, intéressant et délicat, du contrôle parlementaire sur les politiques publiques. Je me suis déjà trop écarté des questions posées par le groupe « évaluation » du CIP pour que je continue dans cette direction.

Les états généraux de la recherche et l’évaluation :
Jean-YvesMérindol,Strasbourg,le19octobre2004.

L’undesthèmesabordés dans le débat public sur la recherche est celui de l’évaluation. S’il l’est parfois de façon polémique (« les chercheurs refusent toute évaluation » ou encore « l’évaluation par les pairs n’est qu’un système de copinage »), il n’en reste pas moins évident que cette question est importante, parce qu’elle est liée de façon étroite à la façon dont on gère les politiques publiques. Ce lien apparaît pour chacun des sous-thèmes de l’évaluation :
– évaluation des personnes et gestion des carrières
– évaluation des équipes et des unités de recherche, reconnaissance et financement
– évaluation des programmes de recherche, financement
– évaluation des institutions (universités, écoles, organismes), soutien public
– évaluation des politiques publiques nationales et européennes
On mesure à cette simple liste, que l’on pourrait encore raffiner ou compléter, à quel point la question de l’évaluation peut être complexe, et à quel point il est difficile de la traiter isolément des autres sujets. Avant de faire une analyse critique des propositions contenues dans le rapport d’étape du 30 septembre, que vont discuter les Etats généraux de fin octobre, il paraît nécessaire de dire en quelques mots ce que l’on peut attendre de l’évaluation. Il serait en effet réducteur, surtout dans les domaines de la recherche et de l’enseignement supérieur, de considérer que l’évaluation est un élément d’un processus purement hiérarchique, permettant à un « supérieur » (qu’il s’agisse d’une personne, d’une instance ad hoc, d’un établissement, d’un ministère, du parlement …) de porter un jugement sur la qualité et la pertinence de l’activité de l’évalué (même énumération). Cette dimension ne peut évidemment être absente, mais l’évaluation joue, et doit jouer, un rôle direct sur l’évalué, sans obligatoirement passer par le pouvoir coercitif, discrétionnaire ou incitatif du supérieur. L’évaluation doit être, dans toute la mesure du possible, un processus partagé entre l’évalué, l’évaluateur et « le » (ou les) décideur(s) à qui s’adresse cette évaluation. L’évaluation de l’évaluation, c’est-à-dire l’analyse de l’impact de celle-ci, ne peut se mesurer dans les seules décisions de ce supérieur hiérarchique ou tutellaire (s’il existe). Elle doit aussi tenir compte des décisions, implicites ou explicites, que l’évalué prend pendant le processus. Cette dimension est trop souvent absente des critiques à l’emporte-pièce apportées à certaines évaluations. Pour ne prendre qu’un exemple, il n’est pas censé de ne mesurer l’impact des rapports du Comité National d’évaluation (CNé) ou du Comité National d’évaluation de la recherche (CNER) qu’à l’aune des commentaires, ou des décisions, des directions ministérielles. Il ne s’agit pas de s’en désintéresser, mais de regarder aussi, dans la durée, ce qu’en font les établissements eux-mêmes.

Un constat :

Le document que l’on commente ici est le « rapport d’étape des Etats Généraux de la Recherche 30/09/2004 » que l’on trouve sur le site web du CIP. Ce document de 88 pages résulte du croisement des discussions du CIP (dont l’une des commissions était consacrée à l’évaluation) et des compte-rendus des états généraux « locaux » organisés par les Cloeg (le CIP avait suggéré aux Cloeg que l’évaluation soit l’un des 4 thèmes de leurs réflexions). On se doute qu’une telle synthèse ne soit pas facile, et qu’elle puisse conduire à des contradictions, ou à une argumentation dont la logique interne ne soit pas toujours très solide.
Si l’on regarde la table des matières de ce document, on constate que le mot « évaluation » apparaît en I.1.3 « Evaluation de l’impact du soutien public à la recherche privée », en I.2.2 « Une activité soumise à évaluation », dans le titre du II « Organisation, évaluation et financement de la recherche publique », en II.4.4 « Adapter l’évaluation des équipes et des structures fédératives », en II.4.5 « Systématiser l’évaluation globale des opérateurs (organismes, universités et programmes) : le CNER », en III.4 « Mettre en place un dispositif d’évaluation, de suivi et d’accompagnement des personnels de la recherche, tout au long de leur parcours professionnels », dans les annexes II-C « Choix proposés pour le système d’évaluation scientifique » et III-C « Suggestions de critères d’évaluation pour le rapport d’activité d’un EC ». Le thème est donc traité à de nombreuses reprises, aussi bien en ce qui concerne les personnes (c’est l’aspect le plus développé) que les «opérateurs».

Une analyse :

Les missions :
Le texte se préoccupe beaucoup des organes chargés d’évaluer, de leur composition et du périmètre de leurs activités. Il est beaucoup moins précis sur les missions de ces instances. Le lecteur qui n’a pas participé aux débats des Cloeg et du CIP, voire à la rédaction de ce document de synthèse, est alors en difficulté pour apprécier les propositions faites.

Par exemple, l’idée de la fusion CNER-CNE se fait sans que l’on sache si la nouvelle instance doit se charger de l’évaluation globale (y compris hors recherche) des universités. L’idée de la création d’une nouvelle agence d’évaluation (avec diverses variantes) est avancée à plusieurs reprises. Mais on ne sait pas si elle doit s’occuper à la fois de l’évaluation des personnels et des équipes, quel est son rôle exact (décisionnaire ou se simple avis) en matière de recrutement ou de promotion.

Il arrive parfois que diverses options d’organisation soient présentées, avec des options qui portent surtout sur le périmètre de l’activité (notamment sur la jonction EPST/universités) et sur le niveau d’intégration de l’évaluation des diverses activités, mais pas sur les missions de ces instances. Ce flou ne permet pas de choisir entre les options annoncées en toute connaissance de cause.

Les engagement européens :

Le thème de l’Europe n’est pas totalement absent du document. Il est cependant très brièvement traité : l’essentiel est contenu dans 12 lignes très générales (page 20). L’impact de la construction des espaces européens de la recherche et de l’enseignement supérieur en terme d’évaluation n’est pas abordé. La création d’un éventuel Conseil Européen de la Recherche n’est pourtant certainement pas neutre. En ce qui concerne l’enseignement supérieur, les auteurs du texte semblent ne rien connaître des engagements pris à divers reprises (notamment à Berlin) par les ministres. Ainsi, ceux des engagements relatifs à l’évaluation, notamment en ce qui concerne l’assurance qualité et l’internationalisation de ces processus, ne sont ni cités, et encore moins analysés, alors que leurs conséquences sur les procédures d’évaluation françaises peuvent être très importants et directement contredire certaines des propositions du CIP. Cette tonalité franco-française se retrouve de façon presque systématique sur les autres points abordés par ce rapport d’étape.

Les principes :

Le CIP déclare que « pour être constructive », l’évaluation « doit répondre à un certain nombre de principes et doit être suivie d’effet ». Ces principes sont valables pour l’évaluation des individus, des laboratoires et des organismes et sont détaillés page 15:

Les instances d’évaluation et de décision doivent être indépendantes l’une de l’autre
L’évaluation doit être effectuée par les pairs, elle doit être collégiale, contradictoire et transparente.
Elle doit être légitime pour la communauté des évalués.
Elle doit être systématique et elle vise à assurer la meilleure qualité des recherches eu égard aux missions confiées aux acteurs (élaboration des connaissance, diffusion du savoir, valorisation, administration).

Il paraît surprenant d’affirmer que l’évaluation des organismes et des universités ne puisse être effectuée que par les pairs. On peut d’ailleurs se poser la même question pour l’évaluation des individus, dès lors que l’on tient compte (ce qui est positif) de la diffusion du savoir, de la valorisation et de l’administration (cette liste n’est d’ailleurs pas exhaustive : il y manque des missions confiées aux chercheurs et enseignants-chercheurs), c’est-à-dire dès que l’on s’éloigne de la production d’articles académiques.

Le premier principe est de grande portée. Mais le CIP semble hésiter dans son application dès que l’on parle de l’évaluation des personnes. Ainsi, il serait logique, en vertu de ce principe, de considérer que les instances d’évaluation des chercheurs, ou des candidats à un recrutement, ne soient pas chargées de la décision de la promotion ou du recrutement. Elles n’auraient qu’à donner un avis. Mais ce point n’est pas explicité dans le texte. Les propositions relatives aux recrutements et aux promotions, pour détaillées qu’elles soient (voir pp. 80 à 83) ne permettent pas de comprendre comment joue cette indépendance revendiquée. On y parle certes d’une « instance d’évaluation des recrutement » (p. 80), de pondération entre locaux et nationaux (rien n’est dit sur l’international ici), de « jurys de recrutement », mais sans reparler de ce principe. Le « document de travail du 23 septembre » aborde directement ce problème (point 13) mais c’est pour indiquer que s’il a été « suggéré de distinguer les jurys chargés du recrutement, qui pourraient n’intervenir que pour un concours spécifique donné, des commissions qui se chargeraient du suivi et des autres tâches d’évaluation », ce point reste cependant « encore en débat » Le seul autre endroit ou ce problème est évoqué est la partie III.4.4.a.v : on y lit que « l’avis d’évaluation est transmis à l’opérateur (organisme ou université) commanditant l’évaluation, qui l’utilise pour prendre les décisions exécutives qui sont de sa responsabilité » Une telle phrase aurait mérité quelques développements, d’autant plus qu’elle est contradictoire avec bien d’autres passages du rapport.

Diversité des missions des opérateurs :

Le CIP n’aborde que marginalement la question de l’évaluation des activités hors recherche, comme les activités de formation et d’autres (observatoires, expertise, conseil à des branches industrielles …). Les principes énoncés ci-dessus ne parlent de ces activités que dans leur appui à la recherche et à sa qualité. Mais, pour ne prendre qu’un exemple, la formation supérieure donnée dans une université n’est pas une activité qui « vise à assurer la meilleure qualité de la recherche » (principe 4). Faute de réflexion sur le lien recherche/formation (la définition donnée page 12 : « En premier lieu, la recherche fournit à l’enseignement supérieur le cadre dans lequel les enseignants peuvent acquérir et conserver leur compétence. L’enseignement de la science, via l’ensemble du système éducatif, contribue non seulement à la formation des enseignants eux-mêmes, mais aussi, à travers eux, à celle de l’ensemble de la société » est d’une pauvreté éclairante), le CIP hésite sur la ligne à conduire pour mener l’évaluation conjointe de ces deux activités. Pour les institutions, la solution proposée semble radicale. La fusion CNE-CNER qui est proposée page 36 est faite principalement dans l’objectif de produire « une analyse critique de l’insertion du volet recherche dans l’ensemble des missions de l’opérateur concerné (enseignement, communication, contribution à l’essor économique et technique du pays) ». On croit compredre que cette nouvelle instance ne serait plus chargée d’évaluer une université dans son ensemble, mais seulement à travers ses activités et sa stratégie de recherche. Le mécanisme de nomination (rôle central du HCS), le nom choisi (Comité National d’Evaluation de la Recherche), ces indices confirment cette vision. Ainsi, l’évaluation des universités et écoles sur l’ensemble de leurs activités ne serait menée qu’à travers leurs liens avec la recherche.

Le CIP a cependant compris qu’il y avait une difficulté à adopter un point de vue aussi radical pour les enseignant-chercheurs. Il se propose donc de créer une instance chargée d’évaluer l’ensemble des activités. Il hésite cependant entre deux pistes (voir point 10 du document de travail du 23 septembre) ; confier cette évaluation à une commission nationale ou séparer l’évaluation de la recherche (faite nationalement) de l’évaluation de l’ensemble (confiée à l’établissement d’enseignement : on imagine qu’il s’agit ici des universités et écoles – dont la mission de recherche n’est plus évoquée ici …). Rien n’est développé sur le passage de l’évaluation à la décision, et notamment sur l’indépendance relative de l’un et de l’autre.

L’évaluation des unités, des équipes et des structures fédératives fait l’objet d’une proposition ouverte (voir pp. 35 et 36): trois possibilités sont avancées (utiliser les structures existantes des EPST, créer une Instance Nationale de l’Evaluation Scientifique -INES, créer une instance nationale d’évaluation des universités). Mais le texte n’est pas clair sur le rôle de ces nouvelles instances. On lit par exemple page 35 que l’INES aurait à évaluer les chercheurs et enseignants-chercheurs, alors que cette mission disparaît dans le B2 de l’annexe II-c bis, pour revenir dans la suite de cette même annexe (c’est alors la fonction d’évaluation des équipes qui disparaît). Le texte s’interroge d’ailleurs à plusieurs reprises pour savoir si les commissions d’évaluation des EPST doivent continuer à évaluer équipes et chercheurs. Faute d’avoir tranché sur ce point délicat, il est extrêmement difficile de se faire une idée de ce qui serait attendu, en terme de mission, de l’INES ou de l’instance collective des universités.

A propos de la fusion CNER-CNE :

Le CNE est chargé de l’évaluation externe des universités et d’un certain nombre d’autres établissements (essentiellement les EPSCP). En 20 ans d’activité, il a évalué la quasi-totalité de ces établissements (tous sauf 10, qui sont de création récente, ou qui ont peu d’étudiants), et la plupart ont été évalués 2 fois, voire 3 fois. Il publie actuellement autour de 12 rapports par an. Il serait certainement utile de ramener le délai entre deux évaluations vers une période de 5 à 7 ans, ce qui passe par un renforcement des capacités de travail.

Le CNER est chargé de l’évaluation externe des organismes. En 12 ans d’activité, il a publié sept rapports d’évaluation concernant directement les organismes (l’IFREMER, le CSTB, l’INSU, l’IRD, le CIRAD, le département SPI du CNRS, le contrat quadriennal de l’INRIA). Si ce bilan n’est pas négligeable, on voit qu’aucun des organismes n’a encore été évalué deux fois et que les plus gros (CNRS, INRA, INSERM et INRIA), n’ont pas encore été évalués dans leur ensemble. Curieusement, le CIP, pourtant si prompt à relever les défauts (réels ou supposés) des universités, ne mentionne pas ce fait : aucun organisme d’importance n’a jamais connu une évaluation globale de ses activités. Cette carence, qui mériterait analyse, prouve que l’évaluation d’un grand organisme n’est certainement pas une chose facile. En tout cas, nous n’en avons en France aucune expérience. Les situations des pays étrangers auraient pu apporter des éclairages utiles, mais le rapport d’étape n’en parle pas. La suggestion de fusion du CNE et du CNER ne saurait apporter, en elle-même, la solution à ce problème. Les seules suggestions du CIP « s’assurer que ses avis sont institutionnellement transmis au Ministère, au HCS, à l'(ou les) agence(s) d’évaluation, aux instances parlementaires tels l’Office Parlementaire d’Evaluation des Choix stratégiques et technologiques, et à la société civile » sont à la fois naïves (le CNE et le CNER transmettent déjà leurs avis à ces nombreux interlocuteurs, et à bien d’autres) et pas à la hauteur des ambitions affichées.

On a déjà signalé que les missions de l’organisme fusionné semblaient très réduites sur ce que font actuellement CNE et CNER (notamment sur la question des formations, des politiques de site …). La question du rapprochement, voir de la fusion, de ces deux instances reste donc à traiter : le document ne fait que l’effleurer et les arguments apportés ne sont pas convaincants.

REVUE FRANCAISE D’ADMINISTRATION PUBLIQUE
Numéro 112 : administration et politiques de la recherche
Coordonné par Jean-Richard Cytermann

A PARAÃŽTRE

Les évaluations de la recherche : tensions et unification.
Alain Billon (1)

Inspecteur général de l’administration de l’éducation nationale et de la recherche.

L’évaluation de la recherche, tout comme l’évaluation des politiques publiques, n’est peut-être pas aussi implantée dans les esprits, les pratiques et les institutions de notre pays qu’on pourrait le souhaiter. Elle est à la fois hétérogène ( ses pratiques ne sont pas stabilisées), relative à des objets d’observation différents (les personnes, les programmes, les institutions ou les politiques publiques), ses objectifs sont pluriels ( l’excellence et l’efficience s’y côtoient), ses moments sont divers ( de l’évaluation préalable à un appel d’offres à l’évaluation d’un organisme entre deux contrats quadriennaux). L’existence même d’approches différentes, au demeurant toutes légitimes, ne contribue pas à diffuser une image claire de l’évaluation, à la rendre acceptable par tous les acteurs de la recherche, ni à dégager un consensus sur son utilité ou sur les méthodes utilisées.
La loi et les règlements font pourtant de l’évaluation une obligation dans un certain nombre de situations ou pour des catégories de personnes ou d’institutions.
Les spécialistes de l’évaluation de la recherche, tels P.Laredo, professeur à l’ ENPC et S. Bauin, directeur de l’unité d’indicateurs de politique scientifique du CNRS, ont produit de nombreuses analyses et développé des outils de mesure qu’il ne nous appartient pas de commenter ici. L’objet du présent article est de rendre compte des différences et des convergences dans la pratique de l’évaluation dans les pays économiquement développés, en particulier en s’appuyant sur les échanges organisés dans le cadre des réunions d’un sous-groupe de travail du G-8 consacré à l’évaluation de la recherche, auquel le CNRS et l’IGAENR ont participé ensemble depuis trois ans.

Une perception variable de l’évaluation en France.

Au sein même de la Commission européenne, où la volonté de généraliser l’évaluation des différents programmes ne fait aucun doute, on observe que le suivi des recommandations issues des évaluations n’est pas généralisé (2). En France, l’évaluation des politiques publiques, institutionnalisée par les décrets de 1990, créant le CIME (Comité interministériel de l’évaluation) et de 1998, lui substituant le CNE (Conseil national de l’évaluation) dont le secrétariat est assuré par le Commissariat général du plan, est conçue comme un instrument de modernisation de l’administration. Le CNE a vocation à favoriser le développement de l’évaluation dans l’administration à un moment où les gouvernements « doivent faire plus avec moins, pour un public plus sceptique et moins déférent » (3). Ses rapports d’évaluation n’ont cependant jamais porté sur des questions relatives à la recherche.

Notre pays n’est pas dépourvu d’instances ayant des responsabilités particulières dans le domaine de l’évaluation de la recherche. Le comité national d’évaluation (autre CNE), le comité national d’évaluation de la recherche (CNER), le comité national de la recherche scientifique (CoNRS), l’inspection générale de l’administration de l’éducation nationale et de la recherche (IGAENR), le conseil national des universités (CNU), la mission scientifique, technique et pédagogique du ministère de l’éducation nationale, de l’enseignement supérieur et de la recherche (MSTP) ainsi que sa direction de l’enseignement supérieur, les comités et conseils scientifiques des EPST et des EPIC ainsi que leurs comités de visiteurs, l’observatoire des sciences et des technologies (OST), la cour des comptes, l’office parlementaire d’évaluation des choix scientifiques et technologiques, le haut conseil pour l’évaluation de l’école ( HCéé), entre autres, interviennent dans l’évaluation des personnes, des projets ou des organisations, chacun ayant un champ d’action en général délimité par rapport à ces trois niveaux d’observation. Une organisation donnée peut cependant être évaluée par plusieurs instances successivement, faute de coordination entre celles-ci , ou en raison de la présence de personnels relevant de plusieurs organisations, dans une UMR par exemple. La multiplication d’évaluations non coordonnées, que le CNE et l’IGAENR s’efforcent d’éviter, en ce qui les concerne, dans les universités, contribue à une perception négative de l’évaluation, vécue principalement comme une charge supplémentaire par les équipes de recherche (4).
Si l’évaluation par les pairs est généralement bien acceptée par la communauté des chercheurs, un certain nombre de critiques lui sont cependant associées (5). Certaines, comme l’effet de réseau ou les questions d’objectivité, sont probablement inévitables compte tenu de la taille des communautés d’experts mobilisables sur des sujets de pointe. D’autres sont susceptibles d’évolution, comme le défaut de formation ou d’évaluation des évaluateurs eux-mêmes. L’absence de prise en compte systématique des différentes missions associées à la recherche proprement dite, telles la valorisation, la gestion des unités ou la participation à des activités d’enseignement, peuvent être relevées également.

La bibliométrie complète l’évaluation par les pairs en développant une approche objectivée de l’évaluation : les indicateurs quantitatifs de politique scientifique permettent de faire des comparaisons pertinentes dans le temps et dans l’espace et de considérer autant les intrants (investissements, ressources financières et humaines) que les extrants (production scientifique mesurée principalement par le nombre d’articles, celui des brevets, le nombre de thèses ou la création d’entreprises) ou les indicateurs d’impact (du nombre de citations d’articles aux effets socio-économiques de la recherche). Le rôle de l’observatoire des sciences et des techniques (OST) est considérable s’agissant de la production coopérative d’indicateurs institutionnels de politique scientifique, dispositif créé en 2000 à la demande du ministère de la recherche (6). Il rassemble les EPIC, les EPST et les universités qui souhaitent collaborer à cette production d’indicateurs. Si une production de qualité est obtenue grâce à la base de données du Science Citation Index, les indicateurs d’impact ne sont pas exempts de critiques, y compris de la part de l’OST. Les observations faites sont souvent relatives au fait que les bases ne seraient pas identiquement utilisables par toutes les disciplines, que les chercheurs pourraient manipuler eux-mêmes le système au travers des citations croisées et des publications démembrées, que certains auteurs ou certaines revues abuseraient de l’auto-citation ou encore que la prédominance de la langue anglaise introduirait un biais dans la représentativité de la recherche française. Parmi d’autres, un article de la revue médecine/sciences (7) aborde cette question de façon précise. Les auteurs y soulignent l’importance du contexte disciplinaire dans l’interprétation des indicateurs : les facteurs d’impact varient dans des proportions de un à onze selon la discipline, et la mesure des citations sur les deux années qui précèdent n’est pas satisfaisante car la concentration du nombre maximum de citations varie, dans le temps, d’une discipline à l’autre, ce qui rend discutable la mesure sur les deux mêmes années quelle que soit la discipline. Ces critiques ne concernent cependant pas les analyses faites dans le temps sur une même question scientifique ou à propos des performances d’une institution à deux moments donnés. Cet article souligne également les risques de manipulation du facteur d’impact par la demande qu’un journal peut adresser à ses auteurs et lecteurs de citer ce journal. On en trouve un exemple dans un numéro récent d’une revue consacrée à l’évaluation (8). L’apparition du libre accès dans les publications scientifiques seraient cependant de nature à modifier les pratiques de citations d’articles.

Une forme particulière d’évaluation, l’évaluation des projets a priori, notamment dans le cadre communautaire, appelé à prendre une importance croissante, est également l’objet de critiques, de nature différente d’ailleurs. Considérons les éléments dont l’ensemble sert de base à l’évaluation des propositions de réseaux d’excellence dans le cadre du 6ème PCRDT de la commission européenne (9). Certains des critères énoncés ne sont pas contestés, tel le fait de savoir si le projet répond aux objectifs du programme de travail ou si les participants « possèdent collectivement la masse critique nécessaire en termes de compétences et de ressources pour réaliser le programme commun d’activités avec succès ». D’autres critères tel le fait que la structure d’organisation du réseau « fournit un cadre sûr pour toute décision structurelle nécessaire » ou que « la grande qualité de la gestion du réseau est manifeste » sont parfois jugés plus difficiles à cerner, d’autant que les décisions évoquées concernent le futur et que le réseau ne fait que se constituer. D’autre encore posent plus de problème, comme le fait de pouvoir constater que « les participants mènent actuellement une recherche d’excellente qualité concernant le sujet du réseau, ou sont capables d’apporter des contributions importantes au programme commun d’activités ». Ces derniers peuvent être rapprochés de critères utilisés pour l’évaluation des propositions de projets intégrés, tel « l’approche scientifique et technique proposée est de nature à permettre au projet d’atteindre ses objectifs en matière de recherche et d’innovation ». Ces critères sont parfois critiqués pour le caractère incertain de la prédiction qu’ils tentent d’établir et qui paraît illégitime aux yeux d’un certain nombre de chercheurs. Ainsi Harry Kroto, britannique, prix Nobel de chimie, est-il représentatif de ces critiques en avançant (10), sans craindre de choquer, que « l’évaluation par les pairs des projets est sans intérêt » , notamment dans la recherche fondamentale, « car les avancées dans ce domaine sont complètement imprévisibles ».
Qu’elles soient toujours fondées ou non, ces attitudes à l’égard des différentes formes d’évaluation contribuent à former un climat de défiance par rapport aux pratiques de l’évaluation que l’on retrouve dans les questions que se posent différentes assemblées de chercheurs depuis le printemps 2004 et qui concernent aussi bien les questions d’objectivité, le choix des critères, la redondance des évaluations, le rôle de la bibliométrie, l’absence d’homogénéité dans l’organisation des évaluations d’une institution à l’autre, les variations dans la périodicité des évaluations, la formation des évaluateurs ou la nécessité d’un regard étranger dans les évaluations.

A l’étranger, une pratique multiple et assez consensuelle de l’évaluation.

L’évaluation de la recherche, effectuée dans des organismes spécifiques ou dans les universités, semble plus développée dans la plupart des pays industrialisés. Dans ceux-ci, l’attribution des crédits de recherche est fréquemment lié à l’évaluation des résultats, dans des systèmes de carrière qui ne garantissent pas l’emploi à vie et prennent parfois en compte de façon très directe l’ évaluation périodique des personnes. Cette avancée de l’évaluation ne va pas sans poser un certain nombre de questions.
En Allemagne, où l’on mettra de côté les difficultés liées à la réunification (34000 personnes des instituts d’Allemagne de l’Est ont été réévaluées par 500 experts provenant en quasi totalité de la partie Ouest du pays), l’évaluation est vivante, concerne les activités d’enseignement autant que celles de la recherche, et concerne les résultats scientifiques autant que les performances des organisations . La fondation allemande pour la recherche ( DFG) la pratique dans le cadre de ses responsabilités d’ agence de moyens (elle est dotée d’un budget de 1,2 milliards d’euros) à destination des universités et d’autres organismes de recherche. Elle est bien acceptée par les universités, qui étaient sceptiques il y a dix ans, mais le constat est parfois fait qu’elle ne suffit pas à améliorer pour autant la production scientifique. Le conseil national de la science, organisme de coordination des établissements de recherche et des universités qui assure les liens avec le gouvernement fédéral, a reçu mandat du gouvernement fédéral pour établir un classement desuniversités significatives du point de vue de la recherche, à partir d’auditions effectuées par des experts internationaux. Un groupe de travail ad hoc a prescrit de ne pas classer les universités à partir d’indicateurs mais de leur attribuer des scores après analyse d’indicateurs de résultats et évaluation par les pairs. Il est recommandé, dans le cadre de ce travail actuellement en cours, de s’intéresser davantage aux capacités de recherche par discipline plutôt qu’aux universités en tant qu’entités, et d’aligner les indicateurs utilisés sur les modèles internationaux. Cela explique la coopération entreprise avec la Grande-Bretagne dans le cadre de son Research Assessment Exercise. Un institut dédié au suivi de la recherche et à l’assurance qualité est par ailleurs en cours de création au niveau fédéral.
Le Research Assessment Exercise britannique est l’institutionnalisation, depuis 1986, à périodicité constante, quatre ans environ, de l’évaluation par les pairs d’un important échantillon de l’activité nationale de recherche, par la mise en place de 68 panels disciplinaires en 2003. Les équipes universitaires se soumettent volontairement à cet exercice pour obtenir reconnaissance et financements : plus de 2500 soumissions à chaque vague, une université pouvant ne soumettre à l’évaluation qu’une partie de ses départements. Des critiques se sont élevées contre cette pratique, son utilisation ayant parfois été dévoyée, soit par tentative de manipulation de la bibliométrie, soit en en faisant de fait un guide de l’étudiant. Par ailleurs, cela a contribué à faire apparaître un « marché » de transfert des universitaires, tout en diminuant leur statut symbolique. Certains suggèrent aujourd’hui de limiter l’importance des indicateurs de performance dans cette analyse et d’internationaliser davantage les panels. Il est projeté actuellement d’allonger l’intervalle entre deux évaluations et de le porter à six ans, peut-être avec une évaluation intermédiaire, de distinguer des profils d’équipes de qualité plutôt que de classer les équipes en huit catégories comme actuellement. Ce système d’allocation de ressources a contribué à concentrer considérablement celles-ci dans les institutions réputées les meilleures.
Dans une recherche de coordination interministérielle, la politique scientifique et technologique japonaise est coordonnée par les services du Premier ministre, qui comptent un conseil pour la politique scientifique et technologique (CSTP). L’évaluation est donc au centre du système gouvernemental japonais. Le renforcement d’une évaluation effective fait partie des axes de réforme de la politique de recherche scientifique et technique, définie pour la période 2001-2005. Une directive générale en matière d’évaluation de la recherche fait l’objet d’une décision du premier ministre. Celle-ci est ensuite déclinée à l’échelon ministériel, en l’adaptant aux missions concernées, de même qu’à celui de chaque organisation impliquée dans la recherche, avant de l’être au niveau des différents programmes des organisations. La première directive nationale a été lancée en 1997, date de naissance véritable de la prise de conscience de l’intérêt d’une politique de l’évaluation.. Elle encourageait le recours à l’évaluation externe et avait pour objectif principal d’améliorer l’efficience de l’allocation des ressources. Une révision de ce schéma a eu lieu en 2001 afin, notamment, de favoriser la transparence et l’impartialité, et de renforcer le lien entre les résultats de l’évaluation et l’allocation des ressources budgétaires. Le ministère en charge de l’enseignement supérieur et de la recherche a mis au point sa propre directive en 2002. Toute une série de points font l’objet d’une volonté d’améliorer cette pratique; on souhaite qu’elle contribue à l’adhésion de la société à la politique scientifique grâce à une communication active sur les résultats. Sont concernés, l’utilisation d’indicateurs objectifs, le recrutement et la formation des évaluateurs, l’appui continu à des projets d’excellence, le développement d’une base nationale de données de recherche et de développement. L’aspect qualitatif des évaluations semblent être préféré à l’aspect quantitatif, dont les limites sont soulignées. Les projets résultant d’appels d’offres sont évalués ex ante de façon rigoureuse (évaluation par les pairs et groupes d’experts). Ils font ensuite l’objet d’une évaluation intermédiaire au bout de trois ans et d’une évaluation ex post après cinq ans. Les organismes de recherche et les universités semblent craindre un glissement vers une recherche moins fondamentale, se plaignent de la charge récurrente des activités d’évaluation, et critiquent l’absence de prise en compte de la contribution de la recherche au développement social ou culturel de la société dans la définition des indicateurs. Le CSTP utilise les évaluations pour établir un classement entre les demandes budgétaires en fonction des priorités déterminées. Notons que l’auto-évaluation est obligatoire pour les universités, sous la responsabilité d’un institut dédié à cette mission.

Au Canada le pilotage par la performance est prédominant. Le Trésor a imposé en 2001 au National Research and Science Council un cadre de pilotage et d’analyse, fondé sur la performance, de groupes de programmes partageant des objectifs ou des structures opérationnelles (Results based Management and Accountability Frameworks ) qui semble être aujourd’hui la règle commune, les efforts portant sur les développements méthodologiques permettant d’affiner la mesure de la performance, si importante dans ce modèle de répartition des ressources. La communauté scientifique considère parfois que cette approche n’est pas pertinente parce qu’elle conduirait à des analyses réductrices. Des analyses croisées d’indicateurs s’avèrent cependant intéressantes de même que l’utilisation d’ indicateurs intégrés (lien entre l’obtention d’une bourse, la réussite à l’université et l’obtention d’un diplôme, par exemple). Il est frappant de constater que les responsables canadiens de l’évaluation, qui promeuvent ce pilotage par la performance, sont conduits, du fait de l’importance des conséquences de l’évaluation sur les ressources des laboratoires, à attacher une très grande importance au questionnement méthodologique à l’intérieur du processus d’évaluation. On retrouve ainsi, dans leurs préoccupations, les questions concernant la qualité des indicateurs, la pertinence des méthodes d’évaluation en fonction des situations (évaluation par les pairs et créativité de la recherche, par exemple), la pertinence des comparaisons, surtout internationales, la spécificité de l’évaluation de programmes interdisciplinaires, l’utilisation des résultats de l’évaluation dans l’établissement des priorités, l’articulation de l’évaluation, des activités des organisations et du processus de décision à l’intérieur de celles-ci, ainsi que la cohérence du choix des évaluateurs.
Une question intéressante émerge également de la pratique des Pays-Bas, pays de taille modeste qui a développé un système national d’évaluation de la recherche, depuis 1992, sous l’égide de l’association nationale des universités, en dehors de toute implication du ministère de tutelle. L’objectif principal est, après la réforme intervenue en 2002, d’améliorer la qualité de la recherche et d’améliorer la politique de recherche des institutions. Par vague de trois et six ans, il s’agit de procéder à des évaluations par les pairs à partir d’ auto-évaluations systématiques, utilisant des grilles d’indicateurs constantes, et d’évaluer les institutions et les équipes, mais non pas les chercheurs individuellement. Cet exercice a pu être perçu comme utilisé à des fins imprévues après l’utilisation faite par l’administration, qui a classé les équipes et donc, aux yeux du public, les universités elles-mêmes. De l’avis des représentants de l’association des universités néerlandaises, ce programme est un instrument utile de pilotage de la recherche dans les institutions mais ne peut être assimilé à une analyse globale des performances du système de recherche.

Le système d’évaluation de la recherche et de l’enseignement supérieur aux Etats-Unis est tout autant décentralisé que le système universitaire lui-même. Il est cependant animé au niveau fédéral par diverses instances de la présidence : Office of Science and Technology Policy, Office of Management and Budget, President’s Management Agenda de 2001, et l’important Committee on Science, Engineering and Public Policy (COSEPUP). Il repose sur des principes communs et des outils très largement diffusés, grâce à des travaux comparatifs entrepris, entre autres, par les agences et le conseil national de la recherche, qui publie par ailleurs un classement des programmes universitaires de deuxième cycle. Le champ de l’évaluation s’est élargi depuis quelques années et l’on retrouve l’utilisation de tout ou partie d’une boîte à outils connue : bibliométrie, évaluation par les pairs, études de cas, analyse du taux de retour sur investissement, analyse du système national et des systèmes régionaux d’innovation, analyse de la gestion des organisations et, en particulier, de la gestion des ressources humaines. L’ensemble est fortement marqué par le Government Performance and Results Act (GPRA) de 1993, dont notre loi organique portant organisation des lois de finances (LOLF) du 1er août 2001 est très proche dans les principes ( passage d’une logique de moyens à une logique de résultats) et dans les obligations qu’elle crée (projet et rapport annuels de performance). Les différentes agences américaines de recherche, telle la National Science Foundation (NSF), ont développé des plans stratégiques qui découlent directement de la mise en oeuvre du GPRA. Partout, le lien semble se renforcer entre la planification stratégique, l’élaboration des budgets et l’exécution des programmes. Les responsables d’évaluations ont cherché à développer un processus ouvert et participatif, respectueux des pratiques des chercheurs. Un travail important sur les indicateurs a été fait et la comparaison internationale est de règle, car elle est considérée comme l’un des moyens du maintien du leadership américain. Elle conduit à des pratiques intéressantes comme le congrès virtuel (chaque expert d’un panel disciplinaire désigne les meilleurs chercheurs mondiaux, selon lui : après agrégation des résultats, on produit un classement par pays). Certaines agences ont cependant l’impression que les accroissements de budgets sont parfois indépendants des résultats des évaluations de la performance.
Au delà de l’apparente diversité des pratiques nationales ou institutionnelles, qui sont considérables, des points communs apparaissent, qui ne suppriment pas pour autant le bien fondé des critiques adressées à l’égard de certaines pratiques mais qui permettront peut-être de les dépasser.
L’introduction d’une logique de résultats dans les procédures budgétaires de la plupart des pays développés aura un effet mécanique sur le développement de l’évaluation et ses méthodes, comme nous le montre l’expérience américaine, dix ans après le vote du GPRA. La pertinence des indicateurs retenus sera l’objet d’ une exigence forte. S’agissant de la France, le comité interministériel d’audit des programmes (CIAP), découlant de la mise en œuvre de la LOLF, qui associe les inspections générales des administrations, est un exemple d’instrument de réflexion utile en la matière.
Au travers de plusieurs des exemples ci-dessus, on constate que l’évaluation cesse d’être une pratique occasionnelle, héritière dans ce cas, peut-être, de la culture du contrôle, pour devenir une action continue d’aide au pilotage. Sa périodicité épouse les nécessités pratiques: qu’il s’agisse du temps de la politique contractuelle dans notre pays ou de l’exercice budgétaire, un consensus se dégagera nécessairement sur le bien fondé du choix des périodes s’il reflète le rythme d’activité des organisations.
Les méthodes s’unifient aussi. On le voit au travers de la critique de l’utilisation des indicateurs d’impact. Celle-ci concoure à mettre en valeur d’autres approches, au moins en tant que complément des autres. Ainsi du développement de » l’étude de cas », que l’on retrouve dans de nombreux pays, sous des noms divers (analyses de succès ou caractérisation des universités, par exemple, en font partie). Il s’agit là d’une pratique qui laisse toute la diversité des organisations s’exprimer en focalisant la réflexion sur les éventuels liens de cause à effet entre les résultats de la recherche, d’une part, et les différents facteurs de sa mise en œuvre, d’autre part ( financements, organisation interne, contraintes techniques, ressources humaines, processus de décision ) et, d’une façon générale, sur les effets des mécanismes à l’œuvre dans les organisations sur le développement de la recherche .
La pratique de l’auto-évaluation est également un point de convergence entre tous les systèmes d’évaluation. La France la met en œuvre, après certain de ses partenaires, mais dans la perspective, largement partagée en Europe, de participer à la diffusion de la culture de la qualité, outil de reconnaissance mutuelle en Europe dans le cadre de la mise en place du LMD. La réalisation, par le CNE et l’IGAENR, du « livre des références » de l’assurance de la qualité dans les établissements d’enseignement supérieur en France en est le témoignage et l’instrument.
L’internationalisation de la recherche, en premier lieu au sein de l’espace européen, contribue nécessairement à homogénéiser les pratiques ainsi que les instruments utilisés et à renforcer l’exigence des chercheurs vis à vis des évaluateurs, en termes de transparence, de professionnalisme et de pertinence.
Quant à certains effets possibles du développement de l’évaluation dans un contexte de pilotage par la performance (concentration des budgets sur des centres d’excellence peu nombreux, risque d’affaiblissement de l’esprit d’innovation face à une approche budgétaire), ils sont du ressort de la décision politique, et ne sont pas induits mécaniquement par la pratique généralisée de l’évaluation, instrument essentiel de la modernisation de l’administration et de la transparence que celle-ci doit aux citoyens (11).

1. Les propos tenus dans cet article n’engagent que leur auteur et non l’institution à laquelle il appartient.

2. Williams (K.), de Laat (B.) et Stern (E.), The use of Evaluation in the Commission Services – Final report – Technopolis France – The Tavistock Institute – Octobre 2002.

3. Perret (B.) – L’évaluation des politiques publiques – La découverte – 2001.

4. Comité national d’évaluation – Repères pour l’évaluation. Rapport au président de la République. La documentation française 2002.

5. Comité national d’évaluation de la recherche – Evaluation de la recherche publique dans les établissements publics français – La documentation française – 2003.

6. OST – Les indicateurs d’impacts de la recherche – 2002.

7. Baudoin (L), Haeffner-Cavaillon (N), Pinhas (N), Mouchet (S), Kordon (C)- Indicateurs bibliométriques, réalités, mythes et prospective – médecine/sciences – octobre 2004.

8. Research Evaluation – Volume 13 – Numéro 1 – Avril 2004.

9. Commission européenne. Programme spécifique « Intégrer et renforcer les bases de l’Espace européen de la recherche » dans le 6ème Programme cadre. Programme de travail 2003.

10. Kroto (H.) – Comment vivifier la science ? La Recherche. Septembre 2004.

11. On trouvera en annexe au présent article plusieurs références de communications présentées par des participants au groupe de travail du G-8.

Annexe bibliographique

Communications présentées au sein du groupe de travail du G-8 en 2002, 2003 et 2004 (hormis les points d’actualité présentés par les différents participants)

– Aaviksoo (J.), Science Policy in Europe 2004.
– Aizeman (M.L.), National Science Foundation Research Assessment.
– Bauin (S.), et Schwartz (J.M.), Adjusting Common Evaluation standards to Research.
– Bergner (C.), Flach (U.) et (Husung (H.-G.), University Evaluation Approaches in a Federal Political System.
– Bissell (R.), International Benchmarking of Research.
– Boissezon (B. de), The New Research Policy Context in Europe : Evaluation of European Union Policy and Programs.
– Bourgeois (I.), Development of an Integrated Indicator for the Evaluation of Postgraduate Scholarship Programs.
– Bourgeois (I.), Development of Strategic RMAFs at NSERC.
– Bozeman (B.), National Laboratories.
– Cozzens (S.), The Use of Performance Assessment in Priority Settings.
– Doremus (P.), National Institute of Standards and Technology Research Assessment.
– Dubois-Violette (E.), CNRS Scientific Evaluation Process.
– Feller (I.), The Assessment of Interdiciplinary Programs.
– Feller (I.), Trends in US Research Assessment Activities.
– Gaul (J.P.), Strategic Planning at the DFG.
– Georghiou (L.), The UK RAE Standing at the Crossroads.
– Ghys (G.), The Political and Budgetary Context of Research Assessment in France.
– Giacobino (E.), Trends in France National Research Policy.
– Goldston (D.), Congressional Perspectives in Research Assessment.
– Güdler (J.), Internationality in Research – Some Results from the German DFG-Ranking.
– Jablon (C.), The Rise and Fall of Evaluation in Industry.
– Kuh (C.), Assessment of US Research Doctoral Programs.
– Peacock (M.), Bush Administration Initiatives in Research Assessment.
– Prunelé (D. de), Assessment Approach in R§D for CEA.
– Reeve (N.), Current Research Evaluation Activities and Perspectives in Europe.
– Russ (J.), State Government.
– Schriesheim (A.), National Academies of Science – COSEPUP Reports on Benchmarking and Assessment of Federal Agency Responses to the GPRA.
– Skirboll (L.), National Institutes of Health Research Assessment.
– Steijn (F. van), Evaluation of University Research in the Netherlands.
– Stephan (P.), Assessment of Science and Engineering Workforce Programs.
– Tao (J.), Industry Approaches to Research Assessment.
– Teich (A.), Trends in US Science and Technology Policy.
– Thirunamachandran (R.), Recent Developments in the British RAE.
– Thoenig (J.C.), Evaluation of National Public Policies : Learning from Experience.
– Townsend (S.), Recent Evaluation Initiatives of the National Research Council, Canada.
– Townsend (S.), Research Assessment : International Activities.
– Valdez (W.), Departmenrt of Energy Research Assessment.
– Zimmermann (B.), Current Evaluation Activities in Germany.

Print Friendly

Répondre