Les imperfections du sondage sur la constitution haïtienne de BRIDES

Évaluation technique du sondage de novembre 2020, « volume 1 », par le statisticien-économiste Pierre Philippe Wilson REGISTE

Dans toute bonne démocratie et dans tout pays qui veut avancer vers le progrès, les prises de décision au niveau de la gouvernance doivent être basées sur les évidences et les données. Cette posture scientifique fait défaut en Haïti. Le dernier recensement national date d’environ 18 ans, les données administratives sont généralement mal gérées et stockées et les enquêtes nationales demeurent irrégulières.

Dans cette situation, toute initiative visant à fournir à la société civile et aux gouvernants des données fiables est à encourager, car, sans aucun doute, les décisions introduites par les gouvernants actuellement et les diverses contre-offres à ces décisions ne sont pas réellement basées sur des informations objectives, car ces dernières n’existent tout bonnement pas ou ne sont pas exploitées correctement.

Le « sondage d’opinion publique sur la constitution haïtienne » mis en œuvre par le Bureau de Recherche en Informatique et en Développement économique et social (BRIDES) présente de rares données sur ce sujet de controverse national. En ce sens, il faut encourager plus d’initiatives de ce genre.

Néanmoins, cette dernière œuvre du BRIDES regorge d’imperfections techniques qu’il convient de souligner aux lecteurs de ce document et à tout utilisateur de ces données pour faciliter leur interprétation et éviter des extrapolations non conformes aux données et à la méthodologie.

La pondération

La méthode décrite pour sélectionner les participants à ce sondage est globalement correcte, car elle repose sur des méthodes aléatoires devant permettre à l’échantillon de représenter convenablement la population qu’il est censé représenter. Cette méthode consiste en la sélection des Sections d’Énumération (SDE), qui est une division géographique réalisée par l’IHSI pour mener des enquêtes nationales, sur une base aléatoire (probabilité proportionnelle à la taille). La sélection des ménages à l’intérieur des SDE se fait sur une base aléatoire avec un listing approprié et la sélection du participant à l’intérieur du ménage s’organise à l’aide de la table de Kish qui est aussi une méthode aléatoire.

Cependant, cette méthode de sélection à trois niveaux fait intervenir des probabilités de tirage différent qui doivent être prises en compte lors de l’analyse des données. Les SDE n’ont pas la même probabilité d’être sélectionnés, car leur taille (nombre de ménages) est différente. Les ménages de 2 SDE différents n’ont pas la même probabilité d’être sélectionnés, car le nombre de ménages diffère par SDE. De même, les membres de deux ménages différents n’ont pas la même probabilité d’être sélectionnés, car ce nombre diffère par ménage.

De ce fait, la méthode de pondération devrait prendre en compte toutes ces probabilités afin de permettre à l’analyse des données d’être cohérente avec la méthodologie mise en œuvre. La méthode de pondération ou de redressement est une mesure qui est utilisée dans le cadre d’un échantillonnage pour prendre en compte le fait que le nombre de personnes sélectionnées à chaque niveau ne tenait pas compte du poids effectif de ce niveau (par exemple, le même nombre de ménages a été choisi au niveau de chaque SDE sans tenir compte du nombre de ménages vivant dans chaque SDE).

C’est une correction très importante et sans une bonne pondération, les résultats doivent être pris avec des pincettes. Une méthode de calcul adéquat pour un tirage à deux niveaux est disponible au niveau du rapport complet de l’EMMUS-VI comme référence (annexe A, page 420 et 421). Le BRIDES a utilisé une pondération inadéquate, car il a utilisé celle correspondant à un tirage aléatoire simple au niveau de tous les ménages du pays. Cette mauvaise pondération a un impact sur les données présentées comme résultat du sondage. Avec la bonne pondération, les résultats seraient différents.

Les non-dits

Il est vrai que le document comme outil de communication ne saurait être exhaustif. Cependant, il y a des éléments sur le plan technique qui sont très importants à la compréhension de tout initié qu’il convient de ne pas oublier dans une méthodologie.

Comment ont été gérés les refus au niveau du sondage ? A-t-on remplacé les participants sélectionnés au niveau du même ménage par un autre participant éligible ? A-t-on remplacé tout bonnement le ménage sélectionné par un autre ?

Quelle est la définition de personnes éligibles au niveau du ménage ? Tient-on compte uniquement des personnes disponibles pendant la visite de l’enquêteur ou de tous les membres du ménage ayant plus de 18 ans ? Comment ont été gérés les cas de personnes indisponibles pendant les heures de visites de l’enquêteur ? Y a-t-il eu plusieurs visites avant de remplacer un participant sélectionné qui n’est pas disponible ?

Lire egalement: Critiques sur le dernier sondage du BRIDES

Tous ces éléments influent sur la validité des données et la manière de les traiter. Ils peuvent induire un certain biais dans les données collectées.

Même si ces éléments n’ont pas été énumérés, l’analyse de la disparité entre les données sur le sexe des personnes interviewées (64,9 % d’hommes et 35,1 % de femmes) et le sexe de la population (48 % d’hommes et 52 % de femmes) laisse entendre que la méthode utilisée est incorrecte. En effet, le document précise que les hommes sont plus enclins à parler de politique que les femmes. Loin de nous l’idée de contester une telle hypothèse, mais cela présuppose que beaucoup de femmes ont refusé de prendre part au sondage et que les résultats présentés dans ce document ne sont pas représentatifs de la population haïtienne dans sa composition actuelle.

Les standards

À moins de traiter d’un sujet particulier nécessitant des catégorisations particulières, les statisticiens s’efforcent généralement de garder certains standards au niveau de l’analyse des données pour faciliter les comparaisons avec des données antérieures ou futures.

L’analyse des groupes d’âge présentés dans ce document s’éloigne de ce standard, car les groupes d’âge proposés sont : 18-27 ans, 28-37 ans, 38-47 ans et Plus de 47 ans. Or les données nationales de l’IHSI, de l’EMMUS et des autres enquêtes nationales priorisent des groupes d’âge de 5 ans (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 59-64 et 65 et plus).

De ce fait, il devient impossible de comparer les catégories d’âge du sondage avec les autres données disponibles au niveau national.

Les incohérences par rapport à la population

Le but de tout sondage est d’utiliser les techniques statistiques pour enquêter sur un échantillon provenant d’une population qui soit représentatif de cette dernière avec une certaine probabilité connue. De ce fait, la première analyse d’un sondage est une analyse de sensibilité pour mesurer en quoi leur échantillon s’apparente à la population étudiée. Cette analyse de sensibilité permet rapidement de savoir si les données doivent être extrapolées à toute la population ou à une partie de celle-ci.

Cette analyse de sensibilité fait défaut dans le sondage d’opinion du BRIDES en dépit de différences flagrantes entre les résultats rapportés et les données existantes antérieurement. Voici certains exemples forts :

La répartition par sexe au niveau du sondage (64,9 % d’hommes et 35,1 % de femmes) diffère de celle au niveau de la population (48 % d’hommes et 52 % de femmes). Si les tests statistiques montrent que cet échantillon est plus porté vers les hommes que vers les femmes, c’est un élément crucial à prendre en compte dans l’interprétation des résultats.
Les proportions de personnes ayant réalisé les cartes électorales (80 %) et ayant déjà une carte électorale en main (56,6 %) sont différentes des données de l’ONI qui réalise et distribue ces cartes (1,8 million de CIN renouvelées et 1,6 million délivrées sur 6 millions attendus, soit 30 % renouvelées et 27 % délivrées en octobre 2020).
La proportion de personnes ayant voté aux dernières élections présidentielles (56,3 % en 2010 et 54,8 % en 2016) est différente des données produites par le Conseil Électoral Provisoire qui a organisé ces élections (22,8 % en 2010 et 21 % en 2016).

Ces trois exemples montrent à quel niveau les biais d’échantillonnages ou de pondération peuvent avoir des effets sur les résultats. Une analyse de sensibilité aurait par exemple permis de savoir que ces résultats concernent beaucoup plus les hommes et/ou ceux qui disposent d’une CIN et/ou les votants de la dernière élection.

Des précautions à prendre

Le but d’un sondage d’opinion est de trouver des estimations sur les opinions d’une population en questionnant un sous-ensemble de cette dernière appelé échantillon. Dès lors, le choix de cet échantillon doit être fait de manière minutieuse pour permettre à cet échantillon d’avoir des caractéristiques communes à la population qu’elle est censée représenter, donc d’être représentatif de cette population.

Les initiatives de mise en œuvre de sondage d’opinion publique sont très peu nombreuses en Haïti et sont à encourager pour offrir des données fiables sur des sujets de controverse et pour permettre aux gouvernants et à la société civile de mieux servir la population.

Néanmoins, il serait préférable de mieux bâtir la méthodologie sous-jacente avec plus de rigueur pour avoir un échantillon représentatif de la population ou mieux contextualiser les résultats. Parce que le travail de BRIDES sur la constitution haïtienne regorge de tant d’imperfections, il faut malheureusement utiliser les résultats avec beaucoup de précautions.

Pierre Philippe Wilson REGISTE
Statisticien-Economiste, MPH
Membre fondateur et associé à Pentagone Consulting Group (PCG)