L’objectif de ce cours d'échantillonnage est de vous simplifier les différents processus de sélection des échantillons et Comment construire un échantillon pour mener une enquête.
La définition proposée par le Larousse du terme échantillon est « ensemble représentatif d’une « population-mère » possédant les mêmes caractéristiques ». Nous pouvons pour cela penser aux échantillons géologiques, aux coupons de tissus, aux échantillons biologiques mais aussi aux échantillons d’individus. Cependant, cette définition peut être comprise de manières bien différentes, car que signifie finalement « posséder les mêmes caractéristiques » ? Ce qui est important c’est d’obtenir un sous-ensemble permettant de prévoir les informations inconnues de la population-source.
Un échantillon correspond au résultat obtenu suite à la pratique d’un échantillonnage, étant la procédure de sélection faite à partir de la population-source. Cette procédure peut être soit aléatoire c’est-à-dire que chaque unité statistique de la population est incluse dans l’échantillon suite à un tirage au sort que l’on peut imaginer comme étant le résultat d’un lancer de dé, ou non aléatoire, appelé aussi empirique c’est-à-dire que l’échantillon se construit par inclusion choisie par l’enquêté ou l’enquêteur. Il n’y a alors pas de hasard.
Lors d’un échantillonnage aléatoire, toute personne de la population source a de la chance d’être au sein de l’échantillon. En revanche dans le cas d’un échantillonnage non aléatoire, certaines personnes n’ont pas chanceux d’être sélectionnées.
Parmi les sélections non aléatoires, nous pouvons tout d’abord parler de la sélection par volontariat, cela signifie que les unités se sélectionnent elles-mêmes.
certain étude correspond tout à fait à une situation d’inclusion par volontariat. En effet, une communication est réalisée pour indiquer qu’une grande étude sur la santé des étudiants est lancée, et ce sont les étudiants qui doivent eux–mêmes prendre contact pour y
participer.
Ce type de sélection est éthique, puisqu’elle laisse la possibilité aux personnes le souhaitant de participer ou non. Cependant, le problème est qu’il est difficile de mesurer la différence pouvant exister entre les personnes volontaires et l’ensemble de la population source initiale :
est-ce que les personnes volontaires pour participer à une enquête auront le même type de réponse que le reste de la population ? Il est impossible de répondre à cette question de manière générale, car la réponse dépendra certainement du sujet de l’enquête et aussi de la
manière de solliciter les personnes pour y participer.
Une autre méthode non aléatoire est la méthode des quotas, qui consiste à construire un échantillon comme un modèle réduit de la population selon certaines caractéristiques. Elle est très utilisée car elle est plus rapide et moins coûteuse que les méthodes aléatoires présentées dans la suite. Malheureusement, elle est souvent moins fiable. Mais de quoi s’agit-il exactement ? Supposons que notre population soit composée de trois profils, il y a 30% des personnes avec des loupes bleues, 20% avec des loupes vertes et 50% avec des loupes jaunes.
Le constructeur de l’échantillon choisit de manière arbitraire 10 personnes en conservant la même répartition. Il prend donc 3 personnes ayant une loupe bleue, car cela correspond à 30% de 10, puis 2 personnes ayant une loupe verte et enfin 5 personnes ayant une loupe jaune.
Le choix peut donc être laissé au bon vouloir de l’enquêteur dès lors qu’il respecte dans son échantillon la répartition connue de la population.
Nous allons maintenant nous attarder sur les procédures de sélection aléatoire qui sont, si possible, à privilégier dans les enquêtes pour ne pas induire des biais de sélection et laisser le hasard faire les choses.
Nous débuterons par la méthode de sélection aléatoire simple. Considérons une enquête ayant pour objectif de décrire l’état de santé bucco-dentaire chez les élèves en primaire . S’il est possible d’obtenir la liste des 30 000 élèves inscrits, c’est-à-dire la liste de la population source appelée base de sondage, nous pouvons alors imaginer sélectionner 1 000 noms d’élèves dans cette liste par sélection
aléatoire simple.
Il s’agit de sélectionner un échantillon directement au sein de la population source et de donner une chance identique d’être sélectionnée à toutes les unités statistiques.
Considérons une population dont l’effectif est noté N. On parle aussi de taille de la population. Ici, N est égal à 50. Si la taille n souhaitée pour l’échantillon est 6, il faudra réaliser n tirages successifs, donc ici 6, d’une unité dans la population source pour obtenir l’échantillon. Nous pouvons prendre comme image le fait de pêcher dans la population six fois sans voir le contenu de la population, c’est-à-dire en aveugle.
Cette méthode de sélection peut malheureusement conduire à la sélection d’un échantillon au sein duquel toutes les variétés ne seraient pas représentées. Ici par exemple, les Mister Gilles avec une loupe bleue ne sont pas représentés. Nous appelons taux de sondage ou fraction de sondage le rapport entre l’effectif de l’échantillon et l’effectif de la population.
Afin de s’assurer qu’au sein de l’échantillon on retrouve la diversité de la population selon certaines caractéristiques, on peut décider de forcer la présence d’unités statistiques des différents profils souhaités : il s’agira alors de réaliser une sélection aléatoire stratifiée.
Dans le cas de l’enquête sur la santé bucco-dentaire, il semble important de pouvoir s’assurer que l’échantillon sera composé d’enfants des différents âges de 6 ans à 12 ans. Il peut donc être décidé de stratifier sur l’âge ou sur le niveau scolaire.
Une strate est donc un ensemble d’unités possédant au moins une caractéristique commune qui pourrait avoir une influence sur les résultats de l’enquête. La procédure pour réaliser une sélection aléatoire stratifiée se déroule donc de la manière suivante. Il s’agit tout d’abord de classer les unités de la population selon une catégorisation choisie. Ici nous choisirons de classer selon la couleur de leur loupe, donc en 4 sous-populations. Chaque sous-population correspond à une strate. Puis, dans chaque strate, un échantillonnage aléatoire sera réalisé. La réunion des 4 échantillons constituera ainsi l’échantillon final. La procédure d’échantillonnage stratifiée permet d’assurer la présence des différents profils selon la caractéristique choisie, et ainsi d’assurer une meilleure représentativité de la population source sur cette caractéristique.
Comme nous venons de le voir, la stratification lors de l’échantillonnage a beaucoup d’attraits pour améliorer le sondage. Cependant sa mise en œuvre peut compliquer la sélection, voire la rendre impossible.
La sélection aléatoire en grappes est, quant à elle, souvent utilisée pour simplifier la mise en œuvre de l’enquête. Dans certaines situations, il est en effet impossible de sélectionner directement les unités statistiques, et il est nécessaire de sélectionner des groupes d’unités statistiques, qui sont appelés grappes.
Reprenons l’exemple de la santé bucco-dentaire chez les élèves d’écoles primaires, les deux méthodes précédentes peuvent nécessiter de nombreux déplacements au sein du département en raison de la dispersion géographique des écoles dans ce département. Pour éviter cela, on souhaite concentrer l’enquête sur certaines écoles. Chaque élève appartient à une et une seule école primaire.
Faire un sondage en grappes pour cette enquête consiste à tirer au sort un échantillon d’école dans la liste des écoles , puis à enquêter auprès de tous les élèves des écoles sélectionnées. On dira alors qu’une école est une grappe d’élèves. donc un grappe est un sous-ensemble de la population source.
On réalise donc un échantillon de grappes, et de fait un échantillon d’unités statistiques. Par cette méthode, il est beaucoup plus rapide de sélectionner un nombre important d’unités statistiques, car une grappe sélectionnée permet d’inclure non pas une unité statistique mais
un ensemble d’unités statistiques. Il s’agit donc d’une méthode pouvant être beaucoup plus rapide lors de la mise en œuvre. Cependant la population source est construite en groupes d’unités qui existent en amont de l’enquête, et il est donc difficile d’évaluer le niveau de
ressemblance au sein des grappes, car comme le dit le dicton « qui se ressemblent s’assemblent ».
Ainsi dans notre exemple, les grappes étaient les écoles et les élèves d’une école ont souvent des points de ressemblances en termes socio-démographiques et économiques. Ce dernier point est un élément qui explique le fait de devoir sélectionner un nombre important de grappes pour conserver l’hétérogénéité de la population.
En résumé, il y a deux grandes familles de sélection : non aléatoire et aléatoire. Parmi les sélections non aléatoires, nous pouvons retenir l’échantillon de volontaires et la méthode des quotas. Parmi les sélections aléatoires, nous pouvons retenir la sélection aléatoire simple, la sélection stratifiée et la sélection en grappes.