Échantillonnage

Table of Contents

Introduction

L’échantillonnage est un outil puissant qui nous permet d’estimer des proportions et des probabilités dans une population à partir d’un sous-ensemble de données. Il repose sur l’idée que, en augmentant la taille de l’échantillon, nos estimations seront de plus en plus proches de la réalité. Cette approche est largement utilisée dans de nombreux domaines tels que la sociologie, la médecine, et la science politique pour n’en nommer que quelques-uns.

Cours

1. Échantillon aléatoire de taille n pour une expérience à deux issues

Une expérience à deux issues est une expérience aléatoire qui n’a que deux résultats possibles. Par exemple, le lancer d’une pièce de monnaie a deux issues possibles : pile ou face.

Un échantillon aléatoire de taille $n$ pour une telle expérience est un ensemble de $n$ résultats indépendants obtenus en répétant l’expérience $n$ fois. Prenons l’exemple du lancer d’une pièce de monnaie :

– Si nous lançons la pièce 10 fois (donc $n = 10$ ) et obtenons les résultats suivants : P, F, P, P, F, F, P, P, F, P, alors cet ensemble de résultats est un échantillon aléatoire de taille 10.

L’indépendance des résultats est importante : le résultat d’un lancer ne doit pas influencer les résultats des autres lancers.

2. Loi des grands nombres

La loi des grands nombres est un concept clé en statistiques et probabilités. Elle peut être expliquée simplement ainsi :

« Lorsque $n$ est grand, la fréquence observée tend à se rapprocher de la probabilité. »

Prenons à nouveau l’exemple du lancer de pièce de monnaie. Si la pièce est équilibrée, la probabilité d’obtenir pile est de 0,5. Si nous lançons la pièce un petit nombre de fois, la fréquence observée d’obtenir pile peut varier considérablement. Mais si nous lançons la pièce un très grand nombre de fois, disons 10 000 fois, la fréquence observée de pile se rapprochera de la probabilité réelle, soit 0,5.

Cela signifie que plus nous avons de données, plus nos observations sont susceptibles de refléter la réalité.

3. Estimation d’une probabilité ou d’une proportion dans une population

Le principe d’estimation d’une probabilité ou d’une proportion dans une population par une fréquence observée sur un échantillon est fondamental en statistiques.

Supposons que nous voulons connaître la proportion de personnes qui préfèrent le chocolat plutôt que la vanille dans une ville. Il serait coûteux et long de poser la question à chaque habitant. À la place, nous pouvons sélectionner un échantillon aléatoire de personnes et leur poser la question.

Si, par exemple, dans notre échantillon de 100 personnes, 70 préfèrent le chocolat, nous pourrions estimer que 70% de la population de la ville préfère le chocolat. Notre échantillon nous donne une estimation de la proportion réelle dans la population entière.

Méthodes

Ces méthodes sont en liaison avec la partie « Algorithmique et programmation », qu’il est recommandé de lire en premier pour comprendre ce qui suit.

Vous pouvez lancer les codes sur un interpréteur Python, afin d’observer expérimentalement les notions abordées.

1. Lire et comprendre une fonction Python pour échantillonnage

Voici une fonction Python qui simule le lancer d’une pièce de monnaie $n$ fois et renvoie le nombre de succès (par exemple, obtenir « pile ») :

# Tout texte qui suit le symbole ‘#’ sur une ligne est un commentaire qui ne modifie pas le résultat du programme.

# La bibliothèque 'random' nous permet de générer des nombres aléatoires.

# On l’importe afin de pouvoir l’utiliser :

import random

def lancer_piece(n):

    nb_succes = 0  # Initialisation du compteur de succès

    for i in range(n):  # Répète n fois

        # Choix aléatoire entre 'Pile' et 'Face'

        if random.choice(['Pile', 'Face']) == 'Pile':

            nb_succes += 1  # Augmente le compteur si 'Pile' est obtenu

    return nb_succes  # Retourne le nombre total de succès

# Exemple d’utilisation avec affichage du résultat

print(lancer_piece(10))

Cette fonction utilise `random.choice()` pour simuler le lancer d’une pièce et compte le nombre de fois où ‘Pile’ est obtenu.

2. Observer la loi des grands nombres via une simulation Python

Nous pouvons observer la loi des grands nombres en action en traçant la fréquence cumulée de succès à mesure que $n$ augmente.

# 'matplotlib.pyplot' est une bibliothèque pour créer des graphiques.

import matplotlib.pyplot as plt

import random

def loi_grands_nombres(N):

    nb_succes_cumule = 0

    frequences = []

    for n in range(1, N+1):

        if random.choice(['Pile', 'Face']) == 'Pile':

            nb_succes_cumule += 1

        # Calcul de la fréquence cumulée et ajout à la liste des fréquences

        frequences.append(nb_succes_cumule / n)

    # Création du graphique

    plt.plot(range(1, N+1), frequences, label="Fréquence cumulée de 'Pile'")

    plt.axhline(y=0.5, color='r', linestyle='-', label="Probabilité réelle")

    plt.xlabel('Nombre de lancers')

    plt.ylabel('Fréquence')

    plt.legend()

    plt.show()

# Exemple d’utilisation

loi_grands_nombres(1000)

Ce code crée un graphique montrant comment la fréquence de succès se rapproche de la probabilité réelle à mesure que le nombre d’expériences augmente, illustrant la loi des grands nombres.

3. Simulation de N échantillons et calcul de proportion

Enfin, voici un exemple de code qui simule $N$ échantillons de taille $n$ et calcule la proportion des cas où l’écart entre $p$ et $ƒ$ est inférieur ou égal à $1/\sqrt{n}$ :

# La bibliothèque 'math' contient des fonctions mathématiques de base.

import math

import random

def proportion_ecart(N, n, p):

    compteur_cas_favorables = 0

    for _ in range(N):

        nb_succes = 0

        # Simulation de n expériences et comptage des succès

        for i in range(n):

            if random.choice([True, False]):  # Choix aléatoire entre succès (True) et échec (False)

                nb_succes += 1

        f = nb_succes / n  # Calcul de la fréquence des succès

        # Vérification de la condition sur l'écart

        # math.sqrt(n) calcule la racine carrée de n

        if abs(f - p) <= 1/math.sqrt(n):

            compteur_cas_favorables += 1

    # Retourne la proportion des cas favorables

    return compteur_cas_favorables / N

# Exemple d’utilisation

print(proportion_ecart(1000, 100, 0.5))

Ce code utilise ’random.choice([True, False])’ pour simuler des succès (True) et des échecs (False) et compte le nombre de cas où la condition sur l’écart est respectée.