Table of Contents
Toggle
L’échantillonnage est un outil puissant qui nous permet d’estimer des proportions et des probabilités dans une population à partir d’un sous-ensemble de données. Il repose sur l’idée que, en augmentant la taille de l’échantillon, nos estimations seront de plus en plus proches de la réalité. Cette approche est largement utilisée dans de nombreux domaines tels que la sociologie, la médecine, et la science politique pour n’en nommer que quelques-uns.
Une expérience à deux issues est une expérience aléatoire qui n’a que deux résultats possibles. Par exemple, le lancer d’une pièce de monnaie a deux issues possibles : pile ou face.
Un échantillon aléatoire de taille n pour une telle expérience est un ensemble de n résultats indépendants obtenus en répétant l’expérience n fois. Prenons l’exemple du lancer d’une pièce de monnaie :
– Si nous lançons la pièce 10 fois (donc n = 10 ) et obtenons les résultats suivants : P, F, P, P, F, F, P, P, F, P, alors cet ensemble de résultats est un échantillon aléatoire de taille 10.
L’indépendance des résultats est importante : le résultat d’un lancer ne doit pas influencer les résultats des autres lancers.
La loi des grands nombres est un concept clé en statistiques et probabilités. Elle peut être expliquée simplement ainsi :
« Lorsque n est grand, la fréquence observée tend à se rapprocher de la probabilité. »
Prenons à nouveau l’exemple du lancer de pièce de monnaie. Si la pièce est équilibrée, la probabilité d’obtenir pile est de 0,5. Si nous lançons la pièce un petit nombre de fois, la fréquence observée d’obtenir pile peut varier considérablement. Mais si nous lançons la pièce un très grand nombre de fois, disons 10 000 fois, la fréquence observée de pile se rapprochera de la probabilité réelle, soit 0,5.
Cela signifie que plus nous avons de données, plus nos observations sont susceptibles de refléter la réalité.
Le principe d’estimation d’une probabilité ou d’une proportion dans une population par une fréquence observée sur un échantillon est fondamental en statistiques.
Supposons que nous voulons connaître la proportion de personnes qui préfèrent le chocolat plutôt que la vanille dans une ville. Il serait coûteux et long de poser la question à chaque habitant. À la place, nous pouvons sélectionner un échantillon aléatoire de personnes et leur poser la question.
Si, par exemple, dans notre échantillon de 100 personnes, 70 préfèrent le chocolat, nous pourrions estimer que 70% de la population de la ville préfère le chocolat. Notre échantillon nous donne une estimation de la proportion réelle dans la population entière.
Ces méthodes sont en liaison avec la partie « Algorithmique et programmation », qu’il est recommandé de lire en premier pour comprendre ce qui suit.
Vous pouvez lancer les codes sur un interpréteur Python, afin d’observer expérimentalement les notions abordées.
Voici une fonction Python qui simule le lancer d’une pièce de monnaie n fois et renvoie le nombre de succès (par exemple, obtenir « pile ») :
# Tout texte qui suit le symbole ‘#’ sur une ligne est un commentaire qui ne modifie pas le résultat du programme.
# La bibliothèque 'random' nous permet de générer des nombres aléatoires.
# On l’importe afin de pouvoir l’utiliser :
import random
def lancer_piece(n):
nb_succes = 0 # Initialisation du compteur de succès
for i in range(n): # Répète n fois
# Choix aléatoire entre 'Pile' et 'Face'
if random.choice(['Pile', 'Face']) == 'Pile':
nb_succes += 1 # Augmente le compteur si 'Pile' est obtenu
return nb_succes # Retourne le nombre total de succès
# Exemple d’utilisation avec affichage du résultat
print(lancer_piece(10))
Cette fonction utilise `random.choice()` pour simuler le lancer d’une pièce et compte le nombre de fois où ‘Pile’ est obtenu.
Nous pouvons observer la loi des grands nombres en action en traçant la fréquence cumulée de succès à mesure que n augmente.
# 'matplotlib.pyplot' est une bibliothèque pour créer des graphiques.
import matplotlib.pyplot as plt
import random
def loi_grands_nombres(N):
nb_succes_cumule = 0
frequences = []
for n in range(1, N+1):
if random.choice(['Pile', 'Face']) == 'Pile':
nb_succes_cumule += 1
# Calcul de la fréquence cumulée et ajout à la liste des fréquences
frequences.append(nb_succes_cumule / n)
# Création du graphique
plt.plot(range(1, N+1), frequences, label="Fréquence cumulée de 'Pile'")
plt.axhline(y=0.5, color='r', linestyle='-', label="Probabilité réelle")
plt.xlabel('Nombre de lancers')
plt.ylabel('Fréquence')
plt.legend()
plt.show()
# Exemple d’utilisation
loi_grands_nombres(1000)
Ce code crée un graphique montrant comment la fréquence de succès se rapproche de la probabilité réelle à mesure que le nombre d’expériences augmente, illustrant la loi des grands nombres.
Enfin, voici un exemple de code qui simule N échantillons de taille n et calcule la proportion des cas où l’écart entre p et ƒ est inférieur ou égal à 1/\sqrt{n}:
# La bibliothèque 'math' contient des fonctions mathématiques de base.
import math
import random
def proportion_ecart(N, n, p):
compteur_cas_favorables = 0
for _ in range(N):
nb_succes = 0
# Simulation de n expériences et comptage des succès
for i in range(n):
if random.choice([True, False]): # Choix aléatoire entre succès (True) et échec (False)
nb_succes += 1
f = nb_succes / n # Calcul de la fréquence des succès
# Vérification de la condition sur l'écart
# math.sqrt(n) calcule la racine carrée de n
if abs(f - p) <= 1/math.sqrt(n):
compteur_cas_favorables += 1
# Retourne la proportion des cas favorables
return compteur_cas_favorables / N
# Exemple d’utilisation
print(proportion_ecart(1000, 100, 0.5))
Ce code utilise ’random.choice([True, False])’ pour simuler des succès (True) et des échecs (False) et compte le nombre de cas où la condition sur l’écart est respectée.