Comment ça marche le MP3 ?


Un son, c'est une vibration. Par exemple, voici l'aspect de la vibration de la note LA (celle que vous avez en frappant un diapason ou en décrochant votre téléphone):

(GIF 4 ko)
une représentation de la note "LA"

 

Pour numériser (ou "digitaliser") ce signal, l'ordinateur en mesure la valeur régulièrement.

(GIF 9 ko)
échantillonnage du signal

 

En qualité CD Audio, l'ordinateur prendre 44100 mesures par seconde. On dit qu'on échantillonne à 44100 Hertz (ou 44100 Hz, ou encore 44,1 kHz).

C'est exactement ce qui se passe quand l'ordinateur enregistre un fichier WAV : les valeurs mesurées sont enregistrées dans le fichier.

(GIF 3 ko)

 

Pour rejouer le fichier WAV, l'ordinateur recréé le signal à partir de chaque valeur enregistrée.

(GIF 5 ko)
Reconstitution du signal à partir des valeurs

 

Tous les sons qui nous entourent (musique, bruits...) sont des vibrations que l'on peut échantillonner de cette manière. Par exemple, voici un petit bout du signal de la voix d'Ella Fitzgerald dans la chanson "Summertime":

(GIF 5 ko)
Extrait de "Summertime" chanté par Ella Fitzgerald

 

Le problème, c'est qu'il faut enregistrer un très grand nombre de valeurs pour chaque seconde de son. Il faut beaucoup de mémoire et beaucoup de place sur disque dur.

Il a donc fallu trouver des moyens pour gagner de la place. On essai de compresser le signal, c'est à dire d'utiliser moins de données pour mémoriser la même information.

Dans notre premier exemple - le LA du diapason - on voit bien qu'il y a une répétition. En fait, le signal vibre 440 fois par seconde. On dit qu'il est à 440 Hz.

(GIF 4 ko)
signal à 440 Hz

 

A 880 Hz, la vibration est deux fois plus rapide et le son plus aigu:

(GIF 6 ko)
signal à 880 Hz

 

On peut mélanger les deux signaux (440 Hz et 880 Hz):

(GIF 8 ko)
Signal mélangeant 440 et 880 Hz

 

Plutôt que d'enregistrer tous les échantillons (toutes les valeurs) de ce signal, on pourrait n'enregistrer que les valeurs 440 et 880.

440 880

 

Ainsi, avec seulement 2 valeurs, on peut reconstituer le signal !

(GIF 5 ko)
Reconstitution du signal mélangeant 440 et 880 Hz

 

La transformation mathématique qui permet de trouver toutes les fréquences constituant un signal est appelé transformée de Fourrier.

Par exemple:

(GIF 13 ko)
Exemples de transformées de Fourrier sur différents signaux

 

C'est sur ce principe qu'est basé le format MP3 : on enregistre les différentes fréquences qui composent un signal et on les note dans le fichier MP3.

Pour rejouer le son (ou la musique), on prend la liste des fréquences, on recréé des signaux de différentes fréquences et on les mélange. Le son est reconstitué.

 

De plus, les logiciels qui crééent des fichiers MP3 se basent sur un modèle psycho-acoustique pour supprimer certaines fréquences. En effet, l'oreille humaine (et le cerveau) ne perçoivent pas certains sons (fréquences très proches, sons faibles couverts par d'autres sons, etc.). Ils sont supprimés.

Ce modèle psycho-acoustique faite toute la différence entre les différents encodeurs MP3.

L'encodeur MP3 qui possède le meilleur modèle psycho-acoustique est celui de l'université Fraunhofer IIS, commercialisé dans certains logiciels (.mp3 Producer par exemple). Cela lui permet d'avoir une meilleure qualité sonore que les autres encodeurs, en particulier dans les forts taux de compression.

 

Pour poursuivre:


Pour en savoir plus:

mp3, comment ça marche ?


Le contenu de cette page est placé sous les termes de la licence suivante : CC Attribution-Noncommercial 4.0 International
h t t p : / / s e b s a u v a g e . n e t