Connaissances de base audio et principes de codage

1. Concepts de base

1) Débit binaire : indique combien de bits par seconde les données audio codées (compressées) doivent être représentées, et l'unité est généralement kbps.

2) Loudness et intensité : Les attributs subjectifs d'un son. L'intensité indique à quel point un son est fort. L'intensité varie principalement avec l'intensité du son, mais elle est également affectée par la fréquence. De manière générale, les sons purs à moyenne fréquence sont meilleurs que les sons purs à basse et haute fréquence.

3) Échantillonnage et taux d'échantillonnage : L'échantillonnage consiste à transformer un signal temporel continu en un signal numérique discret. Le taux d'échantillonnage fait référence au nombre d'échantillons collectés par seconde.

Loi d'échantillonnage de Nyquist: Lorsque la fréquence d'échantillonnage est supérieure ou égale à 2 fois la composante de fréquence la plus élevée du signal continu, le signal échantillonné peut être utilisé pour reconstruire parfaitement le signal continu d'origine.

2. formats audio courants

1) Le format WAV est un format de fichier son développé par Microsoft, également appelé fichier son wave. C'est le premier format audio numérique, largement pris en charge par la plate-forme Windows et ses applications, et possède un faible taux de compression.

2) MIDI est l'abréviation de Musical Instrument Digital Interface, également connue sous le nom de Musical Instrument Digital Interface, qui est une norme internationale unifiée pour la musique numérique/instruments de musique synthétiques électroniques. Il définit la manière dont les programmes musicaux informatiques, les synthétiseurs numériques et autres appareils électroniques échangent des signaux musicaux, et spécifie le protocole de transmission de données entre les câbles et le matériel et les appareils connectant des instruments de musique électroniques de différents fabricants à des ordinateurs, et peut simuler le son de plusieurs instruments. Un fichier MIDI est un fichier au format MIDI, et certaines commandes sont stockées dans le fichier MIDI. Envoyez ces instructions à la carte son, et la carte son synthétisera le son conformément aux instructions.

3) Le nom complet de MP3 est MPEG-1 Audio Layer 3, qui a été fusionné dans la spécification MPEG en 1992. MP3 peut compresser des fichiers audio numériques avec une qualité sonore élevée et un faible taux d'échantillonnage. L'application la plus courante.

4) MP3Pro a été développé par la société suédoise de technologie de codage, qui contient deux technologies principales : l'une est la technologie de décodage unique de la société de technologie de codage, et l'autre est l'intégration du titulaire du brevet MP3 French Thomson Multimedia Company et de l'allemand Fraunhofer Une technologie de décodage recherchée conjointement par l'Association du Circuit. MP3Pro peut améliorer la qualité sonore de la musique MP3 originale sans modifier fondamentalement la taille du fichier. Il peut maintenir au maximum la qualité sonore avant la compression tout en compressant les fichiers audio à un débit binaire inférieur.

5) MP3Pro a été développé par la société suédoise de technologie de codage, qui contient deux technologies principales : l'une est la technologie de décodage unique de la société de technologie de codage, et l'autre est l'intégration du titulaire du brevet MP3 French Thomson Multimedia Company et de l'allemand Fraunhofer Une technologie de décodage recherchée conjointement par l'Association du Circuit. MP3Pro peut améliorer la qualité sonore de la musique MP3 originale sans modifier fondamentalement la taille du fichier. Il peut maintenir au maximum la qualité sonore avant la compression tout en compressant les fichiers audio à un débit binaire inférieur.

6) WMA (Windows Media Audio) est le chef-d'œuvre de Microsoft dans le domaine de l'audio et de la vidéo Internet. Le format WMA atteint un taux de compression plus élevé en réduisant le trafic de données tout en maintenant la qualité sonore. Le taux de compression peut généralement atteindre 1:18. En outre, WMA peut également protéger le droit d'auteur via DRM (Digital Rights Management).

7) RealAudio est un format de fichier lancé par Real Networks. La principale caractéristique est qu'il peut transmettre des informations audio en temps réel, en particulier lorsque la vitesse du réseau est lente, il peut toujours transmettre des données en douceur, donc RealAudio est principalement adapté à la lecture en ligne en réseau. Les formats de fichiers RealAudio actuels incluent principalement RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured), etc. Le point commun de ces fichiers est que la qualité du son change avec la différence de bande passante du réseau. En partant du principe que la plupart des gens entendent un son fluide, les auditeurs avec une bande passante plus large peuvent obtenir une meilleure qualité sonore.

8) Audible a quatre formats différents : Audible1, 2, 3, 4. Le site Web Audible.com vend principalement des livres audio sur Internet et protège les biens et les fichiers qu'ils vendent via l'un des quatre formats audio dédiés Audible.com. . Chaque format considère principalement la source audio et le dispositif d'écoute utilisé. Les formats 1, 2 et 3 utilisent différents niveaux de compression vocale, tandis que le format 4 utilise un taux d'échantillonnage inférieur et la même méthode de décodage que le MP3. La voix qui en résulte est plus claire et peut être téléchargée plus efficacement à partir d'Internet. Audible utilise son propre outil de lecture de bureau, Audible Manager. Avec ce lecteur, vous pouvez lire des fichiers au format Audible stockés sur un PC ou transférés vers un lecteur portable.

9) AAC est en fait l'abréviation de Advanced Audio Coding. AAC est un format audio développé conjointement par Fraunhofer IIS-A, Dolby et AT&T. Il fait partie de la spécification MPEG-2. L'algorithme utilisé par AAC est différent de celui de MP3. AAC combine d'autres fonctions pour améliorer l'efficacité du codage. L'algorithme audio d'AAC dépasse de loin certains algorithmes de compression précédents (tels que MP3, etc.) en termes de capacités de compression. Il prend également en charge jusqu'à 48 pistes audio, 15 pistes audio basse fréquence, davantage de fréquences d'échantillonnage et de débits binaires, une compatibilité multilingue et une efficacité de décodage plus élevée. En bref, AAC peut fournir une meilleure qualité sonore en partant du principe qu'il est 30 % plus petit que les fichiers MP3.

10) Ogg Vorbis est un nouveau format de compression audio, similaire aux formats de musique existants tels que MP3. Mais une différence est qu'il est totalement gratuit, ouvert et sans restrictions de brevet. Vorbis est le nom de ce mécanisme de compression audio, et Ogg est le nom d'un projet qui entend concevoir un système multimédia complètement ouvert. VORBIS est également une compression avec perte, mais il utilise des modèles acoustiques plus avancés pour réduire les pertes. Par conséquent, OGG codé avec le même débit binaire sonne mieux que MP3.

11) APE est un format audio compressé sans perte, en partant du principe que la qualité sonore n'est pas réduite, la taille est compressée à la moitié du fichier WAV au format sans perte traditionnel.

12) FLAC est l'abréviation de Free Lossless Audio Codec, un ensemble de codes de compression audio sans perte bien connus, caractérisés par une compression sans perte.

3. le principe de base du codage audio

Le codage de la parole est dédié à la réduction de la bande passante du canal requise pour la transmission tout en maintenant la haute qualité de la parole d'entrée.

Le but du codage de la parole est de concevoir un codeur de faible complexité pour obtenir une transmission de données de haute qualité au débit binaire le plus bas possible.

1) Courbe de seuil muet : Le seuil auquel l'oreille humaine peut entendre le son à différentes fréquences uniquement dans un environnement calme.

2) Bande de fréquence critique

Parce que l'oreille humaine a différentes résolutions pour différentes fréquences, MPEG1 / Audio divise la gamme de fréquences perceptible dans les 22 kHz en 23 ~ 26 bandes de fréquences critiques selon différentes couches de codage et différentes fréquences d'échantillonnage. La figure suivante répertorie la fréquence centrale et la bande passante de la bande de fréquence critique idéale. Comme on peut le voir sur la figure, l'oreille humaine a une meilleure résolution des basses fréquences

3) Effet de masquage dans le domaine fréquentiel : Un signal avec une plus grande amplitude masquera un signal avec une fréquence similaire et une amplitude plus petite, comme le montre la figure ci-dessous :

4) Effet de masquage dans le domaine temporel : Dans un court laps de temps, si deux sons apparaissent, le son avec un SPL (niveau de pression acoustique) plus grand masquera le son avec un SPL plus petit. L'effet de masquage dans le domaine temporel est divisé en masquage avant (pré-masquage) et en masquage arrière (post-masquage). Le temps de post-masquage sera plus long, environ 10 fois celui de pré-masquage.

L'effet de masquage du domaine temporel aide à éliminer le pré-écho.

4. les moyens de base du codage

1) Quantificateur et quantificateur

Quantification et quantificateur: La quantification convertit un signal continu en temps discret en un signal discret en temps discret. Les quantificateurs courants sont: le quantificateur uniforme, le quantificateur logarithmique et le quantificateur non uniforme. Le but poursuivi par le processus de quantification est de minimiser l'erreur de quantification et de minimiser la complexité du quantificateur (les deux sont en eux-mêmes une contradiction).

(A) quantificateur uniforme: le plus simple, le pire des performances, ne convient que pour la voix téléphonique.

(B) Quantificateur logarithmique: Il est plus compliqué qu'un quantificateur uniforme et facile à mettre en œuvre, et ses performances sont meilleures que le quantificateur uniforme.

(C) quantificateur non uniforme: selon la distribution du signal, concevez le quantificateur. Une quantification détaillée est effectuée là où le signal est dense, et une quantification approximative est effectuée là où le signal est clairsemé.

2) Encodeur vocal

Il existe trois types d'encodeurs vocaux: (a) encodeur de forme d'onde; (b) Vocoder; (c) Codeur hybride.

Le codeur de forme d'onde vise à construire une forme d'onde analogique comprenant la feuille de bruit de fond. Agissant sur tous les signaux d'entrée, il produira des échantillons de haute qualité et consommera un débit binaire élevé. Le vocodeur ne régénérera pas la forme d'onde d'origine. Cet ensemble d'encodeurs extraira un ensemble de paramètres, qui sont envoyés à l'extrémité de réception pour dériver le modèle de génération de voix. La qualité vocale du vocodeur n'est pas suffisante. Encodeur hybride, qui intègre les avantages de l'encodeur et du sondeur de forme d'onde.

2.1 Encodeur de forme d'onde

La conception du codeur de forme d'onde est souvent indépendante du signal. Il convient donc au codage de divers signaux et ne se limite pas à la parole.

1) Codage dans le domaine temporel

a) PCM: modulation par impulsions codées, est la méthode de codage la plus simple. Ce n'est que la discrétisation et la quantification du signal, et la logarithmisation est souvent utilisée.

b) DPCM: modulation différentielle par impulsions codées, qui ne code que la différence entre les échantillons. Le ou les échantillons précédents sont utilisés pour prédire la valeur actuelle de l'échantillon. Plus il y a d'échantillons utilisés pour faire des prédictions, plus la valeur prédite est précise. La différence entre la valeur vraie et la valeur prédite s'appelle le résidu, qui fait l'objet du codage.

c) ADPCM: modulation de code d'impulsion différentielle adaptative, code d'impulsion différentielle adaptatif. C'est-à-dire que sur la base du DPCM, le quantificateur et le prédicteur sont ajustés de manière appropriée en fonction des changements du signal, de sorte que la valeur prédite est plus proche du signal réel, le résidu est plus petit et l'efficacité de compression est plus élevée.

(2) Codage du domaine fréquentiel

Le codage dans le domaine fréquentiel consiste à décomposer un signal en une série d'éléments de fréquence différents et à effectuer un codage indépendant.

a) Codage de sous-bande: le codage de sous-bande est la technique de codage dans le domaine fréquentiel la plus simple. C'est une technologie qui transforme le signal d'origine du domaine temporel au domaine fréquentiel, puis le divise en plusieurs sous-bandes et effectue un codage numérique sur celles-ci respectivement. Il utilise un groupe de filtre passe-bande (BPF) pour diviser le signal d'origine en plusieurs (par exemple, m) sous-bandes (appelées sous-bandes). Passez chaque sous-bande à travers les caractéristiques de modulation équivalentes à la modulation d'amplitude à bande latérale unique, déplacez chaque sous-bande à une fréquence proche de zéro, passez respectivement à travers BPF (un total de m), puis transférez chaque sous-bande à un débit prescrit ( Taux de Nyquist) Le signal de sortie de la sous-bande est échantillonné et la valeur échantillonnée est généralement codée numériquement et m codeurs numériques sont définis. Envoyez chaque signal codé numérique au multiplexeur, et enfin sortez le flux de données codé en sous-bande.

Pour différentes sous-bandes, différentes méthodes de quantification peuvent être utilisées et différents nombres de bits peuvent être alloués aux sous-bandes selon le modèle de perception de l'oreille humaine.

b) codage par transformée: codage DCT.

5. Vocodeur

Vocodeur de canal: utilise l'insensibilité de l'oreille humaine à la phase.

vocodeur homomorphe: peut traiter efficacement les signaux synthétiques.

Vocodeur formant: La plupart des informations du signal vocal se trouvent sur la position et la bande passante du formant.

vocodeur prédictif linéaire: le vocodeur le plus couramment utilisé.

6. Encodeur hybride

L'encodeur de forme d'onde essaie de préserver la forme d'onde du signal codé et peut fournir une parole de haute qualité à un débit binaire moyen (32 kbps), mais il ne peut pas être appliqué aux occasions à faible débit binaire. Le vocodeur tente de générer un signal qui est similaire sur le plan auditif au signal codé, et peut fournir une parole intelligible à un faible débit binaire, mais la parole résultante ne semble pas naturelle. L'encodeur hybride combine les avantages des deux.

RELP: Sur la base de la prédiction linéaire, le résidu est codé. Le mécanisme est le suivant: ne transmettre qu'une petite partie des résidus, et reconstruire tous les résidus à la réception (copier les résidus de la bande de base).

MPC: codage multi-impulsions, qui supprime la corrélation des résidus, et est utilisé pour compenser la simple classification des voix du vocoder en voix et non vocales sans les défauts des états intermédiaires.

CELP: prédiction linéaire excitée par livre de codes, qui utilise la prédiction des voies vocales et la cascade de prédicteurs de hauteur pour mieux se rapprocher du signal d'origine.

MBE : excitation multibande, le but est d'éviter un grand nombre de calculs CELP, pour obtenir une meilleure qualité que le vocodeur.