Kakšna je globina kodiranja zvoka? Definicija, formula

Kodiranje zvoka se nanaša na načine shranjevanja in prenosa avdio podatkov. V naslednjem članku je opisano, kako delujejo ta kodiranja. Upoštevajte, da je to precej zapletena tema - "Globina kodiranja zvoka". Opredelitev tega koncepta bo podana tudi v našem članku. Koncepti, predstavljeni v članku, so namenjeni le splošnemu pregledu. Razširimo pojem globine kodiranja zvoka. Nekatere od teh referenc so lahko koristne za razumevanje delovanja API-ja in za oblikovanje in obdelavo zvoka v vaših aplikacijah.


Kako najti globino kodiranja zvoka

Avdio format ni enakovreden kodiranju zvoka. Na primer, priljubljena oblika zapisa datotek, kot je WAV, določa obliko glave zvočne datoteke, vendar sama po sebi ni zapis zvoka. WAV datoteke pogosto, vendar ne vedno uporabljajo linearne PCM kodiranje. Po drugi strani pa je FLAC format datoteke in kodiranje, ki včasih pripelje do zmede. Globina za kodiranje zvoka v okviru API-ja FLAC API je edino kodiranje, ki zahteva, da v avdio podatke vključi glavo. Vsa druga kodiranja označujejo tihe zvočne podatke. Ko se v API-ju govora sklicujemo na FLAC, se vedno sklicujemo na kodek. Ko se sklicujemo na format datoteke FLAC, bomo uporabili format .LAC.
Ni vam treba določiti stopnje kodiranja in vzorčenja za datoteke WAV ali FLAC. Če je ta možnost izpuščena, API v oblaku samodejno določi stopnjo kodiranja in vzorčenja za datoteke WAV ali FLAC na podlagi glave datoteke.Če podate vrednost za kodiranje ali frekvenco vzorčenja, ki se ne ujema z vrednostjo v glavi datoteke API v oblaku, bo vrnila napako.


Kakšna je globina kodiranja zvoka?

Zvok je sestavljen iz oscilogramov, ki so sestavljeni iz interpolacije valov različnih frekvenc in amplitud. Za predstavitev teh oblik signalov v digitalnih okoljih je treba signale zavrniti s hitrostjo, ki lahko predstavlja zvoke najvišje frekvence, ki jo želite predvajati. Za njih je prav tako potrebno vzdrževati zadostno globino bita, da predstavljajo pravilne amplitude (volumen in mehkobo) oscilograme na podlagi zvočnega vzorca. Zmožnost reprodukcije ponovne obdelave frekvenc je znana kot frekvenčni odziv, sposobnost ustvarjanja ustreznega volumna in mehkobe pa je znana kot dinamični razpon. Skupaj se ti izrazi pogosto imenujejo trdnost zvočne naprave. Globina kodiranja zvoka je sredstvo, s katerim lahko obnovite zvok z uporabo teh dveh osnovnih načel, pa tudi sposobnost učinkovitega shranjevanja in prenosa takih podatkov.

Frekvenca vzorčenja

Zvok obstaja kot analogna valovna oblika. Digitalni zvočni segment približuje ta analogni val in vzorči njegovo amplitudo s precej visoko hitrostjo, da simulira lastne frekvence valov. Frekvenca vzorčenja digitalnega zvoka določa število vzorcev, vzetih iz avdio izhoda (v sekundi). Visoka frekvenca vzorčenja poveča zmožnost digitalnega zvoka, da natančno predstavlja visoke frekvence.

Kot posledica izrekaNyquist-Shannon, ponavadi morate poskusiti vsaj dvakratno frekvenco katerega koli zvočnega vala, ki ga je treba digitalno posneti. Na primer, za predstavitev zvoka v območju človeškega sluha (20-20000 Hz) mora biti digitalni avdio prikazan vsaj 40.000-krat na sekundo (kar je razlog, da CD-zvok uporablja frekvenco vzorčenja 44100 Hz).

Globina udarca

Globina kodiranja zvoka je učinek na dinamični obseg danega zvočnega vzorca. Večja bitna globina vam omogoča, da predstavite natančnejše amplitude. Če imate veliko glasnih in mehkih zvokov v istem zvočnem vzorcu, boste potrebovali več bitov za pravilno prenašanje teh zvokov. Višje bitne globine zmanjšajo tudi razmerje signal /šum v zvočnih vzorcih. Če je globina kodiranja zvoka 16 bitov, se glasba CD-ja prenaša s temi vrednostmi. Nekatere metode stiskanja lahko kompenzirajo nižje bitne globine, vendar so ponavadi izgubljene. DVD Audio uporablja 24 bitov globine, medtem ko ima večina telefonov 8-bitno globino kodiranja zvoka.

Zvok brez zvoka

Večina digitalne obdelave zvoka uporablja ti dve metodi (hitrost vzorčenja in bitno globino) za enostavno shranjevanje zvočnih podatkov. Ena izmed najbolj priljubljenih tehnologij digitalnega zvoka (popularizirana s CD-jem) je znana kot pulzno-kodna modulacija (PCM). Zvok se izbere v določenih intervalih in amplituda diskretnega vala se na tej točki shrani kot digitalna vrednost izz uporabo bitne globine vzorca. Linearni PCM (ki kaže, da je amplitudni odziv linearno enak v vzorčenju) je standard, ki se uporablja na CD-jih in v kodiranju LINEAR16 Speech API. Oba kodiranja ustvarita nestisnjeni tok bajtov, ki ustrezata neposredno avdio podatkom, oba standarda pa vsebujejo 16 bitov globine. Linearni PCM uporablja bitno hitrost 44100 Hz na zgoščenkah, ki so primerne za repozicioniranje glasbe. Vendar pa je frekvenca vzorčenja 16000 Hz primernejša za rekompaktiranje govora.
Linearni PCM (LINEAR16) je primer nestisnjenega zvoka, saj so digitalni podatki shranjeni na podoben način. Ko berete enokanalni bajtni tok, kodiran z linearnim PCM, lahko preštejete vsakih 16 bitov (2 bajta), da dobite drugo vrednost amplitude signala. Skoraj vse naprave lahko najprej manipulirajo s temi digitalnimi podatki - Linear PCM zvočne datoteke lahko uredite z urejevalnikom besedila, vendar nestisnjeni zvok ni najbolj učinkovit način prenašanja ali shranjevanja digitalnega zvoka. Iz tega razloga večina avdia uporablja digitalne metode stiskanja.

Kratek zvok

Zvočni podatki, kot vsi podatki, se pogosto stisnejo, da se olajša shranjevanje in prevoz. Stiskanje v kodiranju zvoka se lahko zgodi brez izgube ali izgube. Stiskanje brez izgube lahko razpakirate in tako obnovite digitalne podatke v prvotno obliko. Stiskanje nujno izbriše nekatere informacije med dekompresijskim postopkom in je parametrirano, da pokaže stopnjo tolerance do tehnikestiskanje za brisanje podatkov.

Brez izgube

Digitalni tokovi so stisnjeni brez izgube z uporabo kompleksnih prerazporeditev shranjenih podatkov, kar ne poslabša kakovosti izvirnega digitalnega vzorca. V primeru nestisnjenega stiskanja, pri pridobivanju podatkov v izvirno digitalno obliko, informacije ne bodo izgubljene. Torej, zakaj metode brez stiskanja brez izgube včasih imajo možnosti optimizacije? Te nastavitve pogosto obdelajo velikost datoteke za čas dekompresije. Na primer, FLAC uporablja parameter ravni stiskanja od 0 (najhitrejši) do 8 (najmanjša velikost datoteke). Stiskanje FLAC-ov na višji ravni ne bo izgubilo nobene informacije v primerjavi s stiskanjem na nižji ravni. Namesto tega bo algoritem stiskanja preprosto moral porabiti več energije pri izdelavi ali razgradnji izvirnega digitalnega zvoka. Speech API podpira dva kodiranja brez izgube: FLAC in LINEAR16. Tehnično gledano, LINEAR16 ni "kompresija brez izgube", saj stiskanje ni primarno vključeno. Če je za vas pomembna velikost datoteke ali prenos podatkov, izberite možnost FLAC kot možnost kodiranja zvoka.

Izguba kompresije

Stiskanje avdio podatkov odpravlja ali zmanjšuje nekatere vrste informacij pri izdelavi stisnjenih podatkov. Speech API podpira več formatov izgub, čeprav se jim je treba izogniti, saj lahko izguba podatkov vpliva na točnost prepoznavanja.
Priljubljen kodek MP3 je primer metode za kodiranje z izgubo. Vsi načini MP3 kompresije odstranijo zvok izven običajnega človeškega avdio pasu in uravnavajo stopnjo stiskanja z učinkovitim reguliranjemMP3 data codec ali število bitov na sekundo, da shranite datum zvoka. Na primer, stereo CD z uporabo linearnega PCM s 16 bitov ima efektivno bitno hitrost. Format globine kodiranja zvoka: 441000 * 2 kanalov * 16 bitov = 1411200 bitov na sekundo (bit /s) = 1411 kbit /s. /s ali 96 kbit /s, kar povzroči slabo kakovost zvoka. MP3 podpira tudi spremenljive bitne hitrosti, ki lahko komprimirajo zvok. Obe metodi izgubita informacije in lahko vplivata na kakovost. Lahko rečemo, da lahko večina ljudi določi razliko med 96kbps ali 128kbps kodirane MP3 glasbe.

Druge oblike stiskanja

MULAW je 8-bitno kodiranje PCM, kjer je amplituda vzorčenja logaritemsko in ne linearno modulirana. Posledično uLaw zmanjša učinkovit dinamični razpon stisnjenega zvoka. Čeprav je bila uLaw uvedena posebej za optimizacijo kodiranja govora, je 16-bitni LINEAR16 (nestisnjen PCM) še vedno veliko boljši od 8-bitnega stisnjenega zvoka uLaw, kot drugi avdio tipi. AMR in AMR_WB modulirata kodirano avdio kaseto z vnosom spremenljive bitne hitrosti v vzorec izhodnega zvoka.
Čeprav API Speech podpira več formatov z izgubo, se jim izogibajte, če imate nadzor nad originalnim zvokom. Čeprav odstranitev takšnih podatkov s stiskanjem z izgubo morda nima pomembnega vpliva na zvok, ki ga sliši človeško uho, izguba takšnih podatkov za mehanizem za prepoznavanje govoralahko močno poslabša natančnost.

Sorodne publikacije