MP3

MPEG-1 Audio Layer 3
Kiterjesztés .mp3[egy]
MIME típusú audio/mpeg [2] , audio/MPA [3] és audio/mpa-robust [4]
Fejlesztő Fraunhofer Society , Karlheinz Brandenburg , Heinz Gerhäuser [d] , Bernhard Grill [d] és Harald Popp [d]
közzétett 1993
Formátum típusa hangformátum
 Médiafájlok a Wikimedia Commons oldalon

Az MP3 (pontosabban angol  MPEG-1 / 2 / 2.5 Layer 3 ; de nem MPEG-3 ) egy fájlformátum , amelyet az MPEG csapat fejlesztett ki hanginformációk tárolására . A formátumot engedélyezték , de 2017. április 23-án minden szabadalom lejárt, és a licencdíjak megszűntek [5] .

Az MP3 az egyik leggyakoribb és legnépszerűbb digitális hangkódolási formátum . Széles körben használják fájlmegosztó hálózatokban értékelő zeneletöltések céljából . A formátum szinte minden népszerű operációs rendszeren lejátszható , a legtöbb hordozható audiolejátszón , és a zeneközpontok és DVD-lejátszók minden modern modellje is támogatja .

Az MP3 formátum veszteséges tömörítési algoritmust használ, amelynek célja, hogy jelentősen csökkentse a felvétel lejátszásához szükséges adatmennyiséget, és az eredetihez közeli hangminőséget biztosítson (a legtöbb hallgató véleménye szerint), de halláskor észrevehető minőségromlást okoz. minőségi hangrendszeren . A tömörítés elve az audio stream egyes részeinek pontosságának csökkentése, ami gyakorlatilag megkülönböztethetetlen a mindenütt jelenlévő alacsony hanghűségű hangreprodukciós berendezéseken (például a hordozható eszközök, hangkártyák, sztereók, autórádiók túlnyomó többsége) és egyéb nem speciális berendezések), valamint az idősebb korosztály számára a hallókészülékben bekövetkező természetes, életkorral összefüggő változások miatt, de a legtöbb esetben jól megkülönböztethetők a nagy hűségű audioberendezéseken . Ezt a módszert perceptuális kódolásnak nevezik [6] . Ugyanakkor az első szakaszban egy hangdiagramot készítenek rövid időintervallumok sorozata formájában, majd eltávolítják belőle az emberi fül által nem megkülönböztethető információkat, és a fennmaradó információkat egy kompaktban tárolják. forma. Ez a megközelítés hasonló a képek JPEG formátumba tömörítésekor használt tömörítési módszerhez . [ pontosítás ] Átlagosan 128 kbps bitsebességű MP3 létrehozása olyan fájlt eredményez, amely körülbelül 1/11-e az eredeti CD-Audio fájl méretének ( maga a tömörítetlen CD-Audio formátum bitsebessége 1411,2 kbps). Az MP3 fájlok nagy vagy alacsony bitsebességgel hozhatók létre, ami befolyásolja az eredményül kapott fájl minőségét.

Történelem

Az MP3-at a Fraunhofer Institute ( németül:  Fraunhofer-Institut für Integrierte Schaltungen ) munkacsoportja fejlesztette ki Karlheinz Brandenburg és az Erlangen-Nürnbergi Egyetem vezetésével az AT&T Bell Labs és Thomson (Johnson, Stoll, Deeri stb.) együttműködésében. .

Az MP3 fejlesztése az ASPEC (Adaptive Spectral Perceptual Entropy Coding) kísérleti kodeken alapult . Az első MP3 kódoló az L3Enc volt , amelyet 1994 nyarán adtak ki. Egy évvel később megjelent az első szoftveres MP3 lejátszó  - Winplay3 .

Az algoritmus kidolgozásakor teszteket végeztek meglehetősen specifikus népszerű kompozíciókon. Suzanne Vega " Tom's Diner " című száma lett a fő dal . Innen jött a vicc, miszerint "az MP3-at kizárólag Brandenburg kedvenc dalának kényelmes hallgatására hozták létre", és Vegát kezdték "az MP3 anyjának" nevezni.

Egy szinte teljes szabvány 1991. december 6-án jelent meg a közkincsben .

2017. április 23-án a formátum utolsó szabadalmai lejártak, és a szoftver- és beágyazott gyártók jogdíjfizetését leállították [7] [8] . A Fraunhofer Institute hivatalos honlapján jelentette be [9] a formátum engedélyezésének megszüntetését . És bár az mp3 formátum továbbra is nagyon népszerű a felhasználók körében, a legtöbb rádióállomás és TV-csatorna modern kodekek használatára váltott, amelyek jobb tömörítést és kevesebb hangminőség-veszteséget biztosítanak.

Formátum leírása

A JPEG formátumhoz hasonlóan az MP3 is spektrális kivágást használ a pszichoakusztikus modell szerint . Az audiojel egyenlő időtartamú szegmensekre van felosztva, amelyek mindegyike a feldolgozás után a saját keretébe (frame) van csomagolva. A spektrumra bontás megköveteli a bemeneti jel folytonosságát, ezért a számításokhoz az előző és a következő képkockát is felhasználjuk. Az audiojelben vannak kisebb amplitúdójú harmonikusok és az intenzívebbek közelében lévő harmonikusok - az ilyen harmonikusok le vannak vágva, mivel az átlagos emberi fül nem mindig tudja meghatározni az ilyen harmonikusok jelenlétét vagy hiányát. A hallásnak ezt a tulajdonságát maszkoló hatásnak nevezik . Lehetőség van arra is, hogy két vagy több közeli csúcsot cseréljünk egy átlagoltra (ami általában hangtorzuláshoz vezet). A levágási kritériumot a kimeneti adatfolyam követelmény határozza meg. Mivel a teljes spektrum releváns, a nagyfrekvenciás harmonikusokat nem vágják le, mint a JPEG -ben, hanem csak szelektíven távolítják el, hogy csökkentsék az információáramlást a spektrum ritkasága miatt. A spektrális "söprés" után a tömörítés és a keretekbe csomagolás matematikai módszereit alkalmazzák. Minden kerethez több tároló is tartozhat, ami lehetővé teszi több adatfolyam információ tárolását (bal és jobb csatorna vagy középső csatorna és csatorna különbség). A tömörítési arány változtatható, akár egy kereten belül is. A lehetséges bitsebesség -értékek tartománya 8-320 kbit/s .

MP3 és "Audio-CD minőség"

Korábban elterjedt volt az a vélemény, hogy a 128 kbps -os felvétel alkalmas volt a legtöbb ember számára hallgatásra szánt zenéhez, biztosítva az Audio-CD hangminőségét . A valóságban minden sokkal bonyolultabb. Először is, a kapott MP3 minősége nemcsak a bitrátától függ, hanem a kódoló programtól ( codec ) is (a szabvány nem határozza meg a kódolási algoritmust, csak a megjelenítési módot írja le). Másodszor, az uralkodó CBR (Constant Bitrate) mód mellett (amelyben a hang minden másodperce ugyanannyi bittel van kódolva), létezik ABR (Átlagos Bitráta) és VBR (Variable Bitrate) mód. Harmadszor, a 128 kbps-os határ önkényes, mivel a formátum kialakulásának korszakában választották, amikor a legtöbb digitális hangrendszer lejátszási minősége általában alacsonyabb volt a jelenleginél. Nagyjából a 128 kbps-os "Audio-CD minőségről" szóló állítás megfelel a viszonylag kényelmes zenehallgatás határának, amely alatt minden MP3 kódoló programban erős hangromlás tapasztalható.

2008-ban a 192 kbps bitsebességű MP3 fájlok a leggyakoribbak, ami közvetve azt jelezheti, hogy a többség ezt a bitsűrűséget elegendőnek tartja. A ténylegesen észlelt „minőség” a forrás hangfájltól, a hallgatótól és az audiorendszerétől függ. Egyes zenerajongók szívesebben tömörítik a zenét "maximális minőségben" - 320 kbps, vagy akár veszteségmentes kodekekre váltanak, mint például a FLAC . A zenekedvelők / audiofilek körében is van olyan vélemény , hogy egyes minták (hangfelvétel töredékei) nem alkalmasak jó minőségű veszteséges tömörítésre: minden lehetséges bitsebesség mellett nem nehéz megkülönböztetni a tömörített hangot az eredetitől. Vannak azonban komoly ellenvetések is [10] :

Nyilvánvaló, hogy (vegyük kis margóval) a 256 kbps bitsebesség az esetek túlnyomó többségében bőven elegendő a CDA forrásból származó zene kényelmes érzékeléséhez (44 kHz/16 bit/sztereó). Ez nem csak a saját készítésű tesztemből, hanem a professzionális vaktesztek elemzéséből is kitűnik (például a "c't" német kiadása, 2000. június): ezekben sem mindig tudják a szakértők " kitalálni" a hangot 256 kbps-ra tömörítik, ráadásul a tesztelés speciálisan erre a célra kialakított helyiségekben és drága berendezéseken történik, és a szakember tudja, mit kell „hallgatni”, hogy érezze a tömörítést.

Kódolási módok és opciók

Az MP3 formátumnak három változata létezik különböző igényekre: MPEG-1 , MPEG-2 és MPEG-2.5 . A bitráta és a mintavételi sebesség lehetséges tartományaiban különböznek egymástól:

Hangcsatorna kódolási vezérlési módok

Mivel az MP3 formátum támogatja a kétcsatornás (sztereó) kódolást, 4 mód van:

CBR

A CBR a Constant Bit Rate rövidítése, vagyis egy állandó bitsebesség , amelyet a felhasználó állít be, és amely nem változik a munka kódolásakor. Így a darab minden másodperce ugyanannyi kódolt adatbitnek felel meg (még a csend kódolásakor is). A CBR hasznos lehet csatornakorlátozott médiafolyamokhoz; ilyen esetben a kódolás az adatcsatorna teljes képességét használja. Tároláshoz ez a kódolási mód nem optimális, mivel nem tud elegendő helyet lefoglalni az eredeti termék összetett szegmensei számára, miközben helyet pazarol az egyszerű szegmensekre. A nagyobb bitsebesség (256 kbps felett ) megoldhatja ezt a problémát azáltal, hogy több helyet foglal az adatok számára, de arányosan növeli a fájlméretet is.

VBR

A VBR a Variable Bit Rate rövidítése, azaz egy változó bitsebesség vagy változó bitsebesség , amelyet a kódoló program a kódolás során dinamikusan változtat, a kódolt hanganyag telítettségétől és a felhasználó által beállított kódolási minőségtől függően (pl. , a csend minimális bitsebességgel van kódolva). Ez az MP3 kódolási módszer a legprogresszívebb, és még mindig fejlesztés alatt áll, mivel a különböző telítettségű hanganyagok egy bizonyos minőséggel kódolhatók, ami általában magasabb, mint a CBR módszernél az átlagos érték beállításakor. Ráadásul a fájl mérete csökken a nagy bitsebességet nem igénylő töredékek miatt. Ennek a kódolási módszernek a hátránya, hogy nehéz megjósolni a kimeneti fájl méretét. De a VBR kódolásnak ez a hátránya elhanyagolható az előnyeihez képest. További hátránya, hogy a VBR a halkabb töredékeket „jelentéktelen” hanginformációnak tartja, így kiderül, hogy ha nagyon hangosan hallgatjuk, akkor ezek a töredékek rossz minőségűek lesznek, míg a CBR halk és hangos töredékeket készít azonos bitrátával.

A VBR formátum folyamatosan javul, köszönhetően a kodekek matematikai modelljének folyamatos fejlesztésének, különösen az ingyenes LAME MP3 kodek frissített változatának (3.99.3 verzió), változó bitsebességű kódolás kiadása után a fejlesztők szerint. , minőségileg jobb, mint a CBR és még inkább az ABR. A CBR 320 kbps formátum azonban továbbra is a maximális minőséget garantálja (például a "--preset insane" presetben használják).

ABR

Az ABR az Average Bit Rate , azaz az átlagos bitsebesség rövidítése , amely a VBR és a CBR hibridje: a kbps -ban megadott bitsebességet a felhasználó állítja be, és a program változtatja, folyamatosan a megadott bitsebességhez igazítva. Így a kodek körültekintően használja a lehetséges maximális és minimális bitrátát, mivel fennáll annak a veszélye, hogy nem illeszkedik a felhasználó által megadott bitrátába. Ez a módszer egyértelmű hátránya, mivel befolyásolja a kimeneti fájl minőségét, amely valamivel jobb lesz, mint a CBR használatakor, de rosszabb, mint a VBR használatakor. Másrészt ez a módszer lehetővé teszi a bitsebesség legrugalmasabb beállítását (bármilyen szám lehet 8 és 320 között, míg a CBR módszerben csak a 16 többszöröse) és a kimeneti fájl méretének kiszámítását.

Kodekek

A fájlformátumok konvertálásához szükséges programok típusai. A leggyakoribb MP3 kodekek.

Fájlszerkezet

Egy MP3 fájl több MP3 töredékből (keretből) áll, amelyek viszont egy fejlécből és egy adatblokkból állnak. Az ilyen töredéksorozatot elemi folyamnak nevezzük . A töredékek nem független elemek ("byte-ok tárolója"), ezért nem kérhetők le önkényesen. Az MP3 fájl adatblokkja tömörített hanginformációkat tartalmaz frekvenciák és amplitúdók formájában. A fenti diagram azt mutatja, hogy az MP3-fejléc egy markerből áll, amely a megfelelő MP3-töredék megtalálására szolgál. Ezt egy bit követi, amely jelzi, hogy az MPEG szabványt használják , és két bit, amely jelzi, hogy a 3. réteget használják; más szóval, ez határozza meg az MPEG-1 Audio Layer 3-at vagy MP3-at. A következő értékek az MP3 fájltípustól függően változhatnak. Az ISO / IEC 11172-3 szabvány minden egyes fejrészszakaszhoz meghatároz egy értéktartományt, valamint egy általános specifikációt. A legtöbb MP3 fájl jelenleg ID3 metaadatokat tartalmaz , amelyek megelőzik vagy követik az MP3 szegmenst; ábrán is láthatók.

Címkék

Címkék (az angol  tag  - címke, címke, címke) - címkék az MP3 fájl határain belül (az elején és / vagy a végén). Tartalmazhatnak információkat a szerzőségről, az albumról, a megjelenés évéről, az album borítójáról és a dalszövegekről, valamint egyéb információkat a számról. A címkék későbbi verzióiban lehetőség van a hangfelvétellel kapcsolatos egyéb adatok tárolására is. A címkéknek különböző változatai vannak (lásd: ID3 ).

Hátrányok

Műszaki hiányosságok. A hangcsatornák száma kettőre korlátozódik, ellentétben az AAC -val és a Vorbis -szal . A lehetséges mintavételezési gyakoriságnak is szigorú korlátja van: nincs mód tetszőleges mintavételezési frekvencia beállítására. A maximális mintavételi frekvencia MP3 esetén 48 kHz, míg a Vorbis esetében 192 kHz, az AAC esetében pedig 96 kHz. MP3-ban csak a következő mintavételi frekvenciákon lehet menteni: 8000, 11025, 12000, 16000, 22050, 24000, 32000, 44100 és 48000 Hz.

Jogi korlátozások. Az MP3-szabadalom az Alcatel-Lucent tulajdona , amely a formátum egyes felhasználásaihoz licencet igényelt (az MP3-mal kapcsolatos szabadalmak 2017. április 23-án jártak le ).
Az Egyesült Államokban a találmányokat több mint egy éve hozták nyilvánosságra[ mikor? ] , nem szabadalmaztatható; azonban az 1995. június 8-a előtt kiadott szabadalmak esetében (1991. december 6-án csaknem egy teljes szabványt tették nyilvánosan elérhetővé) lehetőség volt a futamidő meghosszabbítására. Az MP3 visszafejtésével kapcsolatos ismert szabadalmak 2012 decemberében lejártak az Egyesült Államokban; más adatok szerint csak az 1992 decembere előtt benyújtott szabadalmakat tekintve ez 2015 szeptemberében nem történt meg [ 12] [13] .

2017-ben minden ehhez a formátumhoz kapcsolódó szabadalom lejárt, mivel azokat a szerzői jogok birtokosai nem újították meg [5] .

Lásd még

Jegyzetek

  1. https://www.file-extension.info/format/mp3
  2. Nilsson M. Az audio/mpeg médiatípus  (angol) - IETF , 2000. - 5 p. doi : 10.17487/RFC3003
  3. Casner S., Hoschka P. MIME Type Registration of RTP Payload Formats  (angol) - IETF , 2003. - 45 p. doi : 10.17487/RFC3555
  4. Finlayson R. Egy veszteségtűrőbb RTP hasznos adatformátum MP3 audiohoz  (angol) - IETF , 2008. - 22 p. doi : 10.17487/RFC5219
  5. ↑ 1 2 Orlowski, Andrew. Az MP3 „meghalt”, és senki sem vette észre: A kulcsszabadalmak lejárnak a golden oldie tech-en  (angolul) . A nyilvántartás (2017. május 16.). Letöltve: 2020. március 26. Az eredetiből archiválva : 2020. március 26.
  6. Nikil Jayant, James Johnston, Robert Safranek. Jeltömörítés az emberi észlelés modelljei alapján   // Proceedings of the IEEE : folyóirat. - 1992. - október ( 81. évf. , 10. sz.). - P. 1385-1422 . - doi : 10.1109/5.241504 .
  7. Vége az mp3 korszaknak. Az mp3 formátum fejlesztői bejelentették a " halálát "
  8. Az MP3 végre közkinccsé kerül A Wayback Machine 2017. május 3 - i archív példánya
  9. mp3  (angol) . Fraunhofer Institute for Integrated Circuits IIS. Letöltve: 2017. május 15. Az eredetiből archiválva : 2018. március 22.
  10. Phobomania archiválva : 2014. július 19., a Wayback Machine Computerra Magazine , 2008. december 14.
  11. Közös sztereó . Hangkódolás (2015. január 28.). Letöltve: 2018. július 11. Az eredetiből archiválva : 2018. július 11.
  12. Cogliati, Josh MPEG-1, H.261 és MPEG-2 szabadalmi állapota . Kuro5hin (2008. július 20.). Archiválva az eredetiből 2013. február 25-én. Ez a munka nem vette figyelembe a szabadalmi felosztásokat és a folytatásokat.
  13. MP3, MPEG-2, H.264 US szabadalom lejárta . Hozzáférés időpontja: 2013. február 15. Az eredetiből archiválva : 2013. április 2..

Linkek