Digitális jelfeldolgozó processzor

Digitális jelfeldolgozó ( eng. digital signal processor , DSP , digital signal processor (DSP)) - egy speciális mikroprocesszor , amelyet digitalizált jelek feldolgozására terveztek (általában valós időben ) [1] .

Építészeti jellemzők

A jelfeldolgozók architektúrája, az általános célú mikroprocesszorokhoz képest, rendelkezik néhány jellemzővel, amelyek a tipikus digitális jelfeldolgozási feladatok végrehajtásának lehetőség szerinti felgyorsítására irányulnak, mint például a digitális szűrés , Fourier-transzformáció , jelkeresés stb. Ezeket a feladatokat matematikailag redukáljuk valós számok többkomponensű vektorainak elemenkénti szorzóelemeire, majd a szorzatok összegzésére (például digitális szűrésnél a véges impulzusválaszú szűrő kimeneti jele megegyezik a a szűrési együtthatók szorzatai a jelminták vektorával, hasonló számításokat végzünk a jelminták korrelációs és autokorrelációs függvényeinek maximumainak keresésekor). Ezért a jelfeldolgozókat a sebességre optimalizálták, hogy csak ilyen műveleteket hajtsanak végre. A DSP-k pedig mindenekelőtt a szorzás ismételt végrehajtására irányulnak a szorzandó tömbelemek címeinek "menet közbeni" kiszámításával:

A "multiply-accumulate" ( angolul multiply-accumulate , MAC ) művelet ( Y = Y + A × B ), ahol Y, A, B valós tömbök elemei a tömbelemek címeinek automatikus kiszámításával, és általában hardverben valósítják meg. és egy gépi ciklusban hajtják végre.
Egy adott parancskészlet ismételt megismétlésének hardveres megvalósítása, azaz előre meghatározott hosszúságú ciklusok ciklusszámlálók és a ciklusszámláló visszaállításának ellenőrzésére szolgáló parancsok használata nélkül - a ciklusból való kilépés jele.
Egy utasítás és két operandus egyidejű lekérése egy gépi ciklusban a MAC utasítás leggyorsabb végrehajtása érdekében. Ehhez a DSP-nek több memória-hozzáférési portja van (független memóriaterületek, mindegyik saját cím- és adatbusz-készlettel).
A vektorfolyamat-feldolgozás támogatása címsorozat-generátorok használatával.

Az első DSP-k korlátozott hardver erőforrásai jelentős nyomot hagytak az architektúrán:

Harvard architektúra (az utasítás és az adatmemória szétválasztása), általában módosított ; a memória független hozzáférésű szegmensekre osztásával.
Determinisztikus művelet ismert utasítás-végrehajtási időkkel, lehetővé téve a valós idejű feladatütemezést .
Viszonylag rövid folyamathosszúság , így a nem ütemezett feltételes ugrások kevesebb időt vehetnek igénybe, mint az általános célú processzorokban.
Regiszterek és utasítások egzotikus készlete , amely gyakran bonyolult a fordítók számára . Néhány architektúra akkor VLIW- t használt .

A modern mikroelektronikában az általános célú processzorok gyakran hardveres támogatást tartalmaznak a tipikus DSP műveletekhez. A különösen időigényes DSP feladatokat programozható logika alapján oldják meg , ahol egy adott művelet végrehajtásának maximális optimalizálása érhető el. A speciális DSP processzorokat egyre inkább vektorossá teszik . Ugyanakkor a klasszikus DSP-k fejlett utasításkészleteket biztosítanak az általános célú processzorokhoz, és kisimítják a szoftvermodell jellemzőit, általános célú termékként pozicionálva őket gyorsított DSP-funkciókkal. Mindezek a tendenciák a DSP klasszikus fogalmának összemosásához vezetnek.

Alkalmazások

Kommunikációs berendezések:
- Adatátviteli csatornák tömörítése;
- Hang- és videofolyamok kódolása;
Hidro- és radarrendszerek;
Beszéd- és képfelismerés;
Beszéd- és zeneszintetizátorok;
spektrumanalizátorok ;
Folyamatirányítás;
Egyéb területek, ahol nagy sebességű jelfeldolgozásra van szükség, beleértve a valós idejű jelfeldolgozást is.

Történelem

Korábbi fejlesztések

1980 előtt több cég gyártott olyan eszközöket, amelyek a DSP-k előfutárainak tekinthetők. Így 1978-ban az Intel kiadta az "analóg jelfeldolgozó processzort" 2120. Tartalmazott egy ADC -t , egy DAC - t és egy digitális adatfeldolgozót, de nem volt hardveres szorzási funkció. 1979-ben az AMI kiadja az S2811-et, egy perifériás eszközt, amelyet a számítógép fő processzora vezérel. Mindkét termék nem volt sikeres a piacon.

Első generáció (1980-as évek eleje)

A DSP-k történetét általában 1979-től 1980-ig számolják, amikor is a Bell Labs bemutatta az első Mac 4 egylapkás DSP-t, valamint a NEC µMPD7720 és az AT&T DSP1 - ét is bemutatták az IEEE International Solid-State Circuits Conference '80-on . , amely azonban nem kapott széles körű terjesztést. A de facto szabvány a kicsit később kiadott Texas Instruments TMS32010 kristály volt , amely számos paraméterben és sikeres műszaki megoldásban felülmúlja a versenytársak termékeit. Íme néhány jellemzője:

ALU :
- Szóméret: 16 bit;
- Számológép bitmélysége: 32 bit;
- Sebesség : 5 millió összeadási vagy szorzási művelet másodpercenként;
Parancs ciklusidő: 160-280 ns;
Memória:
- RAM : 144-256 szó;
- ROM programok: 1,5-4 K szó;
- EEPROM : akár 4K szó (egyes modellek);
Külső busz:
- Bitmélység: 16 bit;
- Címezhető terület: 4K szó
- Sávszélesség: 50 Mbps
I/O eszközök: 8 x 16 bites portok;

Második generáció (1980-as évek közepe)

A félvezető technológia ebben az időszakban elért fejlődése miatt olyan termékeket adtak ki, amelyek az első generációhoz képest továbbfejlesztett funkciókkal rendelkeztek. A jellegzetes különbségek a következők:

A RAM mennyiségének növelése 0,5 K szóra;
Külső programmemória és külső adatmemória csatlakoztatásának lehetősége 128 K szóig;
A sebesség 2-4-szeresére nőtt;
Továbbfejlesztett megszakítási és I/O alrendszerek.

Jóval később megjelentek az eszközök is, amelyek formálisan a második generációhoz tartoztak, de a következő fejlesztésekkel:

Az adatok megnövelt bitmélysége;
Csökkentett tápfeszültség és ennek eredményeként az energiafogyasztás;
Bevezetett energiatakarékos módok;
Hardveres támogatás többfeldolgozáshoz (külső memóriamegosztó rendszer);
Hardveres támogatás gyűrűpufferekhez;
Hardveres támogatás ciklusműveletekhez;
Kiterjesztett címzési módszerek;
Két belső adatbusz, amely jelentősen felgyorsíthatja a páros adatfeldolgozást (X / Y koordináták, valós és képzeletbeli részek stb.), vagy gyakorlatilag megduplázhatja a feldolgozott adatok bitmélységét;
Bevezették a gyorsítótárat.

Harmadik generáció (1980-as évek vége)

A DSP-k harmadik generációja általában a lebegőpontos aritmetikát megvalósító termékek gyártásának megkezdéséhez kötődik. Az első kiadott minták jellemzői:

Termelékenység: kb. 20-40 millió op./sec. ( MIPS );
Két RAM blokk 1 K 32 bites szóból egyidejű hozzáférés lehetőségével;
64 szó gyorsítótár;
Regiszter kapacitása: 32 bit;
ALU bitmélység: 40 bit;
Regiszterek fokozott pontosságú műveletekhez;
Beépített PDP vezérlők;
Buszszélesség: 32 bit a parancsokhoz és 24 bit a címekhez;

Negyedik generáció

A DSP-k negyedik generációját az utasításkészletek jelentős bővítése, a VLIW és a szuperskalár processzorok létrehozása jellemzi. Az órajelek frekvenciája észrevehetően megnőtt. Így például a MAC utasítás ( Y := X + A × B ) végrehajtási ideje 3 ns-ra csökkent.

Modern DSP-k

A legjobb modern DSP-k a következő paraméterekkel jellemezhetők:

Órajel frekvencia - 1 GHz és magasabb;
Többmagos;
Kétszintű gyorsítótár jelenléte;
Beépített többcsatornás DMA vezérlők;
Több ezer nagyságrendű MIPS és MFLOPS teljesítménye ;
Maximum 8 párhuzamos utasítás végrehajtása ciklusonként;
Kompatibilitás szabványos buszokkal ( PCI , stb.)

Alapvető DSP paraméterek

Aritmetikai típus . A DSP-ket fixpontos processzorokra és lebegőpontos processzorokra osztják. A lebegőpontos eszközök használata kényelmesebb, de észrevehetően bonyolultabbak és drágábbak;
Adatbitmélység . A legtöbb fixpontos DSP 16 bites adatokat dolgoz fel, míg a lebegőpontos processzorok 32 bites adatokat. Sok modell képes dupla pontosságú adatok kezelésére.
Teljesítmény . A sebességet, mint integrált jellemzőt meglehetősen nehéz meghatározni, ezért a munka sebességét számos paraméter jellemzi, valamint néhány valós probléma megoldásának ideje.
- Órajel frekvencia és parancsciklus ideje . A modern DSP-knél a belső órajel frekvencia eltérhet a külső órajeltől, így két érték adható meg. A parancsciklus ideje a parancs egy lépésének végrehajtási idejét jelöli, vagyis a parancsfolyamat egy ciklusának idejét. Mivel az utasítások különböző számú ciklusra hajthatók végre, és figyelembe véve több utasítás egyidejű végrehajtásának lehetőségét is, ez a paraméter nagyjából jellemezheti a DSP sebességét.
- Az időegység alatt végrehajtott parancsok száma . A különböző parancsvégrehajtási idők, valamint több parancs egyidejű végrehajtása nem teszi lehetővé ennek a paraméternek a használatát a megbízható teljesítményjellemzők érdekében.
- Az időegység alatt végrehajtott műveletek száma (MIPS) . Ez a paraméter több parancs egyidejű feldolgozását és párhuzamos számítási modulok jelenlétét veszi figyelembe, így elég jól jelzi a DSP sebességét. Itt marad némi probléma, hogy a „művelet” fogalma nincs egyértelműen formalizálva.
- Az időegység alatt végrehajtott lebegőpontos műveletek száma . A paraméter hasonló az előzőhöz, és lebegőpontos processzorokhoz használatos.
- Az időegység alatt végrehajtott MAC-műveletek száma . Ez a parancs egyrészt sok számítás alapja, másrészt meglehetősen egyszerű. Ezért a végrehajtási ideje többek között felhasználható a DSP általános teljesítményének értékelésére.
A belső memória típusai és mennyisége . A belső RAM mennyisége azt jelzi, hogy a DSP mennyi adatot tud feldolgozni külső memória elérése nélkül, ami jellemezheti a rendszer általános teljesítményét, valamint a „valós idejű” munkaképességet. A ROM típusa határozza meg az eszköz programozási képességeit. A hagyományos ROM-mal rendelkező modellek nagyüzemi gyártásra alkalmasak, a PROM (egyszer programozható) kis futásnál kényelmes, a Flash-memória használata pedig lehetővé teszi az eszközprogram többszöri megváltoztatását működés közben. Jelenleg a nem túl erős DSP-k leggyakrabban kellően nagy Flash memóriával vannak felszerelve (ára folyamatosan csökken) és észrevehető mennyiségű RAM-mal, ezért önellátóak lehetnek külső memória hozzáadása nélkül mind a fejlesztési szakaszban, mind a gyártási szakaszban, ami növeli az ilyen DSP-k versenyképességét számos piaci szegmensben. A nagy teljesítményű DSP-k általában a kellően gyors buszokon keresztül csatlakoztatott külső memóriára támaszkodnak, és a Flash memória elhelyezése technikailag problémás lehet például az észrevehető hőtermelés miatt.
Címezhető memóriamennyiség . A címezhető külső memória mennyiségét a külső címbusz szélessége jellemzi.
Bootstrap módszer .
A bemeneti-kimeneti portok száma és paraméterei . Ez a paraméter azt mutatja, hogy a DSP képes-e együttműködni rajta kívüli eszközökkel.
Belső tartozékok összetétele . A belső eszközök tartalmazhatnak különféle célú eszközöket, például általános célú eszközöket - időzítőket, DMA-vezérlőket stb., Csakúgy, mint a problémaorientált eszközöket - ADC-ket, kodekeket, adattömörítőket és egyebeket.
Tápfeszültség és energiafogyasztás . Ez a jellemző különösen fontos a hordozható eszközökbe ágyazott DSP-k esetében. Általában az alacsony feszültségű (1,8-3,3 V) eszközöket részesítik előnyben, amelyek sebessége hasonló az 5 V-os processzorokhoz, de fogyasztás szempontjából észrevehetően gazdaságosabbak. Sok eszköz rendelkezik készenléti megtakarítási móddal, vagy lehetővé teszi egyes eszközök programozott kikapcsolását.
A fejlesztési és támogatási eszközök összetétele és funkcionalitása .
- Azon programozási nyelvek listája, amelyekhez vannak fordítóprogramok ehhez a rendszerhez;
- Hibakereső eszközök elérhetősége és lehetőségei a kész programokhoz;
- a dokumentáció és a műszaki támogatás rendelkezésre állása;
- Szabványos rutinokat és matematikai függvényeket tartalmazó könyvtárak elérhetősége;
- Kompatibilis eszközök elérhetősége, elérhetősége és képességei - ADC, DAC, tápvezérlők stb.
Megengedett környezeti paraméterek .
Mások, az úti céltól függően.

A DSP integrált jellemzőit is gyakran használják, például a „teljesítmény / áram / sebesség” jelzőt, például ma / MIPS (milliamp / 1 millió utasítás / másodperc), amely lehetővé teszi a valós energiafogyasztás becslését. a processzor által egy adott pillanatban megoldandó feladat összetettségétől függően .

A DSP kiválasztását teljes mértékben a fejlesztés alatt álló rendszer célja határozza meg. Például a tömeges mobileszközöknél fontosak az olcsó processzorok és az alacsony fogyasztás, miközben a rendszerfejlesztés költsége háttérbe szorul. Másrészt a mérőberendezéseknél, az audio- és videoinformáció-feldolgozó rendszereknél fontos a processzor hatékonysága, a fejlett eszközök elérhetősége, a multiprocessing stb.

A teljesítmény értékelése és összehasonlítása

Ahogy korábban megjegyeztük, az olyan egyedi jellemzők, mint az órajel frekvencia, MIPS, MOPS, MFLOPS lehetővé teszik a DSP teljesítményének meglehetősen kétértelmű értékelését. Ezért a különböző DSP-k jellemzőinek mérésének és összehasonlításának problémájának megoldására speciális tesztkészleteket alkalmaznak, amelyek utánoznak néhány általános digitális jelfeldolgozási feladatot. Minden teszt több kis programból áll, amelyeket assemblerben írnak és egy adott architektúrára optimalizáltak. Ezek a tesztek a következők végrehajtását foglalhatják magukban:

FIR és IIR szűrők ;
Vektor szorzás ;
Viterbi dekóderek ;
FFT

Napjaink leghitelesebb tesztcsomagja a BTDImark2000 teszt ( BDTI DSP Kernel Benchmarks™ (BDTImark2000™) Certified Results ), amely ezen algoritmusok mellett az algoritmus által használt memória, a rendszerfejlesztési idő és egyéb tényezők felmérését is tartalmazza. paramétereket.

Eszköz

Harvard építészet

A digitális jelfeldolgozók az ún. "Harvard architektúra", amelynek megkülönböztető jellemzője, hogy a programokat és az adatokat különböző memóriaeszközökben - program- és adatmemóriában - tárolják. Ellentétben a Neumann-architektúrával , ahol a processzornak legalább három buszciklusra van szüksége egy utasítás és két operandus lekéréséhez, a DSP egyidejűleg képes elérni mind az utasítás-, mind az adatmemóriát, és a fenti utasítás két buszciklusban is fogadható. A valóságban a parancsrendszer átgondoltságának és egyéb intézkedéseknek köszönhetően ez az idő egy ciklusra csökkenthető. Valós készülékekben az utasításmemória nem csak programokat, hanem adatokat is képes tárolni. Ebben az esetben a DSP-ről azt mondják, hogy egy módosított Harvard architektúra szerint épül fel.

Az utasítás memória és az adatmemória általában a DSP chipen található. Tekintettel arra, hogy ez a memória viszonylag kis térfogattal rendelkezik, szükségessé válik külső (a processzorchiphez képest) tárolóeszközök használata. Az ilyen eszközökhöz nem használnak külön parancs- és adatbuszt, mivel ez a külső kristálytűk számának jelentős növelését igényelné, ami drága és nem praktikus. Ezért a DSP interakciója külső tárolóeszközökkel egyetlen buszcsoporton keresztül történik anélkül, hogy parancsokra és adatokra lenne szétválasztva. Azt is meg kell jegyezni, hogy a külső memória elérése mindig sokkal több időt vesz igénybe, mint a belső memória, ezért a végrehajtási idő szempontjából kritikus alkalmazásokban az ilyen hozzáféréseket minimálisra kell csökkenteni.

Szerkezeti diagram

Parancsok csővezetékes végrehajtása

A folyamat egy számítási szál, amely minden szakaszban egy bizonyos mikroműveletet hajt végre , így a folyamat különböző szakaszaiban egy adott időpontban több parancs is található a folyamat különböző szakaszaiban. Ez javítja a teljesítményt.

Több csővezeték jelenléte szuperskaláris architektúrát valósít meg.

A különböző csővezetékeken lévő parancsok párhuzamos feldolgozásával a maximális hatást ugyanazon típusú parancsokon érik el, amelyek nem függnek egymástól. Ha a program különböző típusú parancsokat tartalmaz, akkor várakozási ciklusok kerülnek bevezetésre a folyamatban.

A szállítószalagok rakodásának optimalizálásához a következőkre van szükség:

Gépi kód összeállítása egy adott processzorhoz.
A csővezeték betöltésének optimalizálása a parancsok előzetes dekódolásának blokkjaiba.

Ennek eredményeként a parancsok nem abban a sorrendben kerülnek végrehajtásra, ahogyan a programozó leírta őket.

A fő funkciók hardveres megvalósítása

Szorzók

Hardveres szorzót használnak az egyik fő DSP-művelet - a szorzási művelet - végrehajtási idejének csökkentésére. Az általános célú processzorokban ez a művelet több váltási és összeadási ciklusban valósul meg, és sok időt vesz igénybe, a DSP-ben pedig egy speciális szorzónak köszönhetően egy utasítási ciklusban.

Funkcionálisan a szorzók két típusra oszthatók:

Egyszerű szorzó. Szószintű szorzási műveletet hajt végre. Az eredmény dupla szószélességű, és vagy egy dupla szélességű regiszterben, vagy két szabályos regiszterben (vagy két memóriahelyen) tárolódik.
Szorzó-összeadó (MAC - Szorzó / Akkumulátor). Sokszoros felhalmozási műveletet hajt végre, amelyet számos digitális jelfeldolgozó algoritmusban széles körben használnak. A parancs használatának részleteiért lásd: #Classifying DSPs by Architecture .

Váltókarok

A váltó egyrészt adateltolási műveletet végrehajtó eszköz, másrészt az eltolás eredményét tároló regiszter [2] .

Funkcióikat tekintve a váltókarok a következőkre oszthatók:

Előváltók , amelyek műszakot hajtanak végre a művelet megkezdése előtt vagy annak végrehajtása során;
Utóváltók , amelyek a művelet végrehajtása után váltást hajtanak végre.

Az eltolás eredményét tároló regiszter felépítése mindkét esetben megegyezik az akkumulátor struktúrájával .

Előváltó funkciók

előzetes méretezés. Használható például összetett aritmetikai parancsokban, valamint parancsok betöltésekor az űrlap eltolásával ; $A\leftarrow A\cdot 2-B$ $A\leftarrow B\ll n$
Shift összetett logikai műveletek végrehajtása előtt, például ; $A\leftarrow (A\ll n)\land B$
Aritmetikai, logikai és ciklikus eltolások a megfelelő parancsok végrehajtása során.

Postshifter funkciók

Az eredmények méretezése a memóriába mentéskor. Ugyanakkor az akkumulátor tartalma (a fő művelet eredménye) változatlan marad;
Jelbővítő bitek eltávolítása;
Normalizálás;
Válogatás azonos sorrendben.

Címgeneráló eszközök Ciklusok hardveres szervezése

ALU

Az ALU egy olyan processzor egység, amely egy utasításdekódoló vezérlése alatt aritmetikai és logikai transzformációkat hajt végre az adatokon, amelyeket jelen esetben operandusoknak nevezünk. Az operandusok bitszélességét általában a gépszó méretének nevezik.

Regisztrálok

Akkumulátor

Az akkumulátor egy olyan regiszter, amely a műveletek eredményeit tárolja. Sok DSP architektúrája két akkumulátorral rendelkezik, ami lehetővé teszi a közbenső eredmények tárolását igénylő műveletek végrehajtásának felgyorsítását. Technikailag egy akkumulátor több regiszterből állhat [2] :

EXT - kiterjesztési regiszter;
MSP - magas szóregiszter;
LSP - alacsony szóregiszter.

Az EXT regiszter jelenléte lehetővé teszi a közbenső eredmények kiszámításának pontosságának növelését, valamint az olyan értékek tárolási tartományának növelését, amelyek nem vezetnek túlcsorduláshoz. Ha egy memóriacellában vagy reguláris regiszterben tárol egy akkumulátorértéket, akkor az értéke a cella vagy regiszter szabványos szélességére kerekítve lesz. Másrészt, ha szükséges, az EXT regiszter tartalma külön is tárolható.

Címzési módszerek

A processzor támogatja a közvetlen címzést, a növekmény előtti és utáni indirekt címzést, valamint a DSP-specifikus ciklikus címzést és a címbit fordított címzési módokat.

A DSP-k osztályozása architektúra szerint

Megjegyzendő, hogy az alábbiakban megadott besorolás [2] meglehetősen feltételes, mivel a műszaki megoldások sokfélesége gyakran nem teszi lehetővé, hogy minden egyes eszközt egyértelműen a megadott típusok valamelyikéhez rendeljünk. Ezért a következőket inkább a DSP architektúra jellemzőinek megértéséhez kell felhasználni, semmint a termékek valódi osztályozására.

A DSP architektúra jellemzőit célszerű egy adott digitális adatfeldolgozási algoritmus, például egy FIR szűrő példáján figyelembe venni, amelynek kimeneti jele a következőképpen írható:

$y\left(n\right)=\sum _{{i=0}}^{{P}}b_{i}x\left(ni\right)$ , ahol

$x\bal(ni\jobb)$ — a bemeneti jel leolvasása;
$kettős}$ a szűrő együtthatók.

Amint könnyen látható, az eredmény kiszámítása a szorzás-felhalmozás művelet klasszikus példája - MAC (Y := X + A × B) .

Szabványos DSP-k

Az ábra két lehetőséget mutat a MAC utasítások szabványos DSP-n történő végrehajtására. Az első változatnál mindkét operandus adatmemóriában van tárolva, így lehívásukhoz két ciklus szükséges, vagyis n összeadás végrehajtási ideje 2n . A második esetben az egyik operandus a programmemóriában van eltárolva, így az utasítás végrehajtása egy ciklusban történik, és a ciklus teljes végrehajtási ideje n ciklus lesz (tisztázni kell, hogy a valóságban a végrehajtáshoz egy ciklusban a MAC-ot egy speciális hurokutasításon belül kell végrehajtani, hogy elkerüljük magának az utasításkódnak az újratöltését, ami extra órajelet igényel). Itt látható, hogy az algoritmus hatékony megvalósításához programmemória használata szükséges az adatok tárolására.

Az egyik lehetőség, amely lehetővé teszi a programmemória adattárolási használatának elhagyását, az ún. "kétportos memória", azaz olyan memória, amely két bemeneti buszt tartalmaz – két cím- és adatbusz. Ez az architektúra lehetővé teszi két cím egyidejű elérését (azonban ezeknek különböző címezhető blokkokban kell lenniük). Ezt a megoldást a Motorola (DSP56000) és a Lucent (DSP1600) DSP-iben használják.

Ezzel az architektúrával a teljesítmény javításának egyetlen módja az órajel frekvencia növelése.

Továbbfejlesztett szabványos DSP-k

A „továbbfejlesztett szabványos DSP-k” a következő párhuzamosság-javító technikákat alkalmazzák a rendszer teljesítményének javítására a szabványos DSP-khez képest:

Működtető és számítástechnikai eszközök számának növelése;
Speciális társprocesszorok bevezetése;
Buszbővítés az átvitt adatmennyiség növelése érdekében;
Memória használata többszörös hozzáféréssel (több hozzáférés ciklusonként);
A parancsnoki rendszer bonyolultsága;

E módszerek közül sok a legelső processzorok megjelenése óta létezik, ezért gyakran lehetetlen egyértelműen „standard” vagy „továbbfejlesztett” kategóriába sorolni őket.

Az ábra két párhuzamos MAC parancs számításának megvalósítására mutat példát. Ehhez a DSP két MAC modult és két akkumulátort tartalmaz. A MAC blokkok egyszerre három buszon kapnak adatokat, és az egyik érték közös náluk. Így két parancs fut egyszerre:

AK1 := AK1 + D1 × D2
AK2 := AK2 + D1 × D3

A bemutatott megoldás sajátossága, hogy sok DSP algoritmus két párhuzamos parancs végrehajtására redukálható egy közös tényezővel, pl.

FIR szűrő szimmetrikus együtthatókkal. A szűrőegyütthatókat azonos tényezőkként használjuk, és két különböző jelminta-készletet táplálunk külön buszra, vagyis a szűrő két felét párhuzamosan számítjuk ki, majd összegezzük.
Kétcsatornás feldolgozás. A jelmintákat a közös buszra, az együtthatókészleteket pedig külön buszokra táplálják.

Egyes processzorok (Lucent DSP16xxx, ADI ADSP-2116x) két egyforma magot használnak, mindegyik saját memóriával, vagyis egy utasítás egyszerre fut le két különböző adatú magban. Ez megkerüli a teljesen független adatok használatára vonatkozó korlátozást.

Az ilyen processzorok jellegzetes hátrányának tekinthető, hogy magasan képzett fejlesztőre van szükség, hiszen ezeknek a funkcióknak a hatékony használatához assembly nyelvű programozásra, az architektúra és a parancsrendszer jó ismeretére van szükség, vagyis ezek az eszközök „barátságtalannak” minősülnek. magas szintű nyelvekre.

DSP VLIW architektúrával

A fő különbség a VLIW processzorok között az, hogy az utasításkódokat a fordítási szakaszban nagy „szuperutasításokba” állítják össze, és párhuzamosan hajtják végre. Az ilyen processzorok jellemzően rögzített utasításhosszúságú RISC architektúrát használnak, ahol mindegyik külön működési egységben kerül végrehajtásra. Az ilyen processzorok jellemzői a következők:

Egymástól függetlenül működő operációs modulok nagy készlete. Ezek a modulok a következőket tartalmazhatják:
- Számtan:
  - aritmetikai műveletek és összehasonlító műveletek moduljai;
  - logikai műveletek moduljai;
  - modulok számok lebegőpontos és fixpontos szorzásához;
  - állandó generációs modulok.
- Címgeneráló modulok, beleértve a lineáris és ciklikus pufferekhez valókat is;
A fordító optimalizálásának szükségessége minden processzormodellhez, mivel a számítási egységek összetétele és funkciói modellenként változhatnak, ami az egyidejűleg végrehajtható parancsok listájának változását vonja maga után;
Ultraszéles adatbuszok szükségessége (kb. 128 bit), hogy az egyedi (maximum 8) parancsokból álló műveleti kódot egy hívással le lehessen szerezni a memóriából.
Magas követelmények a programmemória mennyiségére vonatkozóan, ami szintén a művelet nagy hosszával jár.

Általában, ha a processzornak több egyforma modulja van, akkor az assemblerben egy program létrehozásakor csak a szükséges operációs modul típusát lehet megadni, és az adott eszközt a fordító rendeli hozzá. Ez egyrészt leegyszerűsíti az ilyen eszközök programozását, másrészt lehetővé teszi az erőforrások meglehetősen hatékony felhasználását.

Szuperskaláris DSP-k

A szuperskaláris processzorokat a párhuzamos működési egységek nagy halmaza és több utasítás egyidejű végrehajtásának képessége is jellemzi. A VLIW-hez képest azonban két kiemelkedő tulajdonságuk van:

A processzor utasításai nincsenek blokkba csoportosítva, mindegyik önállóan lép be a processzorba;
A párhuzamos végrehajtásra vonatkozó utasítások a processzoron belül csoportosítva vannak a működési blokkok összetétele és aktuális munkaterhelése, valamint az adatok közötti kapcsolat alapján.

A leírt megközelítéssel a VLIW következő hátrányait kerülheti meg:

Nem hatékony memóriahasználat a nagy csoportos működési hossz miatt;
A lefordított kód függése egy adott processzor működési moduljainak összetételétől.

Ezen problémák megoldásának ára jelentős bonyodalom a processzoráramkörben, amelyben megjelenik az utasítás végrehajtását ütemező modul.

A szuperskaláris processzorok az utasítások végrehajtását nem csak a működési blokkok leterheltségére vonatkozó információk, hanem az adatok közötti függőségek elemzése alapján is megtervezik. Például egy aritmetikai művelet eredményének mentésére vonatkozó utasítás nem hajtható végre maga a számítási művelet előtt, még akkor sem, ha a memóriaelérési modul jelenleg szabad. Ez a tulajdonság többek között ahhoz vezet, hogy ugyanaz az utasításkészlet a program különböző helyein eltérően hajtható végre, ami lehetetlenné teszi a teljesítmény pontos értékelését. Ez különösen fontos a valós időben futó rendszerek esetében, mert a legrosszabb eredmény besorolása azt a tényt eredményezi, hogy a processzor erőforrásai nem lesznek teljesen kihasználva. Így ezekben a rendszerekben a szuperskaláris DSP-k teljesítményének pontos becslésének problémája nyitott marad.

Hibrid DSP-k

A hibrid DSP-k általában olyan speciális eszközöket jelentenek, amelyek kombinálják a mikrokontroller és a digitális jelfeldolgozó funkcióit. Az ilyen termékeket általában egy funkció végrehajtására tervezték - például az elektromos motorok vagy más tárgyak valós időben történő vezérlésére. Alkalmazásuk másik széles területe a közelmúltban a mobiltelefónia lett, ahol korábban két processzort használtak - az egyik hagyományos az eszköz funkcióinak vezérlésére (kijelző, billentyűzet), a másik a hangjelek feldolgozására (kódolás stb.).

A DSP osztályozása cél szerint

Általában a DSP célja szerint két csoportra osztható:

DSP általános célú;
Problémaorientált DSP-k.

A "problémaorientáció" általában nem további parancsokra, hanem beépített speciális perifériákra vonatkozik. Például az elektromos motorok vezérlésére tervezett DSP-k tartalmazhatnak chipen belüli PWM jelgenerátorokat , ipari LAN-vezérlőket stb. A hangjelek feldolgozására használt processzorok gyakran tartalmaznak bitmanipulációs egységeket (BMU) és hibajavító társprocesszorokat. A digitális fotó- és videokamerák DSP-ket használnak MPEG1, MPEG4, JPG, MP3, AAC stb. kódoló/dekódoló modulokkal.

DSP programozás

A DSP programozáshoz általában két nyelv egyikét használják - assembly és C. A DSP assemblerek főbb jellemzői megegyeznek a hagyományos mikroprocesszoros nyelvekkel , és általában a következőképpen írhatók le:

Az assembly nyelv géporientált, vagyis minden processzorcsaládnak van olyan nyelve, amely eltér a többi család nyelvétől;
Egy assembly nyelvi utasítás általában egy gépi nyelvi utasításnak felel meg;
Az assemblerben történő programozás során a programozó hozzáfér a processzor és a rendszer összes erőforrásához, ami lehetővé teszi azok minél hatékonyabb felhasználását;
A programozónak jól ismernie kell az egyes processzorok architektúráját, amellyel dolgozik, azaz a személyzet szükséges képzettségének kellően magasnak kell lennie;
A programok létrehozása és hibakeresése az assemblerben hosszú és munkaigényes folyamat, amelyhez magas képzettség is szükséges.

Másrészt a közép- és magas szintű nyelvek, különösen a C használatakor jelentősen leegyszerűsíthető és felgyorsítható a programok létrehozása, de a rendszererőforrások kevésbé hatékonyak, mint egy teljes egészében assemblerben írt program.

A valóságban általában olyan megközelítést alkalmaznak, amely egyesíti a magas szintű nyelvek előnyeit és az összeszerelő programok hatékonyságát. Ez abban nyilvánul meg, hogy a szabványos könyvtárakat általában az assemblerben hozzák létre, valamint a kód kritikus részeit a végrehajtási idő és a memória mérete szempontjából. A segédmodulok ugyanakkor magas szintű nyelven is létrehozhatók, felgyorsítva és leegyszerűsítve a szoftverrendszer egészének fejlesztését.

A DSP assemblerek jellemzői

A DSP összeszerelők érdekes tulajdonságai a következők:

Számos parancs írásának két formájának jelenléte - mnemonikus és algebrai . A mnemonikus forma hasonló a hagyományos mikroprocesszorok parancsainak írásához, például ADD dst, src . Egy másik, algebrai, ritkábban használatos szabványos mikroprocesszorok assemblereiben, míg a DSP nyelvben az említett parancs dst = dst + src formátumban írható . A DSP-összeszerelők általában mindkét jelölési formát megértik, de például az Analog Devices és a Lucent Technologies összeszerelők csak algebrai jelölést használnak.
Szabványos struktúrák szervezésének eszközei, például speciális hardverutasítások egy utasítás vagy kódblokk megismétléséhez. Ugyanakkor a hagyományos processzorok ismétlési parancsaitól eltérően a DSP kihagyhatja az ismétlődő utasítás kódjának lekérési ciklusát, ami minden ismétlés végrehajtási idejét legalább 1 buszciklussal csökkenti, ami két ciklus esetén utasítás, kétszeres időnyereséget ad.

Kompatibilitás a DSP családokon belül

Általában a DSP-ket családokban állítják elő, és a családokon belüli termékek hasonló összeállítási nyelvekkel, vagy akár gépi kódszintű kompatibilitással rendelkeznek. Ezenkívül egy családon belül általában ugyanazokat a szubrutinkönyvtár-készleteket használják. A hagyományos mikroprocesszorokhoz hasonlóan a DSP-k régebbi modelljei gyakran képesek az alacsonyabb modellek gépi kódját végrehajtani, vagy összeszerelőjük az alacsonyabb modellek összes utasítását tartalmazza saját utasításkészletük részhalmazaként.

Programok hibakeresése

A DSP-hez írt programok hibakeresése általában speciális eszközökkel történik, beleértve a szoftverszimulátorokat és emulátorokat . Gyakran tartalmaznak profilozó eszközöket is (a kódblokkok végrehajtási sebességének mérése).

Jegyzetek

↑ Digitális jelfeldolgozók: kézikönyv. Alatt. szerk. A. G. Ostapenko, M., Rádió és kommunikáció, 1994.
↑ 1 2 3 Solonina A. I., Ulakhovich D. A., Yakovlev L. A. A digitális jelfeldolgozás algoritmusai és processzorai. - Szentpétervár. : BHV-Petersburg, 2001. - 464 p. — ISBN 5-94157-065-1 .

Irodalom

Solonina AI, Ulakhovich DA, Yakovlev LA Digitális jelfeldolgozás algoritmusai és processzorai. - Szentpétervár. : BHV-Petersburg, 2001. - 464 p. — ISBN 5-94157-065-1 .
Digitális jelfeldolgozás alkalmazása \ Szerk. E. Openheim – VILÁG, 1980.
Digitális jelfeldolgozók. PC World, 5'93
Zilog digitális jelfeldolgozók és alkalmazásaik. CHIPNEWS, 1997. 2 (11) sz
Markov. C. Digitális jelfeldolgozók. 1. könyv M .: Microart, 1996

Digitális processzortechnológiák

Építészet

Instruction Set Architecture

gépszó

Párhuzamosság

Szállítószalag	Szállítószalag Rendkívüli kivitelezés Regisztrálás átnevezése Spekulatív végrehajtás átmenet előrejelző Kód előzetes letöltése
Szintek	Bit utasítás Szuperskalár Adat feladatokat
patakok	Többszálú Superthreading Egyidejű többszálú feldolgozás hyperthreading Hardveres virtualizáció
Flynn osztályozás	SISD SIMD MISD MIMD

Megvalósítások

Alkatrészek

Energiagazdálkodás