A feedforward neurális hálózat olyan mesterséges neurális hálózat, amelyben a csomópontok közötti kapcsolatok nem alkotnak hurkot [1] . Az ilyen hálózat különbözik a visszatérő neurális hálózattól .
Az előrecsatolt neurális hálózat volt a mesterséges neurális hálózat első és legegyszerűbb típusa [2] . Ebben a hálózatban az információ csak egy irányba halad előre a bemeneti csomópontoktól, a rejtett csomópontokon keresztül (ha vannak ilyenek) és a kimeneti csomópontokig. A hálózatban nincsenek ciklusok vagy visszacsatoló hurkok [1] .
A neurális hálózat legegyszerűbb fajtája az egyrétegű perceptron hálózat, amely egyetlen réteg kimeneti csomópontokból áll; amelyek bemenetei egy skálán keresztül közvetlenül a kimenetekhez jutnak. A súlyok és bemenetek szorzatának összegét minden csomóponton kiszámítjuk, és ha az érték túllép valamilyen küszöböt (általában 0), akkor a neuron tüzel, és aktivált értéket vesz fel (általában 1); egyébként a deaktivált értéket veszi fel (általában −1). Az ilyen aktivációs funkcióval rendelkező neuronokat mesterséges neuronoknak vagy lineáris küszöbegységeknek is nevezik . A szakirodalomban a perceptron kifejezés gyakran olyan hálózatokra utal, amelyek csak egy ilyen egységből állnak. Hasonló neuront írt le Warren McCulloch és Walter Pitts az 1940-es években.
A perceptron az engedélyezett és letiltott állapotok bármely értékével létrehozható, mindaddig, amíg a küszöbérték közöttük van.
A perceptronok egy egyszerű tanulási algoritmus segítségével taníthatók, amelyet általában delta szabálynak neveznek . Kiszámítja a kiszámított kimenet és a minta kimenetek közötti hibákat, és ezek alapján súlykorrekciókat hoz létre, így megvalósítva a gradiens süllyedés egy formáját .
Az egyrétegű perceptronok csak lineárisan elválasztható struktúrák megtanulására képesek; 1969-ben Marvin Minsky és Seymour Papert Perceptronok című híres monográfiájában kimutatták, hogy a perceptronok egyrétegű hálózata nem tudta megtanulni az XOR függvényt (a többrétegű perceptronok azonban ismertek voltak, hogy bármilyen lehetséges Boole-függvényt képesek előállítani ). .
Bár az egységküszöbegység számítási teljesítménye meglehetősen korlátozott, kimutatták, hogy a párhuzamos küszöbegységekből álló hálózatok bármilyen folytonos függvényt képesek megközelíteni a valós számok kompakt intervallumától a [-1,1] intervallumig. Ez az eredmény megtalálható Peter Auer, Harald Burgsteiner és Wolfgang Maass "Tanulási szabály nagyon egyszerű univerzális közelítőkhöz, amelyek egyetlen réteg perceptronból állnak" [3] .
Az egyrétegű neurális hálózat folyamatos kimenetet tud kiszámítani a lépcsőzetes függvény helyett . Gyakori választás az úgynevezett logisztikai funkció:
Ezzel a választással az egyrétegű hálózat megegyezik a statisztikai modellezésben széles körben használt logisztikus regressziós modellel . A logisztikai függvényt szigmafüggvénynek is nevezik . Folyamatos származéka van, amely lehetővé teszi a visszaszaporításban való felhasználását . Ez a függvény azért is előnyös, mert deriváltja könnyen kiszámítható:
(Az a tény, hogy f kielégíti a fenti differenciálegyenletet, könnyen kimutatható a láncszabály alkalmazásával )
A hálózatok ezen osztálya több szintű számítási egységből áll, amelyeket általában közvetlen kapcsolat köt össze. Az egyik rétegben minden egyes neuron irányított kapcsolatot tart fenn a következő réteg neuronjaival. Számos alkalmazásban az ezekben a hálózatokban lévő eszközök a szigmoid funkciót használják aktiválási funkcióként.
A neurális hálózatokra vonatkozó univerzális közelítési tétel kimondja, hogy minden folytonos függvény, amely valós szám intervallumokat leképez valamilyen kimeneti valós szám intervallumra, tetszőlegesen közelíthető egy többrétegű perceptronnal, amelynek csak egy rejtett rétege van. Ez az eredmény az aktiválási funkciók széles skálájára érvényes, például a szigmafunkciókra.
A többrétegű hálózatok számos tanulási módszert alkalmaznak, amelyek közül a legnépszerűbb a visszaterjesztés. Itt a kimeneti értékeket összehasonlítjuk a helyes válasszal, hogy kiszámítsuk egy előre meghatározott hibafüggvény értékét. A hibát ezután különféle módokon visszaküldi a hálózaton. Ezen információk felhasználásával az algoritmus beállítja az egyes kapcsolatok súlyát, hogy a hibafüggvény értékét kis mértékben csökkentse. Miután ezt a folyamatot kellően nagy számú betanítási cikluson keresztül megismételjük, a hálózat általában olyan állapotba konvergál, amelyben a számítási hiba kicsi. Ebben az esetben azt mondhatjuk, hogy a hálózat megtanult egy bizonyos célfüggvényt . A súlyok megfelelő hangolásához egy általános nemlineáris optimalizálási technikát használnak, amelyet gradiens süllyedésnek neveznek. Ehhez a hálózat kiszámítja a hibafüggvény deriváltját a hálózati súlyokhoz képest, és úgy változtatja a súlyokat, hogy a hiba csökkenjen (így lefelé haladva a hibafüggvény felületén). Emiatt a visszaterjesztés csak differenciálható aktiválási funkciókkal rendelkező hálózatokban használható.
Általánosságban elmondható, hogy a hálózat képzése, hogy hatékonyan működjön még a nem képzésként használt mintákon is, meglehetősen finom probléma, amely további módszereket igényel. Ez különösen fontos olyan esetekben, amikor csak nagyon korlátozott számú képzési minta áll rendelkezésre [4] . A veszély az, hogy a hálózat átfedi a betanítási adatokat, és nem tudja rögzíteni az adatokat generáló valódi statisztikai folyamatot. A számítógépes tanuláselmélet korlátozott mennyiségű adatra vonatkozó osztályozók képzésével foglalkozik. A neurális hálózatokkal összefüggésben egy egyszerű heurisztika , amelyet korai leállításnak neveznek, gyakran biztosítja, hogy a hálózat jól általánosítható legyen a tanítási halmazon kívüli példákra.
A visszaterjesztési algoritmus további tipikus problémája a konvergencia sebessége és a hibafüggvény lokális minimumának elérési lehetősége. Manapság léteznek olyan gyakorlati technikák, amelyek a többrétegű perceptronokban való visszaterjesztést a választott eszközzé teszik számos gépi tanulási probléma esetén .
Használhat független neurális hálózatok sorozatát is, amelyeket valamilyen közvetítő moderál, hasonló viselkedés fordul elő az agyban. Ezek a neuronok külön-külön is működhetnek, és megbirkózni egy nagy feladattal, és az eredmények végül kombinálhatók [5] .