|
Neuronske mreže
> Predavanje
>
6. Ostali algoritmi
neuronskih mreža - Mreža s radijalno zasnovanom funkcijom
(RBFN) |
Mreža s radijalno zasnovanom funkcijom
(RBFN)
Predložena od strane M.J.D. Powel-a
(u Kartalopoulos, 1996), to je mreža opće namjene koja se može
upotrebljavati u istim situacijama kao i mreža "širenje
unatrag"; kako za probleme predviđanja tako i za probleme
klasifikacije. Budući da upotrebljava radijalno simetričnu i
radijalno ograničenu prijenosnu funkciju u svom skrivenom sloju,
može se smatrati poopćenim oblikom vjerojatnosne i mreže opće
regresije. Ova mreža prevazilazi neke nedostatke mreže "širenje
unatrag" kao što su problemi sporog učenja i lokalnog minimuma,
ali zahtijeva više računanja u fazi opoziva u cilju aproksimiranja
funkcije ili klasifikacije.
Računanje u mreži
Može se reći da svaka mreža koja
upotrebljava radijalno simetrične skrivene jedinice pripada
klasi mreža s radijalno zasnovanom funkcijom. Neki uzorak
skrivenih jedinica je radijalno simetričan ako (NeuralWare,
1998):
· ima "centar", tj. jedan od ulaznih vektora pohranjen
u težinskom vektoru između ulaznog i skrivenog sloja,
· ima mjeru (funkciju) za udaljenost koja određuje udaljenost
svakog ulaznog vektora od centra, te
· ima prijenosnu funkciju koja mapira izlaz funkcije udaljenosti.
Takva općenita definicija također uključuje mrežu opće regresije,
vjerojatnosnu, Counterpropagation i druge slične mreže. Najčešća
funkcija za udaljenost koja se upotrebljava je Euclidean-ova
udaljenost, dok je pri tom prijenosna funkcija (ili kernel)
Gauss-ova funkcija u skrivenom sloju. Izlaz skrivenog sloja
jednak je za ulaze unutar fiksne radijalne udaljenosti od
centra, tj. za ulaze koji su radijalno simetrični. Budući
da rezultat mreže s radijalno zasnovanom funkcijom "ovisi
o broju i položaju funkcije s radijalnom osnovom, o njezinom
obliku i metodi korištenoj za određivanje asocijativne težinske
matrice W" (Karayiannis i Weigun, 1997), neke postojeće
strategije učenja mreže s radijalno zasnovanom funkcijom mogu
se klasificirati kako slijedi:
1) mreža s fiksnim brojem središta izabranih slučajno iz podataka
za treniranje,
2) mreža s nenadgledanim procedurama za izbor fiksnog broja
središta,
3) mreža s nadgledanim procedurama za izbor fiksnog broja
središta.
Gore navedene strategije
dijele isti nedostatak: broj središta u njima treba odrediti
unaprijed. U cilju prevazilaženja ovog problema, nekoliko
autora predložilo je algoritme kao što su rastuća struktura
ćelije , čiji je autor Fritzke, zatim distribucija funkcije
s radijalnom osnovom s prostorno-popunjavajućim krivuljama,
autora Whitehead-a i Choate, zatim algoritam za dinamičko
podešavanje raspadanja , predložen od strane Berthold-a i
Diamond-a, te spajanje dva prototipa u svakom ciklusu adaptacije.
U svojoj osnovi svi navedeni algoritmi uključuju principe
cascading-a ili potkresivanja.
U žarištu daljnjeg teksta
je algoritam koji su predložili autori Moody i Darken (NeuralWare,
1998), a upotrebljava Euclidean-ovu udaljenost i Gauss-ovu
prijenosnu funkciju u skrivenom sloju, te je primijenjen u
našim eksperimentima. Ulaz u skrivene jedinice računa se prema
formuli (Patterson, 1996):
gdje je c središte (centar), dok se izlaz računa prema Gauss-ovoj
funkciji:
gdje je središte c određeno s pomoću klaster algoritma, a
s s pomoću tehnike najbližeg susjeda .
Arhitektura mreže
Algoritam učenja u mreži s radijalno
zasnovanom funkcijom može se kroz slojeve opisati na naredni
način:
1) učenje počinje u skrivenom sloju s nenadgledanim algoritmom
kako bi se odredilo središte,
2) učenje se nastavlja u izlaznom sloju s nadgledanim algoritmom
kako bi se izračunala greška,
3) simultano se primjenjuje nadgledani algoritam u skrivenom
i izlaznom sloju kako bi se podesile težine u mreži.
Uobičajena arhitektura mreže s radijalno zasnovanom funkcijom
prikazana je na donjoj slici.
Arhitektura Mreže s radijalno zasnovanom funkcijom
Učenje se može opisati kroz
naredne korake:
1) od ulaznog do skrivenog sloja: uz pomoć dinamičkog K-sredina
algoritma izvodi se klasteriranje, nadolazeće težine prototipa
sloja uče kako bi postale središta klastera ulaznih vektora.
2) u skrivenom sloju: Radijusi Gauss-ovih funkcija u središtima
klastera računaju se s pomoću tehnike 2 najbliža susjeda.
Radijus zadane Gauss-ove funkcije postavljen je na prosječnu
udaljenost od dva najbliža središta klastera.
3) u izlaznom sloju: Računa se greška s pomoću pravila učenja.
Također je moguće uključiti dodatni skriveni sloj kako bi
se unaprijedilo učenje.
Primjena mreže
Karayiannis i Weigun (1997) dali
su sažeti pregled prethodnih upotreba Mreže s radijalno zasnovanom
funkcijom što počinje s Broomhead-om i Lowe-om, autorima koji
su prvi implementirali ovu mrežu i pokazali da može modelirati
nelinearne veze. Mogućnost Mreže s radijalno zasnovanom funkcijom
koja sadrži jedan skriveni sloj da aproksimira bilo koju nelinearnu
funkciju dokazali su Park i Sandberg. Nadalje, Michelli je
pokazao na koji način ova mreža može producirati i interpolirati
površinu koja prolazi kroz sve uzorke za treniranje. Nemogućnost
mreže s radijalno zasnovanom funkcijom da rekonstruira mapiranje
uzorka za treniranje kada nisu svi podaci raspoloživi naglasili
su Poggio i Girosi.
Prednosti Mreže s radijalno
zasnovanom funkcijom mogu se ukratko sumirati kako slijedi:
· brzo treniranje,
· bolje granice odluke nego što je to slučaj kod Mreže "širenje
unatrag" kada se upotrebljava za probleme klasifikacije
ili donošenja neke odluke,
· njezin skriveni sloj može se interpretirati kao funkcija
gustoće za ulazne vektore i stoga može mjeriti vjerojatnost
da je neki novi ulazni vektor član iste distribucije kao i
ostali ulazni vektori.
Nedostaci mreže su:
· unatoč brzom učenju, mreža može biti sporija nego Mreža
"širenje unatrag" u fazi opoziva,
· budući da je početna faza učenja Mreže s radijalno zasnovanom
funkcijom nenadgledana faza klasteriranja, neke važne diskriminatorne
informacije mogu se izgubiti u toj fazi,
· teško je odrediti optimalni broj prototip jedinica (Karayiannis
and Weigun, 1997). Autori predlažu nekoliko načina za prevladavanje
tog problema. Jedan je rastuća mreža s radijalno zasnovanom
funkcijom koja bi započela s malim brojem prototipova i rasla
kroz proces treniranja dijeleći prototipove u svakom rastućem
ciklusu. Također predlažu dva kriterija za određivanja prototipa
koji će biti razdijeljeni, te testiraju različite hibridne
sheme učenja koje će sadržavati više postojećih shema u Mreži
s radijalno zasnovanom funkcijom, kao što je nenadgledano
učenje potrebno za klasteriranje, učeća vektorska kvantizacija,
te linearne neuronske mreže s vrlo zadovoljavajućim rezultatima.
Autori također predlažu nadgledanu shemu učenja temeljenu
na minimiziranju lokalizirane varijance uvjetovane klasom
.
Ulazni parametri za izgradnju
mreže
Za izgradnju Mreže s radijalno
zasnovanom funkcijom potrebno je postaviti naredne ulazne
parametre:
1) broj ulaznih, skrivenih izlaznih jedinica
Ne postoji deterministički način za određivanje broja skrivenih
jedinica za prototipni sloj unaprijed. U većini slučajeva
postavlja se heuristički na neki veliki broj i može se optimizirati
kroz proceduru potkresivanja.
2) koeficijenti učenja
Kao što je opisano u odjeljku o Mreži "širenje unatrag",
koeficijenti učenja ne moraju biti statički postavljeni ako
se upotrebljava EDBD pravilo učenja.
3) momentum
Budući da se u našim eksperimentima upotrebljava EDBD pravilo
učenja, momentum je određen dinamički za vrijeme faze učenja,
i lokalno za svaku vezu.
4) F'Offset vrijednost, pravilo učenja, prijenosna funkcija,
spajanje prethodnika, SoftMax u izlazu, bipolarni ulazi, Minmax
tablica i epoha postavljeni su prema opisu u odjeljku za Mrežu
"širenje unatrag".
|