Transfer Learning for Speech Recognition on a Budget
End-to-end training of automated speech recognition (ASR) systems requires massive data and compute resources. We explore transfer learning based on model adaptation as an approach for training ASR models under constrained GPU memory, throughput and …
Authors: Julius Kunze, Louis Kirsch, Ilia Kurenkov
T r a n s f e r L e a r n i n g f o r S p e e c h R e c o g n i t i o n o n a B u d g e t J ul i u s K u n z e 1 , Lo u i s K i rs c h 1 , Il i a K u r e n k o v 2 , An d r e a s Kr u g 2 , J en s J o h an n s m e ie r 2 , an d S e b a st i a n S to b e r 2 1 H as s o P l at t n e r I ns t i t u te , P o t sd a m , G er m a n y j ul i u s k un z e @ g ma i l . c om , m ai l @ l o ui s k i r sc h . c o m 2 U ni v e r s it y o f P o ts d a m , Po t s d a m, G e r m an y { ku r e n k ov , a n k ru g , j o ha n n s m ei e r , s st o b e r } @ u n i - po t s d a m. d e A bs t r a c t E nd - t o- e n d t ra i n in g o f a u t om a t ed s p e e ch r ec o g ni t i on ( AS R ) sy s te m s re qu i r e s m a ss i v e d at a a nd c o mp u t e re s ou r c es . W e e xp l o r e t ra n s fe r le a r ni n g ba se d on mo d e l a d ap t a t io n a s a n a pp r o ac h f o r t r ai n i n g A SR m od e l s un de r c on s t ra i n ed GP U m em o r y , t h ro u g hp u t a nd t ra i n in g da t a. W e c o nd u c t s e ve r a l s y s te m a ti c e x p er i m en t s ad a p ti n g a W a v 2 Le t t er c o n v o- l ut i o na l ne u ra l ne t w o rk or i g in a l ly t ra i n ed fo r E ng l i sh A SR to t he Ge r m a n l a ng u a ge . W e s ho w th at th i s te c hn i q ue al lo ws fa s te r t ra i n in g o n c o n su m e r - g ra d e r e s ou r c es wh i l e r e q ui r i ng l es s tr a in i n g d a ta in o rd e r t o ac h ie v e t h e s a m e a cc u r ac y , t he r e by l o we ri n g t h e c o st of t r a in - i ng AS R m o d el s in o t he r la n gu a g es . Mo d e l i nt r o sp e c ti o n re ve a l ed th at s ma l l ad ap t a t io n s t o t h e n et w o r k ’ s w e ig h t s w e re s u f fi c i en t f o r g oo d pe rf o r m an c e , e s p ec i a ll y fo r i n ne r la y er s . 1 I nt r od u c t io n A ut o m at e d sp e ec h re c og n i ti o n ( A SR ) is th e ta sk o f tr a ns l a ti n g sp o k e n la n gu a g e to t e x t in r ea l - ti m e . R ec e n tl y , e n d -t o - en d de e p le ar n i ng ap pr o a ch e s ha ve s ur p a ss e d pr e vi o us l y pr e d om i n an t s ol u t io n s ba s e d o n Hi d de n M a rk o v M o de l s . In a n in f lu e n t ia l p ap e r , A mo d e i et a l. ( 2 01 5 ) u se d c on vo l u t io n a l ne u ra l n et - w o rk s ( C NN s ) a n d r e cu r r en t ne u ra l ne t w or k s ( R NN s ) t o re d e fi n e th e s t at e o f th e a r t. H o w e v er , A mo d e i e t al . ( 2 0 15 ) a ls o h ig h l ig h t ed th e sh o rt c o mi n g s of t he de e p le a rn i n g a p p ro a c h. Pe r f or m i ng fo r w a r d a n d b ac k w a rd pr o pa g a t io n o n co mp l e x de ep ne t w o rk s in a r ea s o na b l e a m o u nt of ti m e r e q ui r e s e x p e ns i v e s p e ci a l - i ze d ha r d w ar e . Ad di t i o na l l y , i n or d er to se t th e la r g e n um b e r of pa r a me t e r s of a de e p ne tw or k pr o p er l y , on e n ee d s t o t r ai n o n l a r g e a m o un t s o f a u di o r e co r d i ng s . M os t of th e ti m e, t he re co r d in g s ne e d to b e tr an s c ri b e d b y h a n d. Su c h d a ta in ad e q ua t e qu an t i ti e s is cu rr e n tl y a v ai l ab l e fo r f e w l a ng u a ge s ot h e r t h a n E n g li s h . W e p r o po s e a n a p pr o a ch co m bi n i ng tw o m e th o d - o lo g i es t o a dd r e ss t he s e sh o rt c o mi n g s. F ir s t ly , w e us e a s i mp l e r mo d e l w it h a l o w e r r es o u rc e f oo t p ri n t . S e co n d ly , w e a pp l y a t ec h n iq u e c al l e d t r a ns f e r le a r ni n g t o s i g n if i c an t l y r e du c e t h e a m ou n t o f no n - E ng l i sh tr a i ni n g da t a n ee d e d t o ac h i e v e c om p e ti t i v e a c c ur a c y in an A SR t as k . W e i n v e st i g a te t he ef f i ca c y o f t h is a pp r o ac h on th e sp e ci f i c e xa mp l e o f ad a pt i n g a C N N- b a se d en d- t o -e n d mo d e l or i gi n a ll y t ra i n ed o n En g l i sh t o re c o gn i z e Ge r m an s p ee c h . I n p ar t i cu l a r , w e fr e e ze t he pa r a m et e r s o f it s lo we r la ye r s w hi l e r e t ra i n in g th e u p pe r la y er s on a G e r ma n co r pu s w hi c h is sm al l e r t h an i ts En g l is h co u nt e r p ar t . W e e xp e c t th is ap pr o a ch to yi e l d th e fo ll o wi n g t hr e e im p ro v em e n ts . T a ki n g ad v an ta g e of t he r ep r e se n t at i o n l e ar n e d b y t h e E n gl i s h m o de l wi l l l e a d t o s h or t e r t r ai n i ng ti m e s c o m pa r e d t o tr ai n i ng f ro m s cr a t ch . Re l at e d ly , t h e mo de l tr a i ne d us i n g tr an s f er l ea r n in g re q u i re s le s s da t a fo r an eq ui v a l en t s co r e th a n a Ge r ma n - on l y mo d el . Fi na l l y , th e mo r e la ye r s we f re e z e t he f e w e r l ay e r s w e ne ed t o b ac k - p ro p a ga t e t hr o u gh d ur i n g t ra i n in g . T hu s we e x pe c t to se e a d ec r e as e in GP U me mo r y us ag e si n ce we do no t ha ve t o m a in t a in gr a d ie n t s f o r a l l l a ye r s . T hi s pa p er is st r u ct u r ed as fo l l o w s . S ec t i on 2 g i v es a n o v er vi e w o f o t he r tr a n sf e r le a r ni n g ap p ro a c he s t o A SR t as k s . De t a il s ab o u t ou r im pl e m e nt a t io n of t he W a v 2 Le t t e r m o de l an d ho w we tr a in e d it c an b e fo u nd in S ec t i on 3 . T he d a ta we u se d a n d ho w w e p re p r oc e s se d it i s d e sc r i be d in Se ct i o n 4 . A ft e r a s ho r t i nt r o du c t io n of th e pe rf o r me d e xp e r im e n ts i n Se c t io n 5 we pr e s en t an d di sc u s s t he re s u lt s in S ec t i on 6 f o ll o we d by a c o nc l u si o n in Se c ti o n 7 . 2 R el a t e d W o r k A nn o t at e d sp e e ch da t a of s uf f i ci e n t qu a nt i t y an d q ua l i ty to t ra i n en d - to - e nd sp e ec h re co g n iz e r s i s s ca r c e f o r m os t la ng u a ge s ot he r th an En g li s h . N e v e r t he l e ss , th e re is de m an d fo r hi gh - q ua l i t y A S R s ys t e ms fo r t h e se l an g u ag e s . D e al i n g w i t h t h is is su e r eq u i re s sp e ci a l iz e d me t ho d s . O ne su c h me th o d , k n o w n as tr a n s fe r le a rn i n g , is a m ac h i ne le a r n in g te c hn i q u e f o r e n ha n c i ng a m o d el ’ s p er f o rm a n ce in a da t a- s c a rc e do m a in by cr os s - t ra i n in g o n da t a fr o m ot h e r do ma i n s o r ta s k s. T he r e ar e s e v e r a l ki n d s o f t ra n s fe r l e a rn i n g . T h e p re d o mi n a nt o ne be i ng ap p li e d t o A SR i s h e te r og e n e ou s t r a n s fe r l ea r n in g ( W an g an d Z he n g , 2 01 5 ) wh ic h in v o l v e s t ra i n in g a ba s e mo d e l on mu lt i p le la n gu a g es (a n d t as k s ) si m ul t a ne o u sl y . W hi l e th i s ac h i e v e s s om e c om p e ti t i v e r e su l t s ( C he n an d M a k , 20 1 5 ; K n i l l e t al . , 2 01 4 ) , i t st i ll re q u ir e s l a r g e a m ou n t s o f da t a t o y i el d r ob us t im pr o v em e nt s ( H e ig o l d e t al . , 2 0 1 3 ) . I n t e rm s of ho w m u ch d at a is ne e d ed fo r ef f e ct i ve r et r a in i n g, a mu ch mo r e p r om i s in g ty pe of tr a ns f e r l ea r n in g is ca l le d mo d e l ad a pt a t io n ( W an g a nd Zh en g , 2 01 5 ) . W it h th i s t e ch n i q ue , we fi r st t ra i n a m o de l on o ne (o r mo r e) la n g ua g e s, th e n re t ra i n a l l o r pa r ts of it o n a no t h er la ng u a g e w hi c h wa s un s e e n d ur i n g th e fi rs t t ra i n in g ro u n d. Th e pa r am e t er s le a rn e d fr o m t h e f i rs t l an g u ag e se r v e as a s t a rt i n g p o in t , si m il a r in ef f ec t to p re - t ra i n in g . V u a n d S c h ul t z ( 2 0 13 ) ap p li e d th is te c h - n iq u e b y fi r st le a r ni n g a mu l t il a y er pe r c ep t r on ( M LP ) f ro m mu l t ip l e la n g ua g e s wi th re l at i ve l y ab un d an t d at a , su c h a s E n gl i s h, a n d t he n ge tt i n g c om p e ti t i ve r es u l ts o n l a ng u a ge s li k e Cz e c h a n d V ie t n am e s e , f o r w hi c h th er e is no t as mu c h d a ta a v ai l ab l e . T he m e th o d pr e s e nt e d in t h is p a p er d i ff e r s fr o m V u an d S ch u l tz ( 2 01 3 ) i n th a t it do es no t fo r c e th e r ep r e se n t at i o n t o b e c om p r es s e d in t o bo t tl e n ec k f ea t u r es ( G r ez l an d F ou s e k , 2 00 8 ) an d u s e th e r e s ul t a s t h e o u t pu t of th e pr e - tr a i ne d ne t w o rk . Th e id e a o f f re e z in g on l y c e r ta i n l a y er s is an ot h e r w a y i n wh ic h o ur ap p r oa c h di ff e r s . 3 M od e l A r c h i t ec t u r e O ne of th e r e a so n s Am o de i et al . ( 2 0 1 5 ) h ad to t ra i n t he i r n e t w o rk us i ng ma n y G P Us wa s i t s c o m pl e x i t y . I t u s e s b o th co n v o l ut i o n al an d re c ur r e nt un i t s s t ac k e d i n m a n y la y er s . R e ce n t ly , a mu ch si m p le r ar c hi t e ct u r e c al l e d W a v 2L e t te r h a s be e n pr o p os e d by C o l lo b e rt e t a l . ( 2 0 16 ) . T h i s m o de l do e s no t sa cr i f ic e ac c u ra c y f or fa s t er tr a i n in g . I t r e l ie s en t ir e l y o n it s l o s s f u nc t i on t o h an d l e a li g n in g th e au d io an d th e tr a ns c r ip t i on s eq u e nc e s w h il e th e n et w o r k i ts e l f c on s i st s on l y o f c on v ol u t io n a l u n it s . T he re s ul t i ng sh o r te r tr ai n i ng ti m e an d lo we r h ar d w a re re q u ir e m en t s ma k e W a v 2L e t te r a s o li d ba s is f or al l of ou r t r an s f e r l e a rn i n g e x p e ri m e nt s . S i nc e th e g en e r al st r u ct u r e o f t he ne t w o rk is de s c ri b e d i n t he o ri g i na l p a pe r , w e o nl y m e nt i o n wh a t is no ta b l e in o ur ad a p ta t i o n o f it in th e fo ll o wi n g. An o v e r vi e w o f t he i r ar ch i t ec t u re i s s h o wn in Fi g ur e 1 . C ol l o be r t e t al . ( 2 0 16 ) do no t s p ec i f y t h e o p ti m i ze r t he y us e d. W e t ri e d se ve r a l co n v e n ti o n al gr a d ie n t d es c e nt op t im i z er s an d ac h i e v e d be st co n v e r g en c e w it h A da m ( K in g m a an d B a , 2 0 14 ) . Hy p er p a r am e - t er s we r e s l i gh t l y a d ap t e d f r o m t h e d e fa u l ts gi v en by K in g m a a n d B a ( 2 0 14 ) , th a t i s , w e us e d t h e le ar n i ng r at e α = 1 0 − 4 , β 1 = 0 . 9 , β 2 = 0 . 9 99 a nd = 1 0 − 8 . C ol l o be r t e t a l . ( 20 1 6 ) n ot e th a t t he ch o i ce of ac t i - v a t i on fu n c t io n fo r th e in ne r co n v o l ut i o n l a ye r s do e s n ot se e m to ma tt e r . W e c h os e re c ti f i e d l i n e ar un i t s a s o ur ac t i v at i o n f u n ct i o n b e c a us e th e y h a v e b e en sh o wn t o w o r k w e l l f o r a c ou s t ic m od e l s ( M aa s et al . , 20 1 3 ) . W e ig h t s ar e in it i a l iz e d Xa vi e r un i f or m l y as in t ro d u ce d b y G l or o t an d B e ng i o ( 2 01 0 ) . A t te s t ti m e , de co d i ng is pe r fo r m ed us i n g a b ea m se a rc h al g o ri t h m b a se d on K e n LM ( H e a fi e l d e t al . , 2 01 3 ) . T he de c od i n g pr o c ed u r e f ol l o w s t h e T en s o rF l o w im p l e me n t at i o n b a se d on ( G r a v e s , 2 0 1 2 ) . A be a m i s sc o re d us i ng tw o hy p er p a r am e t er s th at w er e de r i v e d us i n g a lo c al s ea r c h o p ti m i ze d to yi e l d t he be s t c o mb i n ed wo r d e r r o r r a te ( W ER ) a n d l e t t er e rr o r r at e ( L ER ) o n th e L ib r i S pe e c h ( P an ay o t o v e t al . , 20 1 5 ) v a l id a t io n se t . F or th e we i gh t of th e l an g u ag e m o de l w e c h os e w lm = 0 . 8 a nd a we i gh t m ul t i pl i e d wi t h t h e nu m be r of v o c a b u l ar y w or d s in t he tr a n sc r i pt i o n w val id word = 2 . 3 . T he C NN w a s im p le m e nt e d in K e ra s ( C ho l l e t , 2 01 5 ) . T h e l an g u ag e mo d el an d b ea m se ar c h w er e d on e in T e ns o r Fl o w ( A ba d i et al . , 20 1 5 ) a nd th e i nt r o s pe c t io n in Nu mP y ( v an d er W al t e t al . , 20 1 1 ) . T he so u rc e co de ca n be fo u nd at : h tt p s :/ / g it h u b .c o m/ t r an s f er -l e a rn i n g- a s r/ t r an s f er - l ea r n in g - as r . O ne of th e i nn o v at i o ns in Co l lo b e rt et al . ( 20 1 6 ) w a s t h e in tr o d uc t i on of th e Au to S e g C ri t e r io n ( A SG ) l os s fu n c ti o n . T he a ut h o rs r ep o r te d it ma i n ly im - p ro vi ng th e mo d el ’ s t h r ou g h pu t wi t h n e g l i gi b l e e f f e ct o n W ER a nd L ER c om p a re d to t he C on n e c ti o n is t T em p o ra l Cl a ss i f ic a t io n ( C TC ) l os s in t ro d u c ed by G ra v es e t al . ( 20 0 6 ) . Si n ce th er e i s cu r r en t l y no p ub l i cl y a v a i la b l e im p le m e nt a t i on of th is lo s s fu n c ti o n , w e d e ci d e d t o st a y w i t h a n e xi s t in g T en so r F lo w i mp l e me n t at i o n o f th e C T C l o ss i ns t e ad . T he E ng l i sh m od e l ac h ie v ed a L ER o f 1 3 .6 6 % a nd W ER o f 4 3 .5 8 % on th e L i b ri S p ee c h ( P a n ay o t o v e t a l . , 20 1 5 ) t e s t- c l ea n co r pu s . Th is i s w o r se th a n th e r es u l ts o f Co ll o b er t et a l. ( 2 01 6 ) . Si n c e t h e au t ho r s o f th a t p ap e r d id no t p ub l i sh th ei r s o ur c e c od e , we 2 Convolution kw 1 =48, s w 1 =2 ic 1 =128, oc 1 =250 Convolution kw 2 =7, s w 2 =1 ic 2 =250, oc 2 =250 Convolution kw 9 =32, s w 9 =1 ic 9 =250, oc 9 =2000 Convolution kw 10 =1, s w 10 =1 ic 10 =2000, oc 10 =2000 Convolution kw 11 =1, s w 11 =1 ic 11 =2000, oc 11 =29 Convolution kw 4 =7, s w 4 =1 ic 4 =250, oc 4 =250 Convolution kw 3 =7, s w 3 =1 ic 3 =250, oc 3 =250 Convolution kw 6 =7, s w 6 =1 ic 6 =250, oc 6 =250 Convolution kw 8 =7, s w 8 =1 ic 8 =250, oc 8 =250 Convolution kw 5 =7, s w 5 =1 ic 5 =250, oc 5 =250 Convolution kw 7 =7, s w 7 =1 ic 7 =250, oc 7 =250 Baseline System (Engli sh) Convolution kw 1 =48, s w 1 =2 ic 1 =128, oc 1 =250 Convolution kw 2 =7, s w 2 =1 ic 2 =250, oc 2 =250 Convolution kw 9 =32, s w 9 =1 ic 9 =250, oc 9 =2000 Convolution kw 10 =1, s w 10 =1 ic 10 =2000, oc 10 =2000 Convolution kw 11 =1, s w 11 =1 ic 11 =2000, oc 11 = 33 Convolution kw 4 =7, s w 4 =1 ic 4 =250, oc 4 =250 Convolution kw 3 =7, s w 3 =1 ic 3 =250, oc 3 =250 Convolution kw 6 =7, s w 6 =1 ic 6 =250, oc 6 =250 Convolution kw 8 =7, s w 8 =1 ic 8 =250, oc 8 =250 Convolution kw 5 =7, s w 5 =1 ic 5 =250, oc 5 =250 Convolution kw 7 =7, s w 7 =1 ic 7 =250, oc 7 =250 train top layers for Ger man data Adapted S ystem (German) kw =kernel width ic =inpu t channel s sw =stride width oc =output c hannels freeze weights of k bottom layers Mel- scaled spectro gram (English) Mel- scaled spectro gram (German) F ig u r e 1: N et w o r k ar c h it e c t ur e a d ap t e d fr o m C ol l o be r t et al . ( 2 01 6 ) . w er e n o t a b l e t o r e p ro d u ce th e ir re s ul t s r e l ia b l y . Al l o f o u r tr a ns f e r l e a r ni n g e xp er i m en t s ar e b a se d on th i s m od e l an d f o r ou r e x p e ri m e n ts it is as su m e d t h a t s u ch a m o de l is al r e ad y gi ve n fo r th e t r an s f er le a r ni n g ta sk t ha t is to be pe r f or m e d. 4 D at a s e t s F o r t ra i n in g t h e En g l is h m o de l , we u s ed th e L ib - r iS p e ec h co r pu s ( P a n a yo t o v et al . , 20 1 5 ). Th i s d a t a se t c on s i st s of ab o ut 10 0 0 ho ur s of re a d s p ee c h , s a mp l e d a t 1 6 k H z, fr om th e d o m a in of a u di o b o o ks . T h is is t he sa m e da t a se t th at wa s us ed to t r ai n th e o ri g i na l W a v 2 L et t e r m o d e l. T he Ge r m an mo d e ls we r e tr ai n e d o n se v e ra l c or p o ra t ak e n fr o m th e B a v ar i a n A r ch i v e f o r Sp ee c h S ig n a ls ( B AS ) ( S c hi e l , 1 99 8 ; Re i ch e l et al . , 20 1 6 ) a s we ll a s th e da t as e t de s cr i b ed i n Ra d ec k - Ar n e th e t a l . ( 2 0 15 ) , w h ic h wi l l b e re f er r e d t o as “R A DE C K ” f ro m no w on . Ov e r a ll , we ha d a to t al o f 38 3 ho u r s o f t r ai n i ng da t a , w h ic h is on l y s l i gh t l y m o re th a n on e t hi r d of t he E n gl i s h co r pu s . A dd i t io n a l qu a nt i t at i v e i nf o r ma t i on r e g a rd i n g e ac h co r p us , as w el l as a n y a v ai l ab l e re f er e n ce s , i s gi v en in T ab l e 1 . In fo r m at i o n a bo u t th e k i n d o f re co r d i ng co n t ai n e d i n ea c h c o r pu s i s gi ve n i n T ab le 2 . It is al s o im p or t a n t to po i n t ou t th a t s om e o f th e co r p or a p o se a d di t i on a l ch a l l en g e s fo r s pe e c h re co g n it i o n li k e pa r ti a l ly i nt o x i ca t e d p e o pl e , r ec o r di n g s o v er te l ep h o ne , an d di ff e r e nt di a l ec t s . E ac h Ge r m an co r p us w a s s p li t in t o tr ai n i n g a nd t es t se t s. W e g r o u pe d th e a u d io by sp e a k e rs an d us e d 1 0% of th e g r ou p s fo r te s ti n g . T he r e f or e , no sp e ak e r a pp e a rs in b ot h t ra i n in g a nd te s t se t en s u ri n g th a t r es u l ts a r e no t d u e to o v er fi t t i ng t o c er t a in s p e ak e r s . E xc e p ti o n s to th i s pr o ce d u r e ar e: Th e V M co rp o r a, w hi c h we r e us e d ex c l us i v el y fo r t ra i n in g b ec a u se o bt a i ni n g a sp l i t ba s ed on s pe a k e rs wa s n ot tr i v i al h er e ; SC 10 , wh i c h w as us e d o n ly fo r te s ti n g be c au s e i t c o ns i s ts o f r e co r d in g s of sp e ak er s w i t h G e rm a n as a se c o nd l a ng u a ge a n d st r on g f or e i gn a c ce n t s wi t h o nl y 5. 8 h o ur s in si ze ; an d R A DE C K , w h e r e w e us ed t he or i g in a l sp l it s . W e a l so re l y o n t e x t c o rp o r a f or th e K en L M d ec o d in g st e p. Fo r th e E n gl i s h c or p u s ( P a na y o to v e t a l . , 2 0 15 ) , th e p r o v id e d 4- gr a m mo de l ba s e d o n al l t ra i n in g t r an s c ri p t io n s w a s us e d l ik e in t he or ig i n a l W a v 2 L et t e r i m p l em e n ta t i on . F or th e Ge r ma n co r p us , o ur n- g r am mo d e l c a m e f r o m a pr e p ro c e ss e d ve r s io n o f t he G e rm a n W ik i p ed i a , t he E u r o pe a n P a r l ia m e nt P ro c e ed i n gs P a ra l l el Co r p us 1 , an d al l t h e tr a i n in g t ra n s cr i p ti o n s. V a li d a ti o n an d te st s et s we r e c a r ef u l ly e x c lu d e d. 4 .1 P r e pr oc e ss i n g S in c e th e E n gl i s h mo d el wa s t ra i n ed on d at a w it h a s a mp l i ng r a te o f 1 6 k H z , th e G e r m an s p ee c h d a ta n ee d e d t o b e b r ou g h t i nt o th e sa me fo r m a t s o t ha t t he c o n v ol u t io n a l fi l te r s co u l d op e ra t e on t h e sa m e t im e s ca l e . T o t h is en d , a l l d a t a w a s re sa m p le d to 1 6 k Hz . P r ep r o ce s s in g wa s d o ne us i ng li b ro s a ( M c Fe e e t al . , 2 01 5 ) a nd c o ns i s te d o f a pp l y i ng a S h o rt - t im e F o u ri e r t ra n s fo r m ( S TF T ) t o ob t a in po we r le v el s pe c t ru m f ea t u re s f ro m th e r a w au d i o as de s c ri b e d 1 ht t ps : // gi t hu b .co m /t u da rm s ta d t- lt / ka l di -t u da - de / 3 Na m e Si z e Nu m be r of sp ea k er s S LE R S W ER TL LE R TL WE R AL C ( S c hi e l e t al . , 2 0 12 ) 54 . 54 h 16 2 13 . 48 % 32 . 83 % 8. 2 3% 21 . 14 % HE M PE L ( D r ax le r and Sc hi e l , 200 2 ) 14 . 21 h 39 0 9 34 . 05 % 71 . 74 % 19 . 13 % 4 6 .7 8% PD 1 19 . 36 h 20 1 21 . 02 % 34 . 37 % 8. 3 2% 11 . 85 % PD 2 4. 3 3h 16 7. 6 0% 1 9. 6 4% 1 .9 7 % 5. 96 % R VG - J ( D ra xl e r a n d Sc hi e l , 20 02 ) 46 . 28 h 18 2 17 . 43 % 39 . 87 % 10 . 85 % 2 4 .9 2% SC 1 0 5. 8 0h 70 25 . 62 % 78 . 82 % 17 . 59 % 5 7 .8 4% VM 1 ( W a hl st e r , 19 93 ) 32 . 40 h 65 4 - - - - VM 2 ( W a hl st e r , 19 93 ) 43 . 90 h 21 4 - - - - ZI P TE L ( D r ax le r and Sc hi e l , 200 2 ) 12 . 96 h 19 5 7 22 . 87 % 62 . 27 % 15 . 07 % 4 6 .2 5% RA D EC K ( R a de ck - Ar n et h et al . , 201 5 ) 18 1. 9 6h 1 80 2 7. 8 3% 6 5. 13 % 20 . 83 % 5 6 .1 7 % Al l co r po r a 41 5 .7 h 75 4 5 22 . 78 % 58 . 36 % 15 . 05 % 4 2 .4 9% T a bl e 1 : Qu a n ti t a t i v e i n f or m a t io n o n t h e c or p o ra u s ed t o t r ai n t h e G er m a n m od e l . Re f er e n ce s t o i n di vi d u al c or p o ra a re g i v e n wh e re a v a i la b l e. Si z e an d nu m be r of s pe a k e rs re fe r on l y to th e su b s et s we us e d (i n cl u d i ng t ra i n in g an d t e s t s e t s) . T es t se t L ER a nd W ER a re re p o rt e d f o r t h e b e st tr a n sf e r l e a rn i n g ( T L) mo d e l a n d th e m od e l fr om sc r a t ch (S ) af t er 10 3 h of tr a in i n g. Na m e Sp e ec h T ype T op ic Id i os y nc ra s ie s AL C re a d, sp on ta n eo u s ca r co nt ro l co mm an d s, to ng ue tw i st er s , an s we r in g qu es t io n s pa r ti a ll y re c or de d in ru n ni ng ca r; sp ea k e rs pa r ti a ll y in to x ic a te d HE M PE L sp o nt a ne ou s an s we r : Wh a t d i d y o u d o in th e la st ho ur ? r ec o rd ed o v er tel e ph o ne PD 1 re a d ph o ne t ic al l y ba la n ce d se nt e nc e s, t w o st o ri e s: “B ut t er g es c hi c ht e” an d “ N or d wi nd un d So n ne ” re c or d in gs we re re pe a te d un ti l er r or - f re e PD 2 re a d se n te n ce s fr om a t r ai n qu er y ta s k re c or d in gs we re re pe a te d un ti l er r or - f re e R VG - J re a d, sp on ta n eo u s nu m be r s, ph on et i ca l ly ba la nc e d se nt e nc e s, fr e e- f or m re sp o ns e s t o qu e st io n s sp e ak e rs are ado l es c en ts mos t ly be t we e n th e ag e s 1 3 –1 5 SC 1 0 re a d, sp on ta n eo u s ph o ne t ic al l y ba la n ce d se n te n ce s, nu mb e rs , “N o rd w in d un d So n ne ”, fr ee di al o gu e, fr ee re t el l in g o f “D e r E n ke l un d de r G r os s v at e r” mu l ti - la ng u ag e c or p us ; on ly Ge rm a n da t a w as us ed VM 1 sp o nt a ne ou s di a lo g ue s fo r ap po i nt m en t sc he d ul i ng mu l ti - la ng u ag e c or p us ; on ly Ge rm a n da t a w as us ed VM 2 sp o nt a ne ou s di a lo g ue s fo r ap p oi nt m en t sc h ed ul i ng , tr a v e l pl an n in g an d le i su re ti me pl an n in g mu l ti - la ng u ag e c or p us ; on ly Ge rm a n da t a w as us ed ZI P TE L re ad st r ee t n am es , Z IP c o de s, t el e ph o ne n u mb er s , ci t y n a me s re c or d ed ov e r te l ep ho n e RA D EC K re a d, se mi -s p on t an eo u s W i k ip e di a, Eu ro p ea n P ar l ia m en t tr an s cr i p- ti o ns , co mm a nd s fo r co m ma nd - an d -c on t ro l se t ti n gs co n ta i ns si x mi c ro ph o ne rec o rd i ng s of ea c h sp e ec h si g na l T a bl e 2: In f or m a ti o n on th e k i n d o f sp e e ch da t a co nt a i ne d in ea c h co rp u s . i n C o l lo b e rt e t a l . ( 2 01 6 ) . A ft e r th at , sp e ct r u m f ea t u re s w er e m el - s ca l e d an d th e n di r ec t l y fe d in t o th e C NN . Or i gi n a ll y , t h e p a r am e t er s we r e s e t t o wi nd o w l en g t h w = 25 m s , st r i de s = 10 m s a nd n um b e r of c om p o ne n t s n = 2 57 . W e a d ap t e d t h e w i nd o w l e n gt h t o w ne w = 32 m s w hi c h eq u a ls a Fo u r ie r tr an s f or m w in d o w o f 5 12 s am p l es , in o r d er t o f o ll o w t he c on ve n t io n o f us i ng p o w e r - o f- t w o wi n d o w s iz e s . T he st r i de wa s se t to s ne w = 8m s i n o r de r to ac h i e v e 7 5% o v e r la p of su c c es s i v e f r a me s . W e o b s er v ed th at n = 25 7 r es u l ts in ma n y o f t h e co m p on e n ts be i n g 0 d ue to th e li m it e d wi nd o w le n g th . W e th e re f o r e d ec r e as e d th e pa r a me t e r to n ne w = 1 28 . Af te r th e ge n - e ra t i on of t h e s p ec t r og r a ms , w e n o r ma l i ze d th em to m ea n 0 a n d st an d a rd de vi a t io n 1 p e r in p ut se q u en c e . A n y in di vi d u al re co r d i ng s in th e Ge r m an co rp o r a l on g e r t ha n 35 se co n d s w er e re mo ve d du e t o G PU m em o r y li m it a t io n s . T hi s c ou l d ha v e be e n so l v e d i ns t e ad b y s pl i t ti n g a ud i o f il e s us i n g th e i r w or d a li g n me n t s w h er e pr o v i d ed (a n d th e ir c or r e sp o n di n g t ra n s cr i p ti o n s) , b u t we ch o se no t t o do s o si n ce th e lo s s o f d a ta in cu r r ed by si m pl y ig n o ri n g ov er l y l o ng fi le s w a s ne gl ig i b le . Co r p or a si z es gi v en in T ab l e 1 ar e af te r r em o v al of sa i d s e qu e n ce s . W e e x c l ud e d 10 46 in v a li d s am p l es in th e RA D EC K co r p us du e to tr u nc a t ed au - d io as we l l as 56 9 s a mp l e s w i t h e m p ty tr a n s cr i p ti o n s. 5 E xp e r i m en t s G i v e n th e E ng l i s h m od e l , w e f ro z e k o f t he lo we r l ay e r s an d tr a in e d al l 1 1 − k l ay e r s ab o v e w it h th e 4 G er m a n c or p o ra . Th i s m ea n s t h e g r ad i e nt w a s o n l y c al c u la t e d f o r t h e we ig h t s o f th o se 1 1 − k l ay e r s a n d g ra d i en t de s c en t wa s th e n ap pl i e d to up d at e th o se a s u su a l . T he pr o c es s of fr e ez i n g k l ay e r s is vi s ua l i z ed in F ig u r e 1 . Th e tr an s f er tr ai n i ng wa s pe r fo r m e d b a se d o n b o t h t h e o r ig i n al we i g ht s as we l l a s a n e w r a nd o m i ni t i al i z at i o n f o r c o mp a r is o n . E xc e p t f o r ch an g i n g t h e t ra i n in g da t a, th e Ge r ma n co r po r a in t ro d u ce fo u r n e w c la s s la be l s ¨ a ¨ o ¨ u ß i n ad di t i on t o t h e o r ig i n al 28 l ab e l s. W e se t th e in i ti a l we i g ht s an d bi a s es o f th e fi na l s of t m ax la y e r fo r t h e se la b e ls to ze r o. Ad d it i o na l l y , a s a b a se l i n e f o r t h e p e rf o r ma n c e o f a W a v2 L e tt e r ba se d G er m a n A SR , w e tr a in e d o n e m o d el fr o m s c r at c h o n a ll Ge r m a n t r ai n i ng co rp o r a. F o r al l e xp er i m en t s we u se d a ba tc h si ze of 6 4 , b o t h d u ri n g t r ai n i n g a s w e ll a s e v a lu a t io n . 6 R es u l t s an d D i s c us s i o n A s i n i ti a l ly h yp o t he s i ze d , t r a ns f e r l e a rn i n g c o ul d gi v e u s th r e e be n e fi t s : Re d u ce d c o mp u t in g ti me , lo we r G PU me mo r y re qu i r em e n t s an d a sm a ll e r r eq u i re d a mo u n t of G er m a n sp e ec h da t a . In a d di t i on t o th a t , w e m a y f i n d s t r uc t u ra l si m il a r it i e s b e tw e e n l a n g ua g e s f or th e A SR t as k . In t he su b s eq u e nt s ec t i on s , w e w il l fi rs t re p or t ge ne r a l ob s e rv at i o ns , e v al u at e ea ch h yp o t h es i s ba s ed on th e pe rf o r m ed e x pe r i me n t s an d t he n an a l yz e th e le a rn e d we i gh t s us i ng in tr o s p ec t i on t ec h n iq u e s. W e re p o r t o v er al l t e st sc o re s a n d s c or e s o n ea c h t es t se t i n th e fo rm of W ER s a nd L ER s . F in a l ly , w e d i sc u s s t h e l a ng u a ge sp e c if i c a s s um p t io n s t ha t w e r e r e qu i r ed fo r t h e e x p e ri m e n ts an d h o w t ra n s fe r le a rn i n g m a y p e rf o r m o n ot h er la n g ua g e s. 6 .1 R et a i ni n g or r ei n i ti a l iz i n g w e ig h t s? W he n th e tr a ns f e r le ar n i n g tr a i ni n g is pe r f or m e d, o ne co u l d e it h e r c on t i nu e tr a in i n g o n t he e x is t i ng w ei g h ts or re i ni t i al i z e t h em . Re u si n g e xi st i n g w e ig h t s m ig h t le a d to s t oc h a s ti c g ra d i en t d es c e nt ( S GD ) b ei n g s tu c k in a lo ca l mi n im u m , r e in i t ia l i zi n g m ay t ak e lo n g er to c on ve r g e . F o r k = 8 w e c o mp a r ed th e s pe e d of tr ai n i n g f o r bo t h m e t h od s . As it ca n be se en i n Fi g u r e 2 , us i n g e x i st i n g w ei g h ts is m uc h fa s te r w it h o ut a d e cr e a se in q ua l i ty . 6 .2 R ed u c ed co m p ut i n g t i m e G i v e n th a t la n gu a g es s ha r e co m mo n fe a t u re s in t he i r pr o n un c i at i o n, lo we r la y e rs s ho u l d co n ta i n c om m o n fe a tu r e s th a t ca n be re u se d wh e n tr a ns f e rr i n g t he mo d el to a di f fe r e nt la n gu a g e . Th e re f o re , w e s ub s e qu e n tl y f ro z e k l ay e r s of t he o ri g i n al E ng l i s h m od e l , ch o o si n g a di f fe r e nt k i n ea c h e xp e r im e n t. Ou r 0 5 10 15 20 25 Training time in hours 100 150 200 250 300 350 Training loss Reinitialized weights k = 8 Weights retained k = 8 F ig u r e 2 : Co mp a r i so n of le ar n i n g c u r v e s f o r 25 ho ur s o f t r a in i n g wi th ei th e r re i n it i a li z e d or re t ai n e d we i gh t s . I n b o th ca s e s k = 8 la y e rs we r e fr o ze n . e x p er i m en t s sh o we d th a t th i s as s u mp t i on is i nd e e d t ru e , i t i s s u f fi c i en t t o a d ju s t o n l y a t l e a s t t w o l a y er s f or ac h ie vi n g t r a in i n g l o s se s be l o w 10 0 a f te r 25 ho ur s . T he lo s s c u r v e f o r d i ff e r en t k c an be se e n i n Fi g ur e 3 . 0 5 10 15 20 25 Training time in hours 75 100 125 150 175 200 225 250 Training loss k = 10 k = 9 k = 8 k = 6 k = 0 F ig u r e 3: Le ar n i ng cu r v e s fo r 25 ho u rs of tr a i ni n g w it h di f fe r e nt nu m b er s k o f fr o z en la y e rs . No t e t ha t du e to th e de c r ea s e d t im e to p ro c e ss a ba tc h ( cf . Fi g ur e 4 ) , tr a in i n g mo d el s wi t h hi gh e r k ( mo r e f ro z e n l ay e r s) al l o w s t o i t er a t e o v e r t h e t r a in i n g d at a m o re of t en in t h e sa m e a mo u n t of ti m e. Bu t e v en tu a l ly , th is do e s n o t he l p to be a t th e mo de l w it h k = 0 w hi c h is tr ai n e d wi t h th e fe we st d at a s et i te r a ti o n s b ut st i l l a t an y ti m e a c hi e v es th e lo we s t l o s s. F o r bi gg e r k w e n e ed to b ac k p ro p a g at e th r ou g h f e w e r l a y er s , th er e f o re tr a in i n g t i me pe r st e p ( t r ai n i ng o ne ba t c h) d ec r e as e s al mo s t mo n ot o n ic a l ly w it h k i n Fi g ur e 4 . De s p it e t ha t b o os t i n tr a i ni n g t im e , e x p er i m en t s sh o w th a t lo s s is al m os t al w a y s sm a ll e r a t a n y gi ve n po i nt in ti me fo r s m a ll e r k . In F i gu r e 3 5 t hi s m an i f es t s in k = 0 a l w ay s h a v in g t he sm a ll e s t t ra i n in g lo s s . W e co n cl u d e t h at in t er m s of ac h ie vi n g s ma l l l o ss , t h e re is n o r e a so n t o f a v or b i g v al ue s f o r k , f r ee z i ng la y e r s i s no t ne c es s a ry . 0 10 20 30 40 50 60 Training time in seconds per step k = 10 k = 9 k = 8 k = 6 k = 0 F ig u r e 4 : Th e m o re l a ye r s w e f r ee z e , th e f a s te r o n e b at c h of 64 is tr a in e d . M ea s u re d o v e r 2 5 h o f tr ai n i ng e ac h . W he n we c o m pa r e t h e b e s t t r a n sf e r l e ar n i ng mo d e l w it h k = 0 w it h a G e rm a n mo de l tr a in e d fr om sc r a tc h i n Fi gu r e 5 , w e ar e ab l e to se e hu g e im pr o v em e nt s i n t er m s o f c om p u ti n g t i me re q u ir e d f o r ac h i e v i n g t he sa m e lo s s. W e c on c l ud e th a t a go o d w ei g h t s ta r t in g co n f ig u r at i o n f r o m a n ot h e r la ng u a ge ’ s A SR i s b e ne f i ci a l . 0 20 40 60 80 100 Training time in hours 0 100 200 300 400 500 Training loss From scratch Based on English model with k = 0 F ig u r e 5 : Ap p l yi n g tr a ns f e r le ar n i ng b y u si n g th e w ei g h ts fr o m th e E n gl i s h m o de l le a ds t o s m a ll l os s e s m or e qu i ck l y th a n t r a in i n g f r o m s c r a tc h . 6 .3 L o we r GP U me m or y r eq u i r e m en t s N ot on l y do e s i t ma t te r ho w l o n g t r a in i n g t a k e s w i th g i v e n r es o u rc e s , ma n y re s ea r c he r s ma y a l so h a v e o nl y li m it e d GP U m e mo r y at di s po s a l. Al l of ou r e x p er i m en t s we r e p e rf o r me d on a si n gl e Ge F o r c e G TX T i t an X gr ap h i c s ca r d, b u t th e m or e la ye r s k w e f r e e ze , th e f e we r l a ye r s we ne ed to ba c k pr o p ag a t e t hr o u gh . Th e r ef o r e, m em o r y r eq u i re m e n ts f or t he G PU ar e lo we r . F o r a ba t ch si z e o f 64 , f o r w a rd pr o p a- g at i o n ta k e s l e ss th an 3 G B of me m o ry , w h il e tr a i ni n g t he wh o le ne t w o rk re q u ir e s mo r e t ha n 10 .4 GB . In c on t r as t t o t ha t , fr e ez i n g 8 la y e rs al r ea d y e na b l es t ra i n in g wi t h l e ss th a n 5. 5 G B of GP U me mo r y . 6 .4 L it t l e G e rm a n sp ee c h da t a r e q u ir ed W e hy p ot h e s iz e d th a t l i t t le t ra i n in g da t a ma y be r eq u i re d fo r t h e t r an s f er le a r n in g ta s k. Ad d it i o na l l y t o u si n g t h e w h ol e 38 3 h o u rs of da ta we ha d a v a il a b le , w e a l so tr i e d a n e v e n m o re sc a r ce v a r i an t . In or d er to p re v en t o v e rf i t ti n g , w e u s e d a tr a n sf e r le ar n i ng mo d e l w it h k = 8 f or ou r e x pe r i me n t s. As i t ca n b e se e n i n F ig u r e 6 , f o r a m o d el w i th k = 8 t ha t w as t r a in e d f or 25 ho u r s, th e L ER u si n g 10 0 h ou r s of au di o is a lm o s t eq ua l t o u si n g th e co m p le t e tr a in i n g da t a. L on g e r t r ai n i ng ca us e s o ve r f i tt i n g. W he n u s in g j u st 2 0 ho u rs of t ra i n in g d at a t hi s p ro b l em oc c ur s e v en e ar l i er . W e ca n co nc l u d e th a t e v e n th o u g h tr a i ni n g f or ju s t 2 5 ho ur s wo r k s w e l l w i t h o n l y 1 0 0 h o ur s of a ud i o , b e y o nd th a t ov er f it t i ng ap p e ar s ne v er t h el e s s. 0 10 20 30 40 50 Training time in hours 0.30 0.35 0.40 0.45 0.50 0.55 Letter Error Rate All data: 383h 100h 20h F ig u r e 6 : L ER a s a me a n o ve r al l t e s t s a m pl e s fo r d i f - f er e n t t r ai n i ng se t si z es wi t h k = 8 f o r a l l e x p e ri m e nt s 6 .5 M od e l In tr os p ec t i on W he n ap p ly i n g tr a n sf e r le a rn i n g, i t i s of in t e re s t h o w mu c h t h e m o d el ne e d s t o be ad a pt e d an d wh ic h p or t i on s of th e mo d el ar e sh a r ed be tw e e n di f f er e n t l an g u ag e s . T o g e t in s ig h t s i n to th os e di f f er e n ce s , we c om p a re d th e le a rn e d pa r am e t er s bo t h b et w e e n t he E ng l i sh mo d e l a n d ad ap t e d G e rm a n m o d el (f o r k = 0 ) a s we l l as be t w ee n d if f e re n t po i n ts i n ti m e du r in g t ra i n in g . Si nc e th e ou t p ut la y er s of b ot h mo d e ls d o no t u se th e sa m e n u m be r of ou t pu t fe a tu r e s , w e e xc l u de d t hi s la y er fr o m t h e c o mp a r is o n . F ir s t , w e in v e s ti g a t ed t he d is t r ib ut i on of we i g ht s an d co r r es p o nd i n g ch an g e s b et w e en th e En g l is h an d ad ap t e d mo d e l , vi s ua l i ze d on t he l ef t si d e of Fi g ur e 7 . Th e pl o t sh o w s th e fr a ct i o n 6 -7 -1 -3 -5 F ig u r e 7 : W ei g ht di s t ri b ut io n s of th e G e rm a n an d E n g li s h m o d el (l e f t) an d we i gh t di f fe r e n ce di s t ri b ut io n s bo th i n a n e a r ly st a g e a n d f o r t h e f i na l mo d el ( ri g h t) . o f we i gh t s in a l ay e r ly i n g in t h e re s pe c t i v e ra ng e o f v al u e s. Be ca u s e m o s t o f th e we ig h t s a r e b e tw e e n - 0. 2 an d 0. 2 (i n ju s t 2 bi n s) , w e u s ed a lo g 10 - sc a l e f or th e fr a c ti o n of we i g ht s in ea c h bi n . W e o b s er v e d t ha t th e w ei g h ts of hi g he s t a b so l u te v a lu e s a r e in t he i np u t an d to p mo s t la y er . T hi s in d i ca t e s th at t he t ra n s fo r m at i o ns i n t h e mi d dl e la y er s ar e sm a ll e r th an i n t h e ou te r on e s . Mo r e o v e r , t h e we ig h t s o f ea ch la y e r a re d is t r ib ut e d wi th a me a n v a lu e cl o s e to ze r o an d v e r y s m al l v a r ia n c e. D ue to th e s i m il a r di s tr i b u t io n s , i t i s re a so n a bl e to co m p ar e th e we i g ht s an d th e ir d if - f er e n ce s in th e fo ll o wi n g. Be t w ee n bo th mo d e ls , th e r e a re on ly mi n or ch a ng e s in th e we i g ht di st r i b u t io n s , w hi c h su pp o r t s t h e a s su m p ti o n th a t t r an s f er le ar n i ng i s p er f o r mi n g we ll b ec a u se th e En g l is h mo d e l i s a s ui t a bl e mo d el f or be i n g a d ap t e d t o Ge rm a n . S in c e th e a d a pt a t io n to Ge r m an i s n o t e x p l ai n a bl e b as e d on th e d i st r i b u t io n s , w e f u r th e r i n v e st i g a te d th e d if f e re n c es be tw e e n t he i nd i vi d ua l we i g ht s . Th e re f o re , w e d e t er m i ne d th e a b s ol u t e d i s ta n c e b e tw e e n w e i g ht s a s sh o wn in Fi gu r e 7 on th e ri gh t si de . I n t he pl o t, w e v i s ua l i ze th e d i st r i b u t io n o f w e i gh t c h a ng e s . W e o bs e r v e d o n ly sm a l l c h a ng e s , t h er e f or e a l o g 10 - sc a l e i s us e d ag a i n. Fi g u re 7 o n th e ri g h t si d e sh o ws t hi s a na l y si s f or th e tr a n sf e r le a r ni n g mo d e l ea r ly in t ra i n in g as we l l as th e fi na l mo d e l a f te r fo u r d a y s. In t he ea r l y ph as e , we i gh t s ha d on l y b e en ad ap t e d l i t tl e w it h a m ax i m um di f f er e n ce o f 0 .1 , w hi l e th e f i na l m od e l we ig h t s ch an g e d u p to 0. 3 6. Ad d i ti o n a ll y , w e o bs e r v e d t h a t t h e we i gh t s ch a ng e d mo r e in th e mi d dl e a nd t op l ay e r s ea rl i e r , b u t wi th p r og r e ss i n g tr ai n i ng t he in pu t l ay e r e xp e r ie n c es mo r e c h a ng e s . T hi s hi g h er v a r i ab i l it y in th e ou te r la ye r s ca n b ot h be ob s er v e d i n t h e w e ig h t s o f ea c h i n di vi d u al mo d e l a s we l l a s in t he i r di ff e r en c e s . T ha t is an in d i ca t i on th a t th e m o d el n ee d s t o al t e r t he ou t er la y er s mo r e th a n t he in n e r o ne s in or d er to a da p t t o a p a r ti c u la r la n gu a g e. F in a l ly , we lo o k ed in t o th e ch a n ge s of in di vi d u a l fi l - t er s . Du e t o th e l a r g e n u mb e r of ne ur o n s , w e pr o v i de t he co m p le t e se t o f fi l te r s f r o m a l l la y er s on l y i n th e s up p l em e n t. 2 W e p r e se n t o u r f i n di n g s f o r a se l ec t e d s et of n eu r o ns o f t he i np u t la y er t ha t sh o we d w e ll - i nt e r pr e t ab l e pa t te r n s. Th e we i gh t s of th o se fi l t er s an d t he i r d if f e re n c es be t we e n t he En g li s h a nd Ge r ma n m od e l a r e s h o w n in Fi gu r e 8 . Th e t o p r o w s h o w s ne u - r on s th a t c a n b e in t er p r et e d as de t ec t o r s f o r s h or t pe r - c us s i v e so un d s (e . g. t or k) an d th e en d of hi g h pi t c he d n oi s e ( e .g . s) . Th e b o tt o m n e u ro n s m i gh t de t ec t ri s in g o r f a l li n g p i t ch in v o w e l s. Of th es e fo u r f i l te r s , t h e u p - p er l ef t di f f er s mo s t be t w ee n En g l is h an d Ge r m an w it h a ma xi m u m d i f fe r e nc e of 0. 1 5 . T hi s su p po r t s t h a t i t is d et e c ti n g pe rc u s s i v e so u n ds as Ge r m an l an g u ag e ha s c on s i de r a bl y st r on g e r p r o n un c i at i o n o f co r re s p on d i n g l et t e rs t h an E n gl i s h. On t he o t he r h an d , th e bo t to m r o w fi l te r s e xp e r ie n c ed l es s ch a ng e (b o t h < 0 . 1 m ax - i mu m d i f fe r e nc e ) . T hi s s u p po r t s t h em be i n g r e la t e d t o v o c al d e te c t io n s i n ce t h er e a r e f e w d i f fe r e nc e s i n p ro n u nc i a ti o n be tw e e n E n gl i s h a n d Ge rm a n sp ea k e r s . 6 .6 O v er a l l t e st se t ac c u ra c y A ll te s t se t L ER s an d W ER s sc o r es ar e c on s i st e n t wi t h t he di f f er e n c es of l os s in th e pe r fo r m e d e x p e ri m e nt s . A ft e r 10 3 h o ur s of tr a i ni n g , t h e b e s t t r a n sf e r l e a rn i n g m od e l i s th er e f o re k = 0 w it h a L ER o f 1 5 . 0 5 % a nd W ER o f 4 2 . 4 9 % a s th e me a n o v e r al l t es t s am p l es . 2 su p pl e me nt s : ht t ps : // do i .o r g /1 0 .6 08 4 /m 9 .f ig s ha r e. 50 4 89 6 5 7 0.0 0.2 0.1 0.15 0.05 weight di ff er ence -2.4 1.2 0 0.6 -1.2 weight -1.8 -0.6 F ig u r e 8: D if f e re n c es i n s pe c i fi c f il t e r s of t he i n pu t l ay e r . N eu r o ns we r e ch o se n ba s e d on p ar t i cu l a r p at t e rn s . Ea c h tr i p le t o f im a g es sh o w s t he we ig h t d if f e re n c es a nd t he co r r e sp o n di n g we i gh t s in th e G er m a n a n d E n gl i s h m o de l (f r om l ef t to ri g ht ) . T he mo d e l th at h as b ee n tr a i ne d fr o m sc ra t c h fo r t he s am e am o u nt o f t i me ac hi e v es a L ER o f 2 2 . 7 8 % a nd W ER o f 5 8 . 3 6 % . T ab l e 1 gi v es d et a i ls ab o u t t h e a cc u r ac y o n ea c h t e s t s e t . S om e v e r y h i g h W ER s a r e d u e t o h e a v y G e rm a n d ia l e ct th a t is pa r ti c u la r l y p r o bl e m at i c wi th n um b e rs , e .g . E xp e c te d : “s e ch s u nd n e un z i g” P re d i ct e d : “ se c h s u n nm e un s c he ” L ER 47 % , WE R 3 0 0% , lo s s : 4 3. 1 5 T hi s sh o w s , th a t th er e is bo t h ro om fo r im p ro v e- m en t in te rm s of wo r d co mp o u n ds as we l l a s A SR o f d i ff e r en t di a le c t s w h er e da t a i s e v e n mo re sc a r ce . 6 .7 A cc u r ac y b oo s t th r o ug h la n g ua g e mo de l de c od i n g T he or i g in a l W a v2 L e tt e r ne tw or k di d no t re po r t on i mp r o v e m e nt s in L ER a nd W ER d ue to th e K e nL M i nt e g r a ti o n . I n T ab le 3 W e co mp a r ed de c od i n g p er f o rm e d th ro u g h K en L M s c or e d be a m s e a r ch wi t h a g r e ed y de c od i n g o n th e G e rm a n co r po r a . 6 .8 T ra n s fe r le a r n i ng fo r ot h er la n g u ag e s I n ou r sp e ec h r ec o g ni z e r , th e lo we r la y er s o f th e n et w o r k l ea r n ph on o l o gi c a l fe a t ur e s wh e re a s th e h ig h e r (d e ep e r ) on e s m ap th es e f e at u r es on t o L ER WE R w it h LM 1 5 .0 5 % 4 2. 4 9 % w it h o ut LM 16 . 77 % 56 . 14 % T a bl e 3: Co m pa r i ng L ER a nd W ER w it h an d wi th o u t K e n L M b a se d on mo d el w it h k = 0 g ra p h em e s . T hu s fo r A SR t he s e t w o ty pe s of fe a tu r e s c le a r ly ma t te r th e m os t . Ge rm a n an d En gl i s h h a v e m an y ph on e m es an d g ra p h em e s i n co m m on . T h e a pp a r en t s u cc e s s of ou r t ra n s fe r le ar n i ng ap p ro a c h w a s gr e at l y fa c il i t at e d by th e s e si m il a r it i e s. No t al l l an g u ag e s sh a re as m uc h in te r m s of th e se fe a t u re s . W e an ti c i pa t e th a t o u r a p pr o a ch wi l l be le s s e f fe c t i v e f or su c h pa i rs . Th i s m e an s we e x pe c t th e ad ap t a ti o n t o a le ss si m i la r la n gu a g e t o r eq u i re mo r e da ta an d t ra i n in g t im e . W e f ur t h e r su s pe c t th a t di f f er e n ce s i n gr a p he m e in v e nt o r ie s ca u se o th e r ef fe c t s th a n d if f e re n c es in ph o n em e s . Th i s is be ca u s e on l y th e m ap p i ng of ph o no l o gi c a l f e a tu r e s t o gr a ph e m es ha s t o b e ad ap t e d f o r a di f f er e n t o r th o g r ap h y . I n c o nt r a st , d if f e re n c es in ph o ne m e in v e n to r i es re qu i r e mo re c ha n g es i n fe at u r es le ar n e d at lo we r la y e rs o f t h e n et w o r k. Mo r e o v e r , t h e re c ou l d be di ff e r e nc e s i n th e i mp o r ta n c e o f sp e ci f i c fe at u r es . F or in st a n ce , ha vi n g v o we l s in co m m on is po t e n ti a l ly mo re im p or t a nt f or tr a n sf e r le a rn i n g th a n sh a ri n g ma n y co n so n a nt s , b ec a u se v o w e ls ex p e ri e n c e h i gh e r v ar i a bi l i ty in p r o - n un c i at i o n. At th e sa m e t i m e v e r y dr as t i c d i ff e r en c e s i n o rt h o gr a p h y co u l d pr o ba b l y t ri g g er a st r on g e r c ha n g e of we i gh t s i n lo we r ne t w o r k la y er s . W e ex p e ct o ur t r an s f er l e ar n i ng a p pr o a ch t o en c o un t e r st r on g d if f i cu l t ie s sh a ri n g kn o w l ed g e be tw e e n E n gl i s h a n d a l og o g ra p h ic la ng u a g e l i k e Ma n da r i n Ch i ne s e . D es p i te t ho s e di f fi c u lt i e s , us i ng w ei g h t s f r om a pr e -t r a i ne d A SR - ne t w o rk is a m o r e r e as o n a bl e in i ti a l iz a t io n th a n r an d o m w e ig h t s. Th is i s be ca u s e ve r y ba s ic au di o f ea t u re s ar e sh a re d be t we e n al l la ng u a ge s . Th er e f o re e v en fo r mo r e di f fe r e nt l a ng u a ge p ai r s , we e xp e c t t ra n s fe r le a rn i n g t o d ec r e a se th e ne c es s a ry am o u nt o f t r ai n i ng da t a an d t i me . 7 C on c l u s io n s W e we r e ab l e to sh o w th a t tr a n sf e r le a r ni n g us i ng m od e l ad ap t a ti o n ca n im pr o v e t h e s p e ed of le a r n in g w he n o nl y 3 83 ho u rs of t ra i n in g da ta ar e a v ai l ab l e . G i v e n an En g li s h m o d el , we tr a in e d a Ge r ma n mo d el t ha t ou t p er f o rm s th e Ge r ma n ba s e li n e mo d el t ra i n ed f ro m sc r at c h i n th e sa m e am o u nt of tr a i ni n g ti me . T hu s , wi t h li t tl e ti m e, ou r ap pr o a ch al l o w s tr a in i n g 8 b et t e r m o de l s . W e s h o w e d t h at th e E n gl i s h m o de l ’ s w ei g h ts a r e a go o d st a r ti n g c on f i gu r a ti o n a nd a l l o w t he tr a n sf e r le a rn i n g m o d el to re a c h sm al l e r t r a in i n g l os s e s in co m p a ri s o n to a w ei g h t re i n it i a li z a ti o n . W he n le ss GP U m e mo r y i s a v ai l ab l e , f re e z in g th e l o w e r 8 la y e rs al l o w s to tr a i n b a tc h e s of 64 wi t h l e ss t ha n 5. 5 GB in st e a d o f mo re th a n 10 . 4 G B wh i le s ti l l p er f o rm i n g s i mi l a r a f t er 25 h ou r s of tr a in i n g. Mo d e l i nt r o sp e c ti o n de te r m in e d th a t l o we r an d u p pe r la y er s , i n c o nt r a st to th e la ye r s in th e ce n te r , ne ed to ch a ng e m or e th o r ou g h ly in or d e r t o a da p t to th e ne w l an g u ag e . W e i d en t i fi e d s e ve r a l i n t er e s ti n g d i r ec t i on s fo r f u - t ur e w o rk . T es t ac c u ra c y sh o w e d th a t wo r d co m - p ou n d s c a n b e ch al l e ng i n g a n d d i a le c t s p o se di f f ic u l - t ie s wh e n li t tl e tr a i ni n g da t a is a v ai la b l e. G P U me m o r y c on s u mp t i on co u l d b e fu r th e r re du c e d b y ca c hi n g th e r ep r e se n t at i o n th at ne e d s o nl y fo r w ar d pr o pa g a t io n . A n o pe n so u rc e v er s i on of th e A SG l os s wo u l d e n- a bl e fa st e r t ra i n i ng . Fi n al l y , f u tu r e r es e a rc h sh ou l d i n ve s t ig a t e h o w w e ll t h is t r an s f e r le a r n in g a p p ro a c h g en e r al i z es by a pp l y in g it to mo r e d i st i n c t l a n g ua g e s. A ck n o w l e d gm e n t s T hi s re s e ar c h w as su p po r t ed by th e do n a t io n of a Ge F o r c e GT X T it a n X gr a ph i c s ca r d fr o m th e N VI D I A C o rp o r at i o n. R ef e r en c e s Ma r t ´ ın A ba d i, As hi s h Ag ar w a l , P a ul Ba r ha m , Eu ge n e Br e vd o, Zh i fe n g Ch e n, Cr a ig Ci t ro , Gr e g S. Co r ra d o, An d y D a vi s , Je f fr e y De an , Ma tt h ie u De v i n, Sa n ja y Gh e m a w at , Ia n Go o df e ll o w , An d re w Ha rp , Ge of f r e y Ir v i ng , Mic h a el Is a r d, Y an g qi n g Ji a, Ra f al J oz e fo wi cz , Lu k a sz Ka is e r , Ma nj u na t h K ud l ur , J os h Le ve n be r g , Da n M an ´ e, R aj a t Mo n ga , Sh e rr y M oo r e, D er e k Mu r ra y , Ch r i s Ol a h, M ik e Sc h us t er , Jo n at h o n Sh l en s , Be no i t St e i ne r , Il y a Su t sk e ve r , K u na l T al w a r , P au l T u ck er , V i nc e nt V an ho u ck e , V ij a y V as u de v an , F e rn a nd a V i ´ eg a s , Or i o l V in y a ls , Pe t e W ar de n , Ma r t in W at t e n- be r g , Ma r ti n W i c k e, Y ua n Y u, an d X ia o q ia n g Z he n g. 20 1 5 . T en s or F lo w: La r g e- s ca l e ma ch i n e l e ar n in g on he t e ro g en e ou s sy st e ms . ht t p :/ / te n so r f lo w .o r g /. Da r i o Am o d ei , Ri s hi t a A nu b ha i , Er ic Ba t te n be r g , Ca r l Ca s e , Ja r ed Ca sp e r , Br ya n Ca t a nz a ro , Ji ng d on g Ch e n , Mi k e Ch r za n o w sk i , Ad am Co a t es , Gr e g Di am o s, Er i c h El se n , Je ss e En g e l, Li n xi Fa n , Ch r i st o ph e r F o ug n er , T on y Ha n , A wn i Y . Ha nn u n, Bi ll y J un , P a tr i ck L eG r es l e y , L ib b y Li n , Sh a ra n Na r an g , An - dr e w Y . Ng , Sh e r ji l Oza i r , Ry an Pr e ng e r , Jo n at h a n Ra i m an , Sa n j ee v Sa th e es h , Da vi d Se e ta p u n, S hu b ho Se n g up t a, Y i W an g , Zh iq i an W an g , Ch on g W an g, Bo Xi a o, Da ni Y og at a m a, Ju n Z h a n, an d Z h e n ya o Zh u . 20 1 5 . De e p sp e e ch 2: E nd - t o- e nd sp ee c h re c og n i ti o n in en g li s h an d ma nd a ri n . Co R R ab s /1 5 12 . 0 25 9 5. ht t p :/ / ar x i v .o r g /a b s /1 5 12 . 02 5 9 5. Do n g pe n g Ch en a nd B ri a n Ka n- W in g Ma k. 2 01 5 . Mu l t it a sk le ar n i ng of d ee p n eu r al ne t w or k s fo r l o w - re s o ur c e s p ee c h r e co g ni t io n . IE EE / A C M T ra n s . A ud io , Sp e e c h & La ng u a g e Pr o ce s si n g 23 ( 7) : 11 7 2– 1 1 83 . ht t p :/ / dx . do i . or g / 10 . 1 10 9 /T AS L P .2 0 15 . 24 2 2 57 3 . Fr a n c ¸ o i s Ch ol l et . 20 1 5. K e r as . ht t p s: / /g i th u b .c om / fc h o ll e t/ k e ra s . Ro n a n Co l lo b er t , Ch r is t ia n Pu hr s ch , an d Ga b ri e l Sy n - na e ve . 2 0 16 . W a v 2l e t te r : an en d -t o - en d c o n vn et - ba s ed sp e e ch re c og n it i o n sy s te m . C oR R ab s/ 1 60 9 . 03 1 93 . ht t p :/ / ar x i v .o r g /a b s /1 6 09 . 03 1 9 3. Ch r i st o ph Dr ax l er an d Fl or i an Sc hi e l. 20 02 . T hr e e Ne w Co r p or a at th e Ba v ar i an Ar c hi ve fo r Sp e ec h Si g n al s – an d a Fi r st St e p T o w ar d s Di s tr i b u te d W eb - Ba s ed Re c o rd i ng . In Th i r d In t e rn a ti o na l Co nf e r e n c e on La n g ua g e Re s ou r ce s a nd Ev a lu a t io n (L RE C ) . Go n zl e s Ro d r ig u ez , Ma nu a l, pa g es 21 – 24 . Xa vi er Gl o ro t an d Y os h u a Be n gi o . 20 10 . Un de r st a n di n g th e di f f ic u lt y of t ra i ni n g de ep f ee d fo r w ar d ne u ra l ne t w o rk s . In Ai st a ts . vo l um e 9, pa ge s 24 9 – 25 6 . Al e x G ra ve s . 20 12 . S u pe r v is e d Se qu e nc e La b el l in g wi t h Re c ur r en t Ne u r al Ne tw o r ks , v o lu m e 38 5 of St u d ie s in Co mp u ta t io n al I n te l li g e n ce . Sp r i ng e r . ht t p :/ / dx . do i . or g / 10 . 1 00 7 /9 7 8- 3 - 64 2 -2 4 79 7 -2 . Al e x Gr a v e s, Sa n ti a g o Fe rn ´ an d e z, F au s ti n o Go m ez , an d J ¨ ur ge n Sc h mi d hu b er . 20 06 . Co nn e ct i on i st te mp o ra l cl a s si f ic a ti o n : l ab e l li n g un s e gm e nt e d se q u en c e da t a wi t h re cu r re n t n eu r al ne t wo r k s. In Pr oc e ed i ng s of th e 23 r d i nt e rn a ti o na l co n fe r en c e on Ma c h in e le ar n i ng . A CM , pa g es 36 9 –3 7 6. Fr a n ti s ek Gr e zl an d Pe t r F o us e k. 20 0 8. Op ti m iz i ng bo t t le - ne c k fe at u re s fo r lv c sr . I n In t er n a ti o na l Co nf e r en ce on Ac o us t i cs , S pe e c h an d S ig n al Pr oc e s si n g ( IC A SS P ) . IE E E , p a g es 47 29 – 4 73 2 . K e n ne t h He a fi e ld , Iv an Po u z yr e v s k y , Jo n at h an H. Cl ar k , an d P hi l ip p K oe hn . 20 1 3. S ca l ab l e mo d if i ed Kn es e r - Ne y la n g ua g e m od e l e s ti m at i o n. In Pr oc e ed i ng s of th e 51 s t An n u al Me et i ng of th e As s oc i at i on fo r Co m pu t a - ti o n al Li n gu i st i cs . So fi a , Bu l ga r i a, pa ge s 69 0– 6 96 . Ge o r g He i go l d, V in c en t V an ho u c k e, Al an S en i or , Pa t ri c k Ng u y en , M . Ra n z at o , Ma t th i eu De v i n, an d Je ff r e y De a n . 2 01 3 . M ul t il i ng u al a co u st i c mo de l s u si n g di s t ri b u t ed de e p ne ur a l ne tw o r ks . In In te r na t io n al Co n- fe r en c e o n A co u st i c s, Sp ee c h an d Si gn a l P r oc es s i ng (I C A SS P ) . IE E E, pa g es 86 19 – 8 62 3 . Di e d er i k P . Ki ng m a an d J im m y Ba . 2 01 4 . A da m : A m e th o d f o r s to c h as t ic op ti m iz a t io n . C o RR ab s / 14 1 2. 6 98 0 . ht t p: / /a r xi v .o r g / ab s /1 4 12 . 6 98 0 . Ka t e Kn i l l, Ma r k J. F . Ga le s , A nt o n Ra g ni , an d Sh a k ti P . Ra th . 20 14 . L a ng u a ge in d ep e nd e nt an d un s u pe r vi s ed a co u st i c mo de l s f or s pe e ch r ec o g- ni t i on an d k e yw o r d sp ot t in g . I n 1 5t h An n ua l Co n f er en c e of th e I nt e rn a ti o na l S pe e c h (I NT E R - SP E E CH ) C om m un i ca t io n A ss o c ia t io n , S in g a po r e, Se p t em b er 14 - 1 8, 20 1 4 . pa g e s 1 6– 2 0. ht t p: / / ww w .i sc a - sp e e ch . or g/ ar c hi v e/ i nt e rs p ee c h 20 14 / i 14 00 1 6. h t ml . 9 An d r e w L Ma a s, A wn i Y Ha n nu n , a nd An d re w Y N g. 20 1 3 . Re c t if i er no n li n ea r it i e s im p r o v e ne ur a l n et w o rk ac o u st i c mo d el s . In Pr oc . IC M L . v o lu m e 3 0 . Br i a n Mc Fe e , Co l in Ra ff e l, Da we n Li an g , Da n ie l P .W . El l i s, Ma tt Mc V ic ar , Er i c B at t en b er g, an d Or i ol Ni e to . 20 1 5 . li b ro s a: Au di o a nd M us i c Si g na l A na l ys i s in Py t h on . In Pr oc e ed i ng s of th e 14 th py th o n in sc ie n c e co n f er en c e . pa g es 18 – 25 . V as s il P a na y ot o v , Gu og u o Ch en , D an i el Po ve y , an d Sa n j ee v Kh u da n pu r . 20 15 . Li br i Sp e ec h : an AS R co r p us ba s ed on pu b li c do m ai n au di o bo ok s . I n In t e rn a ti o na l Co n fe r en ce on Ac ou s ti c s , Sp ee c h an d Si g n al Pr oc e s si n g (I C AS S P) . IE EE , pa g e s 5 2 0 6– 5 21 0 . St e p ha n R ad e ck - Ar n et h , Be n ja m in Mi ld e , Ar v id L an g e , Ev an d ro Go uv ˆ ea , St e fa n Ra do m sk i , Ma x M ¨ uh l h ¨ au s e r , an d Ch r i s Bi em a nn . 20 1 5. O pe n so u rc e ge r ma n di s t an t sp e e ch r e co g ni t i on : Co rp u s an d a c ou s ti c m od e l. In I n- te r n at i on a l Co n fe r en c e on T e xt , Sp e ec h, an d Di a l o gu e . Sp r i ng e r In t er n at i on a l Pu b l is h in g , pa g es 48 0 –4 8 8. Uw e D. Re i ch e l, Fl o ri a n Sc hi e l, Th o ma s Ki sl e r , Ch ri s to p h Dr a x le r , an d Ni na P ¨ or n e r . 20 1 6. Th e B A S S pe e ch Da t a Re p o si t or y . Fl o r ia n Sc hi e l . 19 9 8. Sp ee c h an d sp e ec h -r e l at e d re s o ur c es at B A S. In Pr oc ee d in g s of t he F i r st In te r n at i on a l Co n f er en c e on La ng u a g e Re so u r c e s an d E va l ua t io n . pa g e s 3 4 3 –3 4 9. Fl o r ia n S ch i el , Ch ri s t ia n H ei n ri c h, an d Sa bi n e Ba r f ¨ us s e r . 20 1 2 . Al c oh o l la n gu a ge co rp u s : th e f i r st pu bl i c c o rp u s of al c oh o l iz e d Ge r ma n sp ee c h . La ng u a g e r e s ou r ce s an d ev a l ua t io n 46 (3 ) :5 0 3– 5 21 . St ´ ef a n v an d er W al t, S. C hr i s C ol b er t , an d G a ¨ el V ar o - qu a u x. 20 11 . Th e nu mp y ar ra y : a st ru c tu r e fo r ef f i ci e nt nu m er i ca l co mp u ta t i on . Co RR ab s /1 1 02 . 15 2 3 . ht t p :/ / ar x i v .o r g /a b s /1 1 02 . 15 2 3 . Ng o c T ha n g V u a nd T an ja Sc h ul t z. 20 1 3. Mu l ti l i ng u al mu l t il a ye r pe r ce p tr o n fo r ra p id l an g ua g e ad ap t at i o n be t w ee n an d ac ro s s la ng u a ge fa m i li e s. I n Fr ´ ed ´ er i c Bi m b ot , C hr i st o ph e Ce ri s ar a , C ´ ec i l e F ou g er o n , Gu i l- la u m e Gr a v ie r , Lo r i La m el , Fr an c ¸oi s Pe ll e g r in o , a nd P a sc a l P er r i er , ed it o rs , IN T ER S PE E CH . IS CA , pa g es 51 5 – 51 9 . W ol f g an g W a hl s te r . 19 93 . V er bm o bi l . In Gr un d l a ge n un d An w e nd u ng e n d er K ¨ un s t li c h en In t el l ig e n z . Sp ri n g er Be r l in He i de l be r g , pa g e s 3 9 3– 4 0 2. Do n g W an g an d Th om a s Fa n g Zh e ng . 20 15 . T r an s - fe r Le a rn i ng fo r Sp e ec h an d La n gu a g e Pr o ce s si n g . ar X i v: 1 51 1 .0 6 0 66 [c s] ht t p: / /a r x i v .o r g /a b s/ 1 51 1 . 06 0 66 . 1 0
Original Paper
Loading high-quality paper...
Comments & Academic Discussion
Loading comments...
Leave a Comment