Pagsusuri ng RNN-based Transfer Learning Technique sa Low-Resource Language

10/13/2020 ∙ by Dan John Velasco, et al. ∙ 0

Low-resource languages such as Filipino suffer from data scarcity which makes it challenging to develop NLP applications for Filipino language. The use of Transfer Learning (TL) techniques alleviates this problem in low-resource setting. In recent years, transformer-based models are proven to be effective in low-resource tasks but faces challenges in accessibility due to its high compute and memory requirements. For this reason, there's a need for a cheaper but effective alternative. This paper has three contributions. First, release a pre-trained AWD-LSTM language model for Filipino language. Second, benchmark AWD-LSTM in the Hate Speech classification task and show that it performs on par with transformer-based models. Third, analyze the the performance of AWD-LSTM in low-resource setting using degradation test and compare it with transformer-based models. —– Ang mga low-resource languages tulad ng Filipino ay gipit sa accessible na datos kaya't mahirap gumawa ng mga applications sa wikang ito. Ang mga Transfer Learning (TL) techniques ay malaking tulong para sa low-resource setting o mga pagkakataong gipit sa datos. Sa mga nagdaang taon, nanaig ang mga transformer-based TL techniques pagdating sa low-resource tasks ngunit ito ay mataas na compute and memory requirements kaya nangangailangan ng mas mura pero epektibong alternatibo. Ang papel na ito ay may tatlong kontribusyon. Una, maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP applications sa wikang Filipino. Pangalawa, mag benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang nitong makipagsabayan sa mga transformer-based models. Pangatlo, suriin ang performance ng AWD-LSTM sa low-resource setting gamit ang degradation test at ikumpara ito sa mga transformer-based models.

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 3

Code Repositories

Filipino-ULMFiT

Pre-trained AWD LSTM language model trained on Filipino text corpus using fastai v2. Instructions included.


view repo
This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 Introduksyon

Sa mga nagdaang taon, mabilis ang pag-unlad ng Natural Language Processing (NLP) dahil sa kasaganahan ng data dulot ng adopsyon ng internet sa buong mundo at sa pagiging accessible ng mas murang computing power. Nagkaron ng pag-unlad sa mga aplikasyon ng NLP tulad ng Machine Translation, Text Categorization, Text Classification, at iba pa.

Karamihan sa mga tagumpay ng NLP ay para sa mga mainstream na wika tulad ng Ingles at iba pang wika na merong accessible na malalaking text corpora at annotated texts. Ang mga wikang wala o limitado ang access sa malaking text corpora o annotated texts ay tinatawag na low-resource languages.

Ang pangangailangan ng malalaking text corpora o datasets para mapakinabangan ang mga benepisyo ng NLP ay isang balakid na pumipigil o nagpapabagal ng adopsyon ng teknolohiya sa mga low-resource languages. Sa papel na ito, pagtutuunan ng pansin ang paggamit ng Transfer Learning (TL) upang malagpasan ang balakid ng low-resource language tulad ng wikang Filipino.

Sa mga nakaraang taon, nanaig ang mga transformer-based transfer learning techniques pagdating sa pagiging epektibo sa mga iba’t ibang aplikasyon ng NLP sa low-resource languages tulad ng Fake News Detection in Filipino [Cruz et al.2019]

, Named Entity Recognition in Vietnamese

[Nguyen and Nguyen2020], at iba pa,

Bagamat ang Transformer models ay napatunayang epektibo sa iba’t ibang aplikasyon ng NLP, ito ay hindi ganoon ka-accessible sa kasalukuyang panahon dahil mataas ang kailangang compute power at memory upang ma-train ito. Habang ang RNN-based models naman kagaya ng AWD LSTM ay mas higit na accessible o mura i-train kumpara sa Transformer models. Ang accessibility ng AWD LSTM ay mahalaga para mapalawak ang adopsyon ng NLP sa Pilipinas at mas mapakinabangan ng nakararami ang benepisyo nito.

Ang papel na ito ay may tatlong kontribusyon: 1) Maglabas ng pre-trained AWD LSTM language model (LM) sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP applications sa wikang Filipino111https://github.com/danjohnvelasco/Filipino-ULMFiT. 2) Mag benchmark ng AWD LSTM sa Hate Speech classification task at ipakita na kayang makipagsabayan nito sa mga transformer-based models. 3) Pangatlo, suriin ang degradation rate ng AWD-LSTM sa mas maliit na data gamit ang degradation test at ikumpara ito sa mga transformer-based models.

2 Background

2.1 Natural Language Processing

Ang Natural Language Processing (NLP) ay isang subfield ng linguistics, computer science, at artificial intelligence na nauukol sa pag proseso at pag-unawa ng natural na wika

[Natural language processingn.d.]

. Ang ilan sa mga aplikasyon ng NLP ay ang email spam filters (Text Classification), pag-unawa ng nais sabihin tulad ng mga smart assistants (Language Understanding), pagsasalin ng isang wika sa iba pang wika (Machine Translation), mag predict ng susunod na salita base sa mga naunang salita (Language modelling), at marami pang iba. Dahil sa kaunlaran sa kasaganahan sa datos at pagiging accessible ng malakas na compute power, nabuhay muli ang machine learning approach. Sa maikling salita, ang machine learning approach ay gumagamit ng malaking datos na ginagamit ng isang computer algorithm upang matutunan ang mga patterns ng datos na ito. Dahil dito, naging epektibo siyang approach sa mga komplikadong problema tulad ng wika dahil hindi na kailangan direktang i-program ang mga rules para malutas ang isang problema.

2.2 Transfer Learning

Notorious ang machine learning approach sa pangangailangan nito ng sobrang laking datos para mapakinabangan. Ang Transfer Learning (TL) ay isang area ng research na concerned sa problemang ito [Transfer learningn.d.]. Sa maikling salita, ang TL ay ang pag retain o pagpapanatili ng mga natutunan ng isang model sa isang gawain at paggamit o ”transfer” ng mga natutunan nito sa iba pero may kaugnayan na gawain. Halimbawa, ang mga natutunan ng isang model sa pagkilala ng muka ng tao ay maaring gamitin bilang tuntungan para sa pag-aaral ng model na matutunan kung ang muka ng tao ay galit, masaya, at iba pang facial expressions [Li et al.2019].

3 Metodolohiya

Ang metodolohiya ay ang mga sumusunod 1) Mag train ng model gamit ang ULMFiT [Howard and Ruder2018] bilang RNN-based transer learning method. 2) Sukatin ang kahusayan ng model sa Text Classification ng hatespeech gamit ang Hate Speech Dataset [Cabasag et al.2019] at ang degradation test [Cruz and Cheng2020]. Makikita ang kabuuang proseso ng ULMFiT sa Figure 5.

Ang API na ginamit sa papel na ito ay fastai v2.0.13222https://pypi.org/project/fastai/2.0.13/. Kapag hindi binanggit ang isang partikular na configuration sa model, ibig sabihin ang default setting lang ang ginamit. Para mas mapabilis ang training, gumamit ng mixed precision training [Micikevicius et al.2017]. Ang GPU na ginamit sa training ay Tesla T4. Sa buong proseso ng model training, ginamit learning rate schedule na 1cycle policy [Smith and Topin2017]. Ang buong code ay available sa public repository333https://github.com/danjohnvelasco/Filipino-ULMFiT.

Figure 1: ULMFiT Approach Summary. Adapted from fastai documentation555https://docs.fast.ai/tutorial.text. Modified to match the dataset used in this paper.

3.1 ULMFiT

Ang ULMFiT o Universal Language Model Fine-tuning [Howard and Ruder2018]

ay isang epektibong transfer learning technique na gumagamit ng language model na natuto sa malaking unlabeled text corpora at gagamitin ito bilang tuntungan sa iba pang gawain. Napatunayan na epektibo ang approach na ito kahit na maliit lang ang target text corpus o datos na gagamitin para sa partikular na gawain. Ang technique na ito ay may tatlong hakbang: 1) LM Pretraining Phase o pag pretrain ng AWD LSTM language model sa isang malaking unlabeled text corpus. 2) LM Fine-tuning Phase o ang paggamit ng pre-trained LM bilang tuntungan at sanayin o i-train pa ng husto ang model sa target text corpus. 3) Text Classifier Fine-tuning Phase o ang pagsanay ng LM fine-tuned model sa text classification task.

3.1.1 Language Model Pre-training

Gumagamit ito ng AWD LSTM [Merity et al.2017]

at sasanayin ito sa language modelling task na kung saan base sa isang pagkasunod sunod na mga salita, magbibigay ka ng prediksyon kung anong salita ang may pinakamataas na probability na kasunod nito. Sa LM pre-training phase, kailangan ng isang malaking unlabeled text corpora upang matutunan ng model ang mga patterns sa wikang ginagamit sa text corpora. Ang ideal na text corpora ay dapat malaki, diverse, at nacacapture ang mga general properties ng wika. Ang ginamit na training data ay ang WikiText-TL-39

[Cruz and Cheng2019] na mula sa mga artikulo sa Tagalog Wikipedia 666https://tl.wikipedia.org/wiki/Unang_Pahina. Pinagisa ang ang train, valid, and test set at randomly na kinuha ang 10% ng data bilang validation set at ang natirang 90% ay ginamit bilang training set. Ang text data ay dumaan sa preprocessing777Para sa partikular na preprocessing rules, bisitahin ang https://docs.fast.ai/text.core#Preprocessing-rules

bago gamitin sa training. Kinukuha lamang dito ang 60,000 na salita na pinaka madalas makita sa datos. Ang model ay sinanay ng 20 epochs na may learning rate na 1e-2, batch size na 128, at dropout multiplier na 0.5. Ang buong proseso ng training ay tumagal ng 26 hours.

3.1.2 Language Model Fine-tuning

Gamit ang pre-trained model mula sa unang phase, mas sasanayin pa ang model sa target text corpus nito upang maka adapt ang model sa wika at kung ano mang patterns at vocabulary ang meron ito. Ang target text corpus na ginamit ay ang Hate Speech Dataset [Cabasag et al.2019]. Ang dataset ay hinati sa train, validation, at test set. Sa pag fine-tune ng model, sinanay muna yung last layer ng model for 1 epoch na may learning rate na 4e-2. Pagkatapos nito, ang lahat naman ng layers ng model ay sasanayin for 7 epochs na may learning rate na 4e-3.

3.1.3 Text Classifier Fine-tuning

Gamit ang fine-tuned LM mula sa pangalawang phase, nag append ng karagdagang layers para sa text classification task [Howard and Ruder2018]. Ang model sinanay sa target text corpus na Hate Speech dataset. Dito, kasama na ang labels sa text (0 = not hate, 1 = hate). Ang dropout multiplier ay 0.3, weight decay ay 0.1, at momentum ay (0.8,0.7,0.6). Ginamit ang fine-tuning techniques na gradual unfreezing at discriminative learning rates [Howard and Ruder2018]. Makikita sa Table 1 ang buong proseso ng fine-tuning.

Table 1:

Set ng hyperparameters na ginamit sa fine-tuning na may gradual unfreezing and discriminative learning rates. Ang lr ay learning rate at lr = 5e-2.

3.2 Degradation Test

Ang degradation test [Cruz and Cheng2020] ay isang paraan ng pagsukat ng resillience ng model sa performance degradation kapag binawasan ang training samples. Ang performance degradation ay nirereport bilang percentage drop ng metric ng isang task. Ito ay:

na kung saan ang full ay ang performance sa kapag nag train sa buong training set at reduced ay ang performance kapag nag train sa reduced training set.

Ang model na may mabagal na degradation ay mas epektibo sa low-resource setting. Gamit ang Hate Speech dataset, hahatiin sa tatlong setup. Sa unang setup, gagamitin ang buong training set o 10k samples. Sa pangalawang setup ay 5k training samples nalang at ang panghuli ay may 1k training samples. Ang buong proseso ng training sa bawat setup ay kapareho lang ng nabanggit sa Section 3. Limang beses itong uulitin sa bawat setup at kukunin ang average test loss at accuracy nito sa bawat setup. Makikita sa Table 2 ang resulta ng degradation test.

Table 2: Degradation Test results sa Hate Speech Dataset
Table 3: Halimbawa ng mga top losses ng model.

4 Resulta at Diskusyon

4.1 Resulta ng Fine-tuning

Matapos ang fine-tuning sa Hate Speech dataset, ang AWD LSTM ay naka score ng 76.84% accuracy sa test set ng Hate Speech dataset. Ito ay lamang ng 2.08% sa best model sa baseline [Cruz and Cheng2020] ngunit marginal improvement lamang ito.

4.2 Resulta ng Degradation Test

Ang AWD LSTM ay may nagkaron ng performance drop sa accuracy na 4.01% sa 5k split na may degradation na 5.26%. At sa 1k split naman, sobrang laki ng binaba nito sa performance na nabawasan ng 8.6% at may degradation na 11.28%.

Mula sa mga resultang ito, makikita na mas epektibo lang ng kaunti ang AWD LSTM sa Hate Speech classification task kumpara sa BERT models kapag ginamit ang 10k training samples. Ngunit ang AWD LSTM ay mas mababa ang performance pagdating sa mga pagkakataon na maliit lang ang datos tulad ng sa 5k at 1k training samples. Ang initial baseline ng BERT [Cruz and Cheng2020] ay may degradation na 3.28% on average sa 5k split. Ang worst model sa baseline o ang pinakamabilis ang degradation ay ang DistilBERT [Sanh et al.2019] ay may degradation na 4.34% sa 5k split. Samantala ang AWD LSTM naman ay may 5.26% na degradation sa 5k split. Makikita dito na mas epektibo ang Transformer models kagaya ng BERT at DistilBERT pagdating sa mga low-resource tasks.

Hindi ito nakakagulat dahil ang Transformer models ay nakadisenyo talaga para makakuha ng mas malalim na patterns mula sa data. Ang advantage lang ng AWD LSTM ay mas mabilis itong i-train lalo na kapag from scratch gagawin ang pre-trained language model at kaya itong gawin sa isang GPU lang hindi kagaya ng Transformers na kailangan mo gumamit ng TPU.

4.3 Weak Points ng Model

Makikita sa Table 3 ang halimbawa ng mga kaso ng top losses o ang mga prediksyon ng model na may mataas na confidence level pero mali pala. Sa Case 1, Ang paraan ng pagsusulat na gumagamit ng ”Me: ¡insert message here” ay high-context kung saan ang kahulugan nito ay nakadepende sa context ng paguusap at hindi sa literal na kahulugan ng mga salitang ginamit. Isa pang maaring dahilan ay ang paggamit ng *facepalm* o mga expression na hindi ganoon kadalas gamitin. Dahil hindi ito madalas gamitin, ibig sabihin hindi ito madalas makita sa dataset. Hindi matututunan ng model ang patterns sa mga salitang hindi masyadong lumalabas sa dataset.

Sa Case 2, ang salitang ”disappointing” ang may pinaka malaking impluwensiya sa prediction ng model. Ang hinala ay dahil bihirang salita lang ito sa dataset at ang kadalasang negatibong paggamit ng salitang ito sa mga negatibong paraan ang natutunan ng model. Napatunayan ang hinala dahil meron lang tatlo na occurences sa training set ang salitang ”disappointing” at tatlo dito ang naka label as ”hate”. Kaya mataas ang association ng salitang ”disappointing” sa label na ”hate”.

Sa pangkalahatan, mahina ang performance ng model kapag ang mga salitang ginamit ay hindi common. Para matugunan ang problema na ito, kinakailangan ng mas malaki at mas diverse na dataset. Dahil kapag mas malaki at mas representative ng real world ang dataset, mataas ang chance na mas maganda o mas representative na patterns ang matututunan ng model.

5 Kongklusyon

Kahit na mas malalim ang patterns na kayang makuha ng Transformers, kaya parin makipagsabayan ng AWD LSTM sa simpleng text classification task ngunit ang performance nito ay naghihingalo kapag ang training data ay maliit. Nananaig padin ang Transformer-based models kagaya ng BERT pagdating sa low-resource tasks. Nirerekomenda namin na gumamit ng Transformer-based models kapag merong available na pretrained model sa iyong target na wika. At kapag from scratch mo gagawin ang pre-trained language model, mas mainam na gumamit ng AWD LSTM dahil higit na mas mabilis ang pre-training step nito kumpara sa Transformers at mas mababa ang hardware requirements. Kung nais mong gumawa ng aplikasyon na kailangan gamitan ng NLP, nirerekomenda namin na magsimula muna sa mas murang option na AWD LSTM at tignan kung sapat na ang performance nito para magawa ang isang task. Kapag hindi pa sapat ang performance nito, saka lamang subukan ang Transformers.

References