AUTOMATISERT KLASSIFIKASJON AV NORSKE MÅLFORMER VHA. DATAUTVINNING AV UANNOTERT TEKST

Authors

  • Fartein Thorsen ØVERLAND Babeș-Bolyai University Cluj-Napoca, Romania. E-mail: farthegn@gmail.com

DOI:

https://doi.org/10.24193/subbphilo.2020.3.08

Keywords:

Language Variation, Text mining, Orange Data Mining, Text Clustering, Text Classification, Bag-of-Words, Logistic Regression, Predictive Model, Norwegian Language, Nynorsk, Bokmål.

Abstract

Automated classification of Variants of Norwegian by Means of Text Mining of Unannotated Text. This article presents a model for automatically classifying different variants of modern Norwegian Language (bokmål and nynorsk ranging from 1930 to 2011) by means of data mining unannotated text. The model is built in the Orange visual programming interface, and is based on a modification of an example model presented by the project which had the original purpose of semantical classification of fairy tale types in the Aarne-Thompson-Uther Index. The core modules of the model are Bag-of-Words and Logistic Regression. The model is trained with four different translations of the Gospel of John, and cross validated with various random texts. The model is proven to be very sound for classification of Norwegian language variation, and yields correct classification in 100% of the realistic tests.

REZUMAT. Clasificare automatizată a diferitelor variante de norvegiană utilizând extragerea digitalizată a textelor neanotate. Acest articol prezintă un model pentru clasificarea automată a diferitelor variante ale limbii norvegiene moderne (bokmål și nynorsk, între 1930 și 2011) cu ajutorul extragerii automatizate a textului neanotat. Modelul este construit în interfața de programare vizuală Orange și se bazează pe modificarea unui model-exemplu prezentat de proiect, care a avut ca scop inițial clasificarea semantică a tipurilor de povești din indexul Aarne-Thompson-Uther. Modulele de bază ale modelului sunt Bag-of-Words și Regresie logistică. Modelul este axat pe patru traduceri diferite ale Evangheliei lui Ioan și este validat de alegerea aleatorie a fragmentelor. Modelul s-a dovedit a fi foarte solid pentru clasificarea variației limbii norvegiene și obține o clasificare corectă în 100% din testări.

Cuvinte cheie: variația limbii, extragerea digitalizată, interfața de programare Orange, clasificarea textelor, Bag-of-Words, regresie logistică, model predictibil, limbă norvegiană, nynorsk, bokmål

Author Biography

Fartein Thorsen ØVERLAND, Babeș-Bolyai University Cluj-Napoca, Romania. E-mail: farthegn@gmail.com

Visiting Norwegian Lecturer at the Babeș-Bolyai University, Department of Scandinavian Languages and Literatures; has published articles on corpus linguistics, Old Norse language, skaldic poetry and deep learning. E-mail: farthegn@gmail.com

References

Primærkjelder

Bibel, bokmål 2011 (N11BM). Bibelselskapets omsetjing. Henta frå www.bibel.no/Nettbibelen (Sett den 29. juni 2020)

Bibel, nynorsk 2011 (N11NN). Bibelselskapets omsetjing. Henta frå www.bibel.no/Nettbibelen (Sett den 29. juni 2020)

Bibel, bokmål 1930 (N1930BM). Bibelselskapets omsetjing. Henta frå www.bibel.no/Nettbibelen (Sett den 29. juni 2020)

Bibel, nynorsk 1938 (N38NN). Bibelselskapets omsetjing. Henta frå www.bibel.no/Nettbibelen (Sett den 29. juni 2020)

Bibel, bokmål 1978/85 (N78BM). Bibelselskapets omsetjing. Henta frå www.bibel.no/Nettbibelen (Sett den 29. juni 2020)

Bibel, nynorsk 1978/85 (N78NN). Bibelselskapets omsetjing. Henta frå www.bibel.no/Nettbibelen (Sett den 29. juni 2020)

Bjørnson, Bjørnstjerne, Samlede Digter-Verker, Kristiania, Gyldendal, 1919-1920. Henta frå https://www.dokpro.uio.no/litteratur/bjoernson/ (Sett den 29. juni 2020)

Christensen, Mie Haugaard, Hvor mange tanker kan hjernen tenke samtidig? Publisert på https://forskning.no/hjernen-menneskekroppen-psykologi/hvor-mange-tanker-kan-hjernen-tenke-samtidig/1705172 2. juli 2020.

Den burtkomne sonen [d.e. Luk 15:11-32], til landsmål ved Ivar Aasen, ukjend årstal (1869 eller tidlegare). Henta frå https://no.wikisource.org/wiki/Den_burtkomne_Sonen (Sett den 29. juni 2020)

Dolve, Sjur Mikal og Hauso, Tale, No er brua over Noregs best besøkte naturattraksjon på plass. Publisert på https://www.nrk.no/vestland/den-kontroversielle-gangbrua-over-voringsfossen-er-kome-pa-plass-1.15076627 2. juli 2020.

Hauge, Olav H., Dikt i samling, Oslo, Samlaget, 2000.

Garborg, Arne, Skriftir i samling, -Jubilæumsutg. Kristiania, Aschehoug, 1921-1922. Henta frå https://www.dokpro.uio.no/litteratur/garborg/ (Sett den 29. juni 2020)

Obstfelder, Sigbjørn, Skrifter, København, Gyldendal, 1917. Henta frå https://www.dokpro.uio.no/litteratur/obstfelder/ (Sett den 29. juni 2020)

Soga um Håvard Isfjording, frå gamalnorsk ved Matias Skard, Oslo, Det norske samlaget, 1930. Henta frå https://heimskringla.no/wiki/Soga_um_Håvard_Isfjording (Sett den 29. juni 2020)

Sekundærlitteratur

Antti Aarne og Stith Thompson, “The Types of the Folktale: A classification and Bibliography”, Helsinki, FF Communications #184, 1961.

De nyeste bibeloversettelsene til norsk, Det Norske Bibelskap. Henta frå https://www.bibel.no/OversettelseSprakLitteratur/Bibeloversettelser/Oversettelser-Norge/Etter1938 (Sett den 29. juni 2020))

Demsar J, Curk T, Erjavec A, Gorup C, Hocevar T, Milutinovic M, Mozina M, Polajnar M, Toplak M, Staric A, Stajdohar M, Umek L, Zagar L, Zbontar J, Zitnik M, Zupan B “Orange: Data Mining Toolbox in Python”, Journal of Machine Learning Research 14, s. 2349−2353, 2013.

Faarlund, Jan Terje, Lie, Svein og Vannebo og Kjell Ivar, Norsk referansegrammatikk, Oslo, Universitetsforlaget, 1997.

Getting Started with Orange 16: Text Preprocessing, Universitet i Ljubljana. Sett på https://youtu.be/V70UwJZWkZ8 (Sett den 29. juni 2020))

Getting Started with Orange 17: Text Clustering, Universitet i Ljubljana. Sett på https://youtu.be/rH_vQxQL6oM (Sett den 29. juni 2020))

Getting Started with Orange 18: Text Classification, Universitet i Ljubljana. Sett på https://youtu.be/zO_zwKZCULo (Sett den 29. juni 2020))

Getting Started with Orange 19: How to Import Text Documents, Universitet i Ljubljana. Sett på https://youtu.be/faIqvWxFGRc (Sett den 29. juni 2020))

Orange3 Text Mining Documentation, Universitet i Ljubljana. Henta frå https://orange3-text.readthedocs.io/en/latest/ (Sett den 29. juni 2020))

Orange Data Mining, Universitet i Ljubljana. Henta frå https://orange.biolab.si (Sett den 29. juni 2020, ulike delar av heimesida som har vorte nytta er nemnd fortlaupande med fotnotar)

Ordbog over det norrøne prosasprog [ONP], Københavns universitet. Henta frå https://onp.ku.dk/ (Sett den 29. juni 2020)

Oversettelser 1814-1938, Det Norske Bibelskap. Henta frå https://www.bibel.no/OversettelseSprakLitteratur/Bibeloversettelser/Oversettelser-Norge/Oversettelser1814-1938 (Sett den 29. juni 2020)

Retningslinjer for bruk av Bibelselskapets bibeloversettelser, Det Norske Bibelskap. Henta frå http://www.bibel.no/Nettbibelen/Opphavsrett_2 (Sett den 29. juni 2020)

Torp, Arne og Vikør, Lars S., Hovuddrag i norsk språkhistorie, Oslo, Gyldendal akademisk, 2014.

Ulike måter å oversette Bibelen på, Det Norske Bibelskap. Henta frå https://www.bibel.no/OversettelseSprakLitteratur/Bibeloversettelser/Oversettelsesmetoder (Sett den 29. juni 2020)

Øverland, Fartein Th. “Dróttkvǽtt and Deep Learning”, Cluj-Napoca, Dynamics of Specialized Languages: Innovative Approaches and Strategies, s. 221-234, 2017.

Zellig S. Harris, “Distributional Structure”, WORD, 10:2-3, s. 146-162, 1954.

Downloads

Published

2020-09-30

How to Cite

ØVERLAND, F. T. (2020). AUTOMATISERT KLASSIFIKASJON AV NORSKE MÅLFORMER VHA. DATAUTVINNING AV UANNOTERT TEKST. Studia Universitatis Babeș-Bolyai Philologia, 65(3), 107–124. https://doi.org/10.24193/subbphilo.2020.3.08

Issue

Section

Articles