Dataset: korpus_formark.txt, 27.2 MB Access Condition: Open access Description: Korpus ForMarK sadrži tekstove koji se odnose na organizaciju znanja u pomorstvu i sadržaj znanja u pomorstvu. (Croatian)
Kegalj, J. & Tominac Coslovich, S. (2024). Corpus ForMarK [Data set].
Title (english)
Corpus ForMarK
Jana Kegalj Sveučilište u Rijeci, Pomorski fakultet
Damir Zec (Supervisor) Sveučilište u Rijeci, Pomorski fakultet
Scientific / art field, discipline and subdiscipline
HUMANISTIC SCIENCES Philology General Linguistics
Abstract (english)
The corpus was collected in the first stage of the project, with the aim to collect relevant data and forming a database. First, precise internal and external criteria for text selection were defined to achieve a balanced and representative corpus as database for further analysis. The texts were selected, filtered according to the mentioned criteria and compiled using the online corpus analysis tool Sketch Engine, which was also used for corpus tagging and lemmatization. The corpus consists of the subcorpus of core texts that are closely related to maritime education and training and a subcorpus of reference texts that contain maritime knowledge in various fields, nautical studies, marine engineering, shipping, maritime law, academic texts on maritime studies. The database will serve as basis for linguistic analysis of the language used to describe and define maritime knowledge. Corpus linguistic tools will be used to describe the specific traits of the maritime register which will serve as basis for the analysis of the encapsulation processes in texts dealing with maritime knowledge. Such an analysis will show how maritime knowledge is organized, reveal patterns and connections between notions thus showing how meaning is constructed.
Abstract (croatian)
Korpus je prikupljen u prvoj fazi projekta, s ciljem prikupljanja relevantnih podataka i formiranja baze podataka. Najprije su definirani precizni unutarnji i vanjski kriteriji za odabir teksta kako bi se postigao uravnotežen i reprezentativan korpus kao baza podataka za daljnju analizu. Tekstovi su odabrani, filtrirani prema navedenim kriterijima i kompilirani pomoću online alata za analizu korpusa Sketch Engine, koji je također korišten za označavanje i lematizaciju korpusa. Korpus se sastoji od potkorpusa temeljnih tekstova koji definiraju obrazovanje i osposobljavanje pomoraca i potkorpusa referentnih tekstova koji sadrže znanja iz različitih područja pomorstva, nautičkih znanosti, brodostrojarstva, pomorstvog prometa, pomorskog prava, te akademske tekstove iz pomorstva. Baza će poslužiti kao temelj za lingvističku analizu jezika koji se koristi za opisivanje i definiranje pomorskog znanja. Korpusnim alatima opisat će se specifičnosti pomorskog registra što će poslužiti kao temelj za analizu procesa enkapsulacije znanja iz pomorstva. Takva će analiza pokazati kako je pomorsko znanje organizirano, otkriti obrasce i veze između pojmova te pokazati kako se konstruira značenje.
Methods (english)
In the first phase, internal and external criteria for collecting texts and organizing the corpus into sub-corpora were defined. Then came the collection of the pilot corps that was tested. The texts collected in the next phase went through the process of primary and secondary filtering, and finally compilation, tagging and lemmatization.
Methods (croatian)
U prvoj su fazi definirani interni i eksterni kriteriji prikupljanja tekstova i organizacije korpusa u podkorpuse. Zatim je uslijedilo prikupljanje pilot korpusa koji je testiran. Tekstovi prikupljeni u narednoj fazi prošli su proces primarnog i sekundarong filtriranja, te u konačnici sastavljanja, tagiranja i lematizacije.
Number: UNIRI-ZIP-2103-14-22 Title (croatian): Formalizacija znanja u pomorstvu i implementacija u djelatnostimasigurnosti i zaštite okoliša Title (english): Formalisation of maritime knowledge and its implementation insafety, security and pollution prevention activities Acronym: ForMarK Leader: Damir Zec Jurisdiction: Croatia
Pomorski fakultet Faculty of Maritime Studies, Rijeka
Access conditions
Open access
Terms of use
Public note (croatian)
Korpus ForMarK prikupljen je i sastavljen u skladu sa ciljevima i potrebama projekta Formalizacija znanja u pomorstvu i implementacija u djelatnostima sigurnosti i zaštite okoliša.
Public note (english)
The corpus ForMarK was collected and compiled in accordance with the goals and needs of the project Formalization of maritime knowledge and implementation in safety and environmental protection activities.