Uurin, kuidas hispaania emakeelega (L1) eesti keele õppijad hääldavad eesti keele väldet. Selleks viisin läbi lugemiskatse, kus osales 22 hispaania L1 keelejuhti (uuritav rühm, 11 meest ja 11 naist) ja 10 eesti L1 keelejuhti (kontrollrühm, 5 meest ja 5 naist).
Lugemiskatses tuli keelejuhtidel lugeda arvutiekraanilt lauseid, laused esitati juhuslikus järjekorras ja igas lauses oli üks uuritav sõna (nt sada, saada (teine välde) ja saada (kolmas välde)). Näitelaused on esitatud allolevas tabelis. Kokku luges iga katseisik 81 lauset (9 vokaali (a, e, i, o, u, õ, ä, ö, ü) x 3 väldet (I välde, II välde, III välde) x 3 testsõna (nt sada, saada, saada)).
Keelejuhtide loetud lausetest olen mõõtnud testsõnade (sh silpide ja vokaalide) kestused, kõigi keelejuhtide mõõtmistulemused on koondatud ühte tabelisse.
Eesti keele vältest rääkides kasutan edaspidi rahvusvahelisi lühendeid Q1, Q2 ja Q3, mis vastavad esimesele , teisele ja kolmandale vältele. Lühend Q tuleb ingliskeelsest sõnast quantity.
Sõna | Välde | Lause |
---|---|---|
sada [sɑtɑ] | Q1 | Mehel on sada eurot. |
saada [sɑːtɑ] | Q2 | Palun saada talle sõnum. |
saada [sɑːːtɑ] | Q3 | Tüdruk tahab saada politseinikuks. |
Eesti keeles on kolm väldet, hispaania keeles selline nähtus puudub. Lähtudes eesti ja hispaania keele erinevustest oletan et:
Avan kaks andmestikku. Kõigepealt tabeli mõõtmistulemuste infoga (mõõtmistulemused on pärit programmist Praat) ja seejärel tabeli keelejuhtide infoga (emakeel, vanus, Eestis elatud aeg, eesti keele õppimise aeg, riik, võõrkeelte arv, sugu, info keelekasutuse kohta).
# Avan mõõtmistulemuste andmestiku.
andmed <- read.delim("~/ownCloud/Doktorantuur/vokaalide_produktsioon/vok_tabelid/vok_produktsioon_tulem_3.11.txt", sep = "\t", header = T)
# Vaatan üle, kas tabel sai õigesti sisse loetud.
# Kuna andmestikus on palju veerge ja kõik veerud ei ole olulised selle projekti raames, siis ma ei kuva käskude head ja summary tulemusi.
head(andmed)
summary(andmed)
# Avan keelejuhtide andmestiku.
kj <- read.delim("~/ownCloud/Doktorantuur/vokaalide_produktsioon/vok_tabelid/kj.txt", sep = "\t", header = T)
head(kj)
summary(kj)
Enne kui saan alustada andmete analüüsimist, pean need kaks tabelit ühendama. Tabelite ühendamiseks saan kasutada keelejuhi id-numbrit (veerg kjID).
# Panen kokku kaks tabelit veeru kjID abil.
dat<-merge(kj,andmed,by=c("kjID"))
Vältehäälduse analüüsimiseks vaatan rõhulise ja rõhutu silbi vokaalide kestusi. Eesti keeles kasvab rõhulise silbi vokaali kestus välte suurenedes ning rõhutu silbi vokaali kestus väheneb välte suurenedes, st esimeses vältes on rõhulise silbi vokaal kõige lühem ja rõhutu silbi vokaal kõige pikem, kolmandas vältes on rõhulise silbi vokaal kõige pikem ja rõhutu silbi vokaal kõige lühem.
Lisaks kestussuhetele on teise ja kolmanda välte eristamisel oluline roll põhitoonil, kuid selle projekti raames ma põhitooni ei analüüsi.
Katses osales 22 hispaania emakeelega katseisikut, kes olid pärit erinevatest riikidest (Hispaaniast, Mehhikost, Honduraselt, Kolumbiast). Keelejuhid olid Eestis elanud ja eesti keelt õppinud alates ühest kuust kuni 16 aastani. Suurem osa keelejuhtidest ei kasuta eesti keelt oma igapäevaelus.
# Vaatan üle keelejuhtide andmed:
## emakeel
summary(kj$emakeel)
## est hisp
## 10 25
## riik
summary(kj$riik)
## Eesti Hispaania Honduras Kolumbia Mehhiko
## 1 10 11 2 5 6
## vanus
summary(kj$vanus[kj$emakeel=="hisp"])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 20.00 26.00 29.00 30.92 34.00 46.00
summary(kj$vanus[kj$emakeel=="est"])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 23.0 25.0 25.0 29.5 26.0 55.0
## eesti keele õpingute kestus, Eestis elatud aeg, igapäevane keelekasutus
summary(kj$õp_aeg[kj$emakeel=="hisp"])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.500 0.500 2.051 1.000 16.000
summary(kj$elanud_eestis[kj$emakeel=="hisp"])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.080 1.000 2.000 3.533 4.000 16.000
summary(kj$keelekasutus2[kj$emakeel=="hisp"])
## ei jah NA's
## 13 11 1
Teen kaks joonist, et vaadata rõhulise ja rõhutu silbi vokaalide kestust emakeele ja väldete kaupa. Emakeel (ee = eesti (roheline), h = hispaania (sinine)) ja välde (esimene välde = Q1, teine välde = Q2, kolmas välde = Q3) on joonisele märgitud. Vokaalide kestus on mõõdetud millisekundites.
# Rõhulise ja rõhutu silbi vokaalide kestused väldete kaupa
par(mfrow=c(1,2))
# Rõhulise silbi vokaali kestus (v1)
boxplot(dat$v1kestus_ms ~ dat$emakeel.x*dat$valde, axes=F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Emakeele märgin esimesele reale
axis(side=1, line=0, at=c(1:6), tick = F, labels = c("ee", "h", "ee", "h", "ee", "h"))
# Välte märgin teisele reale
axis(side=1, line=2, at=c(1.5, 3.5, 5.5), tick = F, labels = c("Q1", "Q2", "Q3"))
# Teen jooned väldete vahele
abline(v=2.5)
abline(v=4.5)
# Rõhutu silbi vokaalide kestus (v2)
boxplot(dat$v2kestus_ms ~ dat$emakeel.x*dat$valde, axes=F, main = "Rõhutu silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Emakeele märgin esimesele reale
axis(side=1, line=0, at=c(1:6), tick = F, labels = c("ee", "h", "ee", "h", "ee", "h"))
# Välte märgin teisele reale
axis(side=1, line=2, at=c(1.5, 3.5, 5.5), tick = F, labels = c("Q1", "Q2", "Q3"))
# Teen jooned väldete vahele
abline(v=2.5)
abline(v=4.5)
Joonistelt on näha, et eesti L1 ja hispaania L1 keelejuhtide vahel on erinevusi.
# Arvutan rõhulise ja rõhutu silbi vokaalide kestuste keskmised väärtused emakeele ja väldete kaupa.
library(dplyr)
vok.kesk <- dat %>%
group_by(emakeel.x, valde)%>%
summarise_at(vars(v1kestus_ms, v2kestus_ms), funs(mean(., na.rm = T)))
vok.kesk
## # A tibble: 6 x 4
## # Groups: emakeel.x [?]
## emakeel.x valde v1kestus_ms v2kestus_ms
## <fct> <fct> <dbl> <dbl>
## 1 est q1 73.3 94.5
## 2 est q2 130. 75.7
## 3 est q3 158. 58.0
## 4 hisp q1 123. 113.
## 5 hisp q2 194. 120.
## 6 hisp q3 194. 129.
Keskmistest kestustest on näha, et eestlaste häälduses on selgelt kolm kestuskategooriat: lühike, pikk ja ülipikk (vastavalt siis esimene, teine ja kolmas välde). Eesti L1 häälduses rõhulise silbi vokaali kestus kasvab välte suurenedes (Q1 73 ms, Q2 130 ms, Q3 158 ms) ja rõhutu silbi vokaali kestus väheneb välte suurenedes (Q1 94 ms, Q2 76 ms, Q3 58 ms).
Hispaania L1 keelejuhid ei ole omandanud eesti keele välte hääldust, neil on kaks kestuskategooriat: lühike ja pikk. Hispaania L1 häälduses on rõhulise silbi vokaali kestus 123 ms (lühike) ja 194 ms (pikk). Hispaania L1 häälduses rõhutu silbi vokaalide kestused suurenevad välte kasvades (kuigi need peaksid vähenema). Hispaania L1 keelejuhid hääldavad nii rõhulise kui ka rõhutu silbi vokaale pikema kestusega kui eestlaste.
Oletan, et Eestis elatud ajal on positiivne mõju vältemoodustusele. Lisaks Eestis elatud ajal on teada ka keelejuhtide eesti keele õpingute kestus ja igapäevane keelekasutus. Soovin vaadata, kas ja kuidas need faktorid vältemoodustust mõjutavad.
Kuna õppimisajal ja Eestis elatud ajal on palju erinevaid tasemeid, siis läheksid joonised väga kirjuks. Nende faktorite mõju analüüsimiseks proovin teha lineaarse segamudeli.
# Teen tabeli, kus on ainult hispaania L1 keelejuhid ja info nende õppimisaja jms kohta
op_aeg <- dat %>%
filter(emakeel.x=="hisp") %>%
select(kjID, sugu.x, riik, vanus, elanud_eestis, õp_aeg, keelekasutus2, valde, v1kestus_ms, v2kestus_ms)
# Aktiveerin paketi lmea4, et teha mudelit.
library(lme4)
# Pakett lmerTest lisab mudeli tulemustele p-väärtused.
library(lmerTest)
# Koostan mudeli, kus vaatan rõhulise silbi vokaali kestuse sõltumist keelejuhi soost, riigist, Eestis elatud ajast, eesti keele õpingute kestusest, keelekasutusest ja vältest.
m1 <-lmer(v1kestus_ms ~ sugu.x + riik + vanus + elanud_eestis + õp_aeg + keelekasutus2 + valde +(1 | kjID), op_aeg)
# Teen mudelist kokkuvõtte
anova(m1)
## Analysis of Variance Table of type III with Satterthwaite
## approximation for degrees of freedom
## Sum Sq Mean Sq NumDF DenDF F.value Pr(>F)
## sugu.x 240 240 1 13 0.1 0.77623
## riik 16479 5493 3 13 1.9 0.17512
## vanus 9628 9628 1 13 3.4 0.08905 .
## elanud_eestis 6578 6578 1 13 2.3 0.15274
## õp_aeg 3889 3889 1 13 1.4 0.26385
## keelekasutus2 229 229 1 13 0.1 0.78116
## valde 59296919 29648459 2 53451 10392.3 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tundub, et eesti keele õpingute kestus, Eestis elatud aeg ja keelekasutus ei mõjuta vältehääldust.
Et veenduda mudelis, teen igaks juhuks paar joonist ja kontrollin, kas need näitavad sama. Joonised tulevad küll kirjud ja ilmselt ei sobi teadustöö esitamiseks, aga usun, et need on esialgu piisavad, et saada andmestikust ülevaade.
# Teen õppimisaja joonise väldete kaupa. Värv tähistab väldet (roheiline = Q1, sinine = Q2, kollane = Q3). Püstised jooned eristavad õppimisaega (0.08 aastat, 0.25, 0.5 jne)
# Kõigepealt rõhulise silbi vokaalid
boxplot(op_aeg$v1kestus_ms ~ op_aeg$valde*op_aeg$õp_aeg, axes = F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), xlab="Õppimisaeg aastates", col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Lisan õppimisaja
axis(side=1, line=0, at=c(1.75, 5, 8, 11, 14, 17, 20, 23.5), tick = F, labels = c("0.08", "0.25", "0.5", "0.7", "1", "2", "12", "16"))
# Teen jooned vahele
abline(v=3.5)
abline(v=6.5)
abline(v=9.5)
abline(v=12.5)
abline(v=15.5)
abline(v=18.5)
abline(v=21.5)
Jooniselt on näha, et keelejuht, kes on eesti keelt õppinud 16 aastat, eristab kolme väldet, ülejäänud keeleõppijatel on kaks kategooriat, st lühikesed ja pikad vokaalid.
# Teen samasuguse joonise Eestis elatud aja põhjal.
boxplot(op_aeg$v1kestus_ms ~ op_aeg$valde*op_aeg$elanud_eestis, axes= F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), xlab = "Eestis elatud aeg aastates", col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Lisan Eestis elatud aja
axis(side=1, line=0, at=c(1.75, 5, 8, 11, 14, 17, 20, 23, 26, 29, 32, 35, 38, 41), tick = F, labels = c("0.08", "0.5", "0.7", "1", "1.5", "1.7", "2", "2.25", "3", "3.5", "4", "6", "10", "16"))
#Teen jooned vahele
abline(v=3.5)
abline(v=6.5)
abline(v=9.5)
abline(v=12.5)
abline(v=15.5)
abline(v=18.5)
abline(v=21.5)
abline(v=24.5)
abline(v=27.5)
abline(v=30.5)
abline(v=33.5)
abline(v=36.5)
abline(v=39.5)
Sama tulemus on näha ka Eestis elatud aja puhul. Ainult üks keeleõppija, kes on Eestis elanud 16 aastat,eristab kolme väldet.
Viimasena vaatan igapäevase keelekasutuse mõju.
# Teen kaks joonist kõrvuti
par(mfrow=c(1,2))
# Rõhulise silbi vokaalid
boxplot(op_aeg$v1kestus_ms ~ op_aeg$valde*op_aeg$keelekasutus2, axes = F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Märgin keelekasutuse, ei = ei kasuta eesti keelt igapäevaselt, jah = kasutab eesti keelt igapäevaselt
axis(side=1, line=0, at=c(2, 5), tick = F, labels = c("ei", "jah"))
# Teen joone kahe rühma vahele
abline(v=3.5)
# Rõhutu silbi vokaalid
boxplot(op_aeg$v2kestus_ms ~ op_aeg$valde*op_aeg$keelekasutus2, axes = F, main = "Rõhutu silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Märgin keelekasutuse
axis(side=1, line=0, at=c(2, 5), tick = F, labels = c("ei", "jah"))
# Teen joone kahe rühma vahele
abline(v=3.5)
Ka keelekasutuse puhul on näha, et rõhulise silbi vokaalide hääldusel on kaks kategooriat, lühikene ja pikk. Rõhutu silbi vokaalid on kõik sarnase kestusega. Keelekasutusel ei ole positiivset mõju vältemoodustusele.
Hispaania emakeelega eesti keele õppijad ei ole eesti keele väldete hääldamist omandanud. Nad eristavad lühikesi ja pikki vokaale, aga nad ei ole suutelised moodustama kolmest vastandust nagu on iseloomulik eesti keelele. Lisaks on vokaalid keeleõppijate häälduses pikema kestusega.
Eesti keele õpingute kestusel, Eestis elatud ajal ja eesti keele kasutamisel ei ole mõju välte hääldamisele.
Praegust analüüsi tuleb kindlasti edasi arendada ja lisaks vokaalide kestusele tuleks analüüsida ka põhitooni. Samuti tuleks leida parem viis õppimisaja, Eestis elatud aja ja keelekasutuse mõju illustreerimiseks. Enne lineaarse mudeli kasutamist peaksin tutvuma sellega põhjalikumalt, et olla kindel, et tõlgendan seda õigesti.