Andmete kogumine

Uurin, kuidas hispaania emakeelega (L1) eesti keele õppijad hääldavad eesti keele väldet. Selleks viisin läbi lugemiskatse, kus osales 22 hispaania L1 keelejuhti (uuritav rühm, 11 meest ja 11 naist) ja 10 eesti L1 keelejuhti (kontrollrühm, 5 meest ja 5 naist).

Lugemiskatses tuli keelejuhtidel lugeda arvutiekraanilt lauseid, laused esitati juhuslikus järjekorras ja igas lauses oli üks uuritav sõna (nt sada, saada (teine välde) ja saada (kolmas välde)). Näitelaused on esitatud allolevas tabelis. Kokku luges iga katseisik 81 lauset (9 vokaali (a, e, i, o, u, õ, ä, ö, ü) x 3 väldet (I välde, II välde, III välde) x 3 testsõna (nt sada, saada, saada)).

Keelejuhtide loetud lausetest olen mõõtnud testsõnade (sh silpide ja vokaalide) kestused, kõigi keelejuhtide mõõtmistulemused on koondatud ühte tabelisse.

Eesti keele vältest rääkides kasutan edaspidi rahvusvahelisi lühendeid Q1, Q2 ja Q3, mis vastavad esimesele , teisele ja kolmandale vältele. Lühend Q tuleb ingliskeelsest sõnast quantity.

Sõna	Välde	Lause
sada [sɑtɑ]	Q1	Mehel on sada eurot.
saada [sɑːtɑ]	Q2	Palun saada talle sõnum.
saada [sɑːːtɑ]	Q3	Tüdruk tahab saada politseinikuks.

Hüpoteesid

Eesti keeles on kolm väldet, hispaania keeles selline nähtus puudub. Lähtudes eesti ja hispaania keele erinevustest oletan et:

Keeleõppijad eristavad esimest väldet teisest ja kolmandast, kuid ei erista teist ja kolmandat väldet.
Keeleõppijate hääldatud sõnad on pikema kestusega, kui eestlaste hääldatud sõnad.
Mida kauem on keeleõppijad Eestis elanud, seda paremini nad oskavad eesti keele välteid hääldada.
Keeleõppija päritoluriik, sugu ja vanus ei mõjuta väldete hääldamist.

Andmestiku ettevalmistamine analüüsimiseks

Avan kaks andmestikku. Kõigepealt tabeli mõõtmistulemuste infoga (mõõtmistulemused on pärit programmist Praat) ja seejärel tabeli keelejuhtide infoga (emakeel, vanus, Eestis elatud aeg, eesti keele õppimise aeg, riik, võõrkeelte arv, sugu, info keelekasutuse kohta).

# Avan mõõtmistulemuste andmestiku.
andmed <- read.delim("~/ownCloud/Doktorantuur/vokaalide_produktsioon/vok_tabelid/vok_produktsioon_tulem_3.11.txt", sep = "\t", header = T)
# Vaatan üle, kas tabel sai õigesti sisse loetud.
# Kuna andmestikus on palju veerge ja kõik veerud ei ole olulised selle projekti raames, siis ma ei kuva käskude head ja summary tulemusi.
head(andmed)
summary(andmed)

# Avan keelejuhtide andmestiku.
kj  <- read.delim("~/ownCloud/Doktorantuur/vokaalide_produktsioon/vok_tabelid/kj.txt", sep = "\t", header = T)
head(kj)
summary(kj)

Enne kui saan alustada andmete analüüsimist, pean need kaks tabelit ühendama. Tabelite ühendamiseks saan kasutada keelejuhi id-numbrit (veerg kjID).

# Panen kokku kaks tabelit veeru kjID abil.
dat<-merge(kj,andmed,by=c("kjID"))

Andmestiku analüüs

Vältehäälduse analüüsimiseks vaatan rõhulise ja rõhutu silbi vokaalide kestusi. Eesti keeles kasvab rõhulise silbi vokaali kestus välte suurenedes ning rõhutu silbi vokaali kestus väheneb välte suurenedes, st esimeses vältes on rõhulise silbi vokaal kõige lühem ja rõhutu silbi vokaal kõige pikem, kolmandas vältes on rõhulise silbi vokaal kõige pikem ja rõhutu silbi vokaal kõige lühem.

Lisaks kestussuhetele on teise ja kolmanda välte eristamisel oluline roll põhitoonil, kuid selle projekti raames ma põhitooni ei analüüsi.

Keelejuhid

Katses osales 22 hispaania emakeelega katseisikut, kes olid pärit erinevatest riikidest (Hispaaniast, Mehhikost, Honduraselt, Kolumbiast). Keelejuhid olid Eestis elanud ja eesti keelt õppinud alates ühest kuust kuni 16 aastani. Suurem osa keelejuhtidest ei kasuta eesti keelt oma igapäevaelus.

# Vaatan üle keelejuhtide andmed: 
## emakeel
summary(kj$emakeel)

##  est hisp 
##   10   25

## riik
summary(kj$riik)

##               Eesti Hispaania  Honduras  Kolumbia   Mehhiko 
##         1        10        11         2         5         6

## vanus
summary(kj$vanus[kj$emakeel=="hisp"])

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   20.00   26.00   29.00   30.92   34.00   46.00

summary(kj$vanus[kj$emakeel=="est"])

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    23.0    25.0    25.0    29.5    26.0    55.0

## eesti keele õpingute kestus, Eestis elatud aeg, igapäevane keelekasutus
summary(kj$õp_aeg[kj$emakeel=="hisp"])

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.500   0.500   2.051   1.000  16.000

summary(kj$elanud_eestis[kj$emakeel=="hisp"])

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.080   1.000   2.000   3.533   4.000  16.000

summary(kj$keelekasutus2[kj$emakeel=="hisp"])

##   ei  jah NA's 
##   13   11    1

Rõhulise ja rõhutu silbi vokaalide kestus

Teen kaks joonist, et vaadata rõhulise ja rõhutu silbi vokaalide kestust emakeele ja väldete kaupa. Emakeel (ee = eesti (roheline), h = hispaania (sinine)) ja välde (esimene välde = Q1, teine välde = Q2, kolmas välde = Q3) on joonisele märgitud. Vokaalide kestus on mõõdetud millisekundites.

# Rõhulise ja rõhutu silbi vokaalide kestused väldete kaupa
par(mfrow=c(1,2))
# Rõhulise silbi vokaali kestus (v1)
boxplot(dat$v1kestus_ms ~ dat$emakeel.x*dat$valde, axes=F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Emakeele märgin esimesele reale
axis(side=1, line=0, at=c(1:6), tick = F, labels = c("ee", "h", "ee", "h", "ee", "h"))
# Välte märgin teisele reale
axis(side=1, line=2, at=c(1.5, 3.5, 5.5), tick = F, labels = c("Q1", "Q2", "Q3"))
# Teen jooned väldete vahele
abline(v=2.5)
abline(v=4.5)

# Rõhutu silbi vokaalide kestus (v2)
boxplot(dat$v2kestus_ms ~ dat$emakeel.x*dat$valde, axes=F, main = "Rõhutu silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Emakeele märgin esimesele reale
axis(side=1, line=0, at=c(1:6), tick = F, labels = c("ee", "h", "ee", "h", "ee", "h"))
# Välte märgin teisele reale
axis(side=1, line=2, at=c(1.5, 3.5, 5.5), tick = F, labels = c("Q1", "Q2", "Q3"))
# Teen jooned väldete vahele
abline(v=2.5)
abline(v=4.5)

Joonistelt on näha, et eesti L1 ja hispaania L1 keelejuhtide vahel on erinevusi.

Hispaania L1 keelejuhtide häälduses on kõik vokaalid pikema kestusega kui eesti L1 keelejuhtide häälduses.
Eesti L1 häälduses rõhulise silbi vokaalide kestus kasvab välte suurenedes ja rõhutu silbi vokaalide kestus väheneb välte suurenedes.
Hispaania L1 häälduses on Q1 vokaal lühema kestusega kui Q2 ja Q3 vokaalid, st keeleõppijad eristavad lühikest vokaali pikast ja ülipikast vokaalist.
Hispaania L1 rõhulise silbi Q2 ja Q3 vokaalid tunduvad olevat väga sarnase kestusega, st keeleõppijad ei erista teist ja kolmandat väldet.
Hispaania L1 rõhutu silbi vokaalid on kõik väga sarnase kestusega.

# Arvutan rõhulise ja rõhutu silbi vokaalide kestuste keskmised väärtused emakeele ja väldete kaupa.
library(dplyr)
vok.kesk <- dat %>%
  group_by(emakeel.x, valde)%>%
  summarise_at(vars(v1kestus_ms, v2kestus_ms), funs(mean(., na.rm = T)))
vok.kesk

## # A tibble: 6 x 4
## # Groups:   emakeel.x [?]
##   emakeel.x valde v1kestus_ms v2kestus_ms
##   <fct>     <fct>       <dbl>       <dbl>
## 1 est       q1           73.3        94.5
## 2 est       q2          130.         75.7
## 3 est       q3          158.         58.0
## 4 hisp      q1          123.        113. 
## 5 hisp      q2          194.        120. 
## 6 hisp      q3          194.        129.

Keskmistest kestustest on näha, et eestlaste häälduses on selgelt kolm kestuskategooriat: lühike, pikk ja ülipikk (vastavalt siis esimene, teine ja kolmas välde). Eesti L1 häälduses rõhulise silbi vokaali kestus kasvab välte suurenedes (Q1 73 ms, Q2 130 ms, Q3 158 ms) ja rõhutu silbi vokaali kestus väheneb välte suurenedes (Q1 94 ms, Q2 76 ms, Q3 58 ms).

Hispaania L1 keelejuhid ei ole omandanud eesti keele välte hääldust, neil on kaks kestuskategooriat: lühike ja pikk. Hispaania L1 häälduses on rõhulise silbi vokaali kestus 123 ms (lühike) ja 194 ms (pikk). Hispaania L1 häälduses rõhutu silbi vokaalide kestused suurenevad välte kasvades (kuigi need peaksid vähenema). Hispaania L1 keelejuhid hääldavad nii rõhulise kui ka rõhutu silbi vokaale pikema kestusega kui eestlaste.

Õppimisaeg, Eestis elatud aeg ja keelekasutus

Oletan, et Eestis elatud ajal on positiivne mõju vältemoodustusele. Lisaks Eestis elatud ajal on teada ka keelejuhtide eesti keele õpingute kestus ja igapäevane keelekasutus. Soovin vaadata, kas ja kuidas need faktorid vältemoodustust mõjutavad.

Kuna õppimisajal ja Eestis elatud ajal on palju erinevaid tasemeid, siis läheksid joonised väga kirjuks. Nende faktorite mõju analüüsimiseks proovin teha lineaarse segamudeli.

# Teen tabeli, kus on ainult hispaania L1 keelejuhid ja info nende õppimisaja jms kohta
op_aeg <- dat %>%
  filter(emakeel.x=="hisp") %>%
  select(kjID, sugu.x, riik, vanus, elanud_eestis, õp_aeg, keelekasutus2, valde, v1kestus_ms, v2kestus_ms)

# Aktiveerin paketi lmea4, et teha mudelit.
library(lme4)
# Pakett lmerTest lisab mudeli tulemustele p-väärtused.
library(lmerTest)

# Koostan mudeli, kus vaatan rõhulise silbi vokaali kestuse sõltumist keelejuhi soost, riigist, Eestis elatud ajast, eesti keele õpingute kestusest, keelekasutusest ja vältest.
m1 <-lmer(v1kestus_ms ~ sugu.x + riik + vanus + elanud_eestis + õp_aeg + keelekasutus2 + valde +(1 | kjID), op_aeg) 
# Teen mudelist kokkuvõtte
anova(m1)

## Analysis of Variance Table of type III  with  Satterthwaite 
## approximation for degrees of freedom
##                 Sum Sq  Mean Sq NumDF DenDF F.value  Pr(>F)    
## sugu.x             240      240     1    13     0.1 0.77623    
## riik             16479     5493     3    13     1.9 0.17512    
## vanus             9628     9628     1    13     3.4 0.08905 .  
## elanud_eestis     6578     6578     1    13     2.3 0.15274    
## õp_aeg            3889     3889     1    13     1.4 0.26385    
## keelekasutus2      229      229     1    13     0.1 0.78116    
## valde         59296919 29648459     2 53451 10392.3 < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tundub, et eesti keele õpingute kestus, Eestis elatud aeg ja keelekasutus ei mõjuta vältehääldust.

Et veenduda mudelis, teen igaks juhuks paar joonist ja kontrollin, kas need näitavad sama. Joonised tulevad küll kirjud ja ilmselt ei sobi teadustöö esitamiseks, aga usun, et need on esialgu piisavad, et saada andmestikust ülevaade.

# Teen õppimisaja joonise väldete kaupa. Värv tähistab väldet (roheiline = Q1, sinine = Q2, kollane = Q3). Püstised jooned eristavad õppimisaega (0.08 aastat, 0.25, 0.5 jne)
# Kõigepealt rõhulise silbi vokaalid
boxplot(op_aeg$v1kestus_ms ~ op_aeg$valde*op_aeg$õp_aeg, axes = F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), xlab="Õppimisaeg aastates", col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Lisan õppimisaja
axis(side=1, line=0, at=c(1.75, 5, 8, 11, 14, 17, 20, 23.5), tick = F, labels = c("0.08", "0.25", "0.5", "0.7", "1", "2", "12", "16"))
# Teen jooned vahele
abline(v=3.5)
abline(v=6.5)
abline(v=9.5)
abline(v=12.5)
abline(v=15.5)
abline(v=18.5)
abline(v=21.5)

Jooniselt on näha, et keelejuht, kes on eesti keelt õppinud 16 aastat, eristab kolme väldet, ülejäänud keeleõppijatel on kaks kategooriat, st lühikesed ja pikad vokaalid.

# Teen samasuguse joonise Eestis elatud aja põhjal.
boxplot(op_aeg$v1kestus_ms ~ op_aeg$valde*op_aeg$elanud_eestis, axes= F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), xlab = "Eestis elatud aeg aastates", col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Lisan Eestis elatud aja
axis(side=1, line=0, at=c(1.75, 5, 8, 11, 14, 17, 20, 23, 26, 29, 32, 35, 38, 41), tick = F, labels = c("0.08", "0.5", "0.7", "1", "1.5", "1.7", "2", "2.25", "3", "3.5", "4", "6", "10", "16"))
#Teen jooned vahele
abline(v=3.5)
abline(v=6.5)
abline(v=9.5)
abline(v=12.5)
abline(v=15.5)
abline(v=18.5)
abline(v=21.5)
abline(v=24.5)
abline(v=27.5)
abline(v=30.5)
abline(v=33.5)
abline(v=36.5)
abline(v=39.5)

Sama tulemus on näha ka Eestis elatud aja puhul. Ainult üks keeleõppija, kes on Eestis elanud 16 aastat,eristab kolme väldet.

Viimasena vaatan igapäevase keelekasutuse mõju.

# Teen kaks joonist kõrvuti
par(mfrow=c(1,2))
# Rõhulise silbi vokaalid
boxplot(op_aeg$v1kestus_ms ~ op_aeg$valde*op_aeg$keelekasutus2, axes = F, main = "Rõhulise silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Märgin keelekasutuse, ei = ei kasuta eesti keelt igapäevaselt, jah = kasutab eesti keelt igapäevaselt
axis(side=1, line=0, at=c(2, 5), tick = F, labels = c("ei", "jah"))
# Teen joone kahe rühma vahele
abline(v=3.5)


# Rõhutu silbi vokaalid
boxplot(op_aeg$v2kestus_ms ~ op_aeg$valde*op_aeg$keelekasutus2, axes = F, main = "Rõhutu silbi vokaalid", ylab="Kestus ms", ylim=c(0, 550), col=c("chartreuse4", "deepskyblue", "yellow"))
box()
# Keeran numbrid ümber
axis(side = 2, las=2)
# Märgin keelekasutuse
axis(side=1, line=0, at=c(2, 5), tick = F, labels = c("ei", "jah"))
# Teen joone kahe rühma vahele
abline(v=3.5)

Ka keelekasutuse puhul on näha, et rõhulise silbi vokaalide hääldusel on kaks kategooriat, lühikene ja pikk. Rõhutu silbi vokaalid on kõik sarnase kestusega. Keelekasutusel ei ole positiivset mõju vältemoodustusele.

Kokkuvõte

Hispaania emakeelega eesti keele õppijad ei ole eesti keele väldete hääldamist omandanud. Nad eristavad lühikesi ja pikki vokaale, aga nad ei ole suutelised moodustama kolmest vastandust nagu on iseloomulik eesti keelele. Lisaks on vokaalid keeleõppijate häälduses pikema kestusega.

Eesti keele õpingute kestusel, Eestis elatud ajal ja eesti keele kasutamisel ei ole mõju välte hääldamisele.

Praegust analüüsi tuleb kindlasti edasi arendada ja lisaks vokaalide kestusele tuleks analüüsida ka põhitooni. Samuti tuleks leida parem viis õppimisaja, Eestis elatud aja ja keelekasutuse mõju illustreerimiseks. Enne lineaarse mudeli kasutamist peaksin tutvuma sellega põhjalikumalt, et olla kindel, et tõlgendan seda õigesti.

Eesti keele välted hispaania emakeelega eesti keele õppijate häälduses