Sınıflandırma

Türkiye Türkçesi ağız sözlüğünün tipolojik, coğrafi ve semantik analitiği. Sekmeler arasında gez — her birinde ayrı bir görsel + kılavuz.

Yerel sözcük oranı
67.4%
Sadece 1 ilde geçen sözcükler
Ortalama il yayılımı
2.60
Bir sözcük ortalama kaç ilde geçiyor
Tek sözcüklü
87.4%
Madde başında tek kelime
Homonim oranı
92.4%
(I), (II)… ile ayrılmış
Ortalama anlam
1.19
Bir madde başına anlam sayısı
En çok anlamlı
23
Tek bir maddede max alt anlam

Sözlük tipolojisi

Maddebaşı, anlam ve veri tamamlığı oranları

Madde uzunluğu
  • Tek sözcük87%
  • Çok sözcüklü13%
Anlam çeşitliliği
  • Tek anlamlı89%
  • Çok anlamlı11%
Konum bilgisi
  • Konumlu63%
  • Konumsuz37%
Tanık (örnek)
  • Tanıklı8%
  • Tanıksız92%

Kılavuz — terimler

Kullanılan ileri yöntemler ve terimlerin anlamı

Jaccard benzerlik

İki kümenin ortak eleman sayısının bileşim eleman sayısına oranı.

|A∩B| / |A∪B|
Polysemy (çok anlamlılık)

Bir sözcüğün taşıdığı farklı anlam sayısı.

anlam_sayısı(sözcük)
TF-IDF / Karakteristik skor

Bölgede baskın, başkasında nadir olma derecesi.

freq(bölge) × freq(bölge)/freq(toplam)
Zipf yasası

Az sayıda kelime çok kullanılır, çoğu az.

f(k) ≈ C / k^s
UPGMA / Hiyerarşik kümeleme

Average-linkage ile en yakın kümeleri ardışık birleştirme.

d(A∪B,C) = (|A|·d(A,C)+|B|·d(B,C))/(|A|+|B|)
Kavramsal alan

Anlam yakınlığına göre kelime grupları (semantic field).

anlam_metni içinde anahtar kelime varsa
Homonim

Aynı yazılışlı, farklı anlamlı maddeler. (I), (II), (III).

(I), (II), …
Değişke (varyant)

Bir maddenin farklı ağızlardaki yazılışı.

degiske → hedef_madde
FTS (full-text search)

Türkçe stem'leme + relevans skorlama.

ts_rank(fts, query)
Trigram (typo toleransı)

3 karakterlik dilim benzerliği.

similarity(a, b)

Bölge bazlı benzerlik haritası

Bölgeye tıkla — diğer bölgelerle benzerlik haritada ışıyacak. Detaylı karşılaştırma için linke git.

Bir bölgeye tıkla — diğer bölgelerle benzerliği haritada ışıyacak
AdanaAdıyamanAfyonAğrıAmasyaAnkaraAntalyaArtvinAydınBalıkesirBilecikBingölBitlisBoluBurdurBursaÇanakkaleÇankırıÇorumDenizliDiyarbakırEdirneElazığErzincanErzurumEskişehirG.antepGiresunGümüşhaneHakkariHatayIspartaMersinİstanbulİzmirKarsKastamonuKayseriKırklareliKırşehirKocaeliKonyaKütahyaMalatyaManisaK.maraşMardinMuğlaMuşNevşehirNiğdeOrduRizeSakaryaSamsunSiirtSinopSivasTekirdağTokatTrabzonTunceliŞ.urfaUşakVanYozgatZonguldakAksarayBayburtKaramanKırıkkaleBatmanŞırnakBartınArdahanIğdırYalovaKarabükKilisOsmaniyeDüzceKıbrıs

Bölge benzerlik matrisi

Jaccard skoru × 100 (8×8 matris)

MarmaraEgeAkdenizİç Anado…Karadeni…Doğu Ana…Güneydoğ…KıbrısMarmara191514141091Ege192219161191Akdeniz1522211611111İç Anadolu141921201291Karadeniz141616201271Doğu Anado…1011111212121Güneydoğu …991197121Kıbrıs1111111

Anlam metni uzunluğu

Bölgelerin tanım yoğunluğu — kısa-net mi, ayrıntılı mı?

  1. Kıbrıs
    31 karakter
  2. Güneydoğu Anadolu
    28 karakter
  3. Akdeniz
    28 karakter
  4. Marmara
    28 karakter
  5. Ege
    28 karakter
  6. İç Anadolu
    28 karakter
  7. Karadeniz
    28 karakter
  8. Doğu Anadolu
    27 karakter

İnteraktif il benzerlik haritası

Bir ile tıkla — o ile en benzer iller koyu renkle ışıyacak (Jaccard skoru)

Bir ile tıkla — o ile benzer iller koyu renkle ışıyacak
AdanaAdıyamanAfyonAğrıAmasyaAnkaraAntalyaArtvinAydınBalıkesirBilecikBingölBitlisBoluBurdurBursaÇanakkaleÇankırıÇorumDenizliDiyarbakırEdirneElazığErzincanErzurumEskişehirG.antepGiresunGümüşhaneHakkariHatayIspartaMersinİstanbulİzmirKarsKastamonuKayseriKırklareliKırşehirKocaeliKonyaKütahyaMalatyaManisaK.maraşMardinMuğlaMuşNevşehirNiğdeOrduRizeSakaryaSamsunSiirtSinopSivasTekirdağTokatTrabzonTunceliŞ.urfaUşakVanYozgatZonguldakAksarayBayburtKaramanKırıkkaleBatmanŞırnakBartınArdahanIğdırYalovaKarabükKilisOsmaniyeDüzceKıbrıs
Renk = coğrafi bölge. Bir ile tıkla — yakın iller yeşil, uzak iller kırmızı işaretlenir.

Hiyerarşik kümeleme — il dendrogramı

81 ilin ağız benzerliğine göre ağaç yapısı (UPGMA average-linkage)

Dendrogram yükleniyor…

Anlam derinliği (polysemy)

Sözcük başına ortalama anlam — bölgesel polysemy farkları.

Bölge bazında ortalama anlam sayısı

  1. Kıbrıs
    1.80
  2. Güneydoğu Anadolu
    1.72
  3. Marmara
    1.67
  4. Ege
    1.58
  5. Akdeniz
    1.53
  6. Doğu Anadolu
    1.50
  7. İç Anadolu
    1.47
  8. Karadeniz
    1.43

Madde başına anlam sayısı dağılımı

1110.5k29.8k32.6k491454236195712586493810241119129

X: anlam sayısı · Y: o sayıda anlama sahip madde adedi (log ölçek)

Genel sesbilim profili

Toplam sözcük
108.694
Ort. uzunluk
6.52
karakter
Ort. hece
2.62
Ort. ünlü
2.62
vokal oranı: 40.5%
Ort. ünsüz
3.90
Uyumlu sözcük
52.1%

Ünlü sınıfları

Kalın / İnce

Kalın (a, ı, o, u, â, û)
57.8%
İnce (e, i, ö, ü, î)
42.2%

Düz / Yuvarlak

Düz (a, e, ı, i)
77.7%
Yuvarlak (o, ö, u, ü)
22.0%

Dar / Geniş

Dar (ı, i, u, ü)
39.0%
Geniş (a, e, o, ö)
60.7%
Kalın/İnce: dilin arka/ön bölgesinde oluşan ünlüler — ünlü uyumunun temeli. Düz/Yuvarlak: dudakların durumu — küçük uyum bunu kontrol eder. Dar/Geniş: ağız açıklığı — küçük uyumda darlar yuvarlağı izler.

Ünsüz sınıfları (artikülasyon biçimine göre)

Patlamalı (durak)p, b, t, d, k, g, ç, c — geçici tıkanma sonrası açılma
43.9%
Sürtünmelif, v, s, z, ş, j, h, ğ — sürekli sürtünme
18.4%
Nazal (genizsi)m, n — burundan da çıkar
15.6%
Akıcı (likid)l, r — engelsiz akış
18.5%
Sert ünsüzlerf, s, t, k, ç, ş, h, p — sertleşme öncesi/sonrası
39.0%
Yumuşak ünsüzlerb, c, d, g, ğ, j, l, m, n, r, v, y, z
61.0%
Türkçe sözcüklerde patlamalı (p, b, t, d, k, g) ünsüzler en yoğun (~%44); akıcı (l, r) ve sürtünmeli (~%18) onları izler. Bu dağılım, dilin "patlayıcı + sürekli akıcı" karakterini gösterir.

Büyük ünlü uyumu

Kalın (a, ı, o, u)
56.632 (52.1%)
İnce (e, i, ö, ü)
39.462 (36.3%)
Karışık (uyumsuz)
12.600 (11.6%)
Türkçe sözcüğün tüm ünlüleri ya hep kalın ya da hep ince olur. Karışık ünlülü sözcükler genelde alıntıdır (Arapça, Farsça, Avrupa dilleri).

Küçük ünlü uyumu (düz/yuvarlak)

Tümü düz (a, e, ı, i)
65.320 (60.1%)
Karışık
29.979 (27.6%)
Tümü yuvarlak (o, ö, u, ü)
8.781 (8.1%)
Tek ünlü
4.614 (4.2%)

Alıntı sözcük göstergeleri ve yapı

Şapkalı ünlü içeriyorâ, î, û — çoğu Arapça/Farsça alıntıyı imler
685 (0.63%)
Yan yana ünlü (hiyat)saat, şair, fiil — Türkçeye yabancı yapı
841 (0.77%)
Aynı ünsüz tekrarıdikkat, hatta, kelime — alıntı sözcüklerde
5.293 (4.87%)
Başta iki ünsüztren, krem, stres — Türkçede yoktur
21 (0.02%)
Sonda iki ünsüzkart, sırt, dört — hem Türkçe hem alıntıda görülür
2.023 (1.86%)
Yabancı ünsüz kombi.ünsüz + h/ğ kombinasyonu (çh, kh, sh)
1.483 (1.36%)

Hece sayısı dağılımı

1249.5k339.4k413.5k567

İlk ses (top 15)

  1. k
    13.109
  2. g
    8.637
  3. b
    8.190
  4. s
    7.076
  5. t
    7.008
  6. d
    6.975
  7. a
    6.957
  8. ç
    6.839
  9. h
    5.265
  10. y
    5.160
  11. c
    5.019
  12. m
    4.053
  13. p
    3.932
  14. e
    3.635
  15. ş
    2.269

Son ses (top 15)

  1. k
    39.538
  2. a
    9.154
  3. n
    8.073
  4. e
    7.005
  5. i
    5.490
  6. ı
    5.454
  7. r
    5.120
  8. l
    3.743
  9. t
    3.434
  10. z
    3.345
  11. ç
    2.755
  12. h
    2.413
  13. m
    2.256
  14. ş
    2.112
  15. u
    2.104

Bölgesel sesbilim tablosu

BölgeUzunlukHeceÜnlüÜnsüzVokal %Uyum
Marmara6.382.572.573.8140.7%83.4%
Ege6.452.592.593.8540.7%82.4%
Akdeniz6.452.592.593.8640.4%80.7%
İç Anadolu6.452.592.593.8640.5%79.1%
Karadeniz6.392.572.573.8240.5%78.2%
Doğu Anadolu6.052.412.413.6440.1%78.0%
Güneydoğu Anadolu6.082.452.453.6340.6%79.6%
Kıbrıs6.692.652.654.0439.9%78.0%

Genel morfoloji profili

Toplam sözcük
124.606
Türetilmiş
53.343
42.81%
Çok sözcüklü
15.912
12.77%
İkileme
1.535
1.23%
Pekiştirme
2.085
1.67%
Ort. ek/sözcük
0.77
yapım: 0.43 · çekim: 0.06

Yapım, çekim ve fiil ekleri — kategorilere göre

Yapım: isim → isim

-lık/-lik/-luk/-lükSoyut isim/yer/durum (yokluk, güzellik)
3.508 (2.82%)
-cı/-ci/-cu/-cüMeslek/uğraşı kişisi (oduncu, balıkçı)
2.007 (1.61%)
-lı/-li/-lu/-lüNiteleme/sahiplik (kuvvetli, sevgili)
3.661 (2.94%)
-sız/-siz/-suz/-süzYokluk eki (gözsüz, dilsiz)
488 (0.39%)
-ca/-ce/-ça/-çeEşitlik/abartı (yavaşça, aynıca)
1.644 (1.32%)
-cık/-cik/-cuk/-cükKüçültme (küçücük, ufacık)
1.838 (1.48%)
-daş/-deşOrtaklık (yoldaş, vatandaş)
191 (0.15%)
-kiAitlik (dünkü, yarınki)
377 (0.30%)

Yapım: fiil → isim

-mak/-mekMastar (yapmak, gelmek)
24.532 (19.69%)
-ma/-meEylem adı (gelme, yapma)
1.991 (1.60%)
-ış/-iş/-uş/-üşEylem adı (gidiş, anlayış)
1.279 (1.03%)
-ıcı/-ici/-ucu/-ücüFail/meslek (yapıcı, satıcı)
359 (0.29%)
-ak/-ekYer/araç (durak, kaçak)
33.893 (27.20%)
-gı/-gi/-gu/-güDurum/araç (sevgi, bilgi, sergi)
834 (0.67%)
-tı/-ti/-tu/-tüSes adı (gürültü, parıltı)
1.939 (1.56%)

Sıfat-fiil

-an/-enŞimdiki sıfat-fiil (gelen, döner)
5.503 (4.42%)
-dık/-dik/-duk/-dükÖğrenilen geçmiş sıfat-fiil (gördüğüm)
1.440 (1.16%)
-mış/-miş/-muş/-müşÖğrenilen geçmiş zaman/sıfat (görmüş)
167 (0.13%)
-acak/-ecekGelecek/sıfat-fiil (gelecek, yapacak)
228 (0.18%)
-ası/-esiİstek sıfat-fiili (gidesi)
824 (0.66%)

Zaman / kip / bildirme

-dı/-di/-du/-düGörülen geçmiş zaman
781 (0.63%)
-ar/-er/-ır/-irGeniş zaman çekimi
5.452 (4.38%)
-malı/-meliGereklilik kipi (gitmeli)
68 (0.05%)
-sa/-seŞart/dilek kipi (gitse)
368 (0.30%)
-dır/-dir/-dur/-dürBildirme/ettirgen (yazdırmak)
703 (0.56%)

Çekim

-lar/-lerÇoğul eki (evler, kuşlar)
117 (0.09%)

Yoğunluk / süreklilik

-gan/-gen/-kan/-kenSüreklilik (alıngan, sıkılgan)
780 (0.63%)
-kın/-kin/-gın/-ginYoğunluk (dargın, üzgün)
904 (0.73%)
Tespit yöntemi: Bu sayım sözcüğün son ekiyle eşleşen regex kalıplarıyla yapılır — gerçek morfolojik analiz değil, kalıp tespitidir. "-mış" ve "-mak"gibi yaygın ekler için güvenilir; ama kısa eklerde (-ak, -ca) yanlış pozitif olabilir (örn. "konak"'ın "-ak" eki gerçek değil). Toplam ek sayısı bir maddenin kaç farklı kalıba uyduğunu sayar; bir sözcükte birden çok ek tespit edilebilir.

Yapısal özellikler

Çok sözcüklüBirden çok kelimeden oluşan ifadeler (ağzı kara)
15.912 (12.77%)
İkilemeYinelemeli kalıp (yavaş yavaş, birer birer)
1.535 (1.23%)
PekiştirmeÖn-pekiştirme (sapasağlam, masmavi, dümdüz)
2.085 (1.67%)
TüretilmişEn az bir yapım eki içeriyor
53.343 (42.81%)

Hece sayısı dağılımı

1249.5k339.4k413.5k567

Bölgesel morfoloji tablosu

BölgeUzunlukOrt. ekÇok kel.TüretilmişİkilemePekiştirme
Marmara6.920.8010.1%45.1%0.90%1.76%
Ege7.060.8411.0%47.1%1.00%1.84%
Akdeniz7.130.8212.4%46.2%1.40%1.71%
İç Anadolu7.250.8414.0%46.8%1.40%1.50%
Karadeniz7.130.7913.3%43.9%1.70%1.77%
Doğu Anadolu6.730.6811.4%36.5%0.80%1.49%
Güneydoğu Anadolu6.820.7412.2%40.8%1.30%1.50%
Kıbrıs7.371.0114.5%53.0%0.90%2.57%

İlçe ve köy seviyesinde sınıflandırma

Türkiye Türkçesi ağız sözlüğünün ilçe ve köy seviyesindeki dağılımı, en yoğun saha çalışma yerleri ve ağız bakımından komşu ilçeler.

Kavramsal alan haritaları

Anlam yakınlığına göre 16 kelime grubu — bir alana tıkla, harita o alanın yoğunluğunu göstersin

Bitki ve botanik

5.536 sözcük

Bitkiler, otlar, ağaçlar, çiçekler, meyveler