Sınıflandırma
Türkiye Türkçesi ağız sözlüğünün tipolojik, coğrafi ve semantik analitiği. Sekmeler arasında gez — her birinde ayrı bir görsel + kılavuz.
Yerel sözcük oranı
67.4%
Sadece 1 ilde geçen sözcükler
Ortalama il yayılımı
2.60
Bir sözcük ortalama kaç ilde geçiyor
Tek sözcüklü
87.4%
Madde başında tek kelime
Homonim oranı
92.4%
(I), (II)… ile ayrılmış
Ortalama anlam
1.19
Bir madde başına anlam sayısı
En çok anlamlı
23
Tek bir maddede max alt anlam
Sözlük tipolojisi
Maddebaşı, anlam ve veri tamamlığı oranları
Madde uzunluğu
- Tek sözcük87%
- Çok sözcüklü13%
Anlam çeşitliliği
- Tek anlamlı89%
- Çok anlamlı11%
Konum bilgisi
- Konumlu63%
- Konumsuz37%
Tanık (örnek)
- Tanıklı8%
- Tanıksız92%
Kılavuz — terimler
Kullanılan ileri yöntemler ve terimlerin anlamı
Jaccard benzerlik
İki kümenin ortak eleman sayısının bileşim eleman sayısına oranı.
|A∩B| / |A∪B|Polysemy (çok anlamlılık)
Bir sözcüğün taşıdığı farklı anlam sayısı.
anlam_sayısı(sözcük)TF-IDF / Karakteristik skor
Bölgede baskın, başkasında nadir olma derecesi.
freq(bölge) × freq(bölge)/freq(toplam)Zipf yasası
Az sayıda kelime çok kullanılır, çoğu az.
f(k) ≈ C / k^sUPGMA / Hiyerarşik kümeleme
Average-linkage ile en yakın kümeleri ardışık birleştirme.
d(A∪B,C) = (|A|·d(A,C)+|B|·d(B,C))/(|A|+|B|)Kavramsal alan
Anlam yakınlığına göre kelime grupları (semantic field).
anlam_metni içinde anahtar kelime varsaHomonim
Aynı yazılışlı, farklı anlamlı maddeler. (I), (II), (III).
(I), (II), …Değişke (varyant)
Bir maddenin farklı ağızlardaki yazılışı.
degiske → hedef_maddeFTS (full-text search)
Türkçe stem'leme + relevans skorlama.
ts_rank(fts, query)Trigram (typo toleransı)
3 karakterlik dilim benzerliği.
similarity(a, b)