Akademide Kategorik Verilerde Çözümleme Yöntemleri

Akademik araştırmalarda karşılaştığımız verilerin önemli bir bölümü kategoriktir: cinsiyet, okul türü, başarı durumu (geçti/kaldı), bir programı tavsiye etme (evet/hayır), anket cevapları (katılıyorum/katılmıyorum), hastalık var/yok, doz düzeyi (düşük/orta/yüksek) gibi. Bu verilerin analizi, “ortalama–standart sapma–t testi” üçlüsünün doğal uzantısı değildir; olasılıklar, oranlar, riskler ve olasılık oranları (odds ratio, OR) üzerinden düşünmeyi, tablolarda beklenen—gözlenen ayrımını ve olasılık modellerini (lojistik, çok kategorili, sıralı, log-doğrusal) gerektirir.
Bu kapsamlı yazı, kategorik veri çözümlemesinde kullanılan yöntemleri temelden ileriye doğru, uygulamalı örnekler ve karar ağaçlarıyla ele alır: 2×2 ve r×c çapraz tablolar, Ki-kare ve Fisher kesin testi, ilişki ölçüleri (φ, Cramer’s V, Tschuprow’s T), risk farkı–göreli risk–OR ve bunların güven aralıkları; McNemar ve eşleştirilmiş tasarımlar; trend ve katmanlı tablolarda Cochran–Mantel–Haenszel; lojistik/çok terimli/sıralı lojistik modeller; Poisson ve negatif binom; log-doğrusal modeller; GEE ve çok düzeyli (karma etkili) çerçeve; küçük örneklem ve aykırı durumlarda Firth düzeltmesi ve kesin yöntemler; eksik veri, ağırlıklandırma ve örnekleme tasarımı; görselleştirme ve raporlama standartları. Her bölümde, eğitim ve sağlık alanlarından somut senaryolar üzerinden gidecek, güven aralıkları ile belirsizliği görünür kılacak, etki büyüklüklerini pratik dile çevireceğiz.

1) Kategorik Ölçekler: Nominal–Ordinal Ayrımı ve Analize Etkisi
-
Nominal: Sırasız sınıflar (okul türü: fen/lise/meslek; kan grubu).
-
Ordinal: Sıralı sınıflar (tutum: hiç katılmıyorum… tamamen katılıyorum; doz: düşük–orta–yüksek).
Analitik yansıma: Nominal veride ilişki ölçüsü simetrik, ordinal veride sıra bilgisini koruyan testler (Mantel–Haenszel trend, sıralı lojistik) tercih edilir. Ölçeğin türü, model seçiminin ilk kapısıdır.
2) İki İkili Değişken: 2×2 Çapraz Tablo, Ki-Kare, Fisher ve Etki Ölçüleri
Örnek: Program (var/yok) × Geçti (evet/hayır).
-
Ki-kare testi (Pearson): Bağımsızlık hipotezi; beklenen hücre sayıları küçükse güvenilmez.
-
Fisher kesin testi: Küçük örneklem ve nadir olaylarda güvenilir.
-
Etki büyüklükleri:
-
Risk farkı (RD): p1−p0p_1 – p_0
-
Göreli risk (RR): p1/p0p_1 / p_0 (kohort/deney uygun)
-
OR: p1/(1−p1)p0/(1−p0)\frac{p_1/(1-p_1)}{p_0/(1-p_0)} (vaka–kontrol ve lojistik regresyonla tutarlı)
-
-
Güven aralığı: Log-dönüşümle (ör. log(OR) ± z·SE) veya Newcombe yöntemiyle RD/RR için.
Pratik çeviri: “OR=1.42, %95 GA [1.10, 1.86] → program geçme ‘olasılığını’ yaklaşık %10–%86 artırıyor; temel olasılığa bağlı.”
3) r×c Tablolar: Cramer’s V, Tschuprow ve Satır–Sütun Yapıları
İki nominal değişken birden çok kategori içerdiğinde bağımsızlık testi Ki-kare kalır; ilişki gücü için:
-
Cramer’s V: 0–1 arasında; tablonun en küçük boyutunu normalleştirir.
-
Tschuprow’s T: r ve c boyutlarının etkisini dengeler.
Örnek: Okul türü × tavsiye (evet/kararsız/hayır). p-değeri ilişkiyi, V ise gücünü verir (örn. V≈0.15 küçük–orta).
4) Ordinal Kategoriler: Trend Testleri ve Somut Yorumlar
Sıralı değişkenlerde Cochran–Armitage trend testi (ikili sonuç için) ya da Mantel–Haenszel çizgisel trend (r×c) duyarlıdır.
Örnek: Doz düzeyi arttıkça başarı olasılığı artıyor mu? Trend testi p<.001 ise, sıralı lojistik model ile eğim katsayısı ve GA’sı raporlanır.
5) Eşleştirilmiş İkili Veriler: McNemar, Stuart–Maxwell ve Cochran’ın Q’su
Aynı bireyde iki ölçüm (önce/sonra) veya eşleştirilmiş tasarımlarda bağımsızlık testi uygunsuzdur.
-
McNemar: 2×2 eşleştirilmiş değişim; diskordan hücrelere odaklanır.
-
Stuart–Maxwell: r×r (r>2) eşleştirilmiş nominal.
-
Cochran’ın Q’su: Çoklu ikili ölçümler (tekrarlı) için (örn. üç farklı testin pozitiflik oranları).
Örnek: Programdan önce/sonra “programı tavsiye ederim (evet/hayır)” değişimi McNemar ile sınanır.
6) Çoklu Katmanlar: Mantel–Haenszel OR ve Katmanlı Analiz
Karıştırıcıyı tabakalı (katmanlı) analizle kontrol: Cochran–Mantel–Haenszel (CMH).
-
Sabit etkili OR: Katmanlar (ör. okul) boyunca ortak OR tahmini.
-
Homojenlik testi: OR’lar benzer mi? Değilse etkileşim (moderatörlük) vardır → katmanlara ayrı rapor.
Örnek: Program etkisi, düşük SES okullarında daha yüksek; CMH homojenlik testi p<.05 → moderasyon var.
7) Lojistik Regresyon: İkili Sonucun Temel Çalışma Atı
Model: logp1−p=β0+β1X1+⋯\log\frac{p}{1-p} = \beta_0 + \beta_1X_1 + \cdots
-
Katsayı yorumu: eβe^{\beta} = OR; sürekli x’te bir birim artış OR kat değiştirir.
-
Ayarlanmış etkiler: Karıştırıcılar (yaş, SES, ön-test) modelde yer alır.
-
Tanılama: Ayrım (AUC/ROC), kalibrasyon (Hosmer–Lemeshow, kalibrasyon eğrisi), çoklu doğrusal olmayanlık (splines), etkileşim terimleri.
-
Nadir olaylar: Firth cezalandırmalı lojistik (tam ayrışma), lasso ile değişken seçimi.
Pratik: Etkiyi olasılık farkına çevirmek için marjinal etkileri raporlayın (AME): “Program olasılığı +0.08 (GA [0.03, 0.12])”.
8) Çok Kategorili Sonuç: Multinomial (Çok Terimli) Lojistik
Sonuç 3+ kategori (ve sırasız) olduğunda multinomial uygundur.
-
Referans kategorisi seçilir; her kategori için ayrı logit.
-
Yorum: “Kararsız yerine ‘tavsiye ederim’ seçme OR’u” gibi koşullu olasılıklarla.
-
Uygulama: Öğrencilerin program hakkındaki kararı (hayır/kararsız/evet) ~ demografi + başarı + memnuniyet.
9) Sıralı Sonuç: Proportional Odds (Ordinal) Lojistik ve Alternatifleri
Model: Aynı eğim (parallel slopes) varsayımıyla kümülatif logit.
-
Test: Brant veya score test; ihlal varsa kısmi proportional odds ya da adjacent categories modelleri.
-
Sunum: Eşikler (cutpoints) + ortak katsayılar; olasılık piramitleri ile görselleştirme.
Örnek: “Memnuniyet (1–5)” ~ etkileşimli öğretim + geri bildirim; proportional odds sağlanmazsa seçmeli parametrizasyon.
10) Sayım ve Oran Verileri: Poisson, Negatif Binom ve Lojit-Binom
Kategorik tasarımlarda sayım (olay sayısı) ve oran (başarı/deneme) sık görülür.
-
Poisson: Ortalama = varyans; aşırı saçılmada (overdispersion) uygunsuz.
-
Negatif binom: Overdispersion’u modeller.
-
Binom–logit: Başarı/deneme ikilileri (ör. doğru cevap/n).
-
Ofset: Maruziyet süresi farklılıklarında log(ofset).
Örnek: Sınıf bazında disiplin olayları ~ okul türü + program; negatif binom ile daha iyi uyum.
11) Log-Doğrusal (Log-Linear) Modeller: r×c ve Ötesinde Esnek Çerçeve
Tüm hücre frekanslarını açıklayan doyurulmuş veya kısıtlı modeller:
-
Bağımsızlık modeli: Satır–sütun ana etkileri var, etkileşim yok.
-
Etkileşim modelleri: İki/üçlü etkileşim terimleri ile karma ilişkiler.
-
Avantaj: Çoklu kategoriler ve simetrik yapı; nominal değişkenler arası ilişkilerin ayrıntılı testleri.
12) Tekrarlı Ölçüm ve Bağımlı Gözlemler: GEE ve Karma Modeller
Öğrenciler sınıflarda, hastalar kliniklerde kümelenir; yanıtlar bağımsız değildir.
-
GEE: Marjinal etkiler (population-averaged); korelasyon yapısı (exchangeable, AR(1)); robust SE.
-
GLMM: Lojistik/Poisson link + rastgele etkiler (1|sınıf/okul). Koşullu (subject-specific) yorum.
Karar: Politika dili (marjinal) için GEE; birey/küme içi varyasyonu yorumlamak için GLMM.
13) Küçük Örneklem, Seyrek Tablo ve Tam Ayrışma: Kesin Yöntemler ve Firth
-
Kesin lojistik/Fisher: Küçük n, nadir olay.
-
Firth penalizasyonu: Tam ayrışmada (bir grupta hep “evet”) sapmasızlık için.
-
Bayesçi lojistik: Zayıf bilgilendirici önceller (Cauchy/Normal(0,2.5)) ile kararlı tahmin; credible interval anlatımı.
14) Eksik Kategorik Veri: MI, EM ve Duyarlılık Analizi
-
MAR varsayımı altında çoklu atama (lojistik/polytomik atama; m≥20).
-
FIML sıralı modellerde kısıtlıdır; SEM/GLM çerçeveleriyle birlikte düşünülebilir.
-
MNAR şüphesinde pattern-mixture/selection duyarlılık senaryoları.
Rapor: Eksik oranları, mekanizma kanıtları, atama modeli kovaryatları ve atama m sayısı.
15) Örnekleme Tasarımı ve Ağırlıklandırma: Karmaşık Anketlerde Doğru SE
Tabakalı/kümeli örnekleme → tasarım ağırlıkları + PSU + strata modele girmezse SE’ler küçülür, p-değerleri aşırı iyimser olur.
-
Survey lojistik (R
survey, Statasvy, SPSS Complex Samples) ile analiz. -
Rapor: Ağırlıklı tahminler ve tasarım-düzeltilmiş GA’lar.
16) Çoklu Karşılaştırma, Aile-İçi Hata ve FDR
Birçok kategori karşılaştırması yalancı pozitifleri artırır.
-
Holm/Bonferroni: Koruyucu.
-
Benjamini–Hochberg FDR: Keşfe izin veren denge.
-
Aile tanımı: Önceden belirlenmiş hipotez setleri; gatekeeping kurguları.
17) Güç (Power) ve Örneklem: Oran Farkları, OR ve Çok Kategorili Sonuç
-
İki oran için örneklem: n≈(z1−α/22pˉ(1−pˉ)+z1−βp1(1−p1)+p0(1−p0))2(p1−p0)2n \approx \frac{(z_{1-\alpha/2}\sqrt{2\bar p(1-\bar p)} + z_{1-\beta}\sqrt{p_1(1-p_1)+p_0(1-p_0)})^2}{(p_1-p_0)^2}
18) Tanılama ve Kalibrasyon: ROC–AUC, Brier ve Kalibrasyon Eğrileri
İkili sınıflandırmada:
-
AUC: Ayrım gücü.
-
Brier skoru: Olasılık doğruluğu.
-
Kalibrasyon: Tahmin–gerçek olasılık uyumu (görsel, Hosmer–Lemeshow sınırlı).
Rapor: “AUC=.78; kalibrasyon eğrisi 0.2–0.8 aralığında iyi; düşük olasılıklarda hafif aşırı tahmin.”
19) Görselleştirme: Mozaik, Spine, Alluvial, Isı Haritası ve Etki Oranları
-
Mozaik/spine: Hücre oranlarını alanla gösterir; sıralı değişkende renk gradyanı.
-
Alluvial/Sankey: Kategori geçişleri (önce–sonra) için.
-
Isı haritası: r×c’de standardized residuals (pozitif/negatif sapmalar).
-
OR/risk farkı panosu: Nokta + %95 GA hata çubukları; alt gruplar için forest.
20) Uygulamalı Senaryo A (Eğitim): Program ve Geçme—Basitten Modele
Veri: Program (0/1), geçme (0/1), SES, ön-test, sınıf (küme).
-
2×2 tablo: OR=1.38 (GA [1.12, 1.71]).
-
Kontrol: Lojistik (geçme ~ program + SES + ön-test), program aOR=1.31 (GA [1.06, 1.61]).
-
Kümelenme: GLMM (1|sınıf); aOR=1.28 (GA [1.03, 1.59]).
-
Marjinal etkiler: AME=+0.07 (GA [0.02, 0.11]).
Yorum: Etki küçük–orta; düşük ön-testte daha güçlü (etkileşim p=.03).
21) Uygulamalı Senaryo B (Sağlık): Doz–Yanıt ve Ordinal Model
Veri: Doz (düşük/orta/yüksek), iyileşme düzeyi (1–5), yaş, cinsiyet.
-
Trend: Cochran–Armitage p<.001.
-
Ordinal lojistik: OR_doz (yüksek vs düşük) =1.72 (GA [1.30, 2.27]); proportional odds hafif ihlal → kısmi proportional odds ile çözüm.
Yorum: Doz yükseldikçe iyileşme düzeyi artma eğiliminde; yaşla etkileşim yok.
22) Uygulamalı Senaryo C (Sosyal Bilimler): Çok Kategorili Tercihler
Veri: Program hakkındaki kanaat (hayır/kararsız/evet) ~ doyum + güven + okul türü.
-
Multinomial lojistik: “Evet vs kararsız” aOR_doyum=1.21 (GA [1.10, 1.33]); “Hayır vs kararsız” aOR_güven=0.84 (GA [0.75, 0.95]).
Yorum: Doyum artışı “evet”e kaydırıyor; güven eksikliği “hayır” olasılığını artırıyor.
23) Uygulamalı Senaryo D (Politika): Katmanlı Analiz ve CMH
Veri: Üç bölge; her bölgede program×geçme tablosu.
-
Bölge OR’ları: 1.55, 1.20, 0.98 → homojenlik p=.04.
-
CMH ortak OR: 1.22 (GA [1.03, 1.45]) ama heterojenlik var → bölgeye özgü rapor ve nedenler (uygulama kalitesi).
24) Raporlama Standartları: p’nin Ötesinde GA ve Etki
-
Tablo düzeni: Tahmin | %95 GA | p | Etki (OR/RR/RD) | Not (düzeltme/varsayım).
-
Olasılık çevirisi: Marjinal etkilerle “% puan farkı”.
-
Belirsizlik: SE yerine GA odaklı dil; anlamlı–anlamsız ikiliği yerine aralık yorumu.
25) Önyargılar, Karıştırıcılar ve Nedensel Düşünme: DAG ve Tasarım
Kategorik veri analizi nedensel çıkarım değildir; ancak DAG ile karıştırıcıları tanımlayıp kovaryat setini seçmek, etki tahminini iyileştirir.
-
Kollider kontrolünden kaçının;
-
Aracıyı modele koymanın yorumunu açık yazın;
-
Tasarım (randomizasyon/katmanlama/eşleştirme) en güçlü silahtır.
26) Sık Yapılan Hatalar ve Çözümleri
-
Beklenen hücre <5 iken Ki-kare → Fisher/Monte Carlo veya birleştirme.
-
OR’u risk gibi yorumlamak → Temel olasılığı verin; mümkünse RR ya da olasılık farkı.
-
Kümelenmeyi yok saymak → GEE/GLMM ile düzeltin.
-
Proportional odds ihlali → Kısmi model/alternatif link.
-
Çoklu test düzeltmesi yok → FDR/Holm dipnotu.
-
Eksik veri stratejisiz → MI + duyarlılık.
27) Yazılım ve İş Akışı: R–Stata–SPSS–Jamovi–Python
-
R:
stats(chisq.test),epiR(RR/OR GA),MASS/nnet(multinom),ordinal(clm),lme4(glmer),geepack,survey,logistf(Firth),vcd(mozaik),ggplot2. -
Stata:
cci/cc,logit/logistic/ologit/mlogit,melogit,firthlogit,svy:öneki. -
SPSS/Jamovi: Kategorik analize menü; kompleks örnekleme modülleri.
-
Python:
statsmodelsGLM/GLMM,scikit-learnROC/AUC (sınıflandırma için). -
Reprodüksiyon: Quarto/R Markdown; kod–tablo–şekil otomasyon.
28) Görsel ve Tablo Şablonları: Karar Verdiren Sunum
-
OR forest: Alt gruplar ve CMH; %95 GA çizgileri.
-
Isı haritası (standartlaştırılmış artıklık): r×c’de nerede aşırı/eksik birliktelik var?
-
Marjinal etki grafiği: Sürekli kovaryatta program etkisinin eğimi (±1 SS).
-
Tablo: OR/RR/RD aynı tabloda → “pratik anlamlılık” için karşılaştırma.
29) Politika ve Uygulama Dili: “Ne Kadar?” ve “Kim İçin?”
-
Mutlak fark (puan farkı) ve göreli etkiyi birlikte verin.
-
Hedef gruplar: Heterojen etki varsa (bölge/SES), ayrık öneri.
-
Maliyet ve eşitlik: Küçük etki, düşük maliyetle geniş nüfusta pratik olabilir; fakat adalet boyutunu tartışın.
30) Sonuç: Kategorik Veri—Olasılık Diliyle Dürüst Hikâye
Kategorik veriler, akademik araştırmaların “evet/hayır” gibi basit görünen ama olasılık ve risk mantığıyla derinleşen yüzünü temsil eder. Güçlü bir çözümleme:
-
Ölçek türünü (nominal/ordinal) doğru tanır ve buna uygun test/model seçer;
-
2×2’den r×c’ye, eşleştirilmişten katmanlı yapılara, trendden log-doğrusal modellere kadar tablo mantığını korur;
-
Lojistik/çok terimli/sıralı modellerle ayarlanmış etkileri, Poisson/negatif binomla sayım süreçlerini; GEE/GLMM ile bağımlı yapıları doğru modeller;
-
Küçük örneklem, ayrışma ve seyrek tabloda kesin ve cezalı tekniklere geçer;
-
Eksik veri, karmaşık örnekleme ve çoklu testte dürüst belirsizlik yönetir;
-
Sonuçları GA ve etki büyüklükleri ile pratik dile çevirir (olasılık farkı, RR/OR);
-
Görsellerle (mozaik, forest, marjinal etki şeritleri) kanıtı görünür kılar;
-
Raporlamada şeffaflık ve yeniden üretilebilirlik ilkelerini uygular.
Unutmayın: Kategorik veri, yalnız “kim kazandı?” sorusunu değil, hangi koşullarda, kimler için, ne kadar sorularını yanıtlar. Bu sorulara güvenle karşılık verebilmek için, tablo–model–görsel üçlüsünü belirsizliği saklamadan, etkiyi abartmadan, kanıta sadakatle kullanın.
Akademi Delisi, eğitim ve akademik destek alanında kapsamlı hizmetler sunan öncü bir platformdur. Öğrencilerin akademik başarılarına yön verirken, onları bilgiyle buluşturmayı ve potansiyellerini en üst düzeye çıkarmayı amaç edinmiş bir ekibiz. Sitemiz bünyesinde ödevlerden projelere, tezlerden makalelere kadar geniş bir yelpazede destek sağlıyoruz. Alanında uzman yazarlarımız, öğrencilere özgün içerikler sunarken, aynı zamanda onlara araştırma, analiz ve yazım konularında rehberlik ederek kendilerini geliştirmelerine yardımcı oluyor.
Akademik hayatın zorluklarıyla başa çıkmak artık daha kolay. Akademi Delisi olarak, öğrencilere sadece ödevlerinde değil, aynı zamanda araştırma projelerinde, tez çalışmalarında ve diğer akademik gereksinimlerinde de destek sağlıyoruz. Sunduğumuz kaliteli hizmetler sayesinde öğrenciler zamanlarını daha verimli bir şekilde kullanabilirler. Uzman ekibimiz, her bir öğrencinin ihtiyaçlarına özel çözümler üreterek, onların akademik hedeflerine ulaşmalarına katkı sağlar.
Gelişmiş kaynaklara erişimden akademik yazım kurallarına, araştırma yöntemlerinden kaynakça oluşturmaya kadar her aşamada öğrencilere destek sunan Akademi Delisi, eğitimde yeni bir perspektif sunuyor. Amacımız, öğrencilere sadece geçici çözümler değil, aynı zamanda uzun vadeli öğrenme ve başarıya giden yolda rehberlik etmektir.
Bayesçi lojistik çapraz tablo Cochran Q Cochran–Armitage trend Cochran–Mantel–Haenszel çoklu karşılaştırma FDR Cramer’s V DAG nedensel grafik eğitim verisi eksik veri çoklu atama etkileşim terimleri Firth lojistik fisher kesin testi forest plot GEE marjinal etkiler GLMM karma etkiler göreli risk güç ve örneklem güven aralığı heterojen etki isı haritası artıklık kategorik veri analizi kesin lojistik ki kare testi kısmi proportional odds log-doğrusal model logit penalizasyon Lojistik regresyon MAR MNAR marjinal etkiler McNemar testi mozaik grafik multinomial lojistik negatif binom odds ratio ordinal lojistik proportional odds poisson regresyon politika dili pratik anlamlılık psu strata R survey raporlama standartları reprodüksiyon Quarto R Markdown risk farkı ROC AUC kalibrasyon sağlık verisi Stata svy Stuart–Maxwell survey ağırlıkları Tschuprow’s T