Akademik Yazımda T-Testi Sonuçlarının Yorumlanması

T-testi, iki ortalama arasındaki farkın rastlantıyla açıklanamayacak kadar büyük olup olmadığını sınamak için kullanılan, tarihsel olarak en yaygın istatistiksel araçlardan biridir. Ancak akademik yazımda sık düşülen hata, t-testini “p-değeri okuma”ya indirgemektir. Güçlü bir bulgu anlatısı yalnız “anlamlı” demekle kalmaz; farkın büyüklüğünü, belirsizliğini (güven aralığı), varsayım ve tasarım koşullarını ve pratik (klinik/uygulama) önemini birlikte verir. Bu makale, t-testinin üç ana türünü—tek örneklem, bağımsız örneklemler, eşleştirilmiş/tekrarlı ölçüm—varsayımları, etkileyen tasarım unsurları (varyans homojenliği, normalite, örneklem büyüklüğü, kümelenme), Welch düzeltmesi, robust alternatifler (Yuen kırpılmış ortalama, permütasyon), çoklu karşılaştırmalar, güç analizi, etki büyüklükleri (Cohen’s d, Hedges’ g), eşdeğerlik/TOST ve noninferiority, Bayesçi t-testi, ağırlıklı/karma örnekleme ve raporlama şablonlarıyla ele alır. Gelişme bölümünde en az 15 alt başlık altında örnek olaylar, derin analizler ve uygulamalı şablonlar bulacaksınız. Amaç, “p<.05”ten bir bilim dili çıkarmak: “fark şu kadar, belirsizlik bu kadar, anlamı şu ve şu koşullarda geçerli.”

1) T-Testinin Ailesi: Üç Tür, Üç Anlatı
Tek örneklem t-testi bir ortalamanın bilinen/sabit bir değerden sapıp sapmadığını sınar (ör. bir ölçek puanı 50’den farklı mı?).
Bağımsız örneklemler t-testi iki bağımsız grubun ortalamalarını karşılaştırır (ör. deney vs kontrol).
Eşleştirilmiş/tekrarlı ölçüm t-testi aynı bireylerin önce/sonra puanlarını veya eşleştirilmiş birimlerin farkını test eder.
Yazım ipucu: Türü başlıkta belirtin: “Eşleştirilmiş t-testi: Program sonrası okuma puanları arttı (d=0.36, %95 GA [0.14, 0.58]).”
2) Varsayımlar: Ne Zaman T, Ne Zaman Alternatif?
-
Süreklilik/ölçek: T-testi, aralık oran düzeyinde (yaklaşık) sürekli sonuçlar varsayar.
-
Bağımsızlık: Bağımsız t’de gruplar arası bağımsızlık, eşleştirilmişte farkların birey içi bağımlılığı gözetilir.
-
Normalite (yaklaşık): Küçük örneklemlerde önemlidir; Merkezi Limit Teoremi büyük örneklemlerde esnetir.
-
Varyans homojenliği: Bağımsız t’de kritik; sağlanmazsa Welch t kullanılır.
Uygulama: Normaliteyi artık düzeyinde ve grafikle düşünün (histogram, Q–Q). Tek başına bir Shapiro testi sonucu, özellikle n büyükken, karar için yeterli değildir.
3) Welch Düzeltmesi: Eşit Olmayan Varyanslar İçin Varsayıma Karşı Sigorta
Varyanslar eşit değilse (Levene/Brown–Forsythe anlamlı) Welch t-testi, serbestlik derecesini ayarlayarak tip I hatayı kontrol eder.
Rapor şablonu: “Varyanslar eşit değildir (Levene p=.02); Welch t(153.4)=2.61, p=.010; d=0.34, %95 GA fark [0.6, 3.1].”
4) Eşleştirilmiş T-Testi: Farkların Dünyası
Önce–sonra ya da eşleştirilmiş birimlerde, analiz farklar üzerinden yürür: di=sonrai−o¨nceid_i = \text{sonra}_i – \text{önce}_i.
-
Farkların dağılımı yaklaşık normal ise t-testi uygundur.
-
Pratikte etki büyüklüğü
d_avveya dz (Cohen) tercih edilebilir.
Yorum dili: “Puan farkı ort.: +2.4; %95 GA [1.0, 3.8]; dz=0.36.”
5) Etki Büyüklükleri: d ve g Olmadan T Yarım Kalır
Cohen’s d: Farkın standart sapmaya oranı. Küçük–orta–büyük için (yaklaşık) 0.2–0.5–0.8 rehber kabul edilir; alan ve ölçekte bağlama bağlıdır.
Hedges’ g: Küçük örneklemde d’nin önyargı düzeltilmiş sürümü.
Eşleştirilmiş tasarımlarda d hesaplanırken ortak varyans dikkate alınır (farkların SD’si).
Rapor: “d=0.36 (Hedges g=0.35), %95 GA [0.14, 0.58]; pratik eşik d=0.25’in üzerinde.”
6) Güven Aralıkları: p’nin Söylemediğini Söylemek
%95 Güven aralığı (GA), ortalama fark için olası değer aralığını verir.
-
GA eşik ile birlikte yorumlanmalı (ör. eğitimde +2 puan).
-
Belirsizliği görünür kılar: “Fark 0’a yakın değil” yerine “GA 0’ı dışlıyor/dışlamıyor” deyin.
Şablon: “Fark=+2.1 puan; %95 GA [0.5, 3.7]; pratik eşik 2 puan → alt sınır eşiği zorluyor.”
7) Pratik/Politika Önemi: Mutlak Fark ve Karar Eşiği
İstatistiksel önem ≠ pratik önem.
-
Mutlak fark (puan, mmHg, gün) ve eşik (δ) birlikte verilsin.
-
Karar grafikleri: Eşik çizgisi + GA.
Örnek: “+2.4 puan artış; eşik 2 idi; alt sınır 1.0 → orta düzeyde pratik anlam.”
8) Örneklem Büyüklüğü ve Güç: “Neden Anlamlı Çıkmadı?”
Güç (1−β), gerçekte fark varken t-testinin bunu yakalama olasılığıdır.
-
Küçük n → geniş GA, belirsizlik yüksek.
-
Pilot çalışmada varyans tahmini alın; güç analizi ile n planlayın.
Rapor: “Güç=0.78 (α=.05, beklenen d=0.35). Anlamlılık sınırında sonuçlar beklenen büyüklükle uyumlu.”
9) Aykırılar ve Dayanıklılık: Tek Nokta Bütün Cümleyi Bozmasın
-
Görsel denetim (box/violin + ham nokta) ile aykırıları inceleyin.
-
Robust alternatifler: Yuen (kırpılmış ortalama t), MWU/Wilcoxon, permütasyon t-testi.
-
Duyarlılık analizi: Aykırıları winsorize veya trim edip sonuç yön/büyüklüğünü kıyaslayın.
Yazım: “Yuen testi sonuç yönünü korudu; etki 0.33→0.30.”
10) Normalite Endişesi: Ne Zaman Dönüşüm, Ne Zaman Alternatif?
-
Hafif sapmalarda t-testi dayanıklıdır; Welch varyans dengesizliğine de dayanıklı.
-
Şiddetli çarpıklık: log/Box–Cox dönüşümü veya MWU/Wilcoxon.
-
Geniş örneklem: CLT sayesinde test güvenlidir; raporda dağılım şekline kısa not ekleyin.
11) Çoklu Karşılaştırmalar: t-Şelalesine Düşmeyin
Birden fazla t-testi → yanlış pozitif riski.
-
Düzeltmeler: Holm/Bonferroni; keşifselde FDR (BH).
-
Aile tanımı: Birincil–ikincil–keşifsel sonuçları ayırın.
Rapor: “İkincil ailede FDR q<.05 sonrası yalnız iki fark kalıcıdır.”
12) Tek Yönlü vs Çift Yönlü: Önceden Yazılmadıysa Çift Yönlü
Tek yönlü test, yalnız belirli yöndeki farkı sınar; ön kayıtsız “sonradan” tek yönlüye dönmek önyargıdır.
Şablon: “Analiz planında çift yönlü sınama öngörülmüştür; p-değerleri buna göre raporlanmıştır.”
13) Eşdeğerlik (TOST) ve Noninferiority: “Yok”u Göstermenin Bilimsel Yolu
Anlamlı fark çıkmaması eşdeğerlik kanıtı değildir.
-
TOST: Farkın ±Δ içinde olduğunu test eder.
-
Noninferiority: Alt sınırın −Δ’nin üstünde kalması.
Rapor: “Fark −0.8; %95 GA [−1.7, 0.1]; noninferiority sınırı −3 → noninferior.”
14) Bayesçi T-Testi: BF ile Kanıt Oranı
Bayes faktörü (BF), veri altında H1’in H0’a göre ne kadar olası olduğunu oranlar (örn. BF10=6: H1 lehine 6:1).
-
Önsel seçim şeffaf olmalı.
-
ROPE (pratik önemsizlik bölgesi) ile birlikte raporlayın.
Yazım: “BF10=5.8; etki büyüklüğünün ROPE ±0.2 SD dışında kalma olasılığı .71.”
15) Anket ve Tasarım Ağırlıkları: Complex Samples’ta T-Testi
Klasik t-testi basit rastgele örneklem varsayar; anket tasarımlarında ağırlık/PSU/strata dikkate alınmalıdır.
-
Tasarım etkisi (DEFF) → standart hatalar ve p-değerleri.
-
Rapor: “Ağırlıklandırılmış ortalamalar ve tasarıma duyarlı t testi: fark=+2.3 [0.8, 3.9], p=.004; DEFF=1.5.”
16) Kümeli Tasarımlar: Sınıf/Okul Etkisi Varken Bireyleri Bağımsız Saymayın
Deneysel eğitim çalışmalarında sınıflar/okullar rasgeleleştirilmiş olabilir. Bireyleri bağımsız almak tip I hatayı şişirir.
-
Çözüm: Birim=küme ortalamalarıyla t-testi veya karma model.
-
Rapor: “Kümeler arası varyans (ICC=.07) dikkate alındı; küme ortalamalarıyla Welch t uygulandı.”
17) Kayıp Veri: Listwise Silme mi, MI mı?
Eksikler rastgele değilse (MAR), listwise silme yanlılık üretir.
-
Çoklu Atama (MI) sonrası fark ve GA’lar havuzlanır.
Şablon: “MI (m=20) sonrası fark +2.3→+2.1; sonuç yönü korunmuştur.”
18) Görselleştirme: Sütunları Bırakın, Nokta + GA’ya Geçin
T-testi sonuçlarını nokta + %95 GA ile gösterin; dağılımı violin/kutu + ham nokta ile ekleyin.
-
Forest: Çoklu grup karşılaştırmalarında iyi bir özet.
-
Eşik çizgisi: Pratik sınır (δ) görünür olsun.
19) Raporlama Şablonları: Metin–Tablo–Şekil Üçlüsü
Metin (örnek):
“Deney grubunun okuma puanı kontrol grubundan 2.4 puan yüksektir (Welch t(153.4)=2.61, p=.010). %95 GA [0.6, 3.1], Hedges g=0.35. Varyanslar eşit değildir (Levene p=.02). Etki, eğitimde anlamlı kabul edilen +2 puan eşiğini aşmaktadır.”
Tablo (özet sütunları): Ortalama | SD | n | Fark | %95 GA | t(df) | p | d/g | Not (Welch/Levene, tasarım, MI).
Şekil: Nokta+GA (fark), violin/kutu+ham nokta, eşik çizgisi.
20) Disipline Göre Nüanslar
-
Eğitim: Kümeli tasarım, ICC ve hedef pp (yüzde puan) eşiği; n çoğu zaman sınıf sayısıyla sınırlı.
-
Sağlık: Klinik eşikler, noninferiority/eşdeğerlik; mmHg, HbA1c gibi birimli farklar.
-
Sosyal bilimler: Anket ağırlıkları, Complex Samples t-testi; çoklu karşılaştırma ve FDR.
-
Mühendislik/doğa: Ölçüm belirsizliği, tekrarlı deney; robust ve permütasyon testleri.
21) Yaygın Hatalar ve Hızlı Onarım Cümleleri
-
Hata: Yalnız p-değeri raporlamak.
Onarım: “Fark x, %95 GA [a, b], d/g=….” -
Hata: Varyans homojenliğini ihmal etmek.
Onarım: “Levene raporu + Welch t sonuçları eklendi.” -
Hata: Çoklu karşılaştırmayı kontrol etmemek.
Onarım: “İkincil ailede FDR q<.05 uygulandı.” -
Hata: Kümeli/anket tasarımını yok saymak.
Onarım: “Tasarım etkisi (DEFF) ile düzeltildi; tasarıma duyarlı t.” -
Hata: Normaliteye aşırı duyarlılık.
Onarım: “Robust/permütasyon analizleriyle doğrulandı (sonuç yönü sabit).” -
Hata: Eşdeğerliği “anlamlı değil” diye ilan etmek.
Onarım: “TOST/noninferiority testiyle eşdeğerlik sınandı.”
22) Uygulamalı Örnek A—Eğitim: Program Etkisi
Bağlam: 10 okul, 40 sınıf; deney vs kontrol.
Analiz: Sınıf ortalamalarıyla Welch t (kümeler arası farklı n), ek olarak karma model.
Bulgular: Fark +2.4 puan, %95 GA [0.6, 3.1]; g=0.35; Levene p=.02; ICC=.07.
Yorum: Pratik eşik +2 puan aşıldı; düşük SES sınıflarında fark daha yüksek (keşifsel).
23) Uygulamalı Örnek B—Sağlık: Noninferiority
Bağlam: Yeni prosedürün ağrı skoruna etkisi (0–10).
Analiz: Eşleştirilmiş t (önce/sonra); noninferiority Δ=−1.
Bulgular: Fark +0.2; %95 GA [−0.3, 0.7]; alt sınır −1’in üstünde → noninferior.
Yorum: Klinik pratikte kabul eşiğini karşılıyor; kaynak verimliliği yüksekse önerilebilir.
24) Uygulamalı Örnek C—Sosyal Bilimler: Politika Duyurusu Öncesi/Sonrası
Bağlam: Politika duyurusu öncesi/sonrası güven endeksi (aynı bireyler).
Analiz: Eşleştirilmiş t; duyarlılık için Wilcoxon ve permütasyon.
Bulgular: Fark +0.18 (0–1 ölçek), %95 GA [0.06, 0.30], p=.003; Wilcoxon uyumlu.
Yorum: Küçük-orta etki (dz≈0.28), kısa vadede pozitif kayma.
25) Karar Tablosu—Yazıya Yapıştır & Kullan
| Soru | Test | Not | Rapor Cümle Şablonu |
|---|---|---|---|
| İki bağımsız grup, varyanslar eşit? | Student t | Levene p>.05 | “t(df)=…, p=…; fark=… [GA]; d=…” |
| İki bağımsız grup, varyanslar eşit değil | Welch t | Levene p<.05 | “Welch t(df)=…, p=…; g=…; GA=…” |
| Aynı bireylerde önce–sonra | Eşleştirilmiş t | Farkların normalitesi | “(\bar{d}=)… [GA]; t(df)=…; dz=…” |
| Eşdeğerlik | TOST | ±Δ | “TOST: alt/üst sınama p=…; eşdeğerlik sağlandı/sağlanmadı” |
| Noninferiority | Tek taraflı | −Δ | “Alt sınır −Δ’nin üstünde → noninferior” |
26) “Gönder Tuşu” Öncesi Kontrol Listesi
-
Test türü uygun mu (bağımsız/paired/tek örneklem)?
-
Varyans homojenliği sınandı mı; Welch raporlandı mı?
-
Normaliteye ilişkin görsel/analitik kanıt sunuldu mu?
-
Etki büyüklüğü (d/g) ve %95 GA verildi mi?
-
Pratik eşik (δ) ile yorumlandı mı?
-
Çoklu karşılaştırmalar için aile ve düzeltme yazıldı mı?
-
Kümeli/anket tasarımı veya ağırlıklar dikkate alındı mı (DEFF/PSU/strata)?
-
Eksik veri stratejisi (MI) ve duyarlılık analizleri (robust/permütasyon) raporlandı mı?
-
Şekiller erişilebilir mi (nokta+GA, violin/kutu+ham nokta)?
-
Ön kayıt/analiz planına uygunluk belirtildi mi?
27) Sonuç: T-Testini Bir Cümle Değil, Bir Kanıt Mimarisine Dönüştürmek
T-testi, doğru kullanıldığında hızlı, sezgisel ve güçlü bir karşılaştırma aracıdır; yanlış raporlandığında ise “anlamlı/anlamsız” ikiliğine sıkışıp bilginin özünü gölgeler. İyi bir akademik anlatı:
-
Doğru testi seçer (Student/Welch/paired) ve varsayımları şeffafça sunar,
-
Farkın büyüklüğünü (d/g) ve belirsizliğini (%95 GA) rapor eder,
-
Pratik eşikleri (δ) görünür kılar; yalnız p-değerine yaslanmaz,
-
Varyans eşitsizliği ve normalite sapması gibi durumlarda Welch, robust ve permütasyon alternatifleriyle dayanıklılık gösterir,
-
Çoklu karşılaştırmaları aile ve FDR/Holm ile yönetir,
-
Kümeli/anket tasarımlarında DEFF/PSU/strata ile doğru SE hesaplar,
-
Eşdeğerlik ve noninferiority gibi modern karar çerçeveleriyle “fark yok” iddiasını bilimsel yoldan sınar,
-
Bayesçi bakışla kanıt oranını (BF) ölçülü biçimde iletişim diline taşır,
-
Görselleştirmeyi belirsizlik odaklı kurar (nokta + GA, violin/kutu + ham nokta),
-
Ön kayıt ve güç analizi ile sonucu bağlama yerleştirir.
Kısacası, t-testi yalnızca “fark var mı?” sorusunu değil, “fark ne kadar, ne kadar eminiz ve bu ne anlama geliyor?” sorularını da yanıtlamalıdır. Bu üçlü yanıt, bulguların hem bilimsel doğruluğunu hem de uygulama değerini birlikte yükseltir.
Akademi Delisi, eğitim ve akademik destek alanında kapsamlı hizmetler sunan öncü bir platformdur. Öğrencilerin akademik başarılarına yön verirken, onları bilgiyle buluşturmayı ve potansiyellerini en üst düzeye çıkarmayı amaç edinmiş bir ekibiz. Sitemiz bünyesinde ödevlerden projelere, tezlerden makalelere kadar geniş bir yelpazede destek sağlıyoruz. Alanında uzman yazarlarımız, öğrencilere özgün içerikler sunarken, aynı zamanda onlara araştırma, analiz ve yazım konularında rehberlik ederek kendilerini geliştirmelerine yardımcı oluyor.
Akademik hayatın zorluklarıyla başa çıkmak artık daha kolay. Akademi Delisi olarak, öğrencilere sadece ödevlerinde değil, aynı zamanda araştırma projelerinde, tez çalışmalarında ve diğer akademik gereksinimlerinde de destek sağlıyoruz. Sunduğumuz kaliteli hizmetler sayesinde öğrenciler zamanlarını daha verimli bir şekilde kullanabilirler. Uzman ekibimiz, her bir öğrencinin ihtiyaçlarına özel çözümler üreterek, onların akademik hedeflerine ulaşmalarına katkı sağlar.
Gelişmiş kaynaklara erişimden akademik yazım kurallarına, araştırma yöntemlerinden kaynakça oluşturmaya kadar her aşamada öğrencilere destek sunan Akademi Delisi, eğitimde yeni bir perspektif sunuyor. Amacımız, öğrencilere sadece geçici çözümler değil, aynı zamanda uzun vadeli öğrenme ve başarıya giden yolda rehberlik etmektir.
açık bilim şeffaflık bağımsız örneklem t Bayesçi t-testi BF bilimsel raporlama cohen d çoklu karşılaştırma FDR Holm Complex Samples ağırlık DEFF tasarım etkisi dönüşüm Box–Cox duyarlılık analizi eğitim araştırması eşleştirilmiş t-testi etki büyüklüğü etkili görselleştirme forest grafiği güç analizi güven aralığı hedges g ICC kümeli tasarım kalibrasyon dili karar grafiği klinik anlam levene testi Mann–Whitney Wilcoxon marjinal fark Metodoloji metodolojik sağlamlık MI çoklu atama noninferiority testi normalite Q–Q ölçüm belirsizliği ön kayıt prereg örneklem büyüklüğü p-değeri yorumu permütasyon testi pratik eşik delta raporlama şablonu robust t Yuen sağlık çalışması sosyal bilimler STA yazım tek örneklem t tekrarlanabilirlik TOST eşdeğerlik veri analizi t-testi violin plot Welch testi winsorize trimming