Akademik Veri Setlerinde Temizlik ve Düzenleme Süreci

Akademik araştırmalarda veri temizliği ve düzenleme (data cleaning & wrangling), “sıkıcı ama zorunlu” bir hazırlık adımı olmaktan çok daha fazlasıdır: Bulguların geçerliliği, güvenilirliği ve tekrarlanabilirliği tam da bu aşamada alınan kararların niteliğine bağlıdır. Bir veri setinin satır ve sütunlar hâline getirilmesi, eksik değerlerin yönetilmesi, uç gözlemlerin analize etkisinin değerlendirilmesi, tutarsız kodların düzeltilmesi, ölçeklerin doğru puanlanması, değişkenlerin anlamlı isimlendirilmesi, meta verinin (codebook) yazılması ve dönüşümlerin kayıt altına alınması; güçlü bir araştırma boru hattının (pipeline) temel taşlarıdır.
Bu kapsamlı rehberde; tasarımdan başlayan bir bakışla akademik veri setlerinde temizlik ve düzenleme sürecini uçtan uca ele alıyoruz. Gelişme bölümünde 31 alt başlıkla; kaynak–hedef şeması, kodlama standartları, eksik veri stratejileri, aykırı değer yönetimi, tür dönüşümleri, ölçek puanlama, güvenilirlik kontrolleri, zaman ve panel veriler, anket akış hataları, çoklu dosyaların birleştirilmesi (join), veri dengeleme (balancing), sürüm kontrolü, veri güvenliği ve anonimleştirme, reprodüksiyon ve raporlama gibi kritik alanları ayrıntılı ve uygulamalı örneklerle işliyoruz. Yazının sonunda; disiplinler arası örnek olaylarla (eğitim, sağlık, işletme, sosyal bilimler) süreçleri somutlaştıracak ve kararlarınızı hızlandıracak bir kontrol listesi sunacağız.
1) Temizliğe Tasarımla Başlamak: Kaynak–Hedef Şeması (Source–Target Map)
İyi bir temizlik, veriyi toplamadan önce başlar. Araştırma sorularınızdan türeyen değişken listesi (hedef) ile gerçek hayatta toplanacak ham alanlar (kaynak) arasına bir harita koyun. Her değişken için: ad, tip (integer, double, categorical, date), birim, beklenen aralık, izinli değer seti, türev formül(ler)i ve sorumlu kişi belirtilmeli.
Pratik kalıp:
hedef_degisken | kaynak | tip | birim | aralık/izinli değer | dönüşüm | not |
---|
2) Codebook (Veri Sözlüğü): Yaşayan Doküman
Codebook; değişken adları, tanımlar, etiketler, kod değerleri, eksik değer kuralları, puanlama formülleri ve veri kaynağını içerir. Analiz boyunca yaşayan bir doküman olmalı; her güncelleme sürümlenmelidir (v0.1, v0.2…).
İpucu: Codebook’u makinece okunur (JSON/YAML/CSV) ve insan-okur (Markdown/PDF) formatında çift yönlü üretin.
3) Dosya ve Değişken İsimlendirme: Tutarlılık Altın Kuraldır
snake_case
veya lowerCamelCase
gibi bir konvansiyon seçin ve bırakmayın. Kısa ama açıklayıcı değişken adları: okuma_puani
, sinif_duzeyi
, cinsiyet_kod
. Dosya adları tarih damgalı ve içerik odaklı: 2025-02-14_sahaA_anket_raw.csv
.
4) Tekil Tanımlayıcılar (ID) ve Birincil Anahtarlar
Her satır bir analiz birimini (öğrenci, hasta, müşteri, okul) temsil ediyorsa birincil ID zorunludur. Bileşik anahtar (ör. okul_id + ogrenci_id + zaman
) panel/zaman verileri için güvenlidir. ID alanlarında boşluk, Türkçe karakter ve ön sıfır kaybına neden olacak sayısallaştırmadan kaçının (metin saklayın).
5) Veri İçe Aktarma ve Kodlama Tuzakları
CSV, XLSX, SAV, DTA, JSON… Farklı kaynaklardan gelen verilerde otomatik tip sezgisi hataya açıktır. Tarihler YYYY-MM-DD
biçimine normalize edilmeli; ondalık ayırıcıları (virgül/nokta) tek standarda çekilmelidir. Kategorik alanlar etiket haritaları ile dönüştürülmelidir.
6) Temel Tutarlılık Denetimleri (Sanity Checks)
-
Aralık dışı değerler (yaş 3 veya 120?).
-
Mantık ihlalleri (sınıf=8 ama yaş=9).
-
Çapraz doğrulama (toplam alt ölçek = madde toplamları?).
-
Eşsizlik (ID tekrarları?).
-
Payda tutarlılığı (alt toplamlar ana toplamı veriyor mu?).
7) Eksik Veri Türleri: MCAR, MAR, MNAR Farkını Okuyun
-
MCAR: Tam rastgele kayıp—nadirdir.
-
MAR: Gözlenen değişkenlere bağlı kayıp—çoğu pratik senaryo.
-
MNAR: Gözlenmeyen mekanizmaya bağlı—yanlılık riski yüksek.
Rapor: Kayıp oranları değişken bazında; desen grafikleri (ör. upset plot) ve basit MAR testleri sunun.
8) Eksik Veri Yönetimi: Strateji Paleti
-
Listwise/Pairwise (küçük ve MCAR ise).
-
Tek atama (ortalama/medyan—keşif için; sonuç raporunda kaçının).
-
Çoklu atama (MI): m=20+, predictive mean matching, lojistik vb.; birleştirilmiş (pooled) sonuç raporlanır.
-
FIML: SEM/DFA bağlamında MAR altında.
9) Aykırı Değerler: Hata mı, Çeşitlilik mi, Etki mi?
Z-skorları, IQR kuralları, robust Mahalanobis; fakat önce bağlam! Ölçüm–giriş hatası ise düzeltin veya dışlayın. Gerçek ama uç değer ise sağlam yöntemler (robust SH, trimmed mean ANOVA) ile duyarlılık analizi yapın; winsorize eşiklerini şeffafça belirtin.
10) Tür Dönüşümleri ve Standardizasyon
Sayı/metin tarih dönüşümleri, kategori etiketlemeleri, ölçek yön çevirme (ters madde), z-standardizasyonu (karşılaştırma için), log/karekök dönüşümleri (asimetrik dağılımlar). Dönüşümler her zaman kayıt altına alınmalı (script + not).
11) Kategorik Kodlar ve Referans Sınıfları
Kategorik değişkenlerde referans sınıfı (örn. cinsiyet: kadın=ref
) analize göre belirlenir. Birleştirilmiş küçük sınıflar için mantıklı etiketler ekleyin (“Diğer/Çok az görülmüş”). Kodu–etiketi karıştırmayın: kod=1, etiket="Kadın"
.
12) Ölçek Puanlama: Madde İşaretleri, Ters Maddeler ve Kapsam
Likert maddelerinde ters maddeleri otomatik ve güvenli çevirin, madde–toplam korelasyonlarına bakın. Alt boyut toplam/ortalama puanlarını codebook formülüne göre üretin. Eksik madde eşiği (ör. alt boyutta ≤1 eksik → kişisel ortalama ile tamamla) açık olsun.
13) İç Tutarlılık ve Yapı Ön Kontrolleri
Temizlik sırasında α, ω ve madde–toplam korelasyonlarını hesaplayıp sorunlu maddeleri işaretleyin; KFA/DFA yapılacaksa veriyi temizledikten sonra yürütün. “Temizlik” ile “analiz”i karıştırmayın, ama birbirini bilgilendirsin.
14) Tarih–Saat ve Zaman Dilimi Meselesi
Tarih–saat alanlarını UTC saklayıp raporda yerel saatlere dönüştürün. Akademik çalışmalarda ölçüm aralığı (gün/hafta/ay), hafta numaraları, tatil/yarıyıl işaretleri ve mevsimsellik için takvim tablosu (date-dimension) üretin.
15) Zaman Serisi ve Panel Veriler: Endeksleme ve Dengeleme
Panelde kişi_id × zaman
ızgarasını tam oluşturun; eksik gözlemleri açıkça NA bırakın (üretilmiş uydurma satırlara dikkat). Analiz gerektiriyorsa dengeli panel türevi oluşturun ama orijinali koruyun.
16) Tekrar Eden Anketler ve Atlama Mantığı (Skip Logic) Hataları
Anketlerde atlama kurallarına (ör. madde 5 “Hayır” ise madde 6–8 atlanır) uygunluk denetimleri yazın. Uyuşmazlıklar için çelişki listesi üretin; kişiye geri dönme imkânı yoksa konservatif düzeltmeler ve not.
17) Çoklu Kaynakları Birleştirme (Join/Merge) Stratejileri
Left/inner/right/full join kararını araştırma sorusu belirler. Çift kayıt ve anahtar uyuşmazlıklarını raporlayın. Fuzzy matching (isim–tarih) kullanacaksanız hata payını ve manuel doğrulama örneklemini belgeleyin.
18) Birim ve Ölçek Uyumlaştırma
Dakika–saat, TL–USD, puan–yüzde, kelime/dk–paragraf/dk gibi eşlenmelerde tek standarda çekin. Dönüşüm katsayılarını (kur tarihi, ölçüm birimi açıklaması) codebook’a yazın.
19) Coğrafi Veriler ve Gizlilik: Kademeli Konumlama
Hassas konumları (adres, koordinat) agregasyon ile sunun (il/ilçe/mahalle). Akademik raporlarda birey düzeyinde yer belirtmekten kaçının; ısrarla gerekiyorsa kaba rastgele sapma (geo jitter) ve etik onam şart.
20) Metin Verisi: Temizleme ve Kodlama Köprüsü
Düz yazı yanıtları için stripping, lowercasing, Türkçe karakter normalizasyonu, emoji–URL–stopword temizliği. Nitel analiz öncesi kimlikleyici bilgileri maskeyle; azınlık veya hassas grupları ifşa etmeyecek anonimizasyon.
21) Görüntü–Ses Verisi: Dizinleme ve Meta Veri
Görsel/ses dosyaları için media_id
, çekim tarihi, bağlam, çözünürlük, transkript bağlantısı meta verilerle bir tablo tutun. Analiz dosyasına yalnız referans taşıyın; dosyaları güvenli depoda saklayın.
22) Veri Kalitesi Puanı (DQP) ve Bayraklar
Her satır için kalite bayrakları: range_flag
, logic_flag
, duplicate_flag
, imputed_flag
. Basit bir DQP (0–100) hesaplayıp duyarlılık analizlerinde düşük DQP’li satırları dışarıda da test edin.
23) Örneklem Ağırlıkları ve Tasarım Etkisi
Tabakalı/çok aşamalı örneklemde ağırlık değişkenlerini ve psu/strata alanlarını ekleyin. Temizlikte ağırlıkların negatif/0 olmamasını, toplamının evreni temsil edecek şekilde ölçeklenmesini doğrulayın.
24) Sürüm Kontrolü, Günlük (Log) ve Tohum (Seed)
Her dönüşümü kod ile yapın (R/Python/SPSS syntax). Rastgele süreçlerde (ör. train-test bölünmesi, MI) seed sabitleyin. Git ile repo sürümleyin; veri dosyaları için DVC/LFS veya imzalı artıklar (hash) tutun.
25) Güvenlik, Mahremiyet ve Anonimleştirme
Kişisel verileri (ad, TC, tel, e-posta) analiz setinden çıkarın; sahte pseudonym anahtarını güvenli kasada tutun. Yayın–paylaşım öncesi k yeniden tanımlama riskini kontrol edin; küçük hücreleri (n<5) birleştirin.
26) Otomatik Testler: Veri için “Birim Testi”
Her derleme (build) öncesinde çalışan assert fonksiyonları: “ID tekrarı var mı?”, “negatif yaş var mı?”, “tarih sırası bozuk mu?”, “puan min–maks dışında mı?”. Hata varsa build kırılır ve düzeltilmeden analize geçilmez.
27) Yeniden Üretilebilir Raporlar (R Markdown / Jupyter)
Temizlik kodu ile raporu tek akışta çalıştırın. Girişte sürüm bilgisi, tohum, zaman damgası ve dosya hash’i yazdırın. Eklerde: temizlik kararları tablosu ve değişken dönüşüm listesi.
28) Görselleştirme ile Temizlik: Hataları Gözle Görün
-
Histogram/violin ile uçlar.
-
Scatter + smoothing ile yanlış kodlamalar.
-
Alluvial/sankey ile anket akış tutarlılığı.
-
Heatmap ile eksik desenleri.
Görsel teşhis → kod düzeltme → tekrar görselleştirme döngüsü kullanın.
29) Alan-Özel Nüanslar (Eğitim–Sağlık–İşletme–Sosyal)
-
Eğitim: Puan ölçekleri (0–100), seviyelendirme, sınav form eşitleme.
-
Sağlık: Birim dönüşümleri (mg/dL), klinik referans aralıkları, duyarlılık–özgüllük hesapları için “altın standart” değişkeni doğruluğu.
-
İşletme: Fiyat–indirim–vergiler ve KDV dahil/haric tutarlılık.
-
Sosyal: Demografik kodların resmi TÜİK sınıfları ile eşlenmesi.
30) Uçtan Uca Örnek Olay (Eğitim)
Bağlam: 8. sınıf, üç okul, N=612.
Adımlar:
-
Codebook ve hedef–kaynak şeması; 2) İçe aktarma + tip düzeltmeleri; 3) Skip logic kontrolü; 4) Ters maddeler çevrildi; 5) Eksik %3.8 → MI (m=20); 6) Aykırı okuma hızı → robust analizle duyarlılık; 7) Join: idari kayıtlarla eşleme; 8) Ağırlıklandırma; 9) R Markdown raporu ve hash çıktıları.
Sonuç: Temizlik sonrası α=0.86, veri kaybı minimal, analiz setiv1.2
.
Sonuç
“Veri temizliği ve düzenleme” akademik araştırmanın görünmez kahramanıdır. İyi bir temizlik; hatalı pozitif/negatif sonuçları önler, etki büyüklüklerini gerçekçi, güven aralıklarını dürüst kılar, varsayım testlerini anlamlı hâle getirir. Bu yazıda sunduğumuz 31 adımlık çerçeve; tasarım-öncesi planlama (kaynak–hedef şeması, codebook), titiz içe aktarma ve doğrulamalar (tip, aralık, mantık), eksik ve aykırı yönetimi (MI, robust), ölçek puanlama ve güvenilirlik kontrolü (α/ω), zaman–panel yönetimi, çoklu dosya birleştirme, birim/ölçek uyumu, güvenlik–anonimlik ve reprodüksiyon pratiklerini tek akış hâline getirir.
Bunun sonucunda analitik aşamada “veri sürprizi” yaşamaz, enerjinizi modeli savunmaya değil bulguyu yorumlamaya ayırırsınız. Kodlanmış, sürümlenmiş ve test edilmiş bir temizlik boru hattı, yalnız bugünkü çalışmanıza değil, yarın gelecek replikasyon ve genişletme çalışmalarına da sağlam bir zemin sağlar. Unutmayın: Kötü temizlenmiş veri, en iyi modeli bile yanıltır; iyi temizlenmiş veri ise sıradan bir modeli bile yararlı kılar. Bu nedenle temizlik ve düzenlemeyi, projelerinizde maliyet değil, bilimsel sermaye olarak görün.
Akademi Delisi, eğitim ve akademik destek alanında kapsamlı hizmetler sunan öncü bir platformdur. Öğrencilerin akademik başarılarına yön verirken, onları bilgiyle buluşturmayı ve potansiyellerini en üst düzeye çıkarmayı amaç edinmiş bir ekibiz. Sitemiz bünyesinde ödevlerden projelere, tezlerden makalelere kadar geniş bir yelpazede destek sağlıyoruz. Alanında uzman yazarlarımız, öğrencilere özgün içerikler sunarken, aynı zamanda onlara araştırma, analiz ve yazım konularında rehberlik ederek kendilerini geliştirmelerine yardımcı oluyor.
Akademik hayatın zorluklarıyla başa çıkmak artık daha kolay. Akademi Delisi olarak, öğrencilere sadece ödevlerinde değil, aynı zamanda araştırma projelerinde, tez çalışmalarında ve diğer akademik gereksinimlerinde de destek sağlıyoruz. Sunduğumuz kaliteli hizmetler sayesinde öğrenciler zamanlarını daha verimli bir şekilde kullanabilirler. Uzman ekibimiz, her bir öğrencinin ihtiyaçlarına özel çözümler üreterek, onların akademik hedeflerine ulaşmalarına katkı sağlar.
Gelişmiş kaynaklara erişimden akademik yazım kurallarına, araştırma yöntemlerinden kaynakça oluşturmaya kadar her aşamada öğrencilere destek sunan Akademi Delisi, eğitimde yeni bir perspektif sunuyor. Amacımız, öğrencilere sadece geçici çözümler değil, aynı zamanda uzun vadeli öğrenme ve başarıya giden yolda rehberlik etmektir.
açık bilim ağırlıklandırma anonimleştirme assert aykırı değer birim dönüştürme codebook çoklu atama cronbach alfa data wrangling eksik veri yönetimi fiml fuzzy matching git dvc heatmap eksik desen imputed flag join merge jupyter kategorik kodlama logic flag mcdonald omega Meta veri ölçek puanlama otomatik test outlier duyarlılık panel veri psu strata r markdown range kontrolü referans sınıfı reprodüksiyon robust analiz sanity check seed sabitleme skip logic sürüm kontrolü tarih normalizasyonu tasarım etkisi ters madde transkript yönetimi tür dönüşümü tutarlılık denetimi veri düzenleme veri güvenliği veri kalitesi puanı veri pipeline veri sözlüğü veri temizliği winsorize zaman serisi