Veri Değerleri
Veri Değerleri
10 ila 25 satıra baktıktan sonra, bu veri öğesinin içinde ne olduğu hakkında iyi bir fikir edinmeliyiz. Ayrıca incelediğimiz farklı değerler olmalıdır, çünkü aynı değer ilk 100 satırda görünebilir. Bu, kodlarda yaygındır.
Ayrıca, 11. veya 26. değerin, adınıza ve tanımınıza tamamen ters düşecek çok garip bir şeye sahip olmayacağının garantisi yoktur. Ancak bu aldığımız bir risk. 80/20 kuralını uygulamak, bir sorun yaşama ihtimalimizin nispeten düşük olduğu anlamına gelir. Bu örnek satırlar, ad ve tanım meta verilerinin yanı sıra “Bu sayı veri öğesi gerçekten sayı içeriyor mu?” gibi bazı biçim ölçütlerine göre doğrulama yapmak için kullanılır.
Bu, boş meta verilerin gerçeğidir. Bu veri öğesindeki değerlerin hangi yüzdeleri boş? Örneğin, boş olmaması gerektiğine inandığımız bir Müşteri Soyadı veri öğemiz varsa ve bunun boş olduğunu öğrenmemizin yüzde 10’unda bir sorunumuz var demektir.
Kısa bir süre önce, belirli bir konu alanındaki en önemli veri öğelerinden biri olduğunu düşündüğüm bir veri öğesini, Brüt Satış Tutarını doğruladım. Bu veri öğesi, zamanın yüzde 100’ünde boştu! Bu vakaları bir an önce bulmamız çok önemli. Kullanıcılar, birçok hesaplama ve raporda kullanılan önemli bir veri öğesi olarak bu veri öğesine güveniyor olabilir.
Maksimum Uzunluk
Maksimum uzunluk, bir veri öğesi içindeki tüm değerlerin en uzun uzunluğudur ve hem karakter hem de sayısal değerleri içerir. Örneğin, 2.000 karakterlik bir veri öğesi, maksimum uzunluğu 1.000 karakter olan bir değere sahip olabilir. Bunun yerine maksimum uzunluğu yalnızca 50 karakter olabilir, bu durumda çok fazla alan israf ediyor ve uzunluk tutarsızlığı yaşıyor olabiliriz.
Aynısı sayısal değerler için de geçerlidir. Veri öğelerimizden biri için sayı uzunluğumuz 38’di. 38 kulağa çok büyük gelmese de, ne kadar büyük bir sayının üstesinden gelebileceğini bir düşünün! Maksimum uzunluğu kontrol ettikten sonra, şimdiye kadar tuttuğu en fazla uzunluğun sekiz olduğunu keşfettik.
Yüzde Başarısız Aramalar
Başarısız yüzde aramaları, veri kalitesi konusunda karşılaşabileceğimiz en sinir bozucu durumlardan biridir. Tüm yeni veri öğeleri nedeniyle çok sinir bozucu, çok azı bir arama gerektiriyor ve bu çok azı, eğer arama sorunları varsa, çözmek için büyük bir zaman ve çaba yatırımı gerektirebilir.
Kaynak sistemden gerçekten güzel görünen bir dizi veri öğemiz var ve yine de bu kaynak sistemdeki 100 veri öğesinden ikisinin ortamımızdaki mevcut yapılara bağlanması gerekiyor. Nedense bu ikisinden biri yüzde 5 oranında bağlantı kurmuyor. Şimdi, yüzde 5 çok fazla satır gibi görünmeyebilir; ancak, milyonlarca işleme bakıyorsak, yüzde 5 hızlı bir şekilde toplanır. Kaynak veya geçerli ortam tarafındaki hatalar, satırların doğru şekilde bağlanmamasının nedeni olabilir.
Uygulamada Veri Kalitesi Yakalama Şablonu
Veri Kalitesi Yakalama Şablonunu kullanmanın ayrıntılı bir örneğini inceleyelim. Bu şablonu tamamlamak için atabileceğiniz adımları tartışacağız ve ardından bu bölüm boyunca kullandığımız örneği geliştireceğiz.
İşte adımlar:
1. Data Element Family Tree’yi tamamlayın. Bu bölümde daha önce tartışılan adımlara bakın.
2. Veri Öğesi Aile Ağacından veri öğelerini kopyalayın. Bu basit bir kopyala ve yapıştır alıştırmasıdır.
3. Makul miktarda veriye erişin. Makul, çok sayıda günlük kaydın bulunduğu işlem konu alanı için en az bir haftalık veya daha az kaydın olduğu referans alanları için bir ay veya daha fazla veri olarak tanımlanır.
4. Gerekli sorguları çalıştırın ve şablonu doldurun. Örnek bir veri kümesi elde etmek ve null, format ve aramaları belirlemek için basit sorgular çalıştırın.
Veri Tipleri
Sayısal veri tipleri
Veri tipleri Nedir
Java veri Tipleri
Basit veri tipleri
Sayısal veri tipi örnekleri
Özel veri tipi nedir
İnt veri tipi
Veri Kalitesi Doğrulama Şablonu Nedir?
Veri Kalitesi Yakalama Şablonunu tamamladıktan sonra, meta veriler ile veriler arasında bir karşılaştırmanız olur. Veri Öğesi Aile Ağacında tanımlanan meta verilere göre her bir veri öğesi için adın, tanımın, biçimin ve geçersiz kılınabilirliğin ne olması gerektiğini bilirsiniz.
Ayrıca, geçersiz kılınabilirliği, uzunluğu ve referans anahtarı arama alanlarını test etmek için bir veri örneklemesine ve bir dizi sorguya sahipsiniz. Şimdi bu sonuçları yorumlamamız gerekiyor. Kabul edilebilir olan nedir? Veri kalitesi sorunları nelerdir? İlgili iş ve kaynak sistem uzmanlarına ihtiyacımız var. Veri Kalitesi Yakalama Şablonunu doğrulamak için onlara ihtiyacımız var. Veri Kalitesi Doğrulama Şablonuna ihtiyacımız var.
Diş hekimine gittiğimizde ağzımızın farklı bölgelerinden röntgen filmleri çekildiğinde gelişmiş röntgen filmlerini görebiliyoruz ama nasıl yorumlayacağımızı bilmiyoruz. Röntgen muayenesinin sonuçları hakkında tam olarak bir yargıya varamayız çünkü onları anlamayız. Diş hekimi, bu bilgileri inceleyip sağlığınızın temiz mi yoksa beş çürüğünüz mü olduğunu belirleyebilecek uzmandır.
Benzer şekilde, Veri Kalitesi Yakalama Şablonu hakkında da gerçekten yargıya varamayız. Muhtemelen bu bilgiler konusunda uzman değiliz ve bu nedenle, bu şablonu inceleyebilecek ve neyin veri kalitesi sorunu olup olmadığı konusunda akıllı kararlar verebilecek bir veya daha fazla uzman bulmamız gerekiyor. Bununla birlikte, açıkça doğru görünmeyen belirli karşılaştırmaları belirleyebilir ve gerçekten bir sorun olup olmadığını uzmana sorabiliriz.
Veri Kalitesi Doğrulama Şablonu, veri sorunlarının nerede olduğu konusunda uzmanın düşüncelerini ve görüşlerini yakalar. Bu şablonun biçimi, uzman görüşlerini içeren ekstra sütunların eklenmesiyle Veri Kalitesi Yakalama Şablonu ile aynıdır.
Veri Kalitesi Doğrulama Şablonunun çeşitli avantajları vardır:
Bir veri kalitesi sorunu olup olmadığını belgeler. Bu, bu aracın birincil amacıdır. Veri Kalitesi Yakalama Şablonunda yan yana yakalanan meta verilerin ve verilerin kabul edilebilir kalitede olduğundan emin olmak gerekir.
Yani, veriler meta verilerle eşleşiyor mu? Örneğin, Müşteri Ayakkabı Bedeni adında bir veri öğem varsa, bunun gerçekten müşterinin ayakkabı numarası olduğunu açıklayan bir tanımı var ve bir ekranda garip simgeler (*, % ve &) görüyorum, bu bir kalite sorunu mudur?
Bir kalite sorunu olup olmadığını belirlemek için sahiplik ve sorumluluk atar. Uzmanın görüşlerini belgelemek, bir sorun olup olmadığına dair daha fazla kanıt sağlar. Uzman, bir veri kalitesi sorunu olmadığına inanıyorsa ve gerçekten bir sorun varsa, bu hatadan uzman sorumludur.
Uzman, bu veri öğesinin kalitesini belirlemekten sorumlu olarak adlandırılmıştır ve bu nedenle doğru kararı vermekten sorumludur. Dennis, Müşteri Ayakkabı Numarasının kalitesini onayladı. Bu nedenle, bu veri öğesinin kalitesiyle ilgili bir sorun varsa, bunu çözmemiz gerekecektir.
Analizi koleksiyondan ayırır. Veri Kalitesi Yakalama Şablonu altında gördüğümüz gibi, toplamayı analizden ayırıyoruz ve dolayısıyla bunların her birini daha kolay yönetebiliyoruz.
Herhangi bir e-tablonun faydalarından biri, bilgileri vurgulamanın ne kadar kolay olabileceğidir. Elektronik tablodaki hücreleri bulmak, uzun bir belgedeki paragrafları bulmaktan çok daha kolaydır. Bu nedenle, veri öğeleri listenizde veri kalitesi sorunları varsa, bunları bir elektronik tabloda bulmak daha kolay olacaktır.
Basit veri tipleri İnt veri tipi Java veri Tipleri Özel veri tipi nedir Sayısal veri tipi örnekleri Sayısal veri tipleri Veri Tipleri Veri tipleri Nedir