Απόπειρα δόμησης και καθαρισμού δεδομένων

Επιδιώκεται η βελτίωση της ποιότητας των δεδομένων, ώστε να παράγεται πληροφορία XE "πληροφορία"  που ικανοποιεί καλύτερα της ανάγκες των εργαζομένων.

 Η δόμηση αφορά την τοποθέτηση αδόμητων δεδομένων σε κατάλληλη αρχιτεκτονική πληροφορίας. 

Ο καθαρισμός δεδομένων περιλαμβάνει δράσεις όπως:

o       Προτυποποίηση δεδομένων (data standardizing)

o       Συμπλήρωση δεδομένων που λείπουν

o       Διόρθωση λάθος τιμών

o       Αφαίρεση διπλών εγγραφών 

 Μια ολοκληρωμένη παρέμβαση περιλαμβάνει τα ακόλουθα βήματα: 

1.1.1.1.1   Αναγνώριση πηγών δεδομένων

 Αφορά τον εντοπισμό των αρχείων ή βάσεων αναφοράς για κάθε τύπο οντότητας ή θεματική περιοχή. Περιλαμβάνει τις ακόλουθες δραστηριότητες:

 Τρόποι επιλογής των πλέον αξιόπιστων πηγών:

 Επιλογή των πλέον αξιόπιστων πηγών μπορεί να γίνει και με την διενέργεια αξιολόγησης ποιότητας περιορισμένης έκτασης, στις διάφορες υποψήφιες πηγές.  

1.1.1.1.2   Ανάκτηση και ανάλυση πηγών δεδομένων

Περιλαμβάνει τις ακόλουθες εργασίες:

 

1.1.1.1.3   Προτυποποίηση δεδομένων (data standardization)

 Αφορά την προτυποποίηση δεδομένων σε ένα ενιαίο για τον Οργανισμό,  ενοποιήσιμο, σετ τύπων οντοτήτων και χαρακτηριστικών αυτών. Ορίζονται ενιαίες δομές και αποδεκτές τιμές δεδομένων. Η προτυποποίηση δεδομένων συμβάλλει στην καλύτερη επικοινωνία στοιχείων και τον συστηματικότερο καθαρισμό των δεδομένων.

Παρακάτω αναφέρονται κατηγορίες περιπτώσεων που απαιτούν προτυποποίηση δεδομένων:

 Επικάλυψη αποδεκτών τιμών δεδομένων (domain value redundancy)

Μη προτυποποιημένα δεδομένα μπορεί να τηρούν διαφορετικές τιμές για την ίδια πραγματική οντότητα. Παραδείγματος χάριν η τιμή ημερομηνίας ’10-02-2005’ είναι διαφορετική από την τιμή ’02-10-2005’, αλλά μπορεί να αντιστοιχεί στην ίδια ημερομηνία. Στην περίπτωση αυτή πρέπει να καθορίζεται και να δρομολογείται η εφαρμογή ενιαίας για τον Οργανισμό κωδικοποίησης ημερομηνίας π.χ. Ημέρα-Μήνας-Έτος.

 Αναντιστοιχίες στην δόμηση πεδίων (field format inconsistencies)

Δομημένα πεδία δεδομένων μπορεί να τηρούνται με αναντιστοιχίες στην δόμηση. Παραδείγματος χάριν η δόμηση αριθμού τηλεφώνου μπορεί να είναι ‘2106804000’ ή ‘210-6804000’ ή ’30-210-6804000’. Στην περίπτωση αυτή πρέπει να καθορίζεται και να δρομολογείται η εφαρμογή ενιαίου προτύπου δόμησης του πεδίου.

 Διαιρούμενες τιμές δεδομένων (nonatomic values)

Χαρακτηριστικά οντοτήτων πρέπει να ορίζονται κατά τρόπο ώστε τα πεδία να περιέχουν το πλέον αδιαίρετο επίπεδο (π.χ. η τιμή του πεδίου Όνομα ‘Γιάννης Παπαδόπουλος’ δεν είναι στο πλέον αδιαίρετο επίπεδο και μπορεί να χωριστεί σε δύο πεδία).

Αν και η δημιουργία πεδίων σε ‘αδιαίρετο επίπεδο’ συχνά δεν αποτελεί απαίτηση, διευκολύνει την εκτέλεση ερωτημάτων. Στο επίπεδο καθαρισμού δεδομένων, διευκολύνει την απαλοιφή διπλοεγγραφών και την ενοποίηση δεδομένων. Επιπλέον διευκολύνει την εφαρμογή επιχειρησιακών κανόνων.

 Ενσωμάτωση πολλών στοιχείων οντότητας σε μοναδικό πεδίο

Συμβαίνει συχνά σε δομημένες κωδικοποιήσεις επιχειρησιακής πληροφορίας. Παραδείγματος χάριν κωδικός προϊόντος τύπου EAN-13 σε προϊόν περιλαμβάνει:

Η αξιοποίηση της πληροφορίας που ενσωματώνεται σε δομημένες ή ‘πολυαξονικές’ κωδικοποιήσεις, απαιτεί συχνά την εκτέλεση ερωτημάτων σε τμήμα του πεδίου (δηλαδή του κωδικού).

 Η δράση προτυποποίησης δεδομένων περιλαμβάνει τα ακόλουθα βήματα:

 Στην ακόλουθη εικόνα περιγράφεται παράδειγμα προτυποποίησης δεδομένων: έχουν επιλεχθεί 3 πηγές δεδομένων που τηρούν στοιχεία ημερομηνίας συναλλαγών. Η δόμηση του πεδίου ‘Ημερομηνία’ είναι διαφορετική, όπως φαίνεται στο αριστερό μέρος. Στο δεξί μέρος φαίνεται η προτυποποιημένη δόμηση που προβλέπει τα ψηφία 1-2 για την ημέρα (ΗΗ), ψηφία 3-4 για τον μήνα (ΜΜ), ψηφία 5-8 για το έτος (ΕΕΕΕ). Η μετατροπή   σε κάθε μια περίπτωση είναι διαφορετική. Στην πηγή Α η δόμηση αναγνωρίζεται από επαρκές δείγμα ότι είναι ΗΗ-ΜΜ-ΕΕΕΕ, οπότε η μετατροπή Α, αφορά την αφαίρεση του 3ου και του 6ου ψηφίου. 

Εικόνα   3 – Προτυποποίηση πεδίου δεδομένων   

1.1.1.1.4   Διόρθωση, προτυποποίηση  και συμπλήρωση δεδομένων

 Η διαδικασία διόρθωσης, προτυποποίησης και συμπλήρωσης, συμβάλλει στην βελτίωση της ποιότητας δεδομένων του Οργανισμού. Περιλαμβάνει τα ακόλουθα:

        I.      Εντοπισμός δεδομένων προς συμπλήρωση. Εντοπίζονται πεδία όπου δεν υπάρχουν τιμές ή υπάρχουν ‘κενές τιμές’ (null values). Επιπλέον με την εφαρμογή κανόνων ακεραιότητας εντοπίζονται ανύπαρκτες εγγραφές. Π.χ. στην περίπτωση διασύνδεσης οντότητας τραπεζικού λογαριασμού με οντότητα του Πελάτη- ιδιοκτήτη μέσω κλειδιού Πελάτη, για κάθε τραπεζικό λογαριασμό πρέπει να υπάρχει διασύνδεση σε εγγραφή Πελάτη. Με κατάλληλο ερώτημα εντοπίζονται κλειδιά σε εγγραφές που πιθανόν λείπουν.

     II.      Εντοπισμός εμφανώς λανθασμένων ή υπόπτων δεδομένων: 

o       Δεδομένα εκτός πεδίου αποδεκτών τιμών (domain value set)

o       Διπλές εγγραφές σε πεδία που πρέπει να παίρνουν μοναδικές τιμές (π.χ. αποτελούν πρωταρχικό κλειδί (primary key) εύρεσης στοιχείων πραγματικής οντότητας)

   III.      Καθορισμός προσέγγισης για τον καθαρισμό δεδομένων:

o       Εφαρμογή κανόνων αυτοματοποιημένης προτυποποίησης-διόρθωσης-συμπλήρωσης δεδομένων. Σε κάποιες περιπτώσεις είναι εφικτή η εφαρμογή λογισμικού που υλοποιεί κανόνες για τον καθαρισμό.  Η ύπαρξη βάσεων δεδομένων αναφοράς, έναντι των οποίων μπορεί να γίνει έλεγχος και διόρθωση ή συμπλήρωση δεδομένων, διευκολύνει την αυτοματοποίηση.

o       Καθαρισμός δεδομένων με χειρονακτικό έλεγχο έναντι της πραγματικής οντότητας και μη αυτοματοποιημένες παρεμβάσεις. Π.χ. η κλήση προς Πρόσωπο με σκοπό την επιβεβαίωση ή/και συμπλήρωση των δεδομένων που υπάρχουν για αυτό.

o       Καθαρισμός δεδομένων με χειρονακτικό έλεγχο έναντι αξιόπιστης υποκατάστατης πηγής. Π.χ. έλεγχος στοιχείων έναντι εντύπων που καταγράφουν μια συναλλαγή.

  IV.      Προτεραιοποίηση διαδικασιών καθαρισμού, λαμβάνοντας υπόψη την αξία του καθαρισμού σε σχέση με το εκτιμώμενο κόστος. Επιλέγονται οι κατηγορίες δεδομένων που έχουν σημαντική αξία για τον Οργανισμό και αποδεκτό κόστος καθαρισμού. Για κάθε κατηγορία που επιλέγεται καταγράφεται ο τρόπος καθαρισμού.

     V.      Εκτέλεση του καθαρισμού στα επιλεγμένα δεδομένα και τεκμηρίωση των εργασιών και των αποτελεσμάτων – ευρημάτων:

  VI.      Καθορισμός του τρόπου χειρισμού κατηγοριών και περιπτώσεων δεδομένων που δεν επιλέχθηκαν προς καθαρισμό. Επιλογές είναι:

Οι ακόλουθες κατηγορίες δεδομένων απαιτούν ειδικές τεχνικές ‘καθαρισμού’ δεδομένων:

1.1.1.1.5   Ενοποίηση δεδομένων από διαφορετικές πηγές (data consolidation)

 Επιδιώκεται η ενοποίηση δεδομένων που περιγράφουν τον ίδιο τύπο οντότητας αλλά τηρούνται σε διαφορετικά αρχεία ή βάσεις δεδομένων (π.χ. διάφορα αρχεία που τηρούν στοιχεία Πελατών). 

Δεδομένα XE "Δεδομένα"  διαφόρων πηγών στα οποία έχουν εφαρμοστεί διαδικασίες προτυποποίησης-διόρθωσης-συμπλήρωσης, μπορούν να ενοποιηθούν σε μοναδική βάση αναφοράς που περιέχει μοναδική εγγραφή για κάθε πραγματική οντότητα (π.χ. υλικό παραγωγής που χρησιμοποιείται).

 Παρατήρηση: Αρκετοί Οργανισμοί διαπιστώθηκε στο παρελθόν ότι διαθέτουν πολλαπλά και ασύνδετα αρχεία για τον ίδιο τύπο δεδομένων (π.χ. αρχεία Πελατών).

Σε διεθνές επίπεδο παρατηρείται δυσκολία των Επιχειρήσεων να ενοποιήσουν πληροφορία   Πελατών. Στο πλαίσιο αυτό έχει αναπτυχθεί αγορά ενοποίησης πληροφορίας Πελατών (Customer Data IntegrationCDI) για να βοηθήσει τις Επιχειρήσεις στην στρατηγική επιλογή για την καλύτερη αξιοποίηση της πληροφορίας Πελατών.

 Η ενοποίηση των δεδομένων περιλαμβάνει τα ακόλουθα βήματα:

        I.      Καθορισμός κριτηρίων ενοποίησης εγγραφών. Επιλέγονται πεδία ή συνδυασμοί πεδίων που θα μπορούσαν να αποτελέσουν βάση για την διασύνδεση εγγραφών διαφορετικών πηγών, που θεωρείται ότι αντανακλούν την ίδια πραγματική οντότητα και είναι υποψήφιες προς ενοποίηση. Τέτοια πεδία μπορεί να είναι αριθμοί ταυτοποίησης, ονόματα, διευθύνσεις που δεν αλλάζουν ή δεν αλλάζουν συχνά. Αξιολογούνται τα πεδία ή οι συνδυασμοί αυτών, που αποτελούν την πλέον αξιόπιστη βάση διασύνδεσης εγγραφών. Π.χ. κοινή τιμή στο πεδίο αριθμού ταυτοποίησης και παρόμοια τιμή στο όνομα, είναι ισχυρότερο κριτήριο από κοινή τιμή στο πεδίο ονόματος και παρόμοια τιμή αριθμού ταυτοποίησης.

     II.      Απόδοση συντελεστή βαρύτητας σε κάθε κριτήριο διασύνδεσης εγγραφών.

   III.      Αξιολόγηση του αρνητικού επιχειρησιακού αντίκτυπου στην ενοποίηση στοιχείων που χαρακτηρίζουν διαφορετικές πραγματικές οντότητες (π.χ. ενοποίηση στοιχείων 2 διαφορετικών Πελατών σε μια εγγραφή).

  IV.      Καθορισμός των τεχνικών που θα χρησιμοποιηθούν για την διασύνδεση εγγραφών: ακριβής ταυτοποίηση αλφαριθμητικών χαρακτήρων στο πεδίο, κοινό  τμήμα πεδίου με χρήση wild card για το υπόλοιπο, παρόμοιες τιμές σε πεδίο με διαφορές σε 1-2 χαρακτήρες.

     V.      Χρήση κριτηρίων διασύνδεσης για τον εντοπισμό εγγραφών που πιθανόν αντιστοιχούν στην ίδια πραγματική οντότητα.

  VI.      Αξιολόγηση ευρημάτων και ενοποίηση στοιχείων σε μοναδική εγγραφή που κρατά τα πιο αξιόπιστα στοιχεία από τις εγγραφές που συγχωνεύονται

VII.      Τεκμηρίωση των κανόνων διασύνδεσης και ενοποίησης στοιχείων από πηγές δεδομένων στην νέα δομή

VIII.      Καταγραφή εγγραφών που διασυνδέονται (περιγράφουν την ίδια πραγματική οντότητα), μέσω της καταγραφής πεδίων ταυτοποίησης

  IX.      Τήρηση στοιχείων που επιτρέπουν την διόρθωση λανθασμένης ενοποίησης

 Έχοντας εκτελέσει τις εργασίες που περιγράφονται στην ενότητα ‘Διόρθωση, προτυποποίηση  και συμπλήρωση δεδομένων’ και ‘Ενοποίηση δεδομένων από διαφορετικές πηγές’, καταγράφεται και αναλύεται ο τρόπος δημιουργίας ελαττωματικών δεδομένων με στόχο την βελτίωση διαδικασιών και την επίλυση προβλημάτων που προκύπτουν από την ανεπαρκή ποιότητα δεδομένων. Αναλύονται οι τύποι  ελαττωμάτων, η συχνότητα, ο επιχειρησιακός αντίκτυπος των λαθών.

Συγκεκριμένοι τύποι ελαττωμάτων έχουν συστηματικό τρόπο δημιουργίας αλλά και διόρθωσης.

 Η συνολική διαδικασία προτυποποίησης και ενοποίησης δεδομένων Πελατών, περιγράφεται στην ακόλουθη εικόνα : 


Εικόνα 4 – Προτυποποίηση και ενοποίηση δεδομένων πελατών  

1.1.1.1.6   Μετατροπή δεδομένων

 Αφορά την μετατροπή των καθαρισμένων δεδομένων για να υλοποιηθεί η φόρτωση στην νέα αρχιτεκτονική δεδομένων.

 Στον παρακάτω πίνακα παρατίθεται παράδειγμα μετατροπής πεδίων αποδεκτών τιμών (domain value conversion) συστημάτων, ώστε να προκύψει μοναδική  κωδικοποίηση.

Στο σύστημα Α η τιμή 4 αποτυπώνει το ‘άριστα’ ενώ στο σύστημα Β η τιμή 1 αποτυπώνει το ‘άριστα’. Στην προτυποποιημένη μορφή ακολουθείται η κωδικοποίηση του συστήματος Β.

 

Διαφορά υφιστάμενα πεδία αποδεκτών τιμών (domain values) που καταγράφουν το ίδιο χαρακτηριστικό.

 

Προτυποποιημένη χρήση τιμών

Σύστημα Α: 4, 3, 2, 1

 

Μετατροπή

1, 2, 3, 4

 

Σύστημα Β: 1, 2, 3, 4

 

-

1, 2, 3, 4

 

Σύστημα Γ: άριστα, πολύ καλά, καλά, μέτρια

Μετατροπή

1, 2, 3, 4

 

 

1.1.1.1.7   Έλεγχος διαδικασίας αναδόμησης δεδομένων

 Ο έλεγχος επιδιώκει να διασφαλίσει την ποιότητα σε όλα τα στάδια της διαδικασίας αναδόμησης, βάσει των ακολούθων στοιχείων:

Ελέγχεται:

Contact us
Contact us
Κωστής Παναγιωτάκης

PDF version

Home page

Pleroforea in Greek