Curatare baze de date

Curatarea datelor sau spalarea de date este actul de detectarea si corectarea (sau eliminarea) a  inregistrarilor corupte sau incorecte dintr-un set de tabele sau baza de date inregistrate. Utilizat in principal in baze de date, termenul se refera la identificarea  unor date incomplete, incorecte, inexacte, irelevante etc. si apoi inlocuirea, modificarea sau stergerea acestor date neclare. Dupa curatare, un set de date va fi in concordanta cu alt seturi de date similare din sistem.

Descriere. Principalele Beneficii

Curatarea datelor difera de validarea de date prin faptul ca validarea inseamna aproape invariabil ca datele sunt respinse din sistem la intrare si sunt interpretate la momentul intrarii, mai degraba decat pe loturi de date. Procesul efectiv de curatare a datelor poate implica eliminarea erorilor tipografice sau validarea si corectarea valorilor cu o lista de entitati cunoscute. Validarea poate fi stricta (cum ar fi respingerea oricarei  adrese care nu are un cod postal valid) sau fuzzy (cum ar fi corectarea inregistrarilor care se potrivesc cu cele partial existente sau cu inregistrarile cunoscute).

Calitatea datelor. Un nivel mare de calitate trebuie sa treaca un set de criterii. Acestea includ:

•              Precizie: O valoare agregata asupra criteriilor de integritate, coerenta si densitate

•              Integritate: O valoare agregata asupra criteriilor de integralitate si validitate

•              Exhaustivitate: Realizat prin corectarea datelor care contin anomalii

•              Valabilitate: aproximat prin cantitatea de date care satisfac constrangerile de integritate

•              Coerenta: Cu privire la contradictiile si anomaliile sintactice

•              Uniformitate: direct legate de nereguli

•              Densitatea: Coeficientul de valori lipsa in datele si numarul total de valori ar trebui sa fie cunoscute

•              Unicitatea: Raportat la numarul de duplicate in datele

Procesul de curatare a datelor

1. Datele de audit: Datele sunt verificate cu utilizarea de metode statistice pentru a detecta anomaliile si contradictii. Aceasta ofera in cele din urma o indicatie a caracteristicilor de anomalii si locatiile lor.

2. Identificarea fluxului de lucru detectarea si eliminarea anomaliilor este efectuata de o secventa de operatii pe datele cunoscute ca fluxul de lucru. Pentru a realiza un flux de lucru adecvat, cauzele anomaliilor si erorilor in date trebuie sa fie atent luate in considerare.

3. Executia fluxului de lucru: Punerea in aplicare a fluxului de lucru trebuie sa fie eficienta chiar si pe seturi mari de date, care in mod inevitabil presupun un compromis, deoarece executarea unei operatiuni de curatare a datelor poate fi din punct de vedere computational  scump.

4. Post-procesare si Control: dupa executarea fluxul de lucru de curatare, rezultatele sunt inspectate pentru a verifica corectitudinea. Rezultatul este un nou ciclu in procesul de curatare a datelor in cazul in care datele sunt auditate din nou pentru a permite specificarea unui flux de lucru suplimentar pentru a curata si mai mult fata de prelucrarea automata a datelor.