Anbieter zum Thema
Bereinigung der Daten gehört in den Analytics-Prozess
Um dem Problem Bad Data bei Big Data Analytics besser begegnen zu können, müssen die Datenqualifizierung und Datenbereinigung Bestandteil des Analyse-Prozesses sein. Dabei müssen Punkte geklärt werden wie „Welches sind die Datenquellen, sowohl bei Datenerfassung als auch bei Datenübernahme“ und „Gibt es Tools zur Unterstützung bei der Qualitätsprüfung?“.
Bei der Bewertung der Datenqualität helfen Informationen über den Kontext der jeweiligen Daten, da sich aus der Datenquelle Hinweise auf die Datenqualität ergeben können. Manuelle Prüfungen sind aber im Fall von Big Data nicht möglich. Deshalb ist die Unterstützung durch das Analyse-Tool oder zusätzliche Tools für die Datenbereinigung so wichtig.
Beispiel: TIBCO Spotfire Cloud Enterprise
Auf der Tibco Now 2016, an der der Autor des Beitrags teilnahm, wurden auch neue, integrierte Data Wrangling/Data-Preparation-Funktionen vorgestellt. Neue Self-Service-Funktionen für die Datenaufbereitung bilden eine Schnittstelle, mit der Nutzer ohne Programmierkenntnisse auf die Datenquellen zugreifen können, um die Daten zu verbessern und zu katalogisieren. Die Funktion für das „Inline Data Wrangling“ ist in „Spotfire“ fest in das System eingebaut, sodass der zusätzliche Aufwand für die Datenaufbereitung reduziert werden kann.
Nicht Bad Data, sondern Big Data
Ganz gleich, mit welchen Tools man die Datenbereinigung umsetzt, ohne Maßnahmen gegen Bad Data kann Big Data Analytics nicht den gewünschten Erfolg im Unternehmen bringen. Im Gegenteil, Bad Data kann die Datenanalysen verfälschen und zu den falschen Geschäftsentscheidungen beitragen. Datenbereinigung ist deshalb Teil des Pflichtprogramms bei Big Data Analytics.
Der Beitrag erschien ursprünglich bei unserer Schwesterpublikation Data Center Insider.
(ID:44168859)