Big Data statt Bad Data

Vor der Analyse steht das Aufräumen

Seite: 2/2

Anbieter zum Thema

Bereinigung der Daten gehört in den Analytics-Prozess

Um dem Problem Bad Data bei Big Data Analytics besser begegnen zu können, müssen die Datenqualifizierung und Datenbereinigung Bestandteil des Analyse-Prozesses sein. Dabei müssen Punkte geklärt werden wie „Welches sind die Datenquellen, sowohl bei Datenerfassung als auch bei Datenübernahme“ und „Gibt es Tools zur Unterstützung bei der Qualitätsprüfung?“.

Bei der Bewertung der Datenqualität helfen Informationen über den Kontext der jeweiligen Daten, da sich aus der Datenquelle Hinweise auf die Datenqualität ergeben können. Manuelle Prüfungen sind aber im Fall von Big Data nicht möglich. Deshalb ist die Unterstützung durch das Analyse-Tool oder zusätzliche Tools für die Datenbereinigung so wichtig.

Beispiel: TIBCO Spotfire Cloud Enterprise

Auf der Tibco Now 2016, an der der Autor des Beitrags teilnahm, wurden auch neue, integrierte Data Wrangling/Data-Preparation-Funktionen vorgestellt. Neue Self-Service-Funktionen für die Datenaufbereitung bilden eine Schnittstelle, mit der Nutzer ohne Programmierkenntnisse auf die Datenquellen zugreifen können, um die Daten zu verbessern und zu katalogisieren. Die Funktion für das „Inline Data Wrangling“ ist in „Spotfire“ fest in das System eingebaut, sodass der zusätzliche Aufwand für die Datenaufbereitung reduziert werden kann.

Nicht Bad Data, sondern Big Data

Ganz gleich, mit welchen Tools man die Datenbereinigung umsetzt, ohne Maßnahmen gegen Bad Data kann Big Data Analytics nicht den gewünschten Erfolg im Unternehmen bringen. Im Gegenteil, Bad Data kann die Datenanalysen verfälschen und zu den falschen Geschäftsentscheidungen beitragen. Datenbereinigung ist deshalb Teil des Pflichtprogramms bei Big Data Analytics.

Der Beitrag erschien ursprünglich bei unserer Schwesterpublikation Data Center Insider.

(ID:44168859)