Von Daten zur Information

Trotz rasant fortschreitender Digitalisierung ist für viele Menschen das Lesen von Büchern immer noch Teil ihres Lebens. Besonders nach einem stressigen Tag oder im Urlaub kann man sich durch lesen entspannen. Man hat ein Buch in der Hand, liest wieder ein Stück, schweift mit seinen Gedanken ab oder ist sehr konzentriert dabei. Egal welchen Zugang man zum Lesen von Büchern hat – es handelt sich auf jeden Fall um Datenverarbeitung. Sobald man einmal lesen kann ist es sehr einfach und nimmt den mentalen Raum von Entspannung bis extremer Fokussierung an. Das Gehirn muss dabei unvorstellbare Rechnerleistungen erbringen, man spürt aber nichts davon.

Wenn wir an Daten denken fallen uns meist Statistiken zu gesellschaftlichen Entwicklungen, Aktienentwicklungen, Gesundheitsentwicklungen, usw. ein. Meist hat man da sehr streng strukturierte Daten im Kopf die dann in der weiteren Verarbeitung zu Statistiken entwickelt werden. Wir möchten also sehr zuverlässig wissen, wie sich die Aktien in unserem Portfolio entwickeln, welche Gesundheitsrisiken wir durch Rauchen eingehen oder wo die schönsten Urlaubsziele sind.

Apropo Urlaub: Wenn wir an einem Meeresstrand liegen und das Rauschen der Wellen hören – könnten das dann auch Daten sein? In früherer Zeit, also noch vor der Computertechnik, hat man das Wellenrauschen als „Rauschen“ bezeichnet, was genau das Gegenteil von Daten ist. Wenn man aber bedenkt, dass die Akustik von rauschenden Wellen auch entspannend ist, so wie halt das lesen von Büchern, dann müsste man auch dieses Erleben als Datenverarbeitung bezeichnen. Ähnliches passiert wenn man in ein Kaminfeuer blickt, sich das unregelmäßige Lodern der Flammen anschaut und dadurch auch in einen entspannten Zustand kommt. Wir müssen als erstes einer Definition und Beschreibung von dem nachgehen, was wir als Daten bezeichnen. Daten entstehen aus Signalen die aus der jeweiligen Umwelt entspringen. Die bekanntesten sind das elektromagnetische Spektrum mit dem sichtbaren Licht, die Gravitation, Druck und Schallwellen, radioaktive Strahlung, uvm.

Diese natürlichen Signale haben alle einen stetigen Verlauf, d.h. sie haben eine unendlich kleine Abstufung. Solche Signale existieren. Sofern man dafür eine Sensorik hat, können daraus Daten gewonnen werden. Der biologische Mensch hat dazu Augen, Ohren, Haut, usw. und kann darüber Signale wie Licht, Geräusch und Druck in Daten umwandeln. An dieser Stelle ist es ganz wichtig zu erkennen, dass dadurch lediglich Daten vorliegen und noch keine Informationen generiert wurden. Wir haben es also mit einem dreistufigen Verarbeitungsprozess zu tun. Dieser setzt sich zusammen aus der Signalverarbeitung, der Konvertierung der Daten und der anschließenden algorithmischen Verarbeitung zur Information.

Menschen konnten bisher nur an jene Daten herankommen, für die sie auch eine entsprechende Sensorik haben – Augen, Ohren, Nase, usw. Zu allen anderen Umweltsignalen haben wir keinen direkten Zugang. Dazu braucht es Transformation. Ein sehr markantes Beispiel dafür ist die Radioaktivität. Diese spüren wir zum Zeitpunkt des Auftretens durch menschliche Sensorik nicht. Erst die Erfindung des Geigerzählers hat uns den indirekten Zugang zu diesen Signalen eröffnet. Welche Signale uns das Universum sonst noch zur Verfügung stellt entzieht sich vorläufig unserer Erkenntnis, weil wir davon nichts wissen und dafür auch keine transformierende Sensorik bauen können.

Was den Menschen antreibt ist sein Ehrgeiz die Welt zu verstehen. Die natürliche Umwelt ist unordentlich und kompliziert. Das menschliche Gehirn hat damit umzugehen gelernt. Die Computerwelt ist eine sehr ordentliche, organisierte und einfache Einrichtung. Einfach bedeutet hier nicht gleichzeitig leicht. Einen besonderen Drive hat die menschliche Neugier mit in der Renaissance und der empirischen Naturwissenschaft bekommen. Diese Art und Weise die Welt zur erforschen ist datengetrieben. Die Forscher machen Experimente und sammeln Daten die in der weiteren Folge ausgewertet, also zu Informationen, verarbeitet werden. Wir sind auf der Suche nach Antworten wie die Welt funktioniert. Je mehr Daten uns zur Verfügung stehen umso mehr erkennen wir auch, dass darin Fehler enthalten sind. Bei sehr großen Datenmengen spielt dies kaum eine Rolle. Bei kleineren Datensets kann das zu völlig falschen Schlussfolgerungen führen. In Wirklichkeit ist nichts richtig oder falsch. Letztendlich geht es nur um die Zuweisung von Bedeutung. Warum sind die Dinge so wie sie sind?

Mit diesen Erkenntnissen ausgestattet hätten wir zwei Zugangsmöglichkeiten die Natur zu hinterfragen:

  • Problemgetrieben: Suche nach Daten, um dieses Problem zu lösen.
  • Datengetrieben: Welche Probleme könnte man mit diesen Daten lösen.

Ein datengetriebenes Forschungsprojekt war die Entschlüsselung des menschlichen Genoms. Dabei galt es das menschliche Gen in deren Gesamtheit zu sequenzieren und aufzuzeichnen. Im Anschluss daran, also heutzutage, kann man diese Daten anschauen und damit Problemlösungen wie personale Medikation, genetische Gesundheitsrisiken, usw. lösen. Ein ähnlich datengetriebenes Phänomen zeigt sich bei der Teleskopie des Universums. Die Menschheit hat dazu viele Fragen die meist nicht einmal formuliert werden können. Also gilt auch hier der Ansatz mit Hubble-Teleskopen oder ähnlichen das Universum zu kategorisieren. Der problemorientierte Ansatz verschwindet zusehends – war aber in der Pionierzeit der Erfinder das Um und Auf. (s. Thomas Alva Edison)

Die Welt an sich ist ein wirklich interessanter Platz. Ich möchte wissen, was ich davon lernen kann. Dazu muss ich mich entscheiden, was ich wirklich wissen möchte und letztendlich geht es um Bedeutungen. Daten an sich sind bedeutungslos, haben aber verschiedene Erscheinungsformen.

Grundsätzlich ist zwischen strukturierten und unstrukturierten Daten zu unterscheiden. Der strukturierte Ansatz beinhaltet Daten die meistens in Zeilen und Spalten mit entsprechenden Spaltenbezeichnungen und Zeilennummern angeordnet sind – jedes Excel-Sheet ist so aufgebaut. Dem gegenüber haben unstrukturierte Daten keinen linearen inneren Zusammenhang. Dazu gehören eben die oben schon erwähnten Bücher, Videos, Musik, usw.

Zum Verstehen von unstrukturierten Daten ist es erforderlich, dass wir über deren Codierung Bescheid wissen, weil ansonsten bleiben sie uns völlig unzugänglich. Wenn wir nicht wüssten was „A“ bedeutet, könnten wir damit nichts machen. Codierung ist also eine Art der Bedeutungszuweisung. Musiker und Komponisten haben eine andere Form von Codierung gefunden – sie verwenden Musiknoten. Verständlich ist ein Notenblatt nur dann, wenn man die Bedeutung der einzelnen Noten erkennt. In der Computertechnologie hat sich die binäre Codierung durchgesetzt. Dieses Verfahren ist deshalb so interessant, weil dieser Code 0,1 sowohl von der Maschine als auch vom Menschen erkannt wird. Wenn es schon sehr schwierig ist einen nativ Computercode in binärer Form zu lesen – es wäre aber nicht ausgeschlossen.

Der Begriff von Big Data hat sich in den letzten Jahren deshalb ergeben, weil es mit Speichertechnologie möglich ist, unvorstellbar große Datenmengen zu speichern. Wie groß „Big Data“ wirklich ist kann man nicht sagen weil sich das laufend ändert. Die unterste Grenze dürfte dabei im Bereich von einem Terabyte liegen. Speichertechnologien im Bereich von Peta- und Exabyte sind im Aufkommen bzw. bereits verfügbar. Neben den Big Datas gibt es auch noch die Welt von No Data, Small Data und All Data. (s. Bild)

Big Data

No Data: Nach menschlichen Hausverstand gibt es sowas eigentlich nicht. So wie oben schon beschrieben – wenn es keine Sensorik gibt, dann gibt es dazu auch keine Daten. Die nordamerikanischen Natives waren darauf angewiesen, in ihrem Lebensumfeld – der Eiswüste – möglichst zuverlässig die Karibuherden aufzuspüren. Nur so waren sie in der Lage ihr Überleben zu sichern. Allerdings hatten sie dafür keine Sensorik. Man konnte die Tiere ob der riesigen Landflächen weder sehen noch riechen oder hören. Trotzdem mussten sie entscheiden in welche Richtung sie zur Jagd aufbrechen sollten. Die Entscheidung darüber hätte zufällig getroffen werden können. Sie hätten einen ihrer Götter befragen können oder sich auf Erzählungen der Verfahren stützen können. Tatsächlich haben sie für die Richtungsentscheidung ein Messgerät gebaut. Dieses hat sich aus einem Schulterknochen und einer Rippe eines Karibus zusammengesetzt. In Kombination war es so was Ähnliches wie ein Roulette – man drehte den Rippenknochen und dort wo er stehen blieb war die Richtung in der sich Karibus befinden sollten. Mit dieser Methodik haben sie aus No Data trotzdem Daten und Informationen geschaffen. Wahrscheinlich war die Zuverlässigkeit genauso groß wie der Zufall.

Small Data: In Zeiten der naturwissenschaftlichen Pioniere und der daran anschließenden Industrialisierung waren Daten immer eine Mangelware. Hauptsächlich hat man Daten durch protokollieren von Experimenten bekommen. Es war dies auch die Zeit des linearen Denkens mit dem Wirtschaftsmodell von Ursache-Wirkung. Man konnte eine Markterhebung machen, diese auf Basis einer kleinen Stichprobe, mit sehr hohen Wahrscheinlichkeiten. Statistiken und Wahrscheinlichkeitsberechnungen sind die zentralen Elemente von Small Data. Die Messpunkte waren wenig und sehr teuer.

Big Data: Die Entwicklungen im IT-Bereich führten zur Speicherung von unvorstellbar hohen Datenmengen. In einer ersten Phase sind diese durch Login-Algorithmen von Betriebssystemen entstanden. Wenn ein Computer seine eigene Arbeitsleistung mit loggt und der Prozessor im Gigaherzbereich taktet, so kann man sich ungefähr vorstellen, welche Datenmengen diese Maschine produziert. Gleichzeitig hat die Entwicklung von Sensoren dazu beigetragen, Umweltdaten in Streaming-Form bereitzustellen. Weithin bekannt sind Wetterstationen. Dazu werden zwischenzeitlich Flugzeuge, die über eine derartige Einrichtung verfügen müssen, eingesetzt. Mit diesen großen Datenmengen hat man erkannt, dass die frühere Ursache-Wirkung Beziehung plötzlich auch eine andere Bedeutung haben könnte. Das komplexe Denken war damit geboren. Meyer-Schönherr hat in seinem Buch „Big Data“ das Phänomen von orangen Autos beschrieben. Demnach müssen Besitzer von Autos mit dieser Farbe öfter in die Werkstätte als alle anderen. Das ist ein Faktum. Allerdings lässt sich dazu noch kein Ursache-Wirkungszusammenhang erkennen. Das lineare Denken geht schrittweise in das Denken von Korrelationen über. Das Verarbeiten von großen Datenmengen steht ohnehin erst am Anfang. Der Einzug der IoT mit geplanten 30 Mrd. Geräten bis 2020 wird hier zu einem exponentiellen Wachstum führen. Vor allem werden es die Livedaten sein die diese Geräte produzieren. Sofern die Vernetzung und die dahinterliegenden Rechner leistungsfähig genug sind, werden wir zu völlig neuen Informationen und Erkenntnissen über die Welt kommen. Der Wechsel von den „Death Data to Life Data“ ist gerade am Laufen.

All Data: Ähnlich wie es kein „No Data“ gibt, gibt es auch kein All Data. Signale aus der Umwelt haben einen stetigen Verlauf, d.h. man kann immer zwischen zwei Messpunkten einen weiteren Messpunkt ermitteln. Damit wiederum ist Unendlichkeit gegeben. Natürliche Werte wie Temperatur, Druck und Geschwindigkeit könnte man, zumindest theoretisch, unendlich genau messen. Diese Unendlichkeit würde aber gleichzeitig auch unendlich großen Speicher benötigen. Möchte man nun das gesamte Universum vermessen und speichern bräuchte man dazu genau noch einmal dieses Universum als Speichermedium und die gleiche Energiemenge, um dies auch zu prozessieren. Zu diesem Schluss ist Ray Kurzweil bei seinen Überlegungen zu Speicher- und Rechnerkapazität gekommen.

Sofern sich die technologische Entwicklung nach dem heutigen Muster fortsetzt, können wir bedingt durch die IoT Bestrebungen und durch die Kapazitätserweiterungen von Speichergeräten eine Bewegung von Big Data zu All Data erkennen. In manchen Bereichen ist eine komplette Datenerfassung bereits entwickelt. Insbesondere dann, wenn es sich um quantitative, also abzählbare, Größen handelt. Moderne Mühlenanlagen die Tonnen von Getreide täglich zu Mehl vermahlen schauen jedes einzelne Korn bzgl. dessen Qualität an. Die schlechten werden mit einem Pressluftstrahl herausgeschossen. Aufgezeichnet werden die Daten aller Getreidekörner. Im Gegensatz dazu sind die Daten von 7 Mrd. Menschen nahezu verschwindend.

 

Gesponserte Beiträge