Datenmanagement: Big Data und hybride Clouds

Großer Datenmengen managen

Das Management großer Datenmengen gehört inzwischen für nahezu jedes Unternehmen zum Geschäftsalltag. Doch nicht immer ist klar, welche Herangehensweisen und Lösungen geeignet sind, um tatsächlich das Beste aus Big Data für die eigenen Ziele herauszuholen. Als Fundament für das Datenmanagement gilt den meisten Entscheidern die IT-Infrastruktur. Doch auch diese verändert sich in rasantem Tempo – und bietet so neue Lösungsansätze.

Hybrides Datenmanagement – wo ansetzen?

„Digitalisierung“ wird gerne als Schlagwort genutzt, um auf notwendige Innovationsprozesse und schier unbegrenzte Potenziale hinzuweisen. Wie tief die damit verbundenen Veränderungen und Weiterentwicklungen tatsächlich gehen, lässt sich allerdings meist erst dann bemessen, wenn es um die Anwendung und Umsetzung im konkreten Fall geht.

Denn Digitalisierung bedeutet eben nicht nur, dass immer größere, immer detailliertere Datenmengen zur Verfügung stehen, sondern dass sich mit dem Anwachsen von Big Data zugleich die Lösungen verändern, um diese effizient zu erheben, zu verarbeiten und zu analysieren. In Technologiefragen auf der Höhe der Zeit zu sein, ist daher eine der Grundvoraussetzungen, damit das unternehmenseigene Datenmanagement ein wirklicher Wettbewerbsvorteil werden kann.

Investitionen in Technologien und IT-Infrastruktur sind deshalb gewissermaßen Pflicht: Rechenzentren, verbundene Geräte und deren Hardware sowie die verwendete Software sollten bestmöglich an die jeweiligen Anwendungsbereiche und Prozesse angepasst werden. Wie was am schnellsten und (kosten)effizientesten erreicht werden kann, sind die zentralen Fragen.

Schon hierbei offenbart sich die Komplexität der digitalen Transformation, ist doch bereits die IT-Infrastruktur ein vielschichtiges Gebilde, in dem neben grundlegenden auch Detailfragen geklärt werden müssen. Was muss etwa die Software leisten können – z.B. Informationen aus unstrukturierten Formaten extrahieren, Daten visualisieren (in Echtzeit und/oder 3D) – und welche unterschiedlichen Anforderungsprofile und Kapazitäten hinsichtlich Taktung oder Kernanzahl müssen die verwendeten Prozessoren für solche Aufgaben mitbringen?

Kann ein Unternehmen überhaupt die benötigte Infrastruktur selbstständig aufbauen oder fehlt es dazu an Ressourcen? Immerhin geht es nicht nur um die Technologie alleine, sondern auch um deren Betreuung, Steuerung und Weiterentwicklung. Das erfordert nicht nur das entsprechende Know-How, sondern in gleicher Weise die notwendige Zeit und das notwendige Personal, um das technische Fundament auf dem neuesten Stand zu erhalten.

Cloud Computing als Alternative

Gerade für kleinere und selbst mittelständische Unternehmen ist der damit verbundene Aufwand unter Umständen zu hoch. Eine „schlankere“ Lösung für die gewünschte IT-Infrastruktur und das Datenmanagement bietet deshalb das Cloud Computing. Damit erhalten Unternehmen die Möglichkeit, viele grundlegende Ressourcen auszulagern: Hardware und Software können über die Cloud genutzt werden, ein eigenes Rechenzentrum oder die eigene Softwareentwicklung fallen weitgehend weg – genauso wie viele Kosten.

Die entstehen an anderer Stelle, denn eine solche Infrastruktur, die mit den üblichen Firmennetzwerken kaum noch etwas zu tun hat, lässt sich ohne Umdenken und Transformationsprozesse nicht verwirklichen. Das gilt umso mehr, als sich Cloud-Technologien wie jede andere digitale Technologie schnell verändern.

Public oder Private Cloud?

Genauso schnell verändern sich die Anforderungen an die Cloud. Die ist in ihrer öffentlichen Variante erst einmal ausreichend, um die gewünschten Computing-Dienste des externen Providers – der Hardware und Software zur Verfügung stellt – in Anspruch zu nehmen. Die Schwachstelle besteht in der dauerhaften Internetverbindung, die hierzu zwingend erforderlich ist.

Nicht so sehr wegen Stabilität und Geschwindigkeit, die es für die Verwaltung und Verarbeitung von großen Datenmengen braucht. Das Problem besteht vielmehr darin, dass die ständige Verbindung ein Angriffspunkt bietet, um unbefugten Zugriff auf kritische Daten und Anwendungen zu erhalten. Schon aus datenschutzrechtlichen Gründen ist die Public Cloud daher längst nicht für alle Daten und Prozesse geeignet.

Deswegen werden solch kritische Anwendungen vielfach in eine Private Cloud verlagert. Die kann, anders als die Public Cloud, über das firmeneigene Rechenzentrum gehostet werden. So sind die Anwendungen und Daten ausschließlich für die Mitarbeiter zugänglich, ein Zugreifen über das Internet ist ausgeschlossen – einfache Autorisierungsmechanismen für die Nutzer, oft auch in Verbindung mit Firewalls, sichern die interne Cloud ab. Damit gewährleisten Unternehmen die Sicherheit, die einer Public Cloud aufgrund ihrer Struktur fehlt.

Gleichzeitig hat das Unternehmen die volle Kontrolle über die Private Cloud, kann also beispielsweise die Rechenleistungen ganz individuell an die Bedürfnisse der Nutzer und Services anpassen, ohne Abstriche bei der Datensicherheit machen zu müssen.

Vor- und Nachteile von Public und Private Clouds

Wie genau die Infrastruktur für die jeweiligen Cloud-Lösungen gestaltet ist, liegt im Grunde im Ermessen der Unternehmen, die diese nutzen wollen. Diese unterschiedlichen Herangehensweisen bringen wiederum ganz eigene Schwierigkeiten mit sich. Das fängt bereits bei der Frage an, wie ein Unternehmen mit der Software für ihre Arbeitsprozesse umgehen möchte.

Beim Cloudcomputing besteht die Lösung darin, die Software nicht mehr physisch auf einem unternehmenseigenen Server zu hinterlegen, sie wird stattdessen im SaaS-Modell (Software as a Service) bereitgestellt. Vorteil für den Betrieb: Als Nutzer einer solchen Dienstleistung muss er sich weder um die Wartung noch um den Betrieb der notwendigen Hard- und Software kümmern – das bleibt Aufgabe des Anbieters. Ohne Nachteil funktioniert die SaaS-Nutzung allerdings nicht: Üblich sind Auslagerungsverträge, um vor allem datenschutzrechtliche Aspekte zu klären. Diese Verträge beziehen sich dabei entweder auf die Nutzung selbst oder die Dauer der Nutzung.

On-Premise-Infrastrukturen folgen demgegenüber einem anderen Modell. Die Daten und Anwendungen werden zwar ebenfalls meist von Dritten bezogen – also von Experten, die die Software ganz nach den Wünschen des Unternehmens an die spezifischen Anforderungen anpassen –, diese Daten liegen jedoch auf den Rechnern des Lizenznehmers.

Anders als bei einer reinen Cloud-Lösung müssen hierbei also die Hardware-Voraussetzungen geschaffen werden, hinzu kommen deutlich höhere Kosten, um die passgenaue Software auf die internen Systeme zu übertragen. Schwieriger ist zudem eine spätere Aktualisierung.

Dafür besteht gerade für das Management von Big Data die Möglichkeit, die firmeneigenen Netzwerke dadurch zu entlasten, dass die On-Prem-Anwendungen genau dort laufen können, wo es die gesammelten Daten verlangen. In den Ausführungen zum hybriden Datenmanagement, das IBM anbietet, wird in diesem Zusammenhang von der „Anziehungskraft“ großer Datenmengen gesprochen.

Grundsätzlich ist dies auch mit Cloud Computing realisierbar, allerdings ist hierbei der Kostenfaktor ebenfalls relevant: Während beispielsweise der finanzielle Aufwand für das Hochladen und Speichern von Daten in die Cloud vergleichsweise günstig ist, verhält es sich beim Abrufen häufig anders. Je komplexer darüber hinaus die Verarbeitung der Daten, desto größer ist der Aufwand – und desto größer sind die Kosten.

Mehr Flexibilität durch hybride Clouds

Big Data ist daher nur mit einem hohen Maß an Flexibilität zu bewältigen. Deshalb versuchen Hybrid Clouds, die Vorteile von Private Clouds, Public Clouds und On-Premise zu einem effizienteren Ganzen zu verbinden. Das gilt sowohl für die Datenverarbeitung selbst wie auch für die daraus entstehenden Kosten. In Anwendungsbereichen, in denen beispielsweise On-Prem-Lösungen wegen fortlaufender Aktualisierungen der Software zu kostspielig wären, kann auf die Potenziale des Cloud Computing zurückgegriffen werden.

Kritische und unkritische Anwendungen und Daten können außerdem leichter in Beziehung gesetzt werden, ohne dabei unnötige Risiken bei Sicherheit und Datenschutz eingehen zu müssen: So kann eine sensible Datenbank innerhalb der Private Cloud angelegt und verwaltet werden, die angeschlossenen Web-Anwendungen hingegen über die Public Cloud.

Damit ein solches Konstrukt reibungslos funktioniert, ist allerdings ein deutlich höherer Aufwand erforderlich. Die IT-Infrastruktur wird durch die Verwendung beider Cloud-Modelle komplexer, wodurch die Management-Aufwand steigt. Dazu kommt eine fortlaufende Analyse aller Prozesse, um jederzeit so effizient wie möglich und so sicher wie möglich zu arbeiten. Denn das Risiko, Daten in die falsche Cloud zu übertragen, ist durchaus vorhanden.

Die Möglichkeit, dank der hybriden Lösung eine klare Trennung von Datenhaltung (auf internen Datenbanken der Private Cloud) und Datenanalyse (mit den Anwendungen der Public Cloud) erreichen zu können, wiegt diesen Aufwand aber gerade im Hinblick auf das intensive Datenmanagement im Big Data-Bereich wieder auf. Nur mit schlanken und flexiblen Modellen können große Datenmengen sinnvoll genutzt werden.
Das Ende der Entwicklung sind Hybrid Clouds selbstverständlich nicht. Unter anderem im Bereich der Produktion kommen zunehmend Multi-Clouds zum Einsatz, mit denen sich Anwendungsgebiete noch besser aufteilen lassen. Das bedeutet zugleich eine weitere Entlastung der Netzwerke, da die Datenanalyse präzise an den jeweils gewünschten Punkten durchgeführt werden kann.