OLAP (Online AnaLytical Processing) ist ein Konzept zur schnellen multidimensionalen Analyse von Daten (MDA), das die Untersuchung von Daten aus mehreren Dimensionen ermöglicht. Dies ermöglicht komplexe Berechnungen, Trendanalysen und eine ausgefeilte Datenmodellierung.
Es ist wichtig, das klarzustellen OLAP ist weder eine Technologie noch eine Sprache (im Gegensatz zu SQL oder Java). OLAP ist ein Konzept/eine Methode zur Organisation von Daten in einer bestimmten Struktur, um eine multidimensionale Analyse zu ermöglichen. Der Begriff „OLAP-Tool“ bezieht sich auf Plattformen wie ICCube und Microsoft Analysis Services (SSAS), die die notwendige Infrastruktur für den Aufbau von OLAP-Datenstrukturen bereitstellen.
Warum Olap verwenden?
Das Kernfunktionen von OLAP sind:
Mehrdimensional: wandelt komplexe Daten in strukturelle und intuitive Geschäftskonzepte um und erleichtert so die Analyse von Daten in verschiedenen Dimensionen (z. B. Zeit, Geografie, Produkt).
- Analyse: Datenaggregation wie Summe, Minimum, Maximum, Durchschnitt, Vektor und mehr. Unterstützt fortschrittliche Analysen wie statistische Methoden, Regressionen, Algorithmen usw.
- Schnelle Abfrageleistung: Optimiert für das Lesen und Analysieren mehrdimensionaler Daten.
- Ad-hoc-Analyse: Benutzer können spontane, spontane Abfragen durchführen, um Daten zu untersuchen, ohne vordefinierte Berichte oder Dashboards zu benötigen.
Schema oder Modell
Bevor Sie eine OLAP-Analyse Ihrer Daten durchführen, erstellen Sie zunächst ein Modell oder Schema aus Ihren Datenquellen oder Ihrem Data Warehouse. Die gängigsten Datenquellen sind SQL-Datenbanken, obwohl es sich um Daten handeln kann, die aus einer beliebigen Quelle stammen (z. B. Flatfiles, IoT, Google Analytics). Ziel ist es, die Daten aus der technischen Nomenklatur in domänenspezifische Begriffe umzuwandeln, die ein Geschäftsanwender problemlos verwenden kann, auch bekannt als Semantische Ebene.
Abmessungen sind eine Kategorisierung Ihrer Daten. Typische Dimensionen sind Land, Leute, Alter, Produkt, Farbe. Dimensionen können hierarchisch sein, wie in einer Zeitdimension mit Jahren, Quartalen und Tagen, oder in einer geographischen Dimension mit Kontinent, Region, Land und Stadt.
Maßnahmen sind Kennzahlen, die als Summe, Minimum, Maximum, Durchschnitt aggregiert werden können (z. B. Verkaufsmenge, Temperaturen).
Sobald das Schema definiert ist, können Benutzer nun mit der Abfrage der Daten beginnen. Ziehen Sie Dimensionen und Kennzahlen per Drag-and-Drop, um Informationen zu generieren, z. B. eine Tabelle mit Kontinent, Jahr und Verkaufsbetrag. Das heißt würfeln (wählen Sie bestimmte Werte mehrerer Dimensionen, um einen Unterwürfel zu erstellen):
Die Fähigkeit, aggregierte Informationen in jeder Zelle anzuzeigen, ist bekannt als aufrollen. Obwohl 2018 in Afrika Tausende von Verkäufen getätigt werden können, werden nur die zusammengefassten oder aggregierten Informationen angezeigt.
Das Filtern der obigen Tabelle, z. B. für ein bestimmtes Produkt, heißt schneidend (wählen Sie einen einzelnen Wert für eine Dimension, um einen Unterwürfel zu erstellen).
Drillere nach unten, das Gegenteil von aufrollen, ermöglicht es, auf die Details eines Kontinents oder eines Jahres einzugehen und dabei die hierarchische Struktur der Dimension zu nutzen. Das Endergebnis wird wie folgt aussehen:
Aufrollen und Drilldown, zusammen mit würfeln und schneidend, bilden die Grundlage für OLAP-Interaktionen.
Business Intelligence (BI) -Tools können als Clients für einen OLAP-Server dienen und das visuelle Ergebnis (durch Diagramme und Filter) von OLAP-Abfragen bereitstellen.
Die Ansicht der Dimensionen auf der Achse und der Werte in den Zellen ist der Grund, warum Sie sich OLAP als vorstellen können Würfel. Aber das ist ein konzeptionelle Ansicht, kein physischer.
Wie funktioniert OLAP?
Wir können ein sehr einfaches Beispiel verwenden, als Eingabedaten haben wir eine Tabelle mit wenigen Spalten:
OLAP wird bei der Berechnung der Verkäufe für Asien im Jahr 2018 die Tabelle für alle Zeilen mit Asien und 2018 filtern. Aggregieren Sie in dieser gefilterten Untertabelle die Kennzahl für den erwarteten Wert, die Summe für den Umsatz (500+500 = 1000). Für diejenigen, die mit SQL vertraut sind, ähnelt dies einem gruppieren nach Betrieb.
Dies ist ein sehr einfaches Beispiel, da OLAP-Lösungen erweiterte Aggregationen und Berechnungen unterstützen, einschließlich statistischer Analysen, Regressions-, Vergleichs- und Ranking-Analysen. Bei fortgeschritteneren Lösungen können die Dimensionen selbst als mathematische Transformationen verwendet werden.
OLAP-Abfragesprachen
Im Gegensatz zu relationalen Datenbanken, die SQL verwenden, hat OLAP keine standardisierte Abfragesprache.
Im Jahr 2001 veröffentlichte Microsoft jedoch MDX das steht für MMultidAbmessung ExDruck. Es ist eine Sprache, die von verschiedenen Tools verwendet wird, die OLAP unterstützen. Excel ist ein Beispiel für einen Client, der MDX verwendet. Eine Excel-Pivot-Tabelle kann über den XMLA-Protokoll.
Andere Tools, die MDX nicht unterstützen, haben ihre eigene Sprache, die möglicherweise in SQL übersetzt wird. Wenn Sie an MDX interessiert sind, können Sie dies lesen Sanfte Einführung in MDX.
Arten von OLAP
MOLAP (Multidimensional OLAP): Das System lädt die zugrunde liegenden Daten in eine interne Struktur. Bei dieser Struktur kann es sich um eine Datei auf der Festplatte oder um eine speicherinterne Struktur handeln. Dies bietet schnelle Antworten, wobei die Ladezeit der des Speicher-/Dateisystems entspricht. Der Vorteil dieser separaten Struktur besteht darin, dass Abfragen auf Daten in diesem internen System zugreifen und nicht direkt auf die Datenquellen. Das bedeutet, dass analytische Abfragen, die sehr umfangreich sein können, die Produktionsserver nicht verlangsamen.
ROLAP (Relational OLAP): Das System führt die Analyse direkt in der zugrunde liegenden relationalen Datenquelle durch, einer SQL-kompatiblen Datenbank. Dies bietet eine langsamere Antwort und verfügt nicht über die analytische Leistungsfähigkeit und Flexibilität von MOLAP, es ist jedoch nicht erforderlich, die Daten zu laden und lokale Ressourcen wie Arbeitsspeicher oder Festplattenspeicher zu benötigen. Tools wandeln Endbenutzerabfragen in SQL um und führen sie dann in der Produktionsdatenbank aus.
HOLAP (Hybrid OLAP): Kombiniert MOLAP und ROLAP, was aufgrund der Komplexität der Integration beider Modelle technische Herausforderungen mit sich bringt.
iCube OLAP
ICCube basiert auf spaltenförmigen In-Memory-Datenspeichern und hebt mehrere der Einschränkungen auf, die Multidimensional-Cubes (OLAP-Cubes) IT-intensiv und starr machten, während gleichzeitig die Kompatibilität mit Industriestandards in der Berichts- und Analysewelt gewahrt bleibt.
Hier sind einige der Einschränkungen, die ICCube aufgehoben hat:
Daten müssen nicht mehr in ein Stern- oder Schneeflockenschema umstrukturiert werden, was auf Quellenebene kompliziert durchzuführen ist.
- Abkehr von trivialen schlüsselähnlichen Assoziationen (z. B. Viele-zu-Many, Ranged).
- Kartierung durch eine semantische Schicht.
- Kategorien ermöglichen die Einführung neuer Dimensionen im Handumdrehen, um den Modellierungsprozess zu vereinfachen.
- Dimensionselemente, bei denen es sich um Berechnungen handelt (z. B. Temperatur in Celsius umrechnen oder einen gleitenden Durchschnitt berechnen).
- Es ist keine Voraggregation erforderlich (alle Aggregationen werden im laufenden Betrieb berechnet).
- MDX+-Sprache (funktionale Unterstützung, objektorientierte Erweiterungen und viele neue Hilfsfunktionen).
- Client-Schnittstelle zur Verwaltung von Schemas, Bereitstellung und Laden.
Wann sollte OLAP nicht verwendet werden?
OLAP ist als schreibgeschütztes System konzipiert und unterscheidet es von Transaktionssystemen wie relationalen Datenbanken (RDBMS) oder Online-Transaktionsverarbeitung (OLTP) Plattformen. Im Gegensatz zu Tools für Datenwissenschaftler ist OLAP nicht für die Durchführung umfangreicher Berechnungen mit riesigen Datensätzen optimiert.
Nächste Schritte
Nachdem Sie nun ein grundlegendes theoretisches Verständnis davon haben, was OLAP-Hypercubes sind und was mehrdimensionale Analyse bedeutet, empfehlen wir Ihnen, unseren anderen Blog-Beitrag zu lesen, der einige praktische Beispiele für OLAP enthält, sowie unsere sanfte Einführung in MDX in unserer Dokumentation nachzuschlagen .