print
project

OLAP
[1] OTLP & OLAP - Was ist es?
[2] Cube (OLAP)
[3] Technische Umsetzung
[4] FASMI
[5] MOLAP - ROLAP
[6] Konzeptmodelle
[7] OLAP Operationen
[1] OTLP & OLAP - Was ist es?

OLAP ist kein Werkzeug, sondern vielmehr eine Art der Datenspeicherung und -Verarbeitung. Die Entstehung geht bereits 30 bis 40 Jahre zurück, als man mit OLTP (Online Transaction Processing) ein Verfahren entdeckte, dass zwar gut durchdacht, aber insbesondere für große Datenbestände schnell unbrauchbar wurde.

Dieses Verfahren zeichnet sich dadurch aus, dass viele Anwender gleichzeitig Daten eingeben und ändern können. Damit verbunden sind allerdings in aller Regel Ressourcenkonflikte. Denn Analysen und Auswertungen während der normalen Geschäftszeit führen bei OLTP stets zu einer Überlastung des Gesamtsystems. Deswegen lassen sich Berichte und komplexe Abfragen mit OLTP meistens nur abends oder in der Nacht durchführen. Das ist nicht besonders effizient und für alle, die sich mit der Analyse von Daten beschäftigen, kein befriedigender Zustand.

Die Lösung des Problems heißt OLAP. In drei Schritten gelangen die Daten vom OLTP-System ins OLAP-basierte Data Warehouse: Zunächst werden die Analysedaten konsolidiert, d.h. auf separater Hardware in Kopie gespeichert. Anschließend optimiert man die Datenstruktur der OLAP-Quelldaten für die Analyse. Daraufhin werden die Daten zusammengeführt, vorgefertigte Antworten auf häufig gestellte Fragen ermittelt und so die Antwortzeiten des Systems erheblich minimiert.

Gegenüberstellung von OLTP und OLAP
Kriterium Operative Systeme Data Warehouse
Datenquelle Eine ERP-Datenbank Mehrere unterschiedliche Datenquellen
Umgang mit Daten Daten in das System bringen Daten aus dem System herausziehen
Typische Operation Update Read-only
Ansichten der Daten Vorgeben Benutzerdefiniert
Datenmenge je Transaktion Wenig Viel
Niveau der Daten Detailliert Verdichtet/aufbereitet
Alter der Daten Aktuell Historisch, aktuell, projiziert
Verarbeitungseinheit Anwendungsübergreifend Sachbezogen, übergreifend
Art der Transaktion Einfache Transaktionen, statische Aufrufe Komplexe Abfragen, dynamische Anwendungen
Zweck Unterstützung und Abwicklung von Geschäftsprozessen Informationen für Controlling, dispositive Entscheidungen
Inhalt Detaillierte, aktuelle Geschäftsvorfälle Detaillierte, verdichtete und berechnete Daten
Aktualität Online, realtime Unterschiedliche, aufgabenabhängige Aktualität, Historienbetrachtung
Modellierung Altbestände oft nicht modelliert, funktionsorientiert oder granulare normalisierte Entitäten Sachgebiets- oder themenbezogen, standardisiert und endbenutzertauglich
Zustand Redundanz, Inkonsistenz, normalisiert, bitverschlüsselt in diversen Datenquellen Konsistent modelliert, kontrollierte Redundanz in einer integrierten Datenbasis
Update Laufend und konkurrierend Ergänzend, automatische Fortschreibung abgeleiteter, voraggregierte Daten
Abfragen Strukturiert, meist statisch im Programmcode Ad-hoc für komplexe, ständig wechselnde Fragestellungen und vorgefertigte Standardauswertungen
Berichtserstellung Je nach Werkzeug Einheitlich, grafische Berichtsdefinition
Berichtspräsentation Listen Kreuztabellen, grafisch

Eine Definition von OLAP(www.microsoft.com)

Mit Online Analytical Processing (OLAP) bezeichnet man die Analyse und Auswertung von multidimensional aufbereiteten Daten, um Informationen für Unternehmensentscheidungen zu gewinnen. OLAP strukturiert Daten auf hierarchische Weise und erlaubt in der Regel sowohl Einzel- als auch Trendanalysen sowie die Zusammenfassung und Rotation von Daten für Vergleichsberechnungen. OLAP beschreibt auch eine Kategorie von Werkzeugen, die aus dem Datenbestand eines Unternehmens geschäftsrelevante mehrdimensionale Datenverknüpfungen extrahieren und deren Analyse aus mehreren Blickwinkeln ermöglichen. Dazu verwendet man multidimensionale Datenwürfel (sogenannte Cubes).

[2] Cube (OLAP)

Ein OLAP-Cube ist ein in der Data-Warehouse Theorie gebräuchlicher Begriff zur logischen Darstellung von Daten. Die Daten werden dabei als Elemente eines mehrdimensionalen Würfels (engl. Cube) angeordnet. Die Dimensionen des Cubes beschreiben die Daten und erlauben auf einfache Weise den Zugriff. Daten können über eine oder mehrere Achsen des Würfels ausgewählt werden. Die Bezeichnung OLAP stammt aus der Datenanalyse, dem Online Analytic Processing.

Diese Art der Darstellung ist für die Analyse von Daten von Vorteil, da auf verschiedene Aspekte (Dimensionen) der Daten auf gleiche Weise zugegriffen wird. Daher auch der Einsatz bei OLAP Anwendungen, die die Daten in einem Data-Warehouse analysieren oder visuell aufbereiten.

Der Würfel dient lediglich zur gedanklichen Vorstellung, denn sie ist mit Einschränkungen verbunden. Mit einem mehrdimensionalen Cube können bis zu 256 Dimensionen abgebildet werden.

Cubes kommen häufig zur Analyse von Unternehmensdaten zum Einsatz, wie z. B. Umsatz, Lagerbestände, Verkäufe. Die Dimensionen, die hier wichtig sein können sind Zeit, Filiale, Verkäufer, Produkt. Vereinfacht gesagt stellt jede Dimension eine bestimmte Perspektive auf die Fakten dar, wie Umsatz, Gewinn usw..
Der Cube stellt also die Daten Umsatz, Lagerbestand, Verkäufe abhängig von den Dimensionen Zeitpunkt, Filiale, Verkäufer und Produkt dar.Es lassen sich somit sehr leicht die folgenden Fragen beantworten:Wieviel Kaffee wurde vergangene Woche in der Filiale Marburg verkauft?
Wieviel Kaffee befindet sich dort im Lager?
Welcher Verkäufer hat den meisten Kaffee verkauft?
Welche Filiale hat vergangenes Jahr den meisten Umsatz gemacht?

Quelle: de.wikipedia.org/wiki/OLAP-Cube

[3] Technische Umsetzung

Die Daten werden multidimensional oder relational gespeichert. Multidimensionale Systeme bieten schnelleren Zugriff. Die Datenhaltung kann auf einer Festplatte oder im Arbeitsspeicher erfolgen. In der Regel ist ein großer Teil (99,99...%) möglicher Intersektionen im Würfel nicht mit Zahlen belegt (Sparsity). Das Handling dieser Teile des Würfels bedingt die Größe des Datenmodelles und wird von den Systemen unterschiedlich gehandhabt. Für relationale Systeme ist der Einsatz eines Star-Schemas typisch. Dabei wird eine Trennung in eine Faktentabelle und mehrere darum gruppierte Dimensionstabellen vorgenommen.

Bedeutung:

Neben dem Data Warehouse eine zweite, weiter fortgeschrittene, mögliche Realisierung von Management-Informationssystemen (MIS) zum Zweck des mehrdimensionalen Datenzugriffs, Berichtswesens und der Analyse. Dabei definiert der Anwender, im Gegensatz zum Data Mining, gezielt bestimmte zu untersuchende Zusammenhänge. OLAP bezeichnet einen von der OMG definierten Standard zur Entwicklung von Anwendungen, die der Entscheidungsfindung im Management von Unternehmen dienen. OLAP erlaubt den permanenten Zugriff auf verschiedene Datenbestände und ermöglicht es, Geschäftsdaten aus mehreren Sichtweisen darzustellen. So können unterschiedliche Szenarien abgebildet werden, um komplexe Geschäftsprozesse zu verdeutlichen.

Online Analytical Processing, Technologie im Bereich Informationsgewinnung. OLAP-Werkzeuge ermöglichen die multidimensionale Datenanalyse, beispielsweise die Auswertung von Umsatz und Gewinn nach verschiedenen Kriterien (Kunden, Regionen, Zeit, ...). Diese mehrdimensionale Sicht wird als zweidimensionales Spreadsheet visualisiert, in dem allerdings die Achsenidentifikation und die Verdichtungsebene per Mausklick flexibel verändert werden können.

[4] Der FASMI-Test

Der "olap-report FASMI Test" (www.olapreport.com) wurde entwickelt um OLAP Systeme charakterisieren zu können ohne auf Codd zurückgreifen zu müssen, dessen Regeln OLAP nur unzureichend beschreiben.

FAST – Ein wichtiges Kriterium bei OLAP Systemen ist die Geschwindingkeit mit der Antworten auf Anfragen zurückgeliefert werden. Da besondrs in diesen Systemen Abfragen komplexer Natur abgesetzt werden ist es entscheidend, dass die große Mehrheit bereits nach wenigen Sekunden , einzelne sehr anspruchsvolle Abfragen nach maximal 20 Sekunden ein Ergebnis liefern. Meist bricht der Anwender Prozesse die länger als 30 Sekunden stillstehen einfach ab, womit sich die Ineffizienz des Systems nochmal erhöht.

ANALYSIS – Das System muss alle Anfragen aus dem Geschäftsumfeld ausführen können, auch ohne eigene Programmierung und ähnliches. Es müssen aber Möglichkeiten der Definition von ad hoc Berechnungen und ähnlichem gegeben sein.

SHARED – Da OLAP Systeme Mehrbenutzersysteme sind ist es wichtig, dass die Sicherheitsrichtlinien auch darauf ausgelegt sind. Insbesondere bei Notwendigkeit von Updates, wenn also die Zahl der nicht „read only“User ansteigt.

MULTIDIMENSIONAL – Das Schlüsselkriterim eines OLAP Systems. Die Daten müssen mehrdimensional bereit gestellt werden, inklusive aller dafür notwendigen Konzepte.

INFORMATION – Wieviel Informationen kann man in einem OLAP System Abbilden? Hier geht es nicht um den Speicherplatz, sondern direkt um die Menge der Informationen. Je nach Art der Speicherung z.B. variiert hierbei der Wert sehr stark.

[5] MOLAP - ROLAP

Bei MOLAP werden die Daten nicht nur für den Benutzer mehrdimensional dargestellt, sondern auch so gespeichert. Der bestehende Datenbestand muss also erst in das OLAP-Data-Warehouse migriert werden. Jede Zelle wird durch ihre Dimensionen definiert, was den Vorteil mit sich bringt, dass sehr schnell auf die Daten zugegriffen werden kann. Informationsverdichtungen werden über Definition von Hierachien realisiert und ebenfalls entlang der Achsen im Würfel gespeichert. Diese Art der Speicherung der Auswertungen macht den Würfel aber träge, da aus Performancegründen nicht laufend neu berechnet werden kann. Ist der Datenpool also updatelastig zbd die Genauigkeit der Auswertungen kritisch, ist diese Art der Datenhaltung nicht empfehlenswert.

Mit ROLAP werden die Nachteile der MOLAP-Technik ausgemerzt. Die Daten werden zwar multidimensional Dargestellt, werden aber intern in einem Relationalen Modell gespeichert. Die Abfragesprache ist meinst plain SQL., wobei die Dimensionseinschränkungen einfach mit WHERE-Clauseln realisiert werden. ROLAP kann auf realtional gespeicherte Datenbestände aufsetzen, wobei das initiale Kopieren ins Warehouse entfällt. Mit dieser Technik können weit mehr Dimensionen verwaltet werden, und auch aktuelle Daten für aggregierte Informationen berücksichtigt werden, da alle Berechnungen ad-hoc ausgeführt werden. Dies birgt den Nachteil, dass die Berechnungsgeschwindigkeit über der von MOLAP liegt, also die gesteigerte Flexibilität und Genauigkeit zu Lasten der Performance geht.

Ein weiterers Konzept ist HOLAP. HOLAP bedeutet nichts anderes als „hybrid OLAP“ und bezeichnet eine Mischung beider oben genannten Techniken. Häufig benutzte Aggregationsdaten werden vorberechnet, wodurch der Cube eine höhere Performance erreicht.

[6] Konzeptmodelle für OLAP Würfel:

Star Schema

Das Star Schema besteht aus zwei Tabellentypen, der Fakttabelle und der Dimensionstabelle. In der Fatktabelle werden werden zeitlich variable Daten die aus Abfragen entstehen gespeichert. Dimensionstabellen enthalten eher statische Objektdaten. Die Fakttabelle ist im Gegensatz du den Dimensionstabellen hoch normalisiert woraus sich insbesondere Redundanzen ergeben. Allerdings wird darurch die Anzahl der Tabellen im DW gering gehalten.

Snowflake Schema

Das Snowflake Schema stellt eine Erweiterung des Star Schemas dar, in der Form, dass die Dimensionstabellen nun ebenfalls normalisiert werden. Dies stellt eine Weentliche Verbesserung der Datenhaltung, insbesondere eine verminderung der Redundanz dar.

[7] Grundlegende OLAP Operationen

Drill Down

Beim Drill down werden dargestellte Daetn detaillierter aufgeschlüsselt. Werden zum Beispiel Produktgruppen angezeigt, so kann man sich ohne viel Aufwand die darinliegenden Produkte und ihre Umsatzzahlen etc. Ansehen.

Roll up

Roll up ist die Gegenbewegung zum Drill down. Hier werden Daten zu größeren Blöcken verallgemeinert. Zum Beispiel Einzelne Kunden zu Gebieten oder Kundengruppen.

Slice

Hiermit ist das Anzeigen von Teilen des Cubes gemeint. Es wird also nicht der gesamte Cube, sondern nur eine Scheibe (Slice) dargestellt.

Dice

Mit Dice meint man das ändern der Bezusggröße. Es wird also der Blickwinkel der Analyse verändert.




Quellen:

Folien Data Warehouse Technologien Uni Magdeburg
http://wwwiti.cs.uni-magdeburg.de/iti_db/lehre/dw/03-Multidim-Modell.pdf
OLAP Report
www.olapreport.com
Modellierung temporaler multidimensionaler Daten in Analytischen Informationssystemen. Chamoni; Stock
http://www.uni-duisburg.de/FB5/BWL/WI/publ/chst98a.html
Wikipedia
de.wikipedia.org; www.wikipedia.org
Website Microsoft
www.microsoft.com
Virtual Communities und Customer Relationship Management – Diplomarbeit Wolfgang Richter TU Graz
http://www.iicm.edu/wrichter/thesis-final/thesis-final.html
ORDIX News OLAP: Entscheidungen leicht gemacht
http://www.ordix.de/onews2/3_2003/siteengine/artikel/db_2.html
Integration von Unternehmungsdaten über Data Warehouses (Konzept, Architektur, Realisation) Uni Hannover

http://www.iwi.uni-hannover.de/lv/seminar_ws03_04/www/Sandner/webseite/druck.pdf

- production | History| erstellt am: Datum | Autor
Themeneinstieg
Forum
Event