Quantitative Datenanalyse großer Datensätze mit "R"

Abstract
Diese Seminararbeit untersucht den Zusammenhang zwischen Verkaufszahlen und drei Produktkategorien im Zeitraum von 1999 bis 2022.
Die Analyse basiert auf mehreren Zehntausend Datensätzen aus dem ERP-System eines Unternehmens.
Zur statistischen Auswertung wurde die Software R eingesetzt.
Mittels Chi-Quadrat-Test sowie ergänzend Spearman- und Mann-Whitney-U-Test konnten Zusammenhänge und zeitliche Entwicklungen identifiziert werden. Die Arbeit zeigt exemplarisch, wie sich große Datenmengen systematisch aufbereiten, visualisieren und interpretieren lassen.
Zusammenfassung
Die Seminararbeit entstand im Rahmen der quantitativen Datenanalyse und demonstriert die Nutzung von R zur statistischen Auswertung umfangreicher ERP-Daten. Die Daten wurden aus unterschiedlichen Stammdatenquellen aggregiert und anschließend in eine Übersicht gebracht, die eine Auswertung auf Jahres- und Kategorieebene erlaubte.
Problemstellung
- Unternehmen verfügen über große, aber fragmentierte Datenbestände.
- Für strategische Entscheidungen ist es notwendig, Zusammenhänge zwischen Produktgruppen und Zeiträumen sichtbar zu machen.
- Leitfrage: Welche Abhängigkeiten bestehen zwischen den Verkaufszahlen der verschiedenen Produktkategorien im Zeitraum 1999–2022?
Ansatz & Vorgehen
- Datengrundlage: mehrere Zehntausend ERP-Datensätze, aufbereitet in einer Gesamtübersicht.
- Formulierung von drei Forschungshypothesen.
- Statistische Methoden in R:
- Chi-Quadrat-Test: Identifizierung von Zusammenhängen zwischen Kategorien.
- Spearman-Test: Bestätigung signifikanter Korrelationen.
- Mann-Whitney-U-Test: Vergleich von Zeiträumen (1999–2010 vs. 2011–2022).
Ergebnis & Wirkung
- Nachweis eines Zusammenhangs zwischen verschiedenen Produktkategorien
- Ergebnisse liefern Tendenzen und Anhaltspunkte, die durch weiterführende Analysen vertieft werden sollten.
- Kompetenznachweis: Umgang mit großen Datenmengen, statistischer Modellierung und Hypothesentests.
Tech-Stack
- R (statistische Auswertung, Datenvisualisierung)
- ERP-Daten (mehrere Tausend Datensätze)
- Statistische Verfahren: u.a. Chi-Quadrat, Spearman, Mann-Whitney-U
Persönliche Note
Für mich war diese Arbeit ein Schlüsselerlebnis: Sie zeigte mir, dass sich Stammdatenanalyse und quantitative Statistik direkt verbinden lassen. Die Fähigkeit, aus tausenden Rohdaten belastbare Erkenntnisse zu gewinnen, ergänzt meine bisherigen Projekte – etwa die Stammdatenoptimierung – und unterstreicht meine Stärke in der Verbindung von Prozess- und Datenanalyse.