Kein AI, Keine Cloud, keine USA, keine komplizierten Tools – Klassische Massendatenauswertung mit einfachen Board-Mitteln

Die eigene Umgebung für Datenverarbeitung: Eine Open-Source-Lösung

Die Möglichkeiten zur Prozessoptimierung und Zeiteinsparung durch KI-Automatisierung sowie die Vorteile moderner Virtualisierungstechnologien wie Container und virtuelle Server sind weithin bekannt. In unseren Regionen und grossen Teilen der Welt sind die Errungenschaften moderner IT bereits umfassend im Einsatz.

Dank Online-Repositories wie GitHub, GitLab, Bitbucket, Azure DevOps und SourceForge können Entwickler ihre Lösungen ihren Communities und der ganzen Welt frei zur Verfügung stellen und daran kollaborieren. Viele Menschen profitieren von der Vielfalt der verfügbaren Lösungen, und es gibt kaum ein Problem, für das nur eine Monopollösung existiert – die Auswahl ist heute enorm.

Mit dieser gewachsenen Vielfalt sind in der modernen IT- und Internetwelt allerdings auch die Komplexität, die Variantenvielfalt und die technologischen Möglichkeiten exorbitant gestiegen. Der Dschungel an APIs, Programmiersprachen, produktspezifischen Architekturunterschieden und plattformtechnischer Vielfalt führt dazu, dass selbst für eine relativ einfache Auswertung manchmal eine ganze Betriebsumgebung aufgebaut werden muss. Dies kann von der Einrichtung eines Webservers auf einer VM oder einem Container-Host bis hin zur Konfiguration und Vernetzung verteilter Komponenten reichen. Für simple Aufgaben kann dieser Aufwand überzogen wirken, selbst wenn die Dokumentation verständlich ist.

Souveräne Datenverarbeitung mit Open-Source

Wer sich von KI-Tools und den damit verbundenen Abonnements fernhalten möchte oder Wert auf die eigene Souveränität bei der Nutzung von Cloud-Lösungen und Betriebssystemen legt, kann mit einfachen Open-Source-Mitteln seine eigene private Umgebung für die Massendatenverarbeitung aufbauen.

Zwar gibt es auch hierfür fertige Tools, doch mit etwas Geschick kann man dabei viel lernen und der eigenen Neugier nachgehen, indem man selbst nach bestimmten Mustern in grossen Datenmengen sucht. Für kleinere bis mittlere Komplexitätsstufen sind eine relationale Datenbank und eine Datenbankanwendung oft mehr als ausreichend.

Der Technologie-Stack: Setzen auf bewährte Technik

Wir orientieren uns an bewährter Technik und nutzen folgende Komponenten:

Debian Linux: Die Basis für Stabilität

Für den Betrieb unserer Datenverarbeitungsumgebung setzen wir auf Debian Linux (aktuell Version 13). Debian wird aufgrund seiner herausragenden Stabilität und Langlebigkeit häufig für Serverumgebungen eingesetzt. Das System legt besonderen Wert auf fehlerfreie Ausführung, weshalb jedes Softwarepaket gründlich getestet wird, bevor es im offiziellen Software-Katalog bereitgestellt wird.

MariaDB: Das Herzstück für grosse Datenmengen

Zur Datenhaltung nutzen wir MariaDB, den Fork von MySQL. MariaDB ist eine sehr stabile Open-Source-Datenbank, die sich identisch zu MySQL einrichten und bedienen lässt. Sie verwendet standardmäßig die transaktionssichere InnoDB-Engine, welche die ACID-Prinzipien umsetzt und somit eine hohe Crash-Sicherheit bietet.

LibreOffice Base: Der vertraute Steuermann

Als Frontend dient LibreOffice Base, ein kostenloses und quelloffenes Datenbankmanagementsystem (RDBMS), das Teil der LibreOffice-Suite ist. Es ermöglicht Benutzern, Daten in strukturierter Form zu speichern, abzurufen, zu bearbeiten und auszuwerten. Hierzu stellt es vier zentrale Werkzeuge bereit: Tabellen, Abfragen, Formulare und Berichte.

Base wurde ursprünglich als Fork von OpenOffice.org entwickelt und bietet eine grafische Benutzeroberfläche, die es auch ohne SQL-Kenntnisse ermöglicht, Datenbanken mithilfe von Assistenten und Editoren zu erstellen. Es unterstützt sowohl eingebettete Datenbanken (z. B. mit Firebird) als auch externe relationale Datenbanken wie MariaDB, PostgreSQL oder Microsoft Access über entsprechende Schnittstellen. LibreOffice Base ist eine kostengünstige und leistungsfähige Alternative zu proprietären Lösungen wie Microsoft Access, besonders für kleine Unternehmen und Bildungseinrichtungen.

Die Kommunikation: MariaDB und Base verbinden

Die Verbindung zwischen MariaDB und LibreOffice Base auf Linux-Systemen erfolgt über ODBC (Open Database Connectivity).

ODBC-Treiber: Auf Linux wird der Unix ODBC-Treiber (unixODBC) über benannte Datenquellen (DSNs) konfiguriert, um Clientanwendungen mit Datenbanken zu verbinden.
Connector: Wir installieren den MariaDB-eigenen Connector (Paketname unter Debian: odbc-mariadb). Ein Treiber-Manager wie unixODBC ist erforderlich, um die Kommunikation zwischen Base und dem ODBC-Treiber zu verwalten.
Konfiguration: Die Treiber-Definition erfolgt in der Datei odbcinst.ini (Angabe des Pfads zur Treiber-Datei). Die Verbindungseinstellungen (Host, Port, Datenbank, Locale) werden in der Datei odbc.ini definiert, um die DSN zu konfigurieren.

Nach dieser Einrichtung kann LibreOffice Base über ODBC eine Verbindung zu MariaDB aufbauen, um Daten zu lesen und zu schreiben.

Testlauf: ETL und Auswertung von Daten

Um das völlig Microsoft-freie Konzept zu prüfen, wurden Daten von https://datahub.io/ bezogen, die untereinander eine Relation haben, wie weltweite BIP-Daten (GDP) inklusive Historie, Inflationsdaten und Verbraucher-Inflationsdaten. Die Daten lagen im CSV-Format (Comma Separated Values) vor.

Obwohl MariaDB CSV-Daten direkt laden kann, ist eine vorherige Stichprobenprüfung wichtig. Insbesondere müssen die Datentypen für jedes Feld bestimmt werden, um Inkonsistenzen und Fehler beim Ladevorgang zu vermeiden.

Auch wenn KI-Tools in der Auswertung vermieden werden, können sie für die Konvertierung der CSV-Daten in SQL-Skripte eingesetzt werden (hier reicht ein lokal installiertes LLM). Das LLM kann prüfen, ob Textfelder fälschlicherweise Kommata enthalten, und jede Zeile in einen INSERT-Befehl umwandeln, um ein vollständiges SQL-Import-Skript zu generieren. Der Import über ein SQL-Skript ist zuverlässig und kann über die Konsole, ein SQL-Client-Programm oder direkt über LibreOffice Base erfolgen.

Auswertung mit Base und Calc

LibreOffice Base erinnert in seiner Bedienung an Microsoft Access. Base bietet einen Abfrage-Editor, in dem Datenbanktabellen angezeigt, verknüpft, Daten pro Tabellenspalte selektiert und bei Bedarf mit Formeln weiterbearbeitet werden können.

Nach Ausführung gibt die Abfrage die gewünschten Daten aus. Beispielsweise können alle BIP-Zahlen und Inflationsraten aller Länder ausgegeben werden, für die in allen drei Datensätzen Daten zu einem bestimmten Jahr vorliegen. Es können tiefere Abfragen erstellt werden, um gegensätzliche Verhaltensweisen, Anomalien oder Ausreißer in den Daten zu suchen.

Die ausgegebenen Daten können beispielsweise ach LibreOffice Calc exportiert und visualisiert werden. Ebenso ist es möglich, in Base Formulare zu bauen, um eine Datenbank-Frontend-Umgebung mit Eingabefeldern, Selektionen und Fallunterscheidungen zu erstellen.

Der vielseitige Vorteil

Kleine und mittlere Unternehmen, die eine überschaubare, kontrollierbare, kostenlose und einfach zu bedienende Umgebung für einfache bis mittelschwere Business-Intelligence-Auswertungen benötigen, können auf solche Client-Server-Anwendungen setzen. Sie sparen dadurch Kosten für Lizenzen, Abonnements oder Softwareschulungen. Oft werden Tools angeschafft, deren Fähigkeiten den tatsächlichen Bedarf weit übersteigen und deren Nutzung manchmal kompliziert sein kann. Ein MariaDB-Server im Backend, kombiniert mit LibreOffice Base und LibreOffice Calc auf dem Client PC, ist wesentlich einfacher einzurichten. Natürlich gibt es noch weitere Lösungen für die Datenhaltung im Backend, wie Postgres, MySQL, SQLite etc.

Wer für die Bereinigung und Transformation der Eingangsdaten zum Load-Vorgang in die Datenbank der ETL Prozesse gänzlich auf KI verzichten will, kann natürlich seine eigenen Scripte erstellen. Hier bieten sich Sprachen wie Perl, Ruby oder Python hervorragend an. Zudem kann die Nutzung von KI-Funktionen wie Embeddings oder RAG-Fähigkeiten bei großen Datenmengen schnell kompliziert und unzuverlässig werden und zu Halluzinationen oder fehlerhaften Auswertungen führen. Gerade im Bereich von Finanzdaten ist es wesentlich zuverlässiger, mit statischen Prozessen und deterministischen Systemen zu arbeiten, um stets das gleiche, nachvollziehbare Ergebnis zu erhalten.

Welche Möglichkeiten gibt es noch?

No-Code / Low-Code Datenbank- & App-Plattformen (Airtable-ähnlich)

Diese Tools sind optimal, wenn sie Tabellen, Ansichten, Beziehungen und einfache Datenmodelle erstellen wollen – meist mit Browser-UI:

Airtable-Style / Datenbank-Frontend

Baserow – Open-Source Airtable-Alternative, browserbasiert, self-hosted, kollaborative Tabellen + API.
NocoDB – Verwandelt relationale Datenbanken in ein Spreadsheet-Interface mit Grid/Kanban/Calendar/Forms.
Grist – Spreadsheet-/Datenbank-Hybrid ähnlich Airtable mit relationaler Logik.
Teable – No-Code Spreadsheet Interface mit Gruppierung, Aggregationen & Import/Export.
Rowy – Fokus auf Firebase/Firestore-Backends mit UI & Funktionen zur Datenverwaltung.

Diese eignen sich gut für CRUD-Operationen, Sichten, Formulare, einfache Automatisierungen und Datenorganisation ohne grosse technische Hürden.

Business Intelligence & Datenanalyse (Metabase-ähnlich)

Diese Tools helfen ihnen, Daten auszuwerten, Dashboards zu bauen, Visualisierungen zu erstellen und Insights zu gewinnen:

BI / Dashboards / Reporting

Metabase – Intuitive BI-Plattform für Dashboarding & SQL-freie Analysen.
Apache Superset – Leistungsstarke Open-Source BI- und Visualisierungsplattform, SQL-freundlich.
Grafana – Ursprünglich Monitoring, aber sehr stark für Dashboards & Visualisierungen.
Redash – SQL-orientierte Dashboard- und Abfrageplattform.
Lightdash – BI-Tool mit integriertem Metrics-Layer (ideal in modernen Datenpipelines).
PostHog – Analytics & BI speziell mit Produkt-/User-Tracking-Fokus.

Diese verbinden sich meist direkt mit Datenbanken/Data Warehouses und ermöglichen Interaktive Diagramme, Filter, Kennzahlen, Nutzer-Reports etc.

Datenintegration, ETL & Analyse Workflows

Wenn sie Daten aus verschiedenen Quellen laden, transformieren und vorbereiten wollen, sind diese Tools geeignet:

KNIME Analytics Platform – Visuelle Data-Science- und ETL-Plattform für Datenintegration & Analyse ohne/viel Code.
OpenRefine – Desktop-Tool zum Datenbereinigen, Transformieren und Vorbereiten (Data Wrangling).
Apache Airflow (nicht strikt BI, aber hilfreich für ETL-Workflows) – orchestriert regelmässige Datentransformationen.
Superset / Grafana integriert auch oft Daten-Querying & teilweise Transformation.

NETWORM.CH

Oder sehen Sie sich unsere beliebten Kategorien an...

NETWORM.CH

Oder sehen Sie sich unsere beliebten Kategorien an...

Kein AI, Keine Cloud, keine USA, keine komplizierten Tools – Klassische Massendatenauswertung mit einfachen Board-Mitteln

Die eigene Umgebung für Datenverarbeitung: Eine Open-Source-Lösung

Souveräne Datenverarbeitung mit Open-Source

Der Technologie-Stack: Setzen auf bewährte Technik

Testlauf: ETL und Auswertung von Daten

Der vielseitige Vorteil

Welche Möglichkeiten gibt es noch?

No-Code / Low-Code Datenbank- & App-Plattformen (Airtable-ähnlich)

Business Intelligence & Datenanalyse (Metabase-ähnlich)

Datenintegration, ETL & Analyse Workflows

Related Posts

Warum die US-Cloud nicht immer die schlauste Wahl ist

Stimmen-Klau in Echtzeit: Warum wir bald Codewörter brauchen

You Missed

Warum die US-Cloud nicht immer die schlauste Wahl ist

Stimmen-Klau in Echtzeit: Warum wir bald Codewörter brauchen

Der Markt für unbemannte Systeme (UAS/UGV)

Google UCP: So lösen Agenten das Shopping-Problem

Spioniert Instagram & Co.? Mein technischer Deep Dive und der Versuch eines Proof of Concept (PoC)

Kein AI, Keine Cloud, keine USA, keine komplizierten Tools – Klassische Massendatenauswertung mit einfachen Board-Mitteln