Parsen
Die Aufgabe des Parsers besteht darin, aus den eingegangenen Daten die Felder in der Quellstruktur zu füllen. Eine Eingangsdatei besteht üblicherweise aus verschiedenen Satzarten, wobei jede Satzart mehrere Einzelwerte enthält. Beispielweise enthält ein Datensatz vom Typ Adresse die einzelnen Werte Vorname, Name, Straße, usw.
Die verschiedenen Datensätze müssen den richtigen Knoten der Quellstruktur zugeordnet werden und innerhalb jedes Datensatzes die einzelnen Werte den richtigen Feldern zugewiesen werden. Die Struktur der Eingangsdaten muss also mit der Quellstruktur des Profils übereinstimmen.
Zur Zuordnung der Datensätze zu den richtigen Knoten kann man jedem Knoten eine Satzarterkennung geben.
Beim Entwickeln eines Profils für einen bestimmten Typ von Eingangsdaten besteht die Aufgabe darin, die geeignete Quellstruktur zu definieren. Genauer gesagt muss für jeden Datensatz-Typ ein entsprechender Knoten in der Quellstruktur definiert werden, der die entsprechenden Felder enthält, um die Einzelwerte dieses Datentyps aufzunehmen. Wichtig ist dabei auch die hierarchische Struktur der Knoten. Hinweis: Für die Erstellung einer Quellstruktur stehen Struktur-Vorlagen zur Verfügung, bzw. können selbst erzeugt werden. Siehe dazu den Abschnitt Arbeiten mit Vorlagen.
Es ist es möglich, dass mehrere Datensätze des gleichen Typs in den Eingangsdaten hintereinander folgen. Diese Datensätze werden in den gleichen Knoten der Quellstruktur geparst, weil sie denselben formalen Aufbau haben. Wir bezeichnen die mit Eingangsdaten gefüllte Quellstruktur als Quellbaum. Wir haben also im Quellbaum unter Umständen eine Vielfachheit (Wiederholung derselben Satzart), aber in der Quellstruktur nur einen Knoten für diese Satzart.
Datenblätter
Parser in Lobster_data strukturieren die eingelesenen Daten in sogenannten Datenblättern. Siehe dazu den Abschnitt Wann beginnt der Parser ein neues Datenblatt? Dort finden Sie das verschiedene Verhalten der jeweiligen Parser (je nach Dokumentenart) beschrieben. Zudem wird dort auch der Sinn von Datenblättern erklärt und was man mit diesen machen kann (z. B. kann man die Antwortwege in Phase 6 mit einer zusätzlichen Option einmal pro Datenblatt betreten, statt nur einmal pro Profillauf).
Beispiel
Das folgende Beispiel gilt nur der Veranschaulichung. Details werden Sie beim Durcharbeiten der GUI lernen.
Gehen wir von folgenden CSV-Eingangsdaten aus. Jede Zeile stellt also einen Adress-Satz dar und enthält ein Satzart-Kennzeichen, einen Vornamen, einen Nachnamen und eine Straße.
ADR;Max;Mustermann;Hauptstraße 1
ADR;Heike;Holler;Baumweg 3
Wir verwenden folgenden Quellstruktur, in die wir die Daten einlesen wollen. Dabei verwenden wir für den Knoten Adresse die Satzarterkennung Beginnt mit ADR. Innerhalb des Knotens befinden sich die Felder, die letztendlich die Daten aufnehmen sollen.
In einem Mapping-Test erhalten wir dann folgenden Quellbaum mit einem Datenblatt (Record). Es ist hier aber auch möglich die Quellstruktur leicht anzupassen, um zwei Datenblätter zu bekommen. Siehe hierzu Abschnitt Wann beginnt der Parser ein neues Datenblatt? für Details.
Syntaxfehler in den Quelldaten
Siehe Abschnitt Syntaxfehler in den Quelldaten.
GUI: Die Konfiguration dieser Phase finden Sie im Abschnitt Phase 2 (GUI) beschrieben.