TokenStreamSplitter

Gruppe

Preparser

Funktion

Die Stream-Variante des Preparsers TokenFileSplitter.

Konfigurationsdatei

./conf/samples/sample_splitter.properties

Beschreibung


Die Funktion des TokenStreamSplitter-Preparsers entspricht dem des TokenFileSplitter-Preparsers. Allerdings ist es ein Stream-Preparser, der nicht die gesamte Datei im Arbeitsspeicher halten muss. Daher ist er für sehr große Eingangsdateien gut geeignet.

Ein weiterer Unterschied: Der Parameter header kann auch der Pfad zu einer Textdatei sein. Dazu muss der Wert des Parameters der formalen Syntax read:<URL> entsprechen. Für URL kann man einen lokalen Dateipfad file:///C:/Verzeichnis/Datei.ext, eine HTTP-URL, oder eine FTP-URL einsetzen. Dann wird der gesamte Inhalt dieser Datei, eventuell mehrzeilig, gelesen und als "Trennzeile" (in diesem Fall mehr als "Trennblock") eingefügt.

Parameterbeschreibung


Parameter

Beschreibung

rows

Anzahl der Zeilen, nach der eine Trennzeile eingefügt wird.

header

Trennzeilen-String, der eingefügt werden soll.

expression

(optional) Regulärer Ausdruck, der das Einfügen einer Trennzeile nach erreichter Zeilenzahl verzögert, bis er auf die momentan gelesene Zeile passt.

eol

(optional) Das Zeilenende-Zeichen (end of line). 0 wird als \n, 1 als \r und alle anderen Werte werden als \r\n interpretiert.

filter

(optional) Regulärer Ausdruck, filtert die Quellzeilen. Inputzeilen, die den Ausdruck nicht treffen, werden ignoriert (nicht ausgegeben und nicht gezählt).

check.BOM

(optional) Falls true, dann wird das BOM beachtet und entsprechend umkodiert. Default: false. Für Details siehe EncodingByBomOrXmlPreParser.

check.XML

(optional) Falls true, dann wird die XML-Kodierung beachtet und entsprechend umkodiert. Default: false. Für Details siehe EncodingByBomOrXmlPreParser.

Beispiel-Datei


sample_splitter.properties
rows = 10
header=new!