UnicodeToASCIIPreparser
Gruppe |
|
Funktion |
Dieser Preparser wandelt Unicode-Daten in ASCII-Daten um, indem er Nicht-ASCII-Zeichen ersetzt, oder entfernt. |
Konfigurationsdatei |
sample_UnicodeToASCIIPreparser.properties |
Beschreibung
Dieser Preparser wandelt Unicode-Daten in ASCII-Daten um, indem er Nicht-ASCII-Zeichen ersetzt, oder entfernt. Zur Konfiguration erwartet der Preparser den Pfad zu einer Properties-Datei mit 2 Parametern.
conversiontype |
(replace oder remove) Bei replace werden Nicht-ASCII-Zeichen in ihre ASCII-Basiszeichen umgewandelt. Zeichen ohne bekanntes Basiszeichen werden entfernt. Mit remove werden Nicht-ASCII-Zeichen entfernt. |
upperlimit |
(optional) Wert (dezimaler Bytewert des kodierten Zeichens), der den Start eines Nicht-ASCII-Zeichens festlegt (ASCII-Basiscode geht von 0 bis 127). Default: 128 |
Beispiel
conversiontype=replace
upperlimit=256
Konkrete Beispiele für die obige und weitere Konfigurationen.
Eingangsdaten |
conversiontype |
upperlimit |
Ergebnis |
Schönstraße kostet 1 Million € |
replace |
|
Schonstrasse kostet 1 Million |
Schönstraße kostet 1 Million € |
replace |
|
Schonstrasse kostet 1 Million |
Schönstraße kostet 1 Million € |
replace |
128 |
Schonstrasse kostet 1 Million |
Schönstraße kostet 1 Million € |
replace |
256 |
Schönstraße kostet 1 Million |
Schönstraße kostet 1 Million € |
replace |
65536 |
Schönstraße kostet 1 Million € |
Schönstraße kostet 1 Million € |
remove |
128 |
Schnstrae kostet 1 Million |