Änderungen von Dokument PDFmdx

Zuletzt geändert von Gregor Herdy am 29/08/19, 10:57

Von Version 90.1
bearbeitet von Gregor Herdy
am 12/06/19, 08:47
Auf Version 91.1
bearbeitet von Gregor Herdy
am 28/06/19, 13:08
Änderungskommentar: Es gibt keinen Kommentar für diese Version

Summary

Details

Page properties
Content
... ... @@ -154,6 +154,8 @@
154 154  
155 155  Der Feld Typ **Dateiname** ermöglicht es den Namen der Datei, die verarbeitet wird, auszulesen und für die Weiterverarbeitung zu verwenden. Felder mit diesem Typ werden im Layout nicht auf dem Muster-PDF platziert.
156 156  
157 +Der Typ **Zusammengesetzt** erlaubt es kombinierte Felder zu erzeugen, die aus mehreren anderen Feldern bzw. Text bestehen. Solche zusammengesetzten Felder stehen für die Ausgabe (Ordner, Dateiname, Metadaten), nicht jedoch für die Bedingungen zur Auswahl. Diese Felder können aus Variablen der Dokumente, Gruppen und Untergruppen zusammengesetzt werden.
158 +
157 157  Wenn Seiten gelöscht werden, auf denen sich auszulesende Inhalte befinden, werden diese Werte gelöscht. Es gibt nun eine Möglichkeit, diese Werte zu erhalten und für die weitere Verarbeitung zu verwenden. Dafür muss für die Felder, die sich auf zu löschenden Seiten befinden, die Option "**Erhaltener Wert**" in den Feld Definitionen aktiviert sein.
158 158  
159 159  PDFmdx ist nicht nur in der Lage Texte aus PDF Dokumenten auszulesen, sondern es können auch **Text bzw. Barcode Stempel** auf Seiten aufgebracht werden. Dabei kann fixer Text, Standard Variablen (Datum, Zeit, Rechner-, Benutzer-, Vorlagenname, Layout Seitennummer, Seitenzahl-Gesamt) aber auch ausgelesene Feldwerte über konfigurierte Variablen verwendet werden. Damit ist es z.B. möglich eine Rechnungsnummer aus einem Dokument auszulesen und im selben Dokument als Barcode Stempel aufzubringen.
... ... @@ -164,14 +164,22 @@
164 164  |[[image:template-feld-name-typ-TN.png>>attach:template-feld-name-typ.png||target="_blank"]]|[[image:template-feld-datum-TN.png>>attach:template-feld-datum.png||target="_blank"]]
165 165  |[[image:template-feld-stempel-TN.png>>attach:template-feld-stempel.png||target="_blank"]]|[[image:template-feld-stempel-layout-TN.png>>attach:template-feld-stempel-layout.png||target="_blank"]]
166 166  
167 -==== Gleitende Gruppe ====
169 +==== Gruppen / Untergruppen ====
168 168  
169 -Um mehrere sich wiederholende Werte, wie zum Beispiel eine Liste, auszulesen kann die Gleitende Gruppe verwendet werden. Damit können ein oder mehrere Felder, die mehrmals in einem Dokument vorkommen gefunden und ausgelesen werden. So etwas kann z.B. bei einer Rechnung notwendig sein, um die verschiedenen Artikel, Stückanzahlen und Preise auszulesen. Die mit der gleitenden Gruppe ausgelesenen Werte nnen dann in einer Ausgabedatei (XLSX, CSV, XML) ausgegeben und weiterverwendet werden.
171 +Eine **gleitende Gruppe** dient dazu um z.B. Rechnungspositionen, die in einem Dokument bzw. auf einer Seite mehrfach vorkommen, zu erkennen und um daraus mehrere Datensätze bilden zu nnen. Es gibt jedoch Belege bei denen diese Datensätze eine weitere Hierarchiestufe erfordern, z.B. falls unter einer Position mehrere Unterdatensätze vorkommen. Das kann entweder als Liste oder aber auch in Form einer Matrix erfolgen.
170 170  
171 -Im Tab "Feld Definition" können Felder "Einer gleitenden Gruppe zugeordnet" werden indem diese Option angehakt wird. Die Felder sind dann auch im Layout Fenster farblich (Rot) unterschiedlich zu den anderen Feldern. Diese Felder müssen dann über den ersten auszulesenden Werten platziert werden. Es sind im Layout Fenster außerdem zwei rote Balken auf dem Dokument platziert. Diese Balken dienen als obere und untere Begrenzung r die Gleitende Gruppe. Dadurch wird nur der Bereich innerhalb dieser Balken durch die Felder der Gleitenden Gruppe ausgelesen.
173 +Ab der PDFmdx Version 3.5.0 gibt es eine 2-stufige Struktur wo neben der Gruppen- auch eine Untergruppen-Ebene möglich ist. Es können also zu einem Gruppen Datensatz ein oder mehrere Untergruppen Datensätze erkannt und ausgelesen werden. Belege mit 2-stufigen Positionsdaten gibt es z.B. bei Textilien oder bei Bekleidung, wo es zu einem Artikel (Nummer, Beschreibung) auch eine "Unterebene" mit Größen- bzw. Farbangaben geben kann. Der Artikel selbst wird nur einfach angehrt und in der Ebene darunter finden sich dann die Mengen/Preise zu einzelnen Ausprägungen.
172 172  
173 -Damit die Felder der Gleitenden Gruppe Werte aus dem Dokument auslesen können muss eine Bedingung definiert werden über die diese Felder erkannt werden. Solch eine Bedingung kann im Tab "Teilen/Bedingungen" hinzugefügt werden und es müssen die beiden Bedingungsarten "Erkennen" und "Gleitende Gruppe" angehakt sein. Es können auch mehrere Bedingungen mit ODER/UND verknüpft oder Teilstrings verwendet werden um die verschiedenen Felder zu erkennen.
175 +Es gibt damit jetzt 3 Feldebenen - die **Dokumentenfelder**, die **Gruppenfelder** und die **Untergruppenfelder**. Untergruppen Datentze werden wie die Gruppen Datensätze über Bedingungen definiert. Bei der Ausgabe stehen r Untergruppen-Datensätze auch die Information des Dokuments und der Gruppe zur Verfügung.
174 174  
177 +Für die Ausgabe kann konfiguriert werden ob alle Datensätze ausgegeben oder ob die Gruppen bzw. die Dokumenten Datensätze unterdrückt werden sollen. Die Felder der darüberliegenden Ebenen stehen bei der Ausgabe auch im Gruppen/Untergruppen Datensatz zur Verfügung. Zur Identifikation der Datensatzebene kann die Variable **%RECORD_LEVEL%** mit den Werten (D)ocument, (G)roup und (S)ubgroup verwendet werden.
178 +
179 +Die Option **Basissatz auslassen** ersetzt (ab Version 3.5.0) die Option **Dokumenten Satz unterdrücken**. Damit gibt es erweiterte Möglichkeiten um Datensätze, beim Schreiben der Ausgangsdatei (XLSX, CSV, XML), auszulassen. Mit der Einführung einer weiteren Ebene (Untergruppen) können nun die Dokumenten und Gruppen Datensätze unterdrückt werden. Es gibt auch die Option um Gruppen Datensätze zu unterdrücken falls Untergruppen Datensätze vorhanden sind.
180 +
181 +Die Felder der unterschiedlichen Ebenen werden im PDFmdx Template Editor farblich unterschiedlich dargestellt - Dokumentenfelder "Blau", Gruppenfelder "Rot" und Untergruppenfelder "Grün".
182 +
183 +Der Arbeits-/Suchbereich für die Gruppe/Untergruppe wird im PDFmdx Editor durch 2 horizontale rote Linien dargestellt, welche vertikal in der Voransicht positioniert werden können. Die Suche nach Datensätzen erfolgt nur innerhalb des festgelegten Bereichs.
184 +
175 175  |[[image:template-gleitende-gruppe-TN.png>>attach:template-gleitende-gruppe.png||target="_blank"]]|[[image:template-gleitende-gruppe-layout-TN.png>>attach:template-gleitende-gruppe-layout.png||target="_blank"]]|[[image:template-gleitende-gruppe-bedingung-TN.png>>attach:template-gleitende-gruppe-bedingung.png||target="_blank"]]
176 176  
177 177  ==== String Aufbereitung ====
... ... @@ -178,6 +178,8 @@
178 178  
179 179  Im Normalfall können Informationen aus dem Dokument ausgelesen und Feldern/Variablen zugeordnet werden. Es gibt aber Fälle in denen es nicht möglich ist bestimmte Informationen, die weggeschrieben werden sollen, auszulesen. Zum Beispiel kann es vorkommen, dass bei einer Rechnung, die als PDF vorliegt, der Lieferant für die Gestaltung des Formulars nur Bilder verwendet hat und es daher keinen Bereich gibt über den man den Firmennamen auslesen kann - das Layout aber über andere Kriterien erkannt und eindeutig zugeordnet werden kann. Für den Fall wird das Feld "Firma" nicht auf dem Layout positioniert, kann aber mit dem Namen der Firma belegt werden um die Information in weiterer Folge als Variable bzw. in den Metadaten verwenden zu können. Wird ein Wert aus dem Dokument ausgelesen, so hat dieser Priorität über den **Standard Wert**.
180 180  
191 +Es gibt neben der Funktion einen generellen Vorgabewert zu vergeben, jetzt auch eine Funktion um für jedes Layout einen individuellen Vorgabewert für ein Feld zu vergeben. Eine Variable bekommt den Vorgabewert zugewiesen falls das Feld auf einem Layout nicht positioniert wurde bzw. wenn ein Feld positioniert wurde aber nichts ausgelesen werden kann, da der Bereich leer (= blank) ist. Damit kann über die Layout Erkennung, einer Variable ein fixer Wert zugewiesen werden. Z.B.: Eine Kundennummer die nicht direkt aus dem Dokument ausgelesen werden kann.
192 +
181 181  **Regular Expression** Regeln können für jedes Feld definiert werden und ermöglichen eine Aufbereitung und Filterung der extrahierten Feldinhalte, z.B.:
182 182  "[a,b]+" entspricht "a", "b", "aa", "bbaab", etc.
183 183  "[0-9]{2,5}" entspricht zwei, drei, vier oder fünf Ziffern in Folge, z.B. "42" oder "53810", jedoch nicht den Zeichenfolgen "0", "1.1" oder "a1b2"
... ... @@ -284,6 +284,9 @@
284 284  
285 285  Über die Integration des PDF2DOCX Konverters können zusätzlich zum erzeugten PDF jetzt auch ein HTML, DOCX, XML, TXT und XLS erstellt werden. Diese Formate werden aus dem PDF konvertiert und im gleichen Ausgabeordner wie das PDF abgelegt. Es können gleichzeitig ein oder mehrere zusätzliche Formate ausgegeben werden. Ist die Option "Überschreiben" aktiviert, gilt diese auch für die zusätzlich erstellten Formate.
286 286  
299 +**Bedingungen für den Export zusätzlicher Formate**
300 +Es ist möglich die Ausgabe zusätzlicher Dateien abhängig vom Erfolg der Verarbeitung zu machen - Erfolgreich / Fehler / Beides. Damit können z.B. die in den Error Ordner verschobenen PDF Dateien zusätzlich in andere Formate (z.B. TXT) konvertiert werden um weitere Auswertungen durchzuführen.
301 +
287 287  |[[image:template-pdfkonverter-docx-TN.png>>attach:template-pdfkonverter-docx.png||target="_blank"]]|[[image:template-pdfkonverter-html-TN.png>>attach:template-pdfkonverter-html.png||target="_blank"]]
288 288  
289 289  === Vorlage ===
XKey Wiki 2019