Dokumenten-Management - Einstiegsfragen

Morlan · 2. Februar 2020

Heißt das, dass du OCRmyPDF und Paperless kombiniert benutzt? Ich habe mit diesen Programmen auch schon ein bisschen herum experimentiert. Was mich an Paperless etwas stört ist, dass man an deren Web Interface gebunden ist. Aber die Funktion mit dem automatischen tagging ist schon sehr verlockend.

eiermann · 2. Februar 2020

Naja an das Webinterface ist man nicht unbedingt gebunden, aber Funktionen wie tagging ist eben nur in Verbindung mit web Interface möglich, man braucht nicht ocrmypdf extra installieren, ist alles per docker-compose möglich, sehr einfach, ich werde mein docker-compose.yml heute Abend hier reinstellen mit Beispiel config mit Ordnern.

Die Ordner kann man frei wählen, ich habe ein Eingangsordner wo OCR durchgeführt wird (MFD), noch ein Ordner wo kein OCR durchgeführt wird, für PDF wo man z.B als online Rechnung etc bekommt, da braucht man kein OCR da Text eingebettet, in beiden Fällen werden die Eingangsordner geleert, die PDFs werden einmal nummeriert ALLE IN EIN ORDNER abgelegt, parallel dazu werden aber auch die originale ohne OCR in einem Archiv Ordner, für alle Fälle.

Wäre schön wenn die Dokumente noch dazu nach Eingangsdatum oder nach tag in Ordnern einsortiert wären, aber ich bin noch dran.

Gesendet von meinem ONEPLUS A5010 mit Tapatalk

Morlan · 2. Februar 2020

Hört sich sehr interessant an. Ich bin sehr gespannt auf deine Konfiguration. Die einzelnen Komponenten habe ich bereits auch schon durchprobiert, aber noch nie in der Kombination. Auch war es Mal wieder etwas kompliziert das ganze auf ARM-Architektur laufen zu lassen/zu konvertieren.

eiermann · 2. Februar 2020

hier mal mein .env

Code: .env

PUID=1026
PGID=65537
TZ=Europe/Berlin
CONFIG=/srv/dev-disk-by-label-raida/home/docker1/paperless-ocrmypdf-master/config
SCANS=/srv/dev-disk-by-label-raida/dokumente/temp

und hier mein docker-compose.yml

Bash: docker-compose.yml

version: '2.1'
##############
# Containers #
##############
services:
  ################
  # Paperless    #
  ################
  paperless_web:
    container_name: paperless_web
    hostname: paperless
    image: thepaperlessproject/paperless
    ports:
        - 8099:8099
    healthcheck:
        test: ["CMD", "curl" , "-f", "http://localhost:8099"]
        interval: 30s
        timeout: 10s
        retries: 5
    volumes:
        - ${CONFIG}/paperless:/usr/src/paperless/data
        - ${SCANS}:/usr/src/paperless/media
        - ${SCANS}/ocr-ed:/consume
    # The reason the line is here is so that the webserver that doesn't do
    # any text recognition and doesn't have to install unnecessary
    # languages the user might have set in the env-file by overwriting the
    # value with nothing.
    environment:
        - PAPERLESS_OCR_LANGUAGES=
        - PAPERLESS_DISABLE_LOGIN=true
        - PAPERLESS_INLINE_DOC=true
        - USERMAP_UID=${PUID}
        - USERMAP_GID=${PGID}
        - PAPERLESS_TIME_ZONE=${TZ}
    command: ["runserver", "--insecure", "--noreload", "0.0.0.0:8099"]
  paperless_consumer:
    container_name: paperless_consumer
    image: thepaperlessproject/paperless
    # restart: always
    depends_on:
        paperless_web:
            condition: service_healthy
    volumes:
        - ${CONFIG}/paperless:/usr/src/paperless/data
        - ${SCANS}:/usr/src/paperless/media
        - ${SCANS}/ocr-ed:/consume
        # Likewise, you can add a local path to mount a directory for
        # exporting. This is not strictly needed for paperless to
        # function, only if you're exporting your files: uncomment
        # it and fill in a local path if you know you're going to
        # want to export your documents.
        # - /path/to/another/arbitrary/place:/export
    environment:
        - PAPERLESS_OCR_LANGUAGES=eng+deu
        - USERMAP_UID=${PUID}
        - USERMAP_GID=${PGID}
    command: ["document_consumer"]
  ############
  # OCRmyPDF #
  ############
  ocrmypdf-inotify:
    container_name: ocrmypdf-inotify
    image: jbarlow83/ocrmypdf
    network_mode: none
    build: './ocrmypdf-inotify'
    restart: always
    user: "${PUID}:${PGID}"
    environment:
      OCRMYPDF_BINARY: /usr/local/bin/ocrmypdf
      OCRMYPDF_PARAMETERS: -j 2 -l eng+deu --force-ocr --clean --rotate-pages --deskew --jobs 4 --output-type pdfa
    volumes:
    - ${SCANS}/Eingang:/in
    - ${SCANS}/ocr:/work
    - ${SCANS}/ocr-ed:/out
    - ${SCANS}/archive:/archive

Alles anzeigen

Bei mir unter OMV5:8099 erreichbar.

Die Verzeichnisse müssen natürlich erst angepasst werden (.env), nach bearbeiten von .env und docker-compose.yml:

Code

docker-compose up -d

ausführen

toppi · 8. Februar 2020

Hi,

ich fand das sehr interessant und finde es toll, dass du dein .env und dein yml file hier zur Verfügung stellst.

Ich komme aber an einem Punkt nicht weiter. Beim Versuch im Dockerfile das PIP zu bauen, bricht er mit folgendem Fehler ab:

Code

Step 9/22 : RUN pip3 install --no-cache-dir   -r requirements/main.txt   -r requirements/webservice.txt   -r requirements/test.txt   -r requirements/watcher.txt   .
 ---> Running in 8ba2d6a38d3b
ERROR: Directory '.' is not installable. Neither 'setup.py' nor 'pyproject.toml' found.
ERROR: Service 'ocrmypdf-inotify' failed to build: The command '/bin/sh -c pip3 install --no-cache-dir   -r requirements/main.txt   -r requirements/webservice.txt   -r requirements/test.txt   -r requirements/watcher.txt   .' returned a non-zero code: 1

Warum blos?

eiermann · 9. Februar 2020

Ooh da kann ich dir Leider auch nicht weiterhelfen, vielleicht kennt sich einer von den Spezialisten hier besser aus, bei mir gab es keine Probleme,

Ich habe mir damals weis nicht mehr woher eine Zip heruntergeladen, und einfach angepasst, hat auf Anhieb geklappt,
diese ganze Docker Geschichte gefällt mir so langsam, Ich werde wenn ich mal etwas Luft habe, alles nochmal "richtig" einrichten, und eventuell eine Schritt für Schritt Anleitung hier reinstellen.

Weil Recoll-webui nicht mehr so zeitgemäß ist und offensichtlich etwas eingeschlafen habe ich Paperless-Project und Mayan gleichzeitig eingerichtet, war eine "hopplahopp" Aktion
Naja wie oben schon geschrieben war Mayan nicht so mein ding, kann vielleicht viel mehr, muss aber mühselig eingerichtet, für meine Zwecke reicht Paperless vollkommen aus.

Morlan · 9. Februar 2020

Zitat

Ich komme aber an einem Punkt nicht weiter. Beim Versuch im Dockerfile das PIP zu bauen, bricht er mit folgendem Fehler ab:

warum nutzt du nicht das fertige Image auf DockerHub?
Ansonsten hast Du das gesamte github repo runtergeladen bevor du das docker Build Kommando gestartet hast?

toppi · 9. Februar 2020

Hi Morlan,

habe ich gestern Nacht noch so gemacht. Der OCR Container läuft.

Allerdings startet paperless nicht. Im Logfile in Portainer steht allerdings auch nichts, was verwertbar wäre:

Code

Mapping UID and GID for paperless:paperless to 1000:100,
usermod: no changes,
groupmod: GID '100' already exists,

Ich dachte eigentlich, das wäre der einfache Teil. Ich habe lediglich die PGID und PUID von meinem User dort eingetragen (1000 und 100)

Komme ich irgendwie an mehr logs?

toppi · 9. Februar 2020

Tatsächlich war das Problem die PUID und die PGID.

Habe jetzt die genommen, die hier im Original drin waren und es läuft

Morlan · 6. März 2020

@eiermann Ich verstehe noch nicht so ganz an welcher Stelle Inotify eingebunden wird. Kannst du mir das erklären ?

EDIT: so wie es aussieht wird der inhalt des Ordner ./ocrmypdf-inotify benötigt, welcher ein Dockerfile enthält

EDIT2: ah so wie es aussieht basiert dein Setup auf diesem Projekt https://github.com/adept/paperless-ocrmypdf

toppi · 10. März 2020

Hi,

ich habe den ocrmypdf ausgetauscht und entsprechend angepasst:

Code

############
  # OCRmyPDF #
  ############
  ocrmypdf-inotify:
    container_name: ocrmypdf-inotify
    hostname: ocrmypdf-inotify
    image:   quay.io/cmccambridge/ocrmypdf-auto
    restart: always
    environment:
      OCR_LANGUAGES: deu
      OCR_PROCESS_EXISTING_ON_START: 1
      OCR_ACTION_ON_SUCCESS: ARCHIVE_INPUT_FILES
    volumes:
    - ${SCANS}/Eingang:/input
    - ${SCANS}/ocr:/ocrtemp
    - ${SCANS}/ocr-ed:/output
    - ${SCANS}/archive:/archive

Alles anzeigen

Funktioniert

testereneco · 22. März 2020

Hey,

hatte ich erzählt, dass ich nach dem Ausprobieren von unzähligen Lösungen/Programmen seit drei Jahren Folgendes fahre:

alle Daten landen auf einem Ordner auf einem Windows Server 2016 Domäne mit aktivierter Dateieindizierung
alle PDFs werden in einen Ordner mit der Scanner-SW eingescannt (OCR wird gleich mit erledigt)
für die Umbennung der Dateien nehme ich PDFScanmaker.
alle umbenannten PDFs kommen in einen Ordner (siehe Anhang)

Die Indizierung in einem Windows Server/Client Netzwerk kann "freigegeben" werden.

Das bedeutet, von jeder Workstation kann das Netzlaufwerk kontextbasiert durchsucht werden; man kriegt nur die
Ergebnisse der Dateien angezeigt, auf die man auch die NTFS Rechte hat.

Für mich die perfekte Lösung; ziemlich unabhängig und nachhaltig.

Kubus0815 · 29. Oktober 2020

Hallo zusammen.

Hat denn hier irgendjemand ein DMS unter OMV4 zum laufen gebracht?

ecodms klingt eigentlich ganz interessant, ich verstehe aber nicht wie das installiert werden kann.

Das funktioniert ja scheinbar via docker.

Das habe ich bei mir aktiviert und finde dort aber leider nichts unter docker images repo.

Ich möchte eigentlich nur unsere Rechnungen GoBD konform speichern.

Würde mich freuen wenn jemand eine Anleitung für mich hätte.

Viele Grüße

Thomas

Morlan · 30. Oktober 2020

Hey Thomas, wenn dein nas die entsprechenden Systemvoraussetzungen hat dann wird ecodms darauf laufen. Musst du das Programm halt nur noch bezahlen.

Infos zur Installation gibt es auf der Seite von ecodms auf Dockerhub https://hub.docker.com/r/ecodms/allinone-18.09/%20

Kubus0815 · 30. Oktober 2020

Hi Morlan,

in der Anleitung wird das für eine Synology NAS mit Docker erklärt.

Man muss einfach das image installieren und als Container starten. Klingt machbar ich finde aber das Image nirgends.

OMV läuft doch auf Debian?

Dafür gäbe es auch eine Server Version, wäre das evtl auch eine Möglichkeit?

Morlan · 30. Oktober 2020

Docker ist eigentlich unabhängig von dem darunter laufenden System (so lange es Linux ist). Und ja, OMV läuft auf Debian.

Das Image liegt auf Dockerhub einfach beim Starten des Dockers als Image ecodms/allinone-18.09 angeben.

Kubus0815 · 30. Oktober 2020

Also ich bin im webgui von OMV, gehe dort unter Dienste auf Docker und dann?

MrNoooooooob · 3. April 2021

Zitat von Morlan

Docker ist eigentlich unabhängig von dem darunter laufenden System (so lange es Linux ist). Und ja, OMV läuft auf Debian.
Das Image liegt auf Dockerhub einfach beim Starten des Dockers als Image ecodms/allinone-18.09 angeben.

Das was du da Erzählst stimmt nicht so genau ob es amd64 oder arm ist da sind schon unterschiede nämlich linux/amd64 läuft nicht aufn Raspberry oder anders rum nämlich die CPU ist entscheidend !

Versuche grade die https://hub.docker.com/r/jonaswinkler/paperless-ng zu installieren aber klappt nicht da mir die Stack fehlt und ich noch nicht genau geguckt habe ob es überhaupt läuft!

MrNoooooooob · 3. April 2021

Zitat von Kubus0815

Also ich bin im webgui von OMV, gehe dort unter Dienste auf Docker und dann?

Klicks auf Portainer und dann auf Installieren und dann Installierst du Docker nach also ist auch in den Menü aufgeführt!

mi-hol · 3. April 2021

Zitat von Morlan

Docker ist eigentlich unabhängig von dem darunter laufenden System (so lange es Linux ist)

Auch auf Windows funktionieren Docker Container

Denn Docker for Windows bringt eine virtuelle Maschine mit Linux mit oder startet es auf dem Windows Subsystem for Linux (WSL)

Dokumenten-Management - Einstiegsfragen

Jetzt mitmachen!

Tags