Heißt das, dass du OCRmyPDF und Paperless kombiniert benutzt? Ich habe mit diesen Programmen auch schon ein bisschen herum experimentiert. Was mich an Paperless etwas stört ist, dass man an deren Web Interface gebunden ist. Aber die Funktion mit dem automatischen tagging ist schon sehr verlockend.
Dokumenten-Management - Einstiegsfragen
-
-
Naja an das Webinterface ist man nicht unbedingt gebunden, aber Funktionen wie tagging ist eben nur in Verbindung mit web Interface möglich, man braucht nicht ocrmypdf extra installieren, ist alles per docker-compose möglich, sehr einfach, ich werde mein docker-compose.yml heute Abend hier reinstellen mit Beispiel config mit Ordnern.
Die Ordner kann man frei wählen, ich habe ein Eingangsordner wo OCR durchgeführt wird (MFD), noch ein Ordner wo kein OCR durchgeführt wird, für PDF wo man z.B als online Rechnung etc bekommt, da braucht man kein OCR da Text eingebettet, in beiden Fällen werden die Eingangsordner geleert, die PDFs werden einmal nummeriert ALLE IN EIN ORDNER abgelegt, parallel dazu werden aber auch die originale ohne OCR in einem Archiv Ordner, für alle Fälle.
Wäre schön wenn die Dokumente noch dazu nach Eingangsdatum oder nach tag in Ordnern einsortiert wären, aber ich bin noch dran.
Gesendet von meinem ONEPLUS A5010 mit Tapatalk
-
Hört sich sehr interessant an. Ich bin sehr gespannt auf deine Konfiguration. Die einzelnen Komponenten habe ich bereits auch schon durchprobiert, aber noch nie in der Kombination. Auch war es Mal wieder etwas kompliziert das ganze auf ARM-Architektur laufen zu lassen/zu konvertieren.
-
hier mal mein .env
Code: .envPUID=1026 PGID=65537 TZ=Europe/Berlin CONFIG=/srv/dev-disk-by-label-raida/home/docker1/paperless-ocrmypdf-master/config SCANS=/srv/dev-disk-by-label-raida/dokumente/temp
und hier mein docker-compose.yml
Bash: docker-compose.yml
Alles anzeigenversion: '2.1' ############## # Containers # ############## services: ################ # Paperless # ################ paperless_web: container_name: paperless_web hostname: paperless image: thepaperlessproject/paperless ports: - 8099:8099 healthcheck: test: ["CMD", "curl" , "-f", "http://localhost:8099"] interval: 30s timeout: 10s retries: 5 volumes: - ${CONFIG}/paperless:/usr/src/paperless/data - ${SCANS}:/usr/src/paperless/media - ${SCANS}/ocr-ed:/consume # The reason the line is here is so that the webserver that doesn't do # any text recognition and doesn't have to install unnecessary # languages the user might have set in the env-file by overwriting the # value with nothing. environment: - PAPERLESS_OCR_LANGUAGES= - PAPERLESS_DISABLE_LOGIN=true - PAPERLESS_INLINE_DOC=true - USERMAP_UID=${PUID} - USERMAP_GID=${PGID} - PAPERLESS_TIME_ZONE=${TZ} command: ["runserver", "--insecure", "--noreload", "0.0.0.0:8099"] paperless_consumer: container_name: paperless_consumer image: thepaperlessproject/paperless # restart: always depends_on: paperless_web: condition: service_healthy volumes: - ${CONFIG}/paperless:/usr/src/paperless/data - ${SCANS}:/usr/src/paperless/media - ${SCANS}/ocr-ed:/consume # Likewise, you can add a local path to mount a directory for # exporting. This is not strictly needed for paperless to # function, only if you're exporting your files: uncomment # it and fill in a local path if you know you're going to # want to export your documents. # - /path/to/another/arbitrary/place:/export environment: - PAPERLESS_OCR_LANGUAGES=eng+deu - USERMAP_UID=${PUID} - USERMAP_GID=${PGID} command: ["document_consumer"] ############ # OCRmyPDF # ############ ocrmypdf-inotify: container_name: ocrmypdf-inotify image: jbarlow83/ocrmypdf network_mode: none build: './ocrmypdf-inotify' restart: always user: "${PUID}:${PGID}" environment: OCRMYPDF_BINARY: /usr/local/bin/ocrmypdf OCRMYPDF_PARAMETERS: -j 2 -l eng+deu --force-ocr --clean --rotate-pages --deskew --jobs 4 --output-type pdfa volumes: - ${SCANS}/Eingang:/in - ${SCANS}/ocr:/work - ${SCANS}/ocr-ed:/out - ${SCANS}/archive:/archive
Bei mir unter OMV5:8099 erreichbar.
Die Verzeichnisse müssen natürlich erst angepasst werden (.env), nach bearbeiten von .env und docker-compose.yml:
ausführen -
Hi,
ich fand das sehr interessant und finde es toll, dass du dein .env und dein yml file hier zur Verfügung stellst.
Ich komme aber an einem Punkt nicht weiter. Beim Versuch im Dockerfile das PIP zu bauen, bricht er mit folgendem Fehler ab:
CodeStep 9/22 : RUN pip3 install --no-cache-dir -r requirements/main.txt -r requirements/webservice.txt -r requirements/test.txt -r requirements/watcher.txt . ---> Running in 8ba2d6a38d3b ERROR: Directory '.' is not installable. Neither 'setup.py' nor 'pyproject.toml' found. ERROR: Service 'ocrmypdf-inotify' failed to build: The command '/bin/sh -c pip3 install --no-cache-dir -r requirements/main.txt -r requirements/webservice.txt -r requirements/test.txt -r requirements/watcher.txt .' returned a non-zero code: 1
Warum blos?
-
Ooh da kann ich dir Leider auch nicht weiterhelfen, vielleicht kennt sich einer von den Spezialisten hier besser aus, bei mir gab es keine Probleme,
Ich habe mir damals weis nicht mehr woher eine Zip heruntergeladen, und einfach angepasst, hat auf Anhieb geklappt,
diese ganze Docker Geschichte gefällt mir so langsam, Ich werde wenn ich mal etwas Luft habe, alles nochmal "richtig" einrichten, und eventuell eine Schritt für Schritt Anleitung hier reinstellen.Weil Recoll-webui nicht mehr so zeitgemäß ist und offensichtlich etwas eingeschlafen habe ich Paperless-Project und Mayan gleichzeitig eingerichtet, war eine "hopplahopp" Aktion
Naja wie oben schon geschrieben war Mayan nicht so mein ding, kann vielleicht viel mehr, muss aber mühselig eingerichtet, für meine Zwecke reicht Paperless vollkommen aus. -
Zitat
Ich komme aber an einem Punkt nicht weiter. Beim Versuch im Dockerfile das PIP zu bauen, bricht er mit folgendem Fehler ab:
warum nutzt du nicht das fertige Image auf DockerHub?
Ansonsten hast Du das gesamte github repo runtergeladen bevor du das docker Build Kommando gestartet hast? -
Hi Morlan,
habe ich gestern Nacht noch so gemacht. Der OCR Container läuft.
Allerdings startet paperless nicht. Im Logfile in Portainer steht allerdings auch nichts, was verwertbar wäre:
CodeMapping UID and GID for paperless:paperless to 1000:100, usermod: no changes, groupmod: GID '100' already exists,
Ich dachte eigentlich, das wäre der einfache Teil. Ich habe lediglich die PGID und PUID von meinem User dort eingetragen (1000 und 100)
Komme ich irgendwie an mehr logs?
-
Tatsächlich war das Problem die PUID und die PGID.
Habe jetzt die genommen, die hier im Original drin waren und es läuft
-
@eiermann Ich verstehe noch nicht so ganz an welcher Stelle Inotify eingebunden wird. Kannst du mir das erklären ?
EDIT: so wie es aussieht wird der inhalt des Ordner ./ocrmypdf-inotify benötigt, welcher ein Dockerfile enthält
EDIT2: ah so wie es aussieht basiert dein Setup auf diesem Projekt https://github.com/adept/paperless-ocrmypdf
-
Hi,
ich habe den ocrmypdf ausgetauscht und entsprechend angepasst:
Code
Alles anzeigen############ # OCRmyPDF # ############ ocrmypdf-inotify: container_name: ocrmypdf-inotify hostname: ocrmypdf-inotify image: quay.io/cmccambridge/ocrmypdf-auto restart: always environment: OCR_LANGUAGES: deu OCR_PROCESS_EXISTING_ON_START: 1 OCR_ACTION_ON_SUCCESS: ARCHIVE_INPUT_FILES volumes: - ${SCANS}/Eingang:/input - ${SCANS}/ocr:/ocrtemp - ${SCANS}/ocr-ed:/output - ${SCANS}/archive:/archive
Funktioniert
-
Hey,
hatte ich erzählt, dass ich nach dem Ausprobieren von unzähligen Lösungen/Programmen seit drei Jahren Folgendes fahre:
- alle Daten landen auf einem Ordner auf einem Windows Server 2016 Domäne mit aktivierter Dateieindizierung
- alle PDFs werden in einen Ordner mit der Scanner-SW eingescannt (OCR wird gleich mit erledigt)
- für die Umbennung der Dateien nehme ich PDFScanmaker.
- alle umbenannten PDFs kommen in einen Ordner (siehe Anhang)
Die Indizierung in einem Windows Server/Client Netzwerk kann "freigegeben" werden.
Das bedeutet, von jeder Workstation kann das Netzlaufwerk kontextbasiert durchsucht werden; man kriegt nur die
Ergebnisse der Dateien angezeigt, auf die man auch die NTFS Rechte hat.Für mich die perfekte Lösung; ziemlich unabhängig und nachhaltig.
-
Hallo zusammen.
Hat denn hier irgendjemand ein DMS unter OMV4 zum laufen gebracht?
ecodms klingt eigentlich ganz interessant, ich verstehe aber nicht wie das installiert werden kann.
Das funktioniert ja scheinbar via docker.
Das habe ich bei mir aktiviert und finde dort aber leider nichts unter docker images repo.
Ich möchte eigentlich nur unsere Rechnungen GoBD konform speichern.
Würde mich freuen wenn jemand eine Anleitung für mich hätte.
Viele Grüße
Thomas
-
Hey Thomas, wenn dein nas die entsprechenden Systemvoraussetzungen hat dann wird ecodms darauf laufen. Musst du das Programm halt nur noch bezahlen.
Infos zur Installation gibt es auf der Seite von ecodms auf Dockerhub https://hub.docker.com/r/ecodms/allinone-18.09/%20
-
Hi Morlan,
in der Anleitung wird das für eine Synology NAS mit Docker erklärt.
Man muss einfach das image installieren und als Container starten. Klingt machbar ich finde aber das Image nirgends.
OMV läuft doch auf Debian?
Dafür gäbe es auch eine Server Version, wäre das evtl auch eine Möglichkeit?
-
Docker ist eigentlich unabhängig von dem darunter laufenden System (so lange es Linux ist). Und ja, OMV läuft auf Debian.
Das Image liegt auf Dockerhub einfach beim Starten des Dockers als Image ecodms/allinone-18.09 angeben.
-
Also ich bin im webgui von OMV, gehe dort unter Dienste auf Docker und dann?
-
Docker ist eigentlich unabhängig von dem darunter laufenden System (so lange es Linux ist). Und ja, OMV läuft auf Debian.
Das Image liegt auf Dockerhub einfach beim Starten des Dockers als Image ecodms/allinone-18.09 angeben.
Das was du da Erzählst stimmt nicht so genau ob es amd64 oder arm ist da sind schon unterschiede nämlich linux/amd64 läuft nicht aufn Raspberry oder anders rum nämlich die CPU ist entscheidend !
Versuche grade die https://hub.docker.com/r/jonaswinkler/paperless-ng zu installieren aber klappt nicht da mir die Stack fehlt und ich noch nicht genau geguckt habe ob es überhaupt läuft! -
Also ich bin im webgui von OMV, gehe dort unter Dienste auf Docker und dann?
Klicks auf Portainer und dann auf Installieren und dann Installierst du Docker nach also ist auch in den Menü aufgeführt!
-
Docker ist eigentlich unabhängig von dem darunter laufenden System (so lange es Linux ist)
Auch auf Windows funktionieren Docker Container
Denn Docker for Windows bringt eine virtuelle Maschine mit Linux mit oder startet es auf dem Windows Subsystem for Linux (WSL)
Jetzt mitmachen!
Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!