Posts by eiermann

    Ooh da kann ich dir Leider auch nicht weiterhelfen, vielleicht kennt sich einer von den Spezialisten hier besser aus, bei mir gab es keine Probleme,


    Ich habe mir damals weis nicht mehr woher eine Zip heruntergeladen, und einfach angepasst, hat auf Anhieb geklappt,
    diese ganze Docker Geschichte gefällt mir so langsam, Ich werde wenn ich mal etwas Luft habe, alles nochmal "richtig" einrichten, und eventuell eine Schritt für Schritt Anleitung hier reinstellen.


    Weil Recoll-webui nicht mehr so zeitgemäß ist und offensichtlich etwas eingeschlafen habe ich Paperless-Project und Mayan gleichzeitig eingerichtet, war eine "hopplahopp" Aktion
    Naja wie oben schon geschrieben war Mayan nicht so mein ding, kann vielleicht viel mehr, muss aber mühselig eingerichtet, für meine Zwecke reicht Paperless vollkommen aus.

    hier mal mein .env

    Code: .env
    PUID=1026
    PGID=65537
    TZ=Europe/Berlin
    CONFIG=/srv/dev-disk-by-label-raida/home/docker1/paperless-ocrmypdf-master/config
    SCANS=/srv/dev-disk-by-label-raida/dokumente/temp


    und hier mein docker-compose.yml

    Bei mir unter OMV5:8099 erreichbar.


    Die Verzeichnisse müssen natürlich erst angepasst werden (.env), nach bearbeiten von .env und docker-compose.yml:

    Code
    docker-compose up -d


    ausführen

    Naja an das Webinterface ist man nicht unbedingt gebunden, aber Funktionen wie tagging ist eben nur in Verbindung mit web Interface möglich, man braucht nicht ocrmypdf extra installieren, ist alles per docker-compose möglich, sehr einfach, ich werde mein docker-compose.yml heute Abend hier reinstellen mit Beispiel config mit Ordnern.


    Die Ordner kann man frei wählen, ich habe ein Eingangsordner wo OCR durchgeführt wird (MFD), noch ein Ordner wo kein OCR durchgeführt wird, für PDF wo man z.B als online Rechnung etc bekommt, da braucht man kein OCR da Text eingebettet, in beiden Fällen werden die Eingangsordner geleert, die PDFs werden einmal nummeriert ALLE IN EIN ORDNER abgelegt, parallel dazu werden aber auch die originale ohne OCR in einem Archiv Ordner, für alle Fälle.


    Wäre schön wenn die Dokumente noch dazu nach Eingangsdatum oder nach tag in Ordnern einsortiert wären, aber ich bin noch dran.


    Gesendet von meinem ONEPLUS A5010 mit Tapatalk

    Hallo Leute,


    was ich seit einigen Tagen teste ist noch https://github.com/the-paperless-project/paperless
    auch sehr gut gelungen, läuft perfekt mit OMV5 und Docker, sehr leichte Einrichtung und schlank,


    was mir echt sehr gefällt ist, dass man 2 Jahre alte Dokumente (Rechnung etc) hoch lädt, und durch OCRmyPDF wird das Eingangsdatum auf dem Dokument erkannt und darunter abgespeichert,
    des weiteren ist automatisches tagging, bei mir werden Dokumente mit Begriffen wie "strom gas müllabfuhr" automatisch mit "Nebenkosten" getagt, funktioniert echt sehr zuverlässig,


    MFD speichert als PDF auf eine Freigabe, Docker Container mit OCRmyPDF wartet dank Inotify auf Dokument und scannt, anschließend werden die oben genannten Funktionen durchgeführt und das Dokument kann Problemlos im Browser angeschaut werden, es kann nach "tags" nach eingangsdatum nach begriffen gesucht und gefiltert werden.


    Parallel dazu teste ich noch Mayan EDMS, läuft ebenfalls als Docker Container, auch sehr leicht einzurichten, man wird allerdings mit Funktionen erschlagen, meiner Meinung nach mehr was für eine Anwaltskanzlei mit mehr als 100 Dokumenten am Tag, für Ottonormalbenutzer viel zu kompliziert

    aus aktuellem Anlass:
    https://www.heise.de/ct/ausgab…it-dem-Raspi-4146415.html


    hier mal mein script den ich ocr.sh benannt habe und über "Geplante aufgaben" jede Stunde ausführen lasse.

    Die dokumente werden über unseren MFD als PDFs im "Eingang" abgespeichert.


    OCRMYPDF führt mit

    • - d Jede Seite vor der Texterkennung gerade ziehen (mit convert aus ImageMagick)
    • -c Jede Seite vor Texterkennung säubern (mit unpaper)
    • -f (force, nicht unbedingt notwendig, aber manchmal ziehe ich PDFs ins Verzeichnis wo ich von extern z.B per Mail bekomme)


    aus, und speichert die Datei im "Ausgang" ab, vorsichtshalber wird noch eine Kopie vom Original im "Backup" abgespeichert, (kann ich ja Jährlich einmal leeren)


    DMS nutze ich nach wie vor Recoll, ist für mich einfach die stabilste und sicherste Methode, auch von einem Tablet oder IPad aus gut zu bedienen ohne das man gleich einen Dateimanager installieren muss,
    das ganze klappt aber soweit ich weis nur unter OMV4 (stretch), mit OMV3 (jessie) gibts Probleme mit ocrmypdf, in fstab müsste glaube ich auch exec für die entsprechende HDD angegeben sein.

    Was ich seit einigen Tagen noch erfolgreich teste ist:


    MFD mit scan2ftp oder scan2smb
    VM auf OMV (alte XP Lizenz reicht)
    Abby Finereader mit Hotfolder (ältere Versionen gibt es in der bucht für kleines Geld)


    MFD speichert die Dokumente in einem temp Ordner, Hotfolder schaut jede Minute nach, bearbeitet und führt OCR durch, und speichert diese wiederum im selben Verzeichnis mit einer Erweiterung ab,
    fehlt nur noch das sortieren ;-)


    ich muss sagen die Scanqualität und die Erkennungsrate ist einfach unschlagbar



    andererseits gibt es noch ABBYY Finereader Engine 11 CLI for Linux:
    12.000 Seiten pro Jahr 199 Euro
    120.000 Seiten pro Jahr 999 Euro
    500.000 Seiten pro Jahr 3499 Euro


    sollte aber für Privatleute sowieso wegfallen

    Hallo Leute,


    @knumsi : auf der von dir verlinkten Seite ist auch ein Beitrag von mir schau mal Februar 2016,
    mit Twain hast du recht, allerdings soll das ganze unter Sane recht gut funktionieren, nur muss man auf das automatische zuschneiden, Seiten begradigen etc verzichten, weil das ganze Softwarebasiert ist,
    also dokument rein fixformat a4 und OCR sollte funktionieren, oder eben wie du schon geschrieben hast, einen 7/24 laufenden Win PC.


    Edit : aach die Seite ist ja von dir :)


    @testereneco : für Recoll-webgui brauchst du keine VM, das ganze ist recht schlank, ist folgendermassen aufgebaut:


    recoll -webgui liegt irgendwo im dateisystem, bei mir im www,
    OMV -> Geplante Aufgaben -> ein Eintrag mit komando "exec /media/bbeee836-0a54-48bf-b4ca-4257b987113b/www/recoll-webui/webui-standalone.py -a 0.0.0.0 -p 8088" bei jedem Neustart
    OMV -> Geplante Aufgaben -> ein Eintrag mit recollindex alle 5 Minuten, dann wird alle 5 minuten Indiziert


    unter /root/.recoll/recoll.conf sollte folgender Eintrag drinne stehen :


    topdirs = /media/bbeee836-0a54-48bf-b4ca-4257b987113b/dokumente (oder wo auch immer die Dokumente sind)
    skippedPath = .recycle


    weboberfäche ist über 8088 erreichbar, sollte sich natürlich nicht mit nginx in die Quere kommen



    PS: Openhab läuft bei mir eigenständig auf einem Raspi2, allerdings kommt das ganze später auf einen Raspi3, aber ich warte noch bis Openhab2 stable ist, dann kommen bei mir auch endlich die ZWave Thermostate, homematic ade ;)


    ihr solltet euch auf jeden Fall mal Scanbot für Android oder IOS anschauen, automatischem OCR und automatisch hoch laden auf webdav, also auch für unterwegs sehr praktisch in verbindung mit einem "eigenem" Cloud
    naja über die Scanqualität kann man sich streiten, wenn man aber mit verschiedenen Belichtungsverhältnissen ausprobiert bekommt man relativ gute ergebnisse

    Hallo testereneco,


    Habe wie schon oben geschrieben etwas schlankes aufgebaut,
    Recoll webgui als standalone, wird bei systemstart gestartet, und recollindex alle 5 minuten durchlaufen lassen wegen Indizierung, klappt sehr gut,


    habe aber leider mein Lexmark X466 verkauft und hab mir einen Brother MFC 5720 geholt, naja wegen dem Duplex scanner, kann aber nur schlechtes darüber berichten,
    scanqualität grottenschlecht, dokumente werden teilweise schlecht eingezogen, arbeite momentan mit ABBYY Finereader und Hotfolder, weil es die beste erkennungsrate haben soll,
    selbst da werden die Seiten falsch sortiert, also Seite 1 wird als 2 und umgekehrt , und bei 40 oder mehr Seiten.....
    woran es liegt habe ich noch nicht herausgefunden



    auch als Drucker ist der absolut unbrauchbar, hängt vielleicht auch damit zusammen das ich bisher immer einen Laser hatte,


    Ich habe eventuell vor mir den IX500 zu holen, ist zwar nicht ganz billig, soll aber sehr sehr gut sein,


    allerdings habe ich in letzter Zeit auch sehr viel mit Scanbot für Android herum gespielt,
    bei bedachter bedienung auch sehr brauchbar, und in letzter Zeit bekomme ich eigentlich fast alles per EMail als PDF sodass man sich überlegen sollte ob die 400 Euro für einen Dokumentenscanner es wert sind.


    aber als Workaround auf dem Server kommt für mich nur Recoll in frage, man sollte auch nicht vergessen das man älter wird und irgendwann mal Probleme mit der Datenbank oder Webserver hat, und da liegt meiner meinung nach die Stärke von Recoll, läuft eigenständig, ohne Datenbank, und wenn alle Stricke reisen liegen die Dokumente irgendwo in verschiedenen Ordnern auf der HDD, es sei denn die Festplatte gibt den geist auf, aber da hilft dir die beste DMS auch nichts, da hilft nur dein Backup.. :)


    Das mit Plugin erstellen ist Leider etwas zu hoch für, Heimautomatisierung mit Openhab raubt mir momentan die Zeit, da bleibt nicht mehr viel übrig, letzte woche hab ich es geschafft EGroupware auf meinem OMV zum laufen zu bringen, hat mich viel nerven gekostet


    Gruß
    eiermann

    yes i'm able to use my omv again with 3.13


    The removed packages of my installation was:


    Start-Date: 2016-04-24 11:57:38
    Commandline: apt-get --yes --force-yes --fix-missing --auto-remove --allow-unauthenticated --show-upgraded --option DPkg::Options::=--force-confold install openmediavault
    Upgrade: openmediavault:amd64 (3.0.13, 3.0.15)
    Remove: php-json-schema:amd64 (0.2.0), libchm1:amd64 (0.40a-3+b1), python-dbus:amd64 (1.2.0-2+b3), libdbus-glib-1-2:amd64 (0.102-1), php5-sqlite:amd64 (5.6.19+dfsg-0+deb8u1), libblas-common:amd64 (1.2.20110419-10), libqt4-xml:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), python-support:amd64 (1.0.15), libqt4-network:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libatk1.0-0:amd64 (2.14.0-1), openmediavault-calibre:amd64 (3.1), python-django-common:amd64 (1.7.7-1+deb8u4), qtchooser:amd64 (47-gd2b7997-2), libqt4-sql:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), python-cssutils:amd64 (0.9.10-1), python-pkg-resources:amd64 (5.5.1-1), libblas3:amd64 (1.2.20110419-10), libwebpmux1:amd64 (0.4.1-1.2+b2), qdbus:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), python-numpy:amd64 (1.8.2-2), openmediavault-autoshutdown:amd64 (3.0.6), libgstreamer-plugins-base1.0-0:amd64 (1.4.4-2), libqtcore4:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), python-qt4:amd64 (4.11.2+dfsg-1), libwebpdemux1:amd64 (0.4.1-1.2+b2), python-pypdf:amd64 (1.13-2), python-pil:amd64 (2.6.1-2+deb8u2), libqt4-svg:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libqt4-dbus:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libxcursor1:amd64 (1.1.14-1+b1), libqt4-xmlpatterns:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libqt4-opengl:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libsctp1:amd64 (1.0.16+dfsg-2), libwebp5:amd64 (0.4.1-1.2+b2), libqtassistantclient4:amd64 (4.6.3-6), dbconfig-common:amd64 (1.8.47+nmu3+deb8u1), libqtwebkit4:amd64 (2.3.4.dfsg-3), libqt4-script:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), tzdata-java:amd64 (2016c-0+deb8u1), mywebsql:amd64 (3.6-omv4), python-gobject:amd64 (3.14.0-1), python-imaging:amd64 (2.6.1-2+deb8u2), fping:amd64 (3.10-2), liblapack3:amd64 (3.5.0-4), python-dbus-dev:amd64 (1.2.0-2), libpoppler-glib8:amd64 (0.26.5-2), python-beautifulsoup:amd64 (3.2.1-1), libxt6:amd64 (1.1.4-1+b1), libgtk2.0-common:amd64 (2.24.25-3+deb8u1), libpoppler46:amd64 (0.26.5-2), php5:amd64 (5.6.19+dfsg-0+deb8u1), libatk1.0-data:amd64 (2.14.0-1), python-mechanize:amd64 (0.2.5-3), python-dateutil:amd64 (2.2-2), libaudio2:amd64 (1.9.4-3), python-psutil:amd64 (2.1.1-1+b1), openmediavault-mysql:amd64 (3.0.2), openmediavault-shellinabox:amd64 (3.3), openjdk-7-jre-headless:amd64 (7u95-2.6.4-1~deb8u1), python-cairo:amd64 (1.8.8-1+b2), libmtp9:amd64 (1.1.8-1+b1), ca-certificates-java:amd64 (20140324), libmng1:amd64 (1.0.10+dfsg-3.1+b3), libpodofo0.9.0:amd64 (0.9.0-1.2+b2), python-lxml:amd64 (3.4.0-1), python-apsw:amd64 (3.8.6-r1-1), libqt4-designer:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), qtcore4-l10n:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libqtdbus4:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), python-django:amd64 (1.7.7-1+deb8u4), python-sip:amd64 (4.16.4+dfsg-1), python-six:amd64 (1.8.0-1), shellinabox:amd64 (2.19), python-poppler:amd64 (0.12.1-8.1), sysstat:amd64 (11.0.1-1), libgtk2.0-0:amd64 (2.24.25-3+deb8u1), openmediavault-nginx:amd64 (3.0.3), python-gobject-2:amd64 (2.28.6-12+b1), libqt4-test:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), php5-mysqlnd:amd64 (5.6.19+dfsg-0+deb8u1), libmtp-common:amd64 (1.1.8-1), libgfortran3:amd64 (4.9.2-10), python-netifaces:amd64 (0.10.4-0.1), libgstreamer1.0-0:amd64 (1.4.4-2), python-chm:amd64 (0.8.4.1-1), libqt4-scripttools:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libxinerama1:amd64 (1.1.3-1+b1), php5-pgsql:amd64 (5.6.19+dfsg-0+deb8u1), java-common:amd64 (0.52), libxcomposite1:amd64 (0.4.4-1), python-gtk2:amd64 (2.24.0-4), openmediavault-jdownloader:amd64 (3.1), libqtgui4:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), python-django-tagging:amd64 (0.3.1-4), libxrandr2:amd64 (1.4.2-1+b1), libqt4-declarative:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libqt4-help:amd64 (4.8.6+git64-g5dc8b2b+dfsg-3+deb8u1), libpodofo-utils:amd64 (0.9.0-1.2+b2)
    End-Date: 2016-04-24 11:57:55



    remove 3.0.15 and install 3.0.13, then install all removed packages again

    Ich klinke mich hier auch mal mit rein,
    also ich stand auch vor der Wahl, welches DMS ?


    meine Kriterien waren auf jeden Fall:
    -webbasiert
    -wenn möglich keine Datenbank (Indizierung)
    -automatische Sortierung anhand von Schlagwörtern (OCR)
    -schlank wie möglich


    Probiert habe ich auf jeden Fall schon so einiges, LogicalDoc hat mich sehr überzeugt aber wegen der Datenbank geschichte eben doch nicht so ideal.


    was für mich eigentlich noch in Frage kommt ist recoll-webgui, Vorteil: seeehr schlank und die Ordnerstruktur wird behalten und natürlich per CRON job aktualisiert,
    da mein Lexmark X466 direktes scannen an FTP unterstützt, hatte ich folgende Idee:
    Lexmark erstellt PDF und speichert im Ordner XYZ ab, ein script schaut regelmäßig nach, ob etwas abgespeichert wird und führt OCR (tesseract) aus, anhand von erkannten Wörtern z.B "Rechnung", "Nachzahlung" oder "Versicherung" werden die Dokumente in verschiedene Ordner verteilt und stehen somit jederzeit recoll-webgui zur Verfügung, ich lese des öfteren das tesseract eine schlechte Erkennungsrate hat, das kann ich nicht bestätigen, bis auf einige kleinigkeiten mit den Umlauten passt alles, graustufen@600dpi


    bis auf die automatische Sortierung habe ich alles hinbekommen, im moment versuche ich mich aber duch die OMV Plugin Geschichte durchzuschlagen, in der Hoffnung das ich das ganze per Plugin komfortabel installieren kann, vielleicht kann es ja auch ein anderer noch gebrauchen ;)

    und hier die Lösung, habe alle freigaben gelöst, und von der Platte wo ich kein Zugriff auf die Freigaben habe die Daten auf eine externe mit NTFS vormatierte Festplatte gesichert in der Hoffnung das die Rechte nicht mit übertragen werden,
    Die Platte ohne Zugriff erneut mit EXT4 formatiert und alles wieder zurück übertragen, alle Freigaben wieder erstellt,


    Und alles bestens :thumbsup:


    kann mir das ganze immer noch nicht ganz erklären aber es hat geklappt


    Gruß
    eiermann

    bin echt ratlos,


    habe ACL bei allen auf lesen/schreiben gestellt ohne erfolg,


    habe dann als versuch unter SMB freigabe "Berücksichtigt vorhandenen ACLs" deaktiviert, jetzt kann ich wieder auf die bilder zugreifen, aber nur per Samba,
    FTP geht trotzdem nicht

    root@omv2:~# stat /media/5e0f412c-0255-4fa1-aa64-44354d3a0008
    Datei: �/media/5e0f412c-0255-4fa1-aa64-44354d3a0008�
    Gr��e: 4096 Bl�cke: 16 EA Block: 4096 Verzeichnis
    Ger�t: 821h/2081d Inode: 2 Verkn�pfungen: 25
    Zugriff: (0777/drwxrwxrwx) Uid: ( 0/ root) Gid: ( 100/ users)
    Zugriff : 2015-09-19 22:01:58.657380847 +0200
    Modifiziert: 2015-09-08 17:42:05.387518592 +0200
    Ge�ndert : 2015-09-19 22:01:45.593640401 +0200
    Geburt : -
    root@omv2:~# stat /media/140640a0-e831-4ae0-a25a-33bd56577198
    Datei: �/media/140640a0-e831-4ae0-a25a-33bd56577198�
    Gr��e: 4096 Bl�cke: 8 EA Block: 4096 Verzeichnis
    Ger�t: 811h/2065d Inode: 2 Verkn�pfungen: 5
    Zugriff: (0777/drwxrwxrwx) Uid: ( 0/ root) Gid: ( 100/ users)
    Zugriff : 2015-09-19 21:57:06.999190185 +0200
    Modifiziert: 2015-09-08 17:42:10.587518735 +0200
    Ge�ndert : 2015-09-17 19:21:28.123603754 +0200
    Geburt : -
    root@omv2:~#