Ich habe einen HP Microserver mit Debian/Openmediavault auf dem unter anderem knap 20k Dokumente (Studien, Artikel, Fachbücher, Arbeiten, Konzepte, Leitlinien, Habilitationen etc.) liegen. Diese sind überwiegend nicht nachvollziehbar benannt (zb random nummern als dateiname).
Diese liegen auf einem von ausserhalb nicht zugängigem smb share hinter einem ansonsten ausserhalb des netzwerks zugänglichen nginx reverse proxy auf dem Server mit einer vorhandenen domain, im selben netzwerk habe ich auch einen rpi5 mit dem AI HAT 26TOPS, 256gb sd karte (2 partitionen, root und 150gb daten als ext4), 256gb usb speicher (erweiterbar auf 3tb bei bedarf) und raspbian OS headless mit VNC, ssh und raspi connect.
Dieser soll in einem ersten Arbeitsschritt via cronjob regelmässig .pdfs aus einem omv-share auf die datenpartition bewegen. Dort soll das Dokument mit paddleOCR analysiert und dann an MOLE (oder spaCy?) weitergereicht werden.
Im zweiten Schritt möchte ich die Dokumente automatisiert nach ihrem Inhalt benennen (z.B. bei studien titel und autor, bei artikeln etc der titel) und auf einem omv share ablegen. Diese möchte ich mit einem paperless server überwachen und per webui indexieren und durchsuchen können. Ich weiss noch nicht ob ich lieber mit Open Semantic Framework/Search arbeiten möchte - ich bitte um Tipps.
Die .pdfs im Ordner mit den aufbereiteten Dokumenten auf dem Pi (der ja den gleichen Inhalt hat wie der omv share der via webui erreichbar ist) sollen mit einer LLM wie zb LLaMA 3 rein on premise mit prompts "verarbeitet", bzw durchsucht werden können - über ein webUI dass ich hinter den nginx reverse proxy auf dem omv schalten möchte.
Ziel ist im Endeffekt neben einerseits der automatisierten Archivierung und Verwaltung meiner Bibliothek auch dass ich von unterwegs meine eigene Bibliothek mit prompts nach komplexeren Fragestellungen durchsuchen kann.
Ein Gedanke den ich auch noch habe, ist ob ich die LLM an den Dokumenten trainieren lassen könnte, ich hab mich damit aber noch nicht wirklich auseinander gesetzt also weiss ich nicht mal ob das sinnvoll wäre.
Ich brauch noch Entscheidungshilfen und Ideen bei der Auswahl der Software und Modelle. Für mich stellt sich auch die Frage ob ich eine Vollversion mit Desktop auf dem Pi laufen lassen muss wenn ich ihn sowieso als headless betreiben möchte, ich stelle mir aber die Einrichtung mit einem Desktop leichter vor, auf diesen kann ich ja auch mit VNC oder connect zugreifen, auch bei kleinen Wartungsarbeiten im Betrieb. Ich weiss allerdings nicht ob der reine Betrieb in der Konsole wirklich merkbar Ressourcen für meine Belange einsparen würde, die schwere Arbeit leistet schliesslich die AI HAT.