Kpl. Webseite von Wayback gezogen und auf Pi gehostet; geht nicht.

L I V E Stammtisch ab 20:30 Uhr im Chat
  • Ok, ich habe jetzt mal mit Apache und PHP auf einem RPi getestet.

    Um einen Link im Browser klicken zu können diese Datei (Ja, das ist kein komplettes HTML, aber der Browser ist geduldig. :shy:

    PHP: viewforum_test.php
    <?php
    
    echo "<a href=\"viewforum.php?f=2&sid=jkdfgdfg54gh53g35dfg56dfbg36f\">viewforum.php?f=2&sid=jkdfgdfg54gh53g35dfg56dfbg36f</a>";
    
    ?>


    Zum Weiterleiten diese Datei wie hier gezeigt und die funktioniert sogar so ^^

    PHP: viewforum.php
    <?php
    
    $filename = str_replace("?", "_", $_SERVER[REQUEST_URI]);
    
    header( "Location: $filename" );
    
    ?>

    Und als Ziel diese Datei:

    Code: viewforum.php_f=2&sid=jkdfgdfg54gh53g35dfg56dfbg36f
    Hallo

    Also bei mir funktioniert das.

  • Kpl. Webseite von Wayback gezogen und auf Pi gehostet; geht nicht.? Schau mal ob du hier fündig wirst!

  • hyle Das kann PHP nur bedingt weil das nur für eine Datei funktioniert, in diesem Fall ``viewforum.php``. Mit anderen Programmiersprachen kann man eine Webanwendung bei "/" oder wo auch immer, einhängen und *eine* Route schreiben, die für *alle* Dateien funktioniert.

    Und eventuell muss man noch mehr umschreiben, oder die Dateien umbenennen, oder vielleicht auch eine kleine Datenbank anlegen. In vielen Dateinamen sieht man eine Session-ID. Ich würde nicht davon ausgehen, dass die in den Links im HTML immer die gleiche ist, die auch in den Dateinamen zu finden ist, wenn Archive.org das nicht alles in einer grossen Sitzung abgefragt hat. Das können auch gemischte Dateien von mehreren Zeitpunkten sein. Das Download-Skript nimmt für jede Datei den zuletzt vorhandenen Snapshot (falls man da nichts einschränkt, mittels Argumenten).

    Es könnte auch gut sein, dass da Beiträge mehrfach vorhanden sind, es sei denn Archive.org weiss über die Session-ID bescheid, denn der gleiche Beitrag mit unterschiedlichen Session-IDs hat ja durch die Session-ID unterschiedliche URLs, und an denen machen Downloader ja üblicherweise fest ob es sich um die gleiche Datei handelt oder nicht. Und auch die Beitrags-ID könnte ein Problem sein, denn wenn es für Beitrag 1 eine Datei gibt, und für Beitrag 2, dann ist da im Grunde in beiden Dateien der selbe Inhalt wenn das Thema zu dem Zeitpunkt wo Archive.org da vorbeigekommen ist, schon mindestens zwei Beiträge vorhanden waren.

    Und bei einem Forum muss man sich auch die Frage stellen ob man alle Beiträge über die Einstiegsseite erreichen kann, denn die hat immer die gleiche URL (oder auch nicht: siehe Session-ID-in-URL-Problem) aber je nach Zeitpunkt des Abrufs einen anderen Inhalt.

    So einfach ist das IMHO nicht. Dieses vorgehen funktioniert bei statischen Seiten, oder dynamischen Seiten die sich wenig ändern vielleicht ganz gut, aber bei einem Forum ist sehr wahrscheinlich nacharbeiten notwendig, wenn man da etwas rekonstruieren will, durch das man bequem browsen kann.

    “Dawn, n.: The time when men of reason go to bed.” — Ambrose Bierce, “The Devil's Dictionary”

  • Das kann PHP nur bedingt weil das nur für eine Datei funktioniert,

    Das ist dann aber keine Frage der Programmiersprache, sondern der Software, die man verwendet. Bei einem Apache wäre das die Fehlerseite (404), die man durch (m)eine PHP-Datei ersetzen könnte. Das hätte den selben Effekt wie wenn man einen Python-Webserver betreiben würde usw.. ;)

    Btw. ALLES was hier gespeichert wurde ist da. Da gibt es keinen Spielraum für Eventualitäten. Das betrifft auch die Session-IDs. entweder die Aufrufe (Per Link) sind da oder eben nicht. Eine Session im eigentlichen Sinn gibt es nicht (mehr). Alles hier ist statisch in Dateien gespeichert!

  • Beim letzten Absatz weiss ich jetzt nicht was Du da genau meinst. Es muss eben nicht alles da sein. Es muss nicht jede Datei hinter jedem Link verfügbar sein, und es muss umgekehrt auch nicht für jede Datei einen Link geben der von Version der Hauptseite aus verfügbar ist. Das sind ja alles nur Schnappschüsse von einzelnen Dateien, die zeitlich durchaus Monate oder Jahre auseinander liegen können. Es kann also durchaus sein, dass es links mit Themen- und Beitrags-ID und einer Sitzungs-ID in einem Link von einem Zeitpunkt gibt, aber die Datei dazu nicht, aber es kann trotzdem eine Datei für den Beitrag in dem Thema mit einer anderen Sitzungs-ID gibt, die an einem anderen Zeitpunkt erfasst wurde.

    Das Download-Skript ist kein Crawler der von einer Seite ausgeht und den Links folgt. Das benutzt die Wayback-API um sich eine Liste von gespeicherten URLs geben zu lassen die unter der angegebenen Domain liegen, und per Voreinstellung den jeweils letzten Stand den die Wayback Machine kennt. Das bedeutet dann aber auch, dass von der index.html, oder dem Äquivalent was man so bekommt, nicht alles erreichbar sein muss, was man da herunterlädt. Und es kann halt auch sein, dass die Dateien nicht alle aus einer Crawler-Sitzung kommen, also die Session-ID in den Links und den Dateien unterschiedlich sein kann, so dass man vielleicht einen Link auf eine Themenseite mit einer Session-ID hat, die aber nicht zu einer Datei führt, man das Thema aber doch auf der Platte hat, aber in einer Datei mit einer anderen Session-ID im Namen. Aber dafür muss es in den anderen Dateien keinen Link geben.

    Vielleicht hat Malchiner ja Glück und das kommt bei den konkreten Daten nicht oder nur selten vor, aber merken würde man das auch nicht so einfach, wenn man das nicht mal systematisch auswertet.

    “Dawn, n.: The time when men of reason go to bed.” — Ambrose Bierce, “The Devil's Dictionary”

  • Vielleicht hat Malchiner ja Glück und das kommt bei den konkreten Daten nicht oder nur selten vor, aber merken würde man das auch nicht so einfach, wenn man das nicht mal systematisch auswertet.

    Es stimmt schon, daß sehr viele Seiten fehlen. Beim surfen auf Archive.org, was sehr nervig ist weil es dauert bis überhaupt eine Reaktion kommt, stößt man immer wieder auf die Meldung dass eine Seite nicht vorhanden ist. Also Glück habe ich da nicht gerade zumal ich aktiv in diesem Forum tätig war und ganz gut einschätzen kann was da fehlt. Aber, besser den Spatz in der Hand....

  • Malchiner um welches Forum geht es denn?

    Well in my humble opinion, of course without offending anyone who thinks differently from my point of view, but also by looking into this matter in a different way and without fighting and by trying to make it clear and by considering each and every one's opinion, I honestly believe that I completely forgot what I was going to say.

  • __blackjack__ Jetzt verstehe ich wie Du das meinst. Dieses Problem der "Geister" durch die SessionIDs im Dateinamen besteht ja ohnehin weil die sid mit der URL übergeben wurde.

    Ich wüsste da aber auch nicht wie man da mit wenig Aufwand etwas automatisieren könnte.

    Klar, man könnte die Dateien vergleichen in deren Dateinamen sich nur die SessionIDs unterscheiden und die größere Datei (weil mehr Inhalt und damit vermutlich letzter Stand) behalten und die dazugehörigen Links in den Dateien anpassen. Bei 8000 Dateien ist das allerdings eine Hausnummer.

    Naja, aber erstmal muss das aber mit der einen Datei funktionieren.

  • Malchiner Ich habe das Download-Skript mal ausprobiert, und bei mir haben die Dateinamen Fragezeichen statt eines Unterstrichs an der passenden Stelle. Ist ja auf den meisten Unix/Linux-Dateisystemen auch gar kein Problem, und in dem Download-Skript sehe ich auch nichts was da unter anderen Systemen als Windows etwas ändern würde. Und unter Windows wird "?" nicht durch "_" ersetzt, sondern durch "%3f". Also wo kommen bei Dir an dieser Stelle die Unterstriche her? ?

    “Dawn, n.: The time when men of reason go to bed.” — Ambrose Bierce, “The Devil's Dictionary”

  • Also wo kommen bei Dir an dieser Stelle die Unterstriche her? ?

    Seltsam, ich habe alles noch einmal runter geladen und festgestellt, daß der Parameter --concurrency 20 dafür sorgt nur einen Bruchteil zu laden, obwohl laut Beschreibung steht, daß der Prozess beschleunigt wird da es 20 Dateien gleichzeitig läd.

    Eigentlich sollten das mehr als 500MB sein.

    Ok, Habe den Download noch mal konventionell angeregt. Dauert etwa eine Stunde, was ich Euch ja nicht antun wollen würde, und dann sehe ich mir das nochmal an.


    Nachtrag: Dauert länger als eine Stunde dieser Download. Ich kann aber jetzt schon sehen, daß die Dateien mit ? gespeichert werden. :wallbash:

    Einmal editiert, zuletzt von Malchiner (3. Oktober 2022 um 14:50)

  • Malchiner Ich hatte mit 5 Threads heruntergeladen und komme auf 532 Megabyte und 7.908 Dateien direkt im ``forum/``-Unterordner:

    Code
    $ du -sch
    532M    .
    532M    total
    $ find forum/ -maxdepth 1 -type f -printf "." | wc -c
    7908

    Ich vermute mal bei den 20 Threads macht Dir Archive.org einen Strich durch die Rechnung und liefert einiges einfach nicht aus, weil 20 Zugriffe gleichzeitig vielleicht auch ein kleines bisschen unverschämt ist.

    Du muss übrigens nicht immer Bildschirmfotos von Informationen machen die eigentlich Text sind. Ein paar Dateinamen kann man auch einfach als Text hier in den Beitrag einfügen:

    Ich habe mal ein kleines Programm zum Auswerten der Dateinamen und der <a href="…">-Elemente in den Dateien geschrieben. Die Ausgabe:

    Wobei die internen Links im HTML nicht zwingend als relative URLs stehen. Die hat das Programm schon zu relativen Links zu ``http://example.com/forum/`` gemacht wenn sie absolut im HTML standen. Die Links werden in einer JSON-Datei gecachet, weil das parsen von den HTML-Dateien etwas dauert, das heisst die kann man sich hinterher auch noch mal in Ruhe anschauen oder weiterverarbeiten.

    Das Programm:

    Was ist denn das eigentliche Ziel von der ganzen Aktion? Ein Sammlung von Seiten die man normal browsen kann, wird man für so ein Forum von Archive.org eher nicht bekommen. Und wenn man möglichst viel Information rekonstruieren möchte, dann wird man mehr als den neuesten Stand von jeder URL verarbeiten wollen. Zumindest für einige PHP-Dateien und Parameter-Konstellationen, wo sich unabhängig von den Parametern der Inhalt im Laufe der Zeit verändert.

    Beim aktuellen Stand wäre eine minimale Menge von Einstiegspunkten interessant über die man alle Dateien erreichen kann, denn von der/den Index-Datei(en) ist ziemlich sicher nicht alles erreichbar was man da heruntergeladen hat. Und bei den vielen toten internen Links würde es selbst dann keinen Spass machen, beziehungsweise nicht praktikabel sein, durch die heruntergeladenen Dateien zu browsen.

    “Dawn, n.: The time when men of reason go to bed.” — Ambrose Bierce, “The Devil's Dictionary”

  • Malchiner Ich hatte mit 5 Threads heruntergeladen und komme auf 532 Megabyte und 7.908 Dateien direkt im ``forum/``-Unterordner:

    Ok, das kommt hin. Insgesammt werden bei mir 8092 Dateien angezeigt und er ist jetzt bei der Hälfte. Wie lange hat das bei dir gedauert?

    Zitat

    Ich vermute mal bei den 20 Threads macht Dir Archive.org einen Strich durch die Rechnung und liefert einiges einfach nicht aus, weil 20 Zugriffe gleichzeitig vielleicht auch ein kleines bisschen unverschämt ist

    Die 20 habe ich direkt aus der Anleitung von W-M-Download. War nicht ich der Unverschämte.

    Zitat

    Du muss übrigens nicht immer Bildschirmfotos von Informationen machen die eigentlich Text sind. Ein paar Dateinamen kann man auch einfach als Text hier in den Beitrag einfügen:

    Alles klar, werde ich beherzigen wenn möglich.

    Zitat
    Code
    Es gibt 30890 interne Links.
    Für 6258 interne Links existiert eine Datei.

    Das ist nicht viel, war aber zu erwarten. Oft ist es so, daß ein Thema z.B. zehn Seiten an Kommentaren hat aber nur die ersten Paar angezeigt werden. Ich nehme an, das hat mit der Scann-tiefe von WayBack zu tun. Das Ganze ist aber bedienbar.

    Zitat

    Was ist denn das eigentliche Ziel von der ganzen Aktion?

    Wie ich schon schrieb war ich Mitglied des Forums und weiß, daß dort sehr gute Leute geschrieben haben, welche übrigens schon damals die Situation beschrieben die wir jetzt haben. Das würde hier zu sehr in's Politische gehen,es weiter zu Erläutern. Wenn es denn mal laufen würde, nehme ich mir die Zeit und werte das Forum nach relevanten Dingen aus. Auf Archive.org ist das ein Krampf, erstens wegen der Ladezeiten und zweiten die Springerei zu anderen Zeitstempeln usw.

    Leider habe ich es damals versäumt das ganze Forum zu sichern, obwohl sich die Schließung mit auftauchen von Profitrollen schon angekündigt hat...

  • Ich kann aber jetzt schon sehen, daß die Dateien mit ? gespeichert werden.

    Falls jetzt das direkte "browsen" bei theoretisch funktionierenden Links wieder nicht funktioniert, dann könnte das ggf. daran liegen, dass PHP hier dazwischen funkt.

    In dem Fall würde ich dann PHP mal mit a2dismod php deaktivieren. Evtl. ist das auch php7.3, aber welche PHP-Version Du hast weiß ich nicht. Danach den Apache neu laden mit systemctl reload apache2.

    Wieder aktivieren geht mit a2enmod php und systemctl reload apache2.

  • Code
    PHP 7.4.30 (cli) (built: Jul  7 2022 15:51:43) ( NTS )
    Copyright (c) The PHP Group
    Zend Engine v3.4.0, Copyright (c) Zend Technologies
        with Zend OPcache v7.4.30, Copyright (c), by Zend Technologies

    So sieht das aus. Es fehlen noch 1000 Dateien im Download und dann mach ich das mal alles neu. :thumbup:

  • Also wenn man möglichst viel von den Themen und Beiträgen rekonstruieren möchte, kommt man IMHO nicht darum herum mehr von Wayback herunter zu laden als nur den letzten Stand. Insbesondere von den PHP-URLs bei denen es vom Zeitpunkt abhängt was da tatsächlich drin ist. Andererseits kann man auch gleich Sachen aussparen von denen klar ist, dass einen die nicht interessieren. Beispielsweise die faq.php und die ganzen report.php.

    “Dawn, n.: The time when men of reason go to bed.” — Ambrose Bierce, “The Devil's Dictionary”

  • So sieht das aus.

    Ah ok! bin zwar nicht sicher ob da nun php7.4.30 da stehen muss, aber egal. wenn man nur a2dismod eingibt, stehen alle aktiven Apache-Module da. Dort kannst Du den Namen eintippen (oder C&P) und mit Enter bestätigen. So geht es auch.

    Fast vergessen: Das ganze natürlich mit root-Rechten / sudo davor!

  • Falls jetzt das direkte "browsen" bei theoretisch funktionierenden Links wieder nicht funktioniert, dann könnte das ggf. daran liegen, dass PHP hier dazwischen funkt.

    Das direkte Browsen geht nicht und der Versuch php zu deaktivieren zeigt das hier:

    Was will der Pi mir nur damit sagen?

    Nachtrag: mit sudo natürlich das Selbe.

    Nachtrag2: geschafft, so weit:

    Code
    Module php7.4 disabled.
    To activate the new configuration, you need to run:
      systemctl restart apache2

    Direkt browsen geht leider immer noch nicht.

    Einmal editiert, zuletzt von Malchiner (3. Oktober 2022 um 18:24)

  • Also wenn man möglichst viel von den Themen und Beiträgen rekonstruieren möchte, kommt man IMHO nicht darum herum mehr von Wayback herunter zu laden als nur den letzten Stand.

    Verstehe ich nicht ganz. Das Forum wurde im März rum geschlossen und ich habe bis Juni angegeben runter zu laden. Also drei Monate mehr in der die Seite überhaupt nicht mehr erreichbar war.

    Nachtrag: März 2013

    Einmal editiert, zuletzt von Malchiner (3. Oktober 2022 um 18:47)

  • Direkt browsen geht leider immer noch nicht.

    Was steht in der Adresszeile des Browsers wenn Du das Forum willst und was ist die Fehlermeldung?

    Das Forum war forum/viewforum.php?f=2 wie im Beitrag #1 richtig?

    Module php7.4 disabled.

    Danach den Apache auch neu geladen?

  • Was steht in der Adresszeile des Browsers wenn Du das Forum willst und was ist die Fehlermeldung?

    Das Forum war forum/viewforum.php?f=2 wie im Beitrag #1 richtig?

    Danach den Apache auch neu geladen?

    Jo, alles korreckt. Ich springe aber gerade im Dreieck. Gucke gerade in den Forum Ordner hinein und alle Dateien sind jetzt mit _ Unterstrich. Was ist das denn? Frisch runter geladen... Mein Betriebsystem hier ist Peppermint also Debian. Die Dateien sind also schon umbenannt bevor ich sie auf den Raspi lade...

    Code
    papi@pihole:/var/www/html/forum $ find *php"?"*
    find: '*php?*': No such file or directory
    papi@pihole:/var/www/html/forum $ find *php_
    index.php_
    memberlist.php_
    posting.php_
    search.php_
    viewforum.php_
    viewtopic.php_

    Unglaublich das. Ich versuche die Dateien mal umzubenennen.

    Einmal editiert, zuletzt von Malchiner (3. Oktober 2022 um 19:27)

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!