Offsite website crawler der ungültige Links und deren Quellseiten entdeckt sowie sitemap.xml Generator

  • Auf meiner Webseite sind durch Umstrukturierung ziemlich viele 404 - entweder intern oder auch auf externe Seiten entstanden. Um die zu eliminieren habe ich die letzten Tage ein Beispiel go Programm aus meinem go Tutorial erweitert. Bislang generierte es nur eine sitemap.xml. Jetzt wird weiterhin offline eine sitemap.xml generiert aber es werden auch weitere Informationen gesammelt wie

    1) Interne fehlerhafte Seitenlinks (404, 403, ...)

    2) Externe fehlerhafte Seitenlinks (404, 403, ...)

    3) Gültige externe Links (200)

    und jeweils die Seiten die darauf verlinken. Ist zwar etwas muehsam aber so konnte ich nach und nach alle 404 und falsche Links aus meiner Webseite enfernen.

    Der Crawler entspricht nicht dem Google Crawler aber ist wenigstens auch in go geschrieben und relativ flott :lol:

    Wer es nutzen will - entweder einfach um eine Sitemap fuer seine Webseite offline zu generieren - oder eben wie bei meinem Problem Fehler auf seiner Webseite zu entdecken und zu eliminieren kann den Crawler wie folgt unter x86 Linux und von einer Raspberry aufrufen. Eine go Installation ist nicht notwendig.

    Code
    curl https://raw.githubusercontent.com/framps/golang_tutorial/master/genSitemap/startCrawler.sh | bash -s -- https://<website>

    EDIT:

    Habe das eben noch auf meiner Webseite dokumentiert. Updates zu dem Thema werde ich nur noch dort vornehmen :)

  • Offsite website crawler der ungültige Links und deren Quellseiten entdeckt sowie sitemap.xml Generator? Schau mal ob du hier fündig wirst!

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!