Beiträge von iris80

    wget -Otest.html https://www.cormes.de/impressum perl -nE 'if (/\bmailto:([\w\.]+\@[\w\.]+)/) {say $ 1}' test.html

    Um eine E-Mail-Adresse zu extrahieren, funktioniert diese Regex einwandfrei.

    Sind mein anderer Regex-Name, Nachname und meine Postanschrift korrekt?

    perl -nE 'if (/ Straße: \ [A-Za-z] [0-9] /) {sagen $ 1}' test.html

    perl -nE 'if (/ PLZ und Ort: \ [0-9] {5} - [A-Za-z]) / {say $ 1}' test.html

    perl -nE 'if (/Vorname und Nachname: \ [A-Za-z] [A-Za-z]) / {say $ 1}' test.html

    Sind der Regex-Name, der Nachname und die Postanschrift meiner anderen korrekt?Wie ist dieses Skript geschrieben, um mehrere Regexes für eine einzelne URL und für eine Liste von URLs zu sammeln?

    Ich habe ein Bash-Skript, das den gesamten Inhalt von Websites ohne Auswahl auf dem Terminalbildschirm anzeigt.

    Danach muss ich eine Auswahl treffen, damit nur die gewünschten Daten in eine Datei gesendet werden.

    Ich habe die Regex-E-Mail, Telefon, Nachname und Vorname,Adresse:

    Telefon: [0-9] {2} \) - [0-9] {3} - [0-9] {3} - [0-9] {2} - [0-9] {2} | # # - ### - ### - ## - ## '

    E-Mail: b [A-Za-z0-9 ._% + -] + @ [A-Za-z0-9 .-] + \. [A-Za-z] {2,6} \ b / p

    Vor- und Nachname: [A-Za-z] - [A-Za-z]

    Adresse: [A-Za-z] [0-9] (Straßenname und Hausnummer).

    [0-9] {5} - [A-Za-z] (PLZ und Stadtname)

    Search User Agent für jede Website ist: sec-ch-ua: "Not A; Brand"; v = "99", "Chromium"; v = "96", "Google Chrome"; v = "96" and user-agent ist :Search User Agent für jede Website ist: sec-ch-ua: "Not A; Brand"; v = "99", "Chromium"; v = "96", "Google Chrome"; v = "96"

    Ich weiß nicht, wie ich diese Daten mit Grep / sed / awk / find / xargs / html2text / trim / regex match / bekomme.

    E-Mail kann auch mit href = "mailto:" abgerufen werden und Telefon- und Adressinformationen sind in <p>.

    Vor- und Nachname werden entweder von Geschäfstführung oder Geschäfstführer oder von "Vertreten durch:" vorangestellt und in <p> enthalten.

    Der gemeinsame Punkt all dieser Websites, um den gesamten Datenblock mit der Regex zu erhalten, ist vielleicht die Registernummer: HRB ......

    Angehängt ist das Bash-Skript und Sie müssen auf dem Terminal-Bildschirm schreiben:

    chmod + x readUrl.sh

    bash + x readUrl.sh

    Code
    Anbei die Liste der URLs und das Skript readUrl.sh


    Können Sie sehen,ob Sie mein Skript mit diesen Daten vervollständigen können ?