Wer betreibt einen Web Scraping Dienst auf seinen Gerät?

  • :rolleyes: Mich würde einfach nur mal interessieren ob jemand von euch einen Web Scrapping Dienst laufen hat der nach neuen Daten sucht auf div. Seiten?

    Für Windows kenne Ich "nur" https://www.screamingfrog.co.uk/seo-spider/ was Ich mal verwendet habe. In meinen fall würde Ich mich einfach dafür interessieren später mal nach Youtube Links die auf Webseiten eingebettet sind zu suchen die nicht in Youtube gelistet sind. Dazu noch PDF Dokumente und anderes.

    Ich kenne ein paar Videos wo Leute sowas erklären was die machen und wie die Daten auswerten aber leider nicht wie man so einen scrapper einrichtet für laien.

    THX!

  • Also ich hab ein bash-script mit dem Hauptbestand: lynx (apt install lynx)


    Eine Seite als Text speichern:

    lynx -dump Seite.html > Seite.text


    Nur die links z.B für pdf usw

    lynx -dump -listonly Seite.html >Seite_links.txt


    Ein großes Problem ist das es kein java-Script kann, weil die meisten Seiten ihre Inhalte über Java-script zusammen setzten.

  • Ein großes Problem ist das es kein java-Script kann, weil die meisten Seiten ihre Inhalte über Java-script zusammen setzten.

    Ja viele Seiten sind schon sehr verschachtelt aufgebaut. Da wäre es bald besser wenn so ein Scraping Tool gleich den Code liesst.

    Dazu kommt das vieles nach geliefert wird beim Scrollen zb.

    Beispiel hier ist ein Video eingebettet das in "meinen" Tool scheinbar nicht erkannt wird, ignoriert wird: https://konzern.oebb.at/

    Und hier zb. muss man (Datenschutzkonform) erst mal klicken auf das Bild damit Youtube geladen wird: https://www.rtl-sdr.com/instal…-and-gqrx-on-a-pinephone/

    Von den anderen HTML 5 sachen nicht zu sprechen...

  • Also ich weiß jetzt nicht ob "phantomjs" das modernste ist aber dafür hab ich ein Script gefunden was aus einer Seite ein Original PDF erzeugt als ob sie mit Firefox besucht worden wäre. Dafür muss man einigermasen :) fit sein in Java-Script :) :) (sehr schwer meiner Ansicht nach)

  • In meinen fall würde Ich mich einfach dafür interessieren später mal nach Youtube Links die auf Webseiten eingebettet sind zu suchen die nicht in Youtube gelistet sind.

    Soll dann automatisiert das ganze Internet abgesucht werden, indem du von einer Seite zur nächsten springst und jede Unterseite nach eingebetteten YouTube-Videos suchst? Da kannst du ja schon fast die Video-IDs von YouTube brute-forcen und diejenigen aussortieren, die auf ein nicht gelistetes Video führen (

    External Content www.youtube.com
    Content embedded from external sources will not be displayed without your consent.
    Through the activation of external content, you agree that personal data may be transferred to third party platforms. We have provided more information on this in our privacy policy.
    ).

    Kelvin

  • Hallo meine Lieben ka wieso Ich keine Benachrichtigung bekommen habe ka...

    Soll dann automatisiert das ganze Internet abgesucht werden

    Nein nur gewisse Seiten wie zb: https://www.alstom.com/our-sol…xperience-very-high-speed

    Da haben Sie das eingebettet: https://cdn.streamlike.com/pla…true&pid=27010c34065eb2bb


    indem du von einer Seite zur nächsten springst und jede Unterseite nach eingebetteten YouTube-Videos suchst?

    Ja von den einzelnen Firmen ja die Ich absuchen will.