Wer betreibt einen Web Scraping Dienst auf seinen Gerät?

Heute ist Stammtischzeit:
Jeden Donnerstag 20:30 Uhr hier im Chat.
Wer Lust hat, kann sich gerne beteiligen. ;)
  • :rolleyes: Mich würde einfach nur mal interessieren ob jemand von euch einen Web Scrapping Dienst laufen hat der nach neuen Daten sucht auf div. Seiten?

    Für Windows kenne Ich "nur" https://www.screamingfrog.co.uk/seo-spider/ was Ich mal verwendet habe. In meinen fall würde Ich mich einfach dafür interessieren später mal nach Youtube Links die auf Webseiten eingebettet sind zu suchen die nicht in Youtube gelistet sind. Dazu noch PDF Dokumente und anderes.

    Ich kenne ein paar Videos wo Leute sowas erklären was die machen und wie die Daten auswerten aber leider nicht wie man so einen scrapper einrichtet für laien.

    THX!

  • Wer betreibt einen Web Scraping Dienst auf seinen Gerät?? Schau mal ob du hier fündig wirst!

  • Also ich hab ein bash-script mit dem Hauptbestand: lynx (apt install lynx)

    Eine Seite als Text speichern:

    lynx -dump Seite.html > Seite.text

    Nur die links z.B für pdf usw

    lynx -dump -listonly Seite.html >Seite_links.txt

    Ein großes Problem ist das es kein java-Script kann, weil die meisten Seiten ihre Inhalte über Java-script zusammen setzten.

  • Ein großes Problem ist das es kein java-Script kann, weil die meisten Seiten ihre Inhalte über Java-script zusammen setzten.

    Ja viele Seiten sind schon sehr verschachtelt aufgebaut. Da wäre es bald besser wenn so ein Scraping Tool gleich den Code liesst.

    Dazu kommt das vieles nach geliefert wird beim Scrollen zb.

    Beispiel hier ist ein Video eingebettet das in "meinen" Tool scheinbar nicht erkannt wird, ignoriert wird: https://konzern.oebb.at/

    Und hier zb. muss man (Datenschutzkonform) erst mal klicken auf das Bild damit Youtube geladen wird: https://www.rtl-sdr.com/installing-and…on-a-pinephone/

    Von den anderen HTML 5 sachen nicht zu sprechen...

  • Also ich weiß jetzt nicht ob "phantomjs" das modernste ist aber dafür hab ich ein Script gefunden was aus einer Seite ein Original PDF erzeugt als ob sie mit Firefox besucht worden wäre. Dafür muss man einigermasen :) fit sein in Java-Script :) :) (sehr schwer meiner Ansicht nach)

  • In meinen fall würde Ich mich einfach dafür interessieren später mal nach Youtube Links die auf Webseiten eingebettet sind zu suchen die nicht in Youtube gelistet sind.

    Soll dann automatisiert das ganze Internet abgesucht werden, indem du von einer Seite zur nächsten springst und jede Unterseite nach eingebetteten YouTube-Videos suchst? Da kannst du ja schon fast die Video-IDs von YouTube brute-forcen und diejenigen aussortieren, die auf ein nicht gelistetes Video führen (

    Externer Inhalt www.youtube.com
    Inhalte von externen Seiten werden ohne deine Zustimmung nicht automatisch geladen und angezeigt.
    Durch die Aktivierung der externen Inhalte erklärst du dich damit einverstanden, dass personenbezogene Daten an Drittplattformen übermittelt werden. Mehr Informationen dazu haben wir in unserer Datenschutzerklärung zur Verfügung gestellt.
    ).

    Kelvin

  • Hallo meine Lieben ka wieso Ich keine Benachrichtigung bekommen habe ka...

    Soll dann automatisiert das ganze Internet abgesucht werden

    Nein nur gewisse Seiten wie zb: https://www.alstom.com/our-solutions/…very-high-speed

    Da haben Sie das eingebettet: https://cdn.streamlike.com/play?med_id=92f2a47509b287d5&width=100%&autostart=true&pid=27010c34065eb2bb

    indem du von einer Seite zur nächsten springst und jede Unterseite nach eingebetteten YouTube-Videos suchst?

    Ja von den einzelnen Firmen ja die Ich absuchen will.

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!