Das will ich wohl glauben, wie komplex das Thema ist. Schon die genannten Wiki-Seiten zeigen, wie versteckt der über den Browser gut lesbare Text ist.
Trotzdem will ich noch ein bischen rummäkeln:
Aufgabenstellung ist, die 1. Zeile anzuzeigen (oder auch 1. Absatz)
Beispiel "Kulturapfel" zeigt, dass das 1. p-Tag nicht immer die 1. Zeile ist.
Hier hat sich zufällig(?) ein Bild vorgemogelt.
Beispiel "Volkswagen" zeigt, dass die 1. Zeile auch relativ kurz sein kann.
Einfach die Länge auf 60 setzen reicht auch nicht. Man schaue sich die 1. Bildunterschrift zu "Leutheusser-Schnarrenberger" an: satte 110 Zeichen.
Zusätzlich noch das Suchwort nehmen, hilft auch nicht. In vielen Beispielen ist im obersten Bild das Suchwort auch vorhanden, siehe "Kulturapfel"
Es fehlt noch ein weiteres Kriterium.
Ich habe mir die Wiki-Seiten noch mal angeschaut. Was mir noch aufgefallen ist, dass das Suchwort in im 1. Absatz fett gedruckt wird, also mit dem Tag "<b>"
Es geht vielleicht Folgendes (in einem bash-script, Kulturapfel nach Wunsch ersetzen)
wget http://de.wikipedia.org/wiki/Kulturapfel
grep "<p>" Kulturapfel | grep -m 1 "<b>" | sed "s|<[^<]*>||g"
Warte auf Gegenbeispiele
Edit (just for fun):
Als Einzeiler:
wget -q -O - http://de.wikipedia.org/wiki/Kulturapfel | grep "<p>" | grep -m 1 "<b>" | sed "s|<[^<]*>||g"
Ist zwar nicht die Frage, aber mit lynx kann man sich die HTML-Seite auch als Textdatei holen.
lynx -dump http://de.wikipedia.org/wiki/Kulturapfel > Kulturapfel.txt