Informationsextraktion von Webseiten via RoadRunner

Autor:	Pawel Broda
EAN:	9783640518449
eBook Format:	PDF
Sprache:	Deutsch
Produktart:	eBook
Veröffentlichungsdatum:	26.01.2010
Kategorie:	Computer
Schlagworte:	extraktion von webseiten information extraktion information retrieval informationsextraktion internet roadrunner web data mining webseiten wrapper

13,99 €*

inkl. MwSt.

zzgl. Versandkosten

(ab 25 Euro versandkostenfrei) *außer auf ausgewälte Artikel

Versandkostenfrei

Die Verfügbarkeit wird nach ihrer Bestellung bei uns geprüft.
Bücher sind in der Regel innerhalb von 1-2 Werktagen abholbereit.

Forschungsarbeit aus dem Jahr 2009 im Fachbereich Didaktik - Informatik, Note: 1, Ludwig-Maximilians-Universität München (Centrum für Informations- und Sprachverarbeitung), Veranstaltung: Web Data Mining, Sprache: Deutsch, Abstract: Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt. Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt. In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Verwandte Artikel

Informationsextraktion von Webseiten via RoadRunner Broda, Pawel

17,95 €*

Weitere Produkte vom selben Autor

Download

PDF/ePUB

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Pawel Broda

29,99 €*

Download

PDF

Spam in der Suchmaschinenoptimierung. Motivation, Techniken und Konsequenzen Pawel Broda

15,99 €*

Download

PDF/ePUB

Wortbildungslehre nach Erben und Naumann - ein kontrastiver Vergleich Pawel Broda

15,99 €*