forked from malteschmitz/latex-thesis
-
Notifications
You must be signed in to change notification settings - Fork 0
/
einleitung.tex
23 lines (17 loc) · 1.22 KB
/
einleitung.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
%!TEX root = thesis.tex
\chapter{Einleitung}
Dieses Tutorial behandelt das Thema Web Scraping mit Python.
Web Scraping ermöglicht die Extraktion einzelner Daten aus den komplexen Strukturen von Webinhalten.
Auf diese Weise lassen sich Webseiten, auf denen Daten in einer semi- oder unstrukturierten Form vorliegen, als Datenquelle anbinden.
\section{Setup}
Das Tutorial orientiert sich am Python Version 3 Standard.
Die Version dient als Grundlage für den Nachvollzug der nachfolgend beschriebenen Schritte.
Für das Web Scraping wird das Python Package BeautifulSoup Version 4 (kurz: BS4) verwendet.
HMTL-Inhalte werden mit dem Python Paket \texttt{requests} aus dem Internet geladen.
\section{Aufbau}
Neben dieser Einleitung gliedert sich das Tutorial in die folgenden Abschnitte.
\begin{description}
\item[\ref{chapter-installation}] beschreibt die Installation von BS4.
BS4 ist, zusammen mit Python 3, die grundlegende Technik für dieses Tutorial.
\item[\ref{chapter-anwendung}] behandelt drei Schritte, die für ein erfolgreiches Web Scraping nötig sind. Den Bezug von HTML-Daten über das Python Paket \texttt{requests}, das Einparsen und letzendlich die Selektion der Daten mit dem Python Paket \texttt{bs4}.
\end{description}