Methodik | Ibrahim Güven

Datenbeschaffung und -integration

In dieser Arbeit wurden die Daten von der Immobilienplattform „Immobilienscout24“ verwendet. Der entsprechende Datensatz (RWI; ImmobilienScout24, 2023) wurde auf Antrag des RWI-Leibniz-Instituts für Wirtschaftsforschung e.V. als Scientific-Use-File (SUF) bzw. nur für wissenschaftliche Forschungszwecke beschaffen. Vom Datensatz wurden zur Bewertung insgesamt 23 relevante Merkmale (wie Wohnfläche, Lage, Zimmeranzahl, Objektzustand, Baujahr, Etage, Wohngeld, Keller, Balkon, Garage, Aufzug, Heizungsart usw.) von Wohnimmobilien, die in Berlin von 2019 bis 2022 zum Verkaufen angeboten wurden, ausgewählt.

Die Integration von Geoinformationssystemen (GIS)-Funktionalitäten sowie räumlichen Analysewerkzeugen ist von zentraler Bedeutung, um den Standortfaktor in die Immobilienbewertung einzubeziehen. Innerhalb dieser Arbeit wurden öffentliche geographische Daten von Berlin aus verschiedenen Kategorien wie Gesundheit, Schulen, Kindertagesstätten (Kitas), Einkaufsmöglichkeiten, Gastronomie, öffentliche Verkehrsmittel (Bus, Tram, S- und U-Bahn), Grünflächen sowie Freizeiteinrichtungen von OpenStreetMap (OSM) als GeoJSON über die Overpass-API abgerufen und verwendet. Des Weiteren wurden Daten zur Wohnlage und Informationen zu Verkehrslärm für jede Adresse über den Web Feature Service (WFS) des Geoportals Berlin mithilfe der Endpunkt-API (Geoportal Berlin, 2023) abgerufen und genutzt.

Datenbereinigung und Vorbereitung

Die Daten-Vorbereitungsphase beinhaltete Schritte wie die Erkennung und Entfernung von Ausreißern sowie Merkmalen, die nicht signifikant mit dem Zielmerkmal korrelieren, die Behandlung von fehlenden Werten (Data Imputation), die Kodierung kategorialer Merkmale und schließlich die Skalierung sowie Transformation der Daten. Zusätzlich erfolgte die Aufteilung der Daten in Trainings- und Testdaten.

Auswahl der Entwicklungsumgebung, Programmiersprache und Bibliotheken

Für die Implementierung wurde als Entwicklungsumgebung Google Colaboratory mit GPU des Google Compute Engine-Back-Ends in Python-Programmiersprache verwendet. Für die Durchführung der Analyse wurden diverse externe Python-Bibliotheken genutzt. Hierzu gehören beispielsweise Numpy für wissenschaftliches Rechnen, Pandas zur Bearbeitung und Analyse der Daten, Matplotlib zur Erstellung von Diagrammen und Grafiken, sowie Seaborn für statistische Datenvisualisierungen. Des Weiteren kam Scikit-Learn (sklearn) zum Einsatz, um verschiedene Algorithmen für maschinelles Lernen zu verwenden. Missingno wurde verwendet, um fehlende Daten in unserem Datensatz visuell darzustellen. Schließlich wurden TensorFlow und Keras verwendet, um das KNN-Modell zu entwickeln. Keras ist eine benutzerfreundliche High-Level-API von TensorFlow.

EDA und Feature Engineering

Bevor das KNN-Modell trainiert und getestet wird, müssen die Daten für maschinelles Lernen vorbereitet werden. Zu diesem Zweck wurde der Datensatz unter Berücksichtigung der explorativen Datenanalyse (EDA) und des Feature Engineerings vorverarbeitet. Bei der Anwendung im maschinellen Lernen zielt die explorative Datenanalyse darauf ab, die Qualität des Datensatzes zu prüfen und ein Verständnis für die Daten zu entwickeln. Feature Engineering, ein weiterer wesentlicher Schritt, beinhaltet das Erstellen von neuen Input-Features aus den vorhandenen Daten, um die Vorhersagegenauigkeit von maschinellen Lernmodellen zu verbessern. Es beinhaltet Techniken wie Kodierung, Normalisierung und Transformation von Daten (vgl. Guyon & Elisseeff, 2006).

Entwicklung der KNN-Modelle

In dieser Masterarbeit wurden zwei verschiedene KNN-Modelle entwickelt und verglichen.
Für die Entwicklung der KNN-Modelle wurden neben den Daten von Immobilienscout24 auch Informationen aus Open Street Map und dem Geoportal Berlin integriert.
Das erste Modell wurde ohne die Integration von Geodaten trainiert und getestet, während das zweite Modell die Geodaten berücksichtigt. Der Zweck bestand darin, die Auswirkungen der Geodaten auf die Genauigkeit des KNN-Modells zu untersuchen und die Einflussgrößen dieser Daten auf die Vorhersageleistung zu ermitteln. Zur Evaluation der KNN-Modelle wurden der mittlere absolute Fehler (Mean Absolute Error, MAE), der relative mittlere Fehler (RME) und R2-Score verwendet.

Bewertung einer exemplarischen Wohnung mit dem Vergleichswertverfahren nach ImmoWertV

Zusätzlich wurde eine zufällig ausgewählte Wohnung aus dem Testdatensatz mithilfe des traditionellen Vergleichswertverfahrens gemäß ImmoWertV bewertet. Aufgrund der ungenauen Standortinformationen der Wohnungen im Datensatz wurde die Beispielwohnung anhand des INSPIRE-Quadrates identifiziert.