Datenerhebung im Fokus

Digital behavioral data - Session 03

09.11.2022

Seminarplan

Sitzung Datum Thema Referent*Innen
1 26.10.2022 Kick-Off Session Christoph Adrian
2 02.11.2022 DBD: Einführung und Überblick Christoph Adrian
3 09.11.2022 DBD: Datenerhebung Christoph Adrian
4 16.11.2022 API-Access (I): Twitter Falk
5 23.11.2022 API-Access (II): YouTube Denisov
6 30.11.2022 API-Access (II): Reddit Landauer
7 07.12.2022 Webscraping: TikTok Brand & Kocher
8 14.12.2022 ESM: m-path Dörr
WEIHNACHTSPAUSE
9 12.01.2023 Data Donations
10 19.01.2023 Mock-Up-Virtual Environments
11 26.01.2023 Open Science
12 02.02.2023 Guest Lecture: Linking DBD & Survey data Johannes Breuer
13 09.02.2023 Semesterabschluss & Evaluation Christoph Adrian

Agenda

  1. 📢️ Organisation & Koordination
  2. Warum Digital Behavioral Data?
  3. Wie kommen wir an DBD?
  4. Mehr Daten, mehr Probleme
  5. Verständnis- & Diskussionsfragen
  6. 👥 Group Activity

📢 Organisation & Koordination

Hinweis zu den Präsentationen

Brace yourself, presentations are coming!

Allgemeine Hinweise rund um die Präsentation


📑 Denken Sie bitte an die Fragen zur Pflichtlektüre!


🕦 Office Hours bzw. Feedbackgespräch nach dem Kurs


🔍 Info zu den Evaluationskriterien


Fragen

Warum Digital Behavior Data?

Beispielhafte Nutzungsszenarien

Die Power von Social Sensing

Forschungsdesign zur Erhebung digitaler Verhaltensdaten (Flöck & Sen, 2022)

Mit Fokus auf die Platform

Forschungsdesign zur Erhebung digitaler Verhaltensdaten (Flöck & Sen, 2022)

Online-Plattformen prägen die Gesellschaft

Gründe für den Fokus auf Onlineplattformen (Ulloa, 2021)


  • vermitteln & formen menschliche Kommunikation (z.B. Tweet mit 280 Zeichen)

  • politische (Miss-)Nutzung

  • Gatekeeper für Informationen (z.B. “Dr.Google”)

  • tägliche algorithmische Empfehlungen und Werbung: Nachrichten, Produkte, Jobangebote, Bewerbungen, Versicherungen, Hotels, …

Aber welche? Und warum?

Denken Sie über Ihre Forschungsfrage nach … (Ulloa, 2021)

  • welche Population ist vertreten?
  • welche Arten von Interaktionen sind wichtig? (z. B.: eins zu eins oder eins zu vielen)
  • Welche Interaktionsregeln sind wichtig?
  • Bietet die Plattform Zugang zu den benötigten Daten?
    • Wenn nicht, gibt es alternative Weg um an die Daten zu gelangen?
    • Wenn ja, ist dies legal/ethisch?

ABER:

Beachten Sie die der Art und Weise, wie Sie die Daten sammeln!

Wie kommen wir an DBD?

Web Scraping & Web APIs

Possibilities over possibilities

Beispiele für verschiedene Datenquellen

Automatisiertes Browsing

Daten-Spenden

Direkter Zugang

Repositories

Web-APIs

Web Scraping / Crawling

Web-Tracking

Bedeutung ist eine Frage der Disziplin

Application Programming Interfaces [APIs] im Fokus


Informatik:

  • z.B. Routinen, die Maschineninteraktionen strukturieren.

Sozialwissenschaften:

  • Client-Server-Interaktionen (Web-APIs), zur Abfrage von Daten aus einem Dienst

Merke:

In dieser Präsentation bezieht sich der Begriff API in der Regel bzw. wenn nicht anders erwähnt auf die sehr enge Teilmenge von (spezifischen) Web-APIs.

API endet, wo Scraping beginnt

Zentrale Unterschiede in der Vorgehensweise


Typische Vorgehen beim Web-Scraping als zweistufiger Prozess:

  1. Abfrage an Server senden, um eine bestimmte Ressource, häufig ein HTML-Dokument, anzufordern

  2. (Häufig sehr aufwändige) Extraktion der relevanten Information aus dem HTML-Dokument

API im Vergleich:

  • Erster Schritt ähnlich wie beim Web-Scraping, aber API legen fest, welche Art von Informationen angefordert werden können und wie das Format einer gültigen Abfrage aussieht

API endet, wo Scraping beginnt

Zentrale Unterschiede in der Vorgehensweise

Typische Vorgehen beim Web-Scraping als zweistufiger Prozess:

  1. Abfrage an Server senden, um eine bestimmte Ressource, häufig ein HTML-Dokument, anzufordern

  2. (Häufig sehr aufwändigere) Extraktion der relevanten Information aus dem HTML-Dokument

API im Vergleich:

  • Erster Schritt ähnlich wie beim Web-Scraping, aber API legen fest, welche Art von Informationen angefordert werden können und wie das Format einer gültigen Abfrage aussieht

Zusammengefasst:

  • API-Zugriff = kontrolliertes Scraping

  • Hauptunterschied liegt in der “Antwort” des Server (“Einfaches” Datenformat bei API, statt komplettes HTML-Dokument beim Scraping)

Kurze Einführung

(Web) Application Programming Interface (API)

Scraping oder API?

Vor- und Nachteile

Web scraping

👍 WYSIWYG-Prinzip

👎 viel Programmierung

👎 Verstößt häufig gegen die AGBs

APIs

👎 Platform bestimmt Inhalte & Limits

👍 wenig Programmierung

👍 API selbst verhindert Verstöße gegen AGBs

Schlüsseltechnologie für Übertragung der Nachrichten

Hypertext transfer protocol (HTTP)

Zwei für die API-Abfrage wichtige Aspekte dieser Nachrichten:

  • Uniform Resource Locator (URL), bestehend aus dem Protokoll, der Domain und dem Pfad zu einer spezifischen Ort der “Ressource”

    Beispiel: https://en.wikipedia.org/wiki/API


  • Austausch der Nachrichten hauptsächlich über GET- und POST-Methode. Bei GET-Methode werden die Abfrageparameter an die URL angehängt, bei der POST-Methode in den Textkörper der Nachricht aufgenommen

    Beispiel: https://en.wikipedia.org/w/index.php?search=API&fulltext=1

XML & JSON

Beispiele für prominente Formate von API-Exporten

XML (HTML ähnlich)

<dataformats>
  <formats>
    <names>XML</names>
    <file_extension>.xml</file_extension>
  </format>
  <formats>
    <names>JSON</names>
    <file_extension>.json</file_extension>
  </format>
</dataformats>

XML (Alternative)

<dataformats>
  <formats name="XML" file_extension=".xml"/>
  <formats name="JSON" file_extension=".json"/>
</dataformats>

JSON

{"dataformats":[
  {"name":"XML", "file_extension":".xml"},
  {"name":"JSON", "file_extension":".JSON"},
]}

Koordination, nicht Bereitstellung

Implikationen der Nutzen von APIs

  • Query- bzw. Abfragesystem (basierend auf Parametern)

  • Programmierung notwendig (API scraping)

  • Daten nicht im Tabellenformat, sondern in JSON/XML

  • Ergebnisse werden in “Chunks” geliefert (z.B. 100 “Reihen”)

  • Limit: Anfragen/MB pro Minuten

ABER:

Immer häufiger auch für die gezielte Bereitstellung von Daten genutzt

Mehr Daten, mehr Probleme

Daten, Datenquellen und Erhebungsdesigns als Quelle von Bias

Know your bias!

Ein Framework zur Minimierung von Bias (Olteanu et al., 2019)

Bias at the source

Potentielle Probleme mit der Datenquelle oder -herkunft

  • Biases, die auf das Design und die Möglichkeiten der Plattformen zurückzuführen sind (functional biases).

  • Verhaltensnormen, die auf den einzelnen Plattformen bestehen oder sich herausbilden (normative biases).

  • Faktoren, die außerhalb der sozialen Plattformen liegen, aber das Nutzerverhalten beeinflussen können (external biases)

  • Vorhandensein von nicht-individuellen Konten ein (non-individuals).

Be aware when collecting data

Potentielle Probleme bei der Datenerhebung

  • Akquisition: Abhängig von den Daten, die von Plattformen erfasst und zur Verfügung gestellt werden, den für den Zugang gesetzten Grenzen und von der Art und Weise, wie der Zugang gewährt wird.

  • Abfrage: APIs basieren auf unterschiedlich Dokumentationen sowie Arten von (unterstüzten) Abfragen.

  • Filterung: In der Regel impliziert die Entscheidung, bestimmte Daten zu entfernen, die Annahme, dass sie für eine Studie nicht relevant sind. Dies ist hilfreich, wenn die Annahme zutrifft, und schädlich, wenn sie nicht zutrifft.

Handle with care

Potentielle Probleme bei der Datenverarbeitung

  • Bereinigung: Können die Überzeugungen der Wissenschaftler*Innen über ein Phänomen sowie das System im Allgemeinen in den Datensatz einbetten und in falschen oder irreführenden Datenmustern resultieren

  • Anreicherung: Sowohl manuelle als auch automatische Annotation ( (z.B. Part-of-Speech Tagging) sind fehleranfällig und können sowohl bestehende Verzerrungen verschärfen als auch neue Verzerrungen und Fehler einführen.

  • Aggregation: Die Art und Weise, wie diese Aggregationen vorgenommen werden, oder welche Informationen sie komprimieren, kann zu unterschiedlichen Schlussfolgerungen führen.

Pre-Regestrierung statt HARKing

Methodische Fallstricke bei der Analyse von Daten

Die Wahl einer Analysemethode spiegelt in der Regel die Erfahrung und den Blickwinkel der Forschenden wider und kann verschiedene Bedenken hervorrufen, wie z. B.

  1. die Verwendung von Daten als Quelle für Hypothesen und nicht als Instrument zu deren Prüfung;

  2. die Anpassung der Forschungsagenda an die Datenverfügbarkeit, was zu Verzerrungen bei der Art der gestellten Fragen führen kann; oder

  3. das Testen mehrerer Hypothesen, bis ein signifikantes, positives Ergebnis gefunden wird (“feature hunting”)

Offenheit und Transparenz als Lösung statt als Problem

Probleme bei der Auswertung und Interpretation der Ergebnisse

  • Auswahl der Messgrößen: Besonders bei latenten Konstrukten ist die Art der Operationalisierung (z. B. Sharing-Muster als Näherungswert für Beliebtheit) entscheidend für die Aussagekraft der Studie(n)

  • Bewertung und Interpretation der Ergebnisse: Abhängig von den ursprünglichen Annahmen (z.B. dass soziale Online-Spuren in gewisser Weise quantifizierbare Phänomene der realen Welt

  • Disclaimer und Reproduzierbarkeit: Um die Reproduzierbarkeit (durch standardisierte experimentelle Methoden) zu fördern, ist die Entwicklung von Standardbewertungsverfahren und -metriken notwendig

Final Takeaways

Abschließende Bewertung der Arbeit mit DBD

  • Viele Möglichkeiten zur Untersuchung verschiedener Forschungsfragen

  • Die (begründete) Auswahl der Plattform, die für die Forschung dienen soll, ist wichtig

  • APIs sind nicht für Forschende gedacht, um auf Daten zuzugreifen.

  • APIs bieten Zugang zu Modellen des maschinellen Lernens:

    • Bei “langweilige” Annotationsaufgabe lohnt sich die Suchen nach einer API. Die Chancen stehen gut, dass bereits eine API für diese Aufgabe existiert.

Empfehlungen:

Know your biases and validate, validate, validate!

Verständnis- & Diskussionsfragen

Ihre Fragen aus MS Teams

Vielen Dank für Ihre Fragen!

Die Vernetzung in unserer Welt nimmt immer mehr zu und Prozesse müssen perfekt aufeinander abgestimmt sein. Es gibt eine riesige Menge an verschiedenen APIs und unsere Abhängigkeit von ihnen wird zunehmend größer. Aber wie zuverlässig sind APIs eigentlich und wie kann ein API-Missbrauch aussehen?

Facebook und andere Plattformen haben den Zugang zu Nutzerdaten über ihr API aus Datenschutzgründen stark eingeschränkt. Jedoch kann bislang jede Organisation individuell darüber entscheiden, welche Restriktionen es in dieser Hinsicht geben soll. Sollte es übergreifende „Regeln” für APIs geben, die von jedem einzuhalten sind? Wenn ja, könnten Verstöße strafrechtlich verfolgt werden?

Mithilfe von APIs kann man verhältnismäßig einfach an Daten gelangen. Jedoch sind die Algorithmen hinter den Plattformen oft nicht nachvollziehbar (z.B. woher kommen personalisierte Empfehlungen). Können die extrahierten Daten tatsächlich interpretiert werden, wenn die Entstehung nicht nachvollziehbar ist?

Web-APIs erfordern grundlegende Programmierkenntnisse, um den Zugang zu ermöglichen. Leider gibt es bislang keine effizienten Alternativen. Gibt es potentielle Ansätze, um diese Hürde auf eine andere Art und Weise zu überwinden.

👥 Group Activity

Gruppenarbeit zu WikiWho & WhoColor API

Mehr als eine Enzyklopädie

Die Vielfalt von Wikipedia

… als soziales Netzwerk der Zusammenarbeit

  • 20K aktive Redakteur*Innen pro Monat (englisches Wikipedia)

  • Wikipedia-Seitengespräche (wo Diskussionen über Artikelüberarbeitungen stattfinden)

  • Aufzeichnung aller Überarbeitungen

  • Quellen (Referenzen), die den Inhalt unterstützen (Zagovora et al., 2020)

… als eine Vielzahl von APIs und Tools, die damit verbunden sind, z. B:

Im Fokus: WikiWho & WhoColor API

Auswertung von Änderungen und Interaktionen auf überarbeiteten Schreibplattformen.

Kernfunktionalität von WikiWho

  • Bei einem revidierten Textdokument werden aller historischen Revisionen (Versionen) analysiert, um herauszufinden, wer welchen genauen Text auf Token-Ebene in welcher Revision geschrieben und/oder entfernt und/oder wieder eingefügt hat

  • Für jedes Token (~Wort) ist seine individuelle Hinzufügungs-/Entfernungs-/Wiedereinfügungsgeschichte verfügbar.

… in Kombination mit WhoColor API

  • Beim Öffnen eines Wikipedia-Artikels wird eine farbliche Markierung des Textes erstellt, die die ursprünglichen Autor:Innen des Inhalts, eine Autor:Innenliste, geordnet nach dem prozentualen Anteil an der Erstellung des Artikels, und zusätzliche Herkunftsinformationen anzeigt.

  • Es kann auch Konflikte in Bezug auf bestimmte Textteile und die Historie des Hinzufügens/Löschens eines bestimmten Wortes anzeigen.

Beispiel:

And now … you!

Anwendung von WhoColor API

Erster Schritt:

Zweiter Schritt:

  • Sobald Sie eine der *Monkey-Erweiterungen erfolgreich installiert haben, gehen Sie zu whocolor.user.js.

  • Ihre *monkey-Browsererweiterung sollte Ihnen dann automatisch eine Installationsaufforderung anzeigen, die Sie bestätigen müssen.

Dritter Schritt:

Öffnen Sie entweder den Wikipedia-Artikel von Donald Trump oder Elon Musk und wenden Sie das “WhoColor”-Plugin an.




Vierter Schritt: Explore!

Was fällt Ihnen auf …

  • bezüglich der Editors List?

  • mit Blick auf besonders “konfliktreiche” Stellen?

  • mit Blick auf aktuelle Veränderungen?

Many more APIs to access data

  • Suchmaschinen-APIs (Google, Bing)

  • Staatliche Daten (abgeordnetenwatch.de, data.gov, data.gov.uk, open-data.europa.eu)

  • Internationale Agenturen: UN, WHO, die Weltbank

  • Nachrichtenorganisationen: BBC, The New York Times, The Guardian, NPR, USA Today und ZEIT Online

  • Wissenschaftliche Archive und Fachzeitschriften: arXiv, PLoS, Mendeley

  • Metadaten von Daten: Dryad (https://datadryad.org/api/v2/docs/), Figshare (https://docs.figshare.com/)

  • Musik: Spotify, Soundcloud

Time for questions

Bis zur nächsten Sitzung!

Literatur

Flöck, F., & Acosta, M. (2014). the 23rd international conference. 843–854. https://doi.org/10.1145/2566486.2568026
Flöck, F., & Sen, I. (2022). Digital traces of human behaviour in online platforms research design and error sources. https://www.gesis.org/fileadmin/user_upload/MeettheExperts/GESIS_Meet_the_experts_Digitaltraces_humanbehaviour.pdf
Olteanu, A., Castillo, C., Diaz, F., & Kıcıman, E. (2019). Social data: Biases, methodological pitfalls, and ethical boundaries. Frontiers in Big Data, 2, 13. https://doi.org/10.3389/fdata.2019.00013
Ulloa, R. (2021). Introduction to online data acquisition. https://www.gesis.org/fileadmin/user_upload/MeettheExperts/GESIS_Meettheexperts_Introductioncss.pdf
Zagovora, O., Ulloa, R., Weller, K., & Flöck, F. (2020). ’I updated the ’: The evolution of references in the english wikipedia and the implications for altmetrics. https://doi.org/10.48550/ARXIV.2010.03083