Digital behavioral data - Session 03
09.11.2022
Sitzung | Datum | Thema | Referent*Innen |
---|---|---|---|
1 | 26.10.2022 | Kick-Off Session | Christoph Adrian |
2 | 02.11.2022 | DBD: Einführung und Überblick | Christoph Adrian |
3 | 09.11.2022 | DBD: Datenerhebung | Christoph Adrian |
4 | 16.11.2022 | API-Access (I): Twitter | Falk |
5 | 23.11.2022 | API-Access (II): YouTube | Denisov |
6 | 30.11.2022 | API-Access (II): Reddit | Landauer |
7 | 07.12.2022 | Webscraping: TikTok | Brand & Kocher |
8 | 14.12.2022 | ESM: m-path | Dörr |
WEIHNACHTSPAUSE | |||
9 | 12.01.2023 | Data Donations | |
10 | 19.01.2023 | Mock-Up-Virtual Environments | |
11 | 26.01.2023 | Open Science | |
12 | 02.02.2023 | Guest Lecture: Linking DBD & Survey data | Johannes Breuer |
13 | 09.02.2023 | Semesterabschluss & Evaluation | Christoph Adrian |
Hinweis zu den Präsentationen
📑 Denken Sie bitte an die Fragen zur Pflichtlektüre!
🕦 Office Hours bzw. Feedbackgespräch nach dem Kurs
🔍 Info zu den Evaluationskriterien
❓ Fragen
Beispielhafte Nutzungsszenarien
vermitteln & formen menschliche Kommunikation (z.B. Tweet mit 280 Zeichen)
politische (Miss-)Nutzung
Gatekeeper für Informationen (z.B. “Dr.Google”)
tägliche algorithmische Empfehlungen und Werbung: Nachrichten, Produkte, Jobangebote, Bewerbungen, Versicherungen, Hotels, …
ABER:
Beachten Sie die der Art und Weise, wie Sie die Daten sammeln!
Web Scraping & Web APIs
Automatisiertes Browsing
Daten-Spenden
Direkter Zugang
Repositories
Web-APIs
Web Scraping / Crawling
Web-Tracking
…
Informatik:
Sozialwissenschaften:
Merke:
In dieser Präsentation bezieht sich der Begriff API in der Regel bzw. wenn nicht anders erwähnt auf die sehr enge Teilmenge von (spezifischen) Web-APIs.
Typische Vorgehen beim Web-Scraping als zweistufiger Prozess:
Abfrage an Server senden, um eine bestimmte Ressource, häufig ein HTML-Dokument, anzufordern
(Häufig sehr aufwändige) Extraktion der relevanten Information aus dem HTML-Dokument
API im Vergleich:
Typische Vorgehen beim Web-Scraping als zweistufiger Prozess:
Abfrage an Server senden, um eine bestimmte Ressource, häufig ein HTML-Dokument, anzufordern
(Häufig sehr aufwändigere) Extraktion der relevanten Information aus dem HTML-Dokument
API im Vergleich:
Zusammengefasst:
API-Zugriff = kontrolliertes Scraping
Hauptunterschied liegt in der “Antwort” des Server (“Einfaches” Datenformat bei API, statt komplettes HTML-Dokument beim Scraping)
Web scraping
👍 WYSIWYG-Prinzip
👎 viel Programmierung
👎 Verstößt häufig gegen die AGBs
APIs
👎 Platform bestimmt Inhalte & Limits
👍 wenig Programmierung
👍 API selbst verhindert Verstöße gegen AGBs
Zwei für die API-Abfrage wichtige Aspekte dieser Nachrichten:
Uniform Resource Locator (URL
), bestehend aus dem Protokoll, der Domain und dem Pfad zu einer spezifischen Ort der “Ressource”
Beispiel: https://en.wikipedia.org/wiki/API
Austausch der Nachrichten hauptsächlich über GET
- und POST
-Methode. Bei GET
-Methode werden die Abfrageparameter an die URL angehängt, bei der POST
-Methode in den Textkörper der Nachricht aufgenommen
Beispiel: https://en.wikipedia.org/w/index.php?search=API&fulltext=1
XML (HTML ähnlich)
Query- bzw. Abfragesystem (basierend auf Parametern)
Programmierung notwendig (API scraping)
Daten nicht im Tabellenformat, sondern in JSON/XML
Ergebnisse werden in “Chunks” geliefert (z.B. 100 “Reihen”)
Limit: Anfragen/MB pro Minuten
ABER:
Immer häufiger auch für die gezielte Bereitstellung von Daten genutzt
Daten, Datenquellen und Erhebungsdesigns als Quelle von Bias
Biases, die auf das Design und die Möglichkeiten der Plattformen zurückzuführen sind (functional biases).
Verhaltensnormen, die auf den einzelnen Plattformen bestehen oder sich herausbilden (normative biases).
Faktoren, die außerhalb der sozialen Plattformen liegen, aber das Nutzerverhalten beeinflussen können (external biases)
Vorhandensein von nicht-individuellen Konten ein (non-individuals).
Akquisition: Abhängig von den Daten, die von Plattformen erfasst und zur Verfügung gestellt werden, den für den Zugang gesetzten Grenzen und von der Art und Weise, wie der Zugang gewährt wird.
Abfrage: APIs basieren auf unterschiedlich Dokumentationen sowie Arten von (unterstüzten) Abfragen.
Filterung: In der Regel impliziert die Entscheidung, bestimmte Daten zu entfernen, die Annahme, dass sie für eine Studie nicht relevant sind. Dies ist hilfreich, wenn die Annahme zutrifft, und schädlich, wenn sie nicht zutrifft.
Bereinigung: Können die Überzeugungen der Wissenschaftler*Innen über ein Phänomen sowie das System im Allgemeinen in den Datensatz einbetten und in falschen oder irreführenden Datenmustern resultieren
Anreicherung: Sowohl manuelle als auch automatische Annotation ( (z.B. Part-of-Speech Tagging) sind fehleranfällig und können sowohl bestehende Verzerrungen verschärfen als auch neue Verzerrungen und Fehler einführen.
Aggregation: Die Art und Weise, wie diese Aggregationen vorgenommen werden, oder welche Informationen sie komprimieren, kann zu unterschiedlichen Schlussfolgerungen führen.
Die Wahl einer Analysemethode spiegelt in der Regel die Erfahrung und den Blickwinkel der Forschenden wider und kann verschiedene Bedenken hervorrufen, wie z. B.
die Verwendung von Daten als Quelle für Hypothesen und nicht als Instrument zu deren Prüfung;
die Anpassung der Forschungsagenda an die Datenverfügbarkeit, was zu Verzerrungen bei der Art der gestellten Fragen führen kann; oder
das Testen mehrerer Hypothesen, bis ein signifikantes, positives Ergebnis gefunden wird (“feature hunting”)
Auswahl der Messgrößen: Besonders bei latenten Konstrukten ist die Art der Operationalisierung (z. B. Sharing-Muster als Näherungswert für Beliebtheit) entscheidend für die Aussagekraft der Studie(n)
Bewertung und Interpretation der Ergebnisse: Abhängig von den ursprünglichen Annahmen (z.B. dass soziale Online-Spuren in gewisser Weise quantifizierbare Phänomene der realen Welt
Disclaimer und Reproduzierbarkeit: Um die Reproduzierbarkeit (durch standardisierte experimentelle Methoden) zu fördern, ist die Entwicklung von Standardbewertungsverfahren und -metriken notwendig
Viele Möglichkeiten zur Untersuchung verschiedener Forschungsfragen
Die (begründete) Auswahl der Plattform, die für die Forschung dienen soll, ist wichtig
APIs sind nicht für Forschende gedacht, um auf Daten zuzugreifen.
APIs bieten Zugang zu Modellen des maschinellen Lernens:
Empfehlungen:
Know your biases and validate, validate, validate!
Ihre Fragen aus MS Teams
Die Vernetzung in unserer Welt nimmt immer mehr zu und Prozesse müssen perfekt aufeinander abgestimmt sein. Es gibt eine riesige Menge an verschiedenen APIs und unsere Abhängigkeit von ihnen wird zunehmend größer. Aber wie zuverlässig sind APIs eigentlich und wie kann ein API-Missbrauch aussehen?
Facebook und andere Plattformen haben den Zugang zu Nutzerdaten über ihr API aus Datenschutzgründen stark eingeschränkt. Jedoch kann bislang jede Organisation individuell darüber entscheiden, welche Restriktionen es in dieser Hinsicht geben soll. Sollte es übergreifende „Regeln” für APIs geben, die von jedem einzuhalten sind? Wenn ja, könnten Verstöße strafrechtlich verfolgt werden?
Mithilfe von APIs kann man verhältnismäßig einfach an Daten gelangen. Jedoch sind die Algorithmen hinter den Plattformen oft nicht nachvollziehbar (z.B. woher kommen personalisierte Empfehlungen). Können die extrahierten Daten tatsächlich interpretiert werden, wenn die Entstehung nicht nachvollziehbar ist?
Web-APIs erfordern grundlegende Programmierkenntnisse, um den Zugang zu ermöglichen. Leider gibt es bislang keine effizienten Alternativen. Gibt es potentielle Ansätze, um diese Hürde auf eine andere Art und Weise zu überwinden.
Gruppenarbeit zu WikiWho
& WhoColor API
… als soziales Netzwerk der Zusammenarbeit
20K aktive Redakteur*Innen pro Monat (englisches Wikipedia)
Wikipedia-Seitengespräche (wo Diskussionen über Artikelüberarbeitungen stattfinden)
Aufzeichnung aller Überarbeitungen
Quellen (Referenzen), die den Inhalt unterstützen (Zagovora et al., 2020)
… als eine Vielzahl von APIs und Tools, die damit verbunden sind, z. B:
Statistiken: https://xtools.wmflabs.org
Wissensdatenbank: https://www.wikidata.org
Klassifizierungssysteme: https://ores.wikimedia.org
Verfolgung von Änderungen: https://www.wikiwho.net (Flöck & Acosta, 2014)
Bedeutung von Wikipedia als Korpus für maschinelle Lernsysteme (NLP)
Eine kostenlose API (oder direkter Download von Dumps)
Kernfunktionalität von WikiWho
Bei einem revidierten Textdokument werden aller historischen Revisionen (Versionen) analysiert, um herauszufinden, wer welchen genauen Text auf Token-Ebene in welcher Revision geschrieben und/oder entfernt und/oder wieder eingefügt hat
Für jedes Token (~Wort) ist seine individuelle Hinzufügungs-/Entfernungs-/Wiedereinfügungsgeschichte verfügbar.
… in Kombination mit WhoColor API
Beim Öffnen eines Wikipedia-Artikels wird eine farbliche Markierung des Textes erstellt, die die ursprünglichen Autor:Innen des Inhalts, eine Autor:Innenliste, geordnet nach dem prozentualen Anteil an der Erstellung des Artikels, und zusätzliche Herkunftsinformationen anzeigt.
Es kann auch Konflikte in Bezug auf bestimmte Textteile und die Historie des Hinzufügens/Löschens eines bestimmten Wortes anzeigen.
Beispiel:
Erster Schritt:
für Google Chrome: Laden und installieren Sie die Tampermonkey-Erweiterung.
für Mozilla Firefox: Laden und installieren Sie die Greasemonkey-Erweiterung.
Zweiter Schritt:
Sobald Sie eine der *Monkey-Erweiterungen erfolgreich installiert haben, gehen Sie zu whocolor.user.js.
Ihre *monkey-Browsererweiterung sollte Ihnen dann automatisch eine Installationsaufforderung anzeigen, die Sie bestätigen müssen.
Dritter Schritt:
Öffnen Sie entweder den Wikipedia-Artikel von Donald Trump oder Elon Musk und wenden Sie das “WhoColor”-Plugin an.
Was fällt Ihnen auf …
bezüglich der Editors List?
mit Blick auf besonders “konfliktreiche” Stellen?
mit Blick auf aktuelle Veränderungen?
…
Suchmaschinen-APIs (Google, Bing)
Staatliche Daten (abgeordnetenwatch.de, data.gov, data.gov.uk, open-data.europa.eu)
Internationale Agenturen: UN, WHO, die Weltbank
Nachrichtenorganisationen: BBC, The New York Times, The Guardian, NPR, USA Today und ZEIT Online
Wissenschaftliche Archive und Fachzeitschriften: arXiv, PLoS, Mendeley
Metadaten von Daten: Dryad (https://datadryad.org/api/v2/docs/), Figshare (https://docs.figshare.com/)
Musik: Spotify, Soundcloud
…