Einführung & Überblick

Digital behavioral data - Session 02

02.11.2022

Seminarplan

Sitzung Datum Thema Referent*Innen
1 26.10.2022 Kick-Off Session Christoph Adrian
2 02.11.2022 DBD: Einführung und Überblick Christoph Adrian
3 09.11.2022 DBD: Datenerhebung Christoph Adrian
4 16.11.2022 API-Access (I): Twitter Falk
5 23.11.2022 API-Access (II): YouTube Denisov
6 30.11.2022 API-Access (II): Reddit Landauer
7 07.12.2022 Webscraping: TikTok Brand & Kocher
8 14.12.2022 ESM: m-path Dörr
WEIHNACHTSPAUSE
9 12.01.2023 Data Donations
10 19.01.2023 Mock-Up-Virtual Environments
11 26.01.2023 Open Science
12 02.02.2023 Guest Lecture: Linking DBD & Survey data Johannes Breuer
13 09.02.2023 Semesterabschluss & Evaluation Christoph Adrian

Agenda

  1. 📢️ Organisation & Koordination

  2. A short (re-)introduction to DBD

  3. Herausforderungen von DBD

  4. Wichtige Rahmenbedingungen von DBD

  5. Verständnis- & Diskussionsfragen

📢️ Organisation & Koordination

Fragen, MS Teams & alternativer Seminarplan

Kursmaterialien, Literatur etc.

Kurze Einführung in Teams

Vorschlag: Alternativer Seminarplan

Sitzung Datum Thema Referent*Innen
1 26.10.2022 Kick-Off Session Christoph Adrian
2 02.11.2022 DBD: Einführung und Überblick Christoph Adrian
3 09.11.2022 DBD: Datenerhebung Christoph Adrian
4 16.11.2022 API-Access (I): Twitter Falk
5 23.11.2022 API-Access (II): YouTube Denisov
6 30.11.2022 API-Access (II): Reddit Landauer
7 07.12.2022 Webscraping: TikTok Brand & Kocher
8 14.12.2022 Exkurs: DBD Analyse mit R Christoph Adrian
WEIHNACHTSPAUSE
9 12.01.2023 ESM: m-path Dörr
10 19.01.2023 TBD Hofmann & Wierzbicki
11 26.01.2023 Puffer
12 02.02.2023 Guest Lecture: Linking DBD & Survey data Johannes Breuer
13 09.02.2023 Semesterabschluss & Evaluation Christoph Adrian

A short (re-)introduction

Was sind digital behavior data?

Und was können wir mit Ihnen untersuchen?

DBD – Was ist das eigentlich?

Rückblick auf Definition nach Weller (2021)

  • … fasst eine Vielzahl von möglichen Datenquellen zusammen, die verschiedene Arten von Aktivitäten aufzeichnen (häufig sogar “nur” als Nebenprodukt)

  • … können dabei helfen, Meinungen, Verhalten und Merkmale der menschlichen Nutzung digitaler Technologien zu erkennen


Im Kontext dieses Seminars:

  • Schwerpunkt: Nutzung und Inhalte von soziale Medien
  • Computational Social Science [CSS] Verfahren, z.B. zur Erhebung, Verarbeitung, Auswertung und Präsentation

Ohne CSS keine DBD

Kurzer Exkurs zur Bedeutung von Computational Social Science

Definition (Computational Social Science).

We define CSS as the development and application of computational methods to complex, typically large-scale, human (sometimes simulated) behavioral data.” (Lazer et al., 2020)

hilft dabei …

  • genuine digitale Phänomene zu untersuchen

  • digitale Verhaltensdaten zu sammeln und vorzuverarbeiten

  • neue Methoden zur Analyse von großen Datensätzen anzuwenden

Und was können wir damit untersuchen?

Beispiele für & Kategorisierung von untersuchbaren Verhalten & Interaktionen

Quelle: Engel et al. (2021)


Einschränkungen
  • Kategorisierung ist Momentaufnahme und nicht überschneidungsfrei

  • Selektive Nutzung von bestimmten digitalen Geräten bzw. Funktionen

Verfügbarkeit als Pluspunkt

DBD als wertvolle Quelle bei aktuellen, sensiblen & unvorhersehbaren Themen


Einsatz besonders Vorteilhaft bei Themen bzw. Untersuchungen …

  • … für die es schwierig ist, Studienteilnehmer*innen zu rekrutieren
  • … bei denen Beobachtungen vorteilhafter sind als Befragungen

Beispiel: Streaming und/oder Mining von Inhalten aus bestehenden digitalen Kommunikationsströmen

  • Zeitnaher als die Erstellung einer Umfrage
  • Zusätzlicher Nutzen als Archiv bei unvorhersehbaren Ereignissen

Mehr Daten durch technologischen Fortschritt

Beispiel: Wachsenden Anzahl eingebauter Smartphone-Sensoren

Aus @struminskaya2020

Graphik aus Struminskaya et al. (2020)

Eine kleine Lobeshymne auf DBD

Zwischenfazit

  • Digitale Geräte oder Sensoren können sich besser an bestimmte Fakten besser “erinnern” als das menschliche Gedächtnis.

  • Sensoren sind oft bereits in alltägliche Technologie eingebaut und produzieren digitale Verhaltensdaten als ein “Nebenprodukt”.

  • Unaufdringliche Erfassung als potentieller Vorteil bzw. Entlastung für Teilnehmer*Innen

  • Kombination mit Umfragedaten möglich (und bereichernd!)

Aber:

Zur erfolgreichen Nutzung müssen Forschungsziele & verfügbare Daten in Einklang gebracht, mögliche Biases und methodische Probleme berücksichttigt sowie die Datenqualität evaluiert werden.

Herausforderungen von DBD

Der Umgang mit Biases, methodischen Tücken und ethischen Einschränkungen

Wenn der Vorteil zum Nachteil wird

Ambivalenz der Unaufdringlichkeit (Engel et al., 2021)

  • Unterscheidung zwischen aufdringlichen (z.B. spezielle Research-App & Befragungen) & unaufdringlichen (z.B. Cookies, Browserplugins & APIs) erhobenen Daten

  • Bewertung und Erwartung an Datensammlung ist abhängig vom Kontext (z.B. Amazon vs. Researchgate)

Dilema:

Einerseits bereitwillige (oft unwissende) Abgabe der Daten an Konzerne, andererseits häufig Bedenken bezüglich Datenschutz & Privatsphäre bei wissenschaftlichen Studien

The End of Theory

Zur Wichtigkeit von konzipierte Messungen & Designs

“Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak for themselves.” (Anderson, 2008)

Was denken Sie?

“Size alone does not necessarily make the data better” (boyd & Ellison, 2007)

“There are a lot of small data problems that occur in big data [which] don’t disappear because you’ve got lots of the stuff. They get worse.(Harford, 2014)

We need to talk about biases

Spezifische und allgemeine Herausforderungen für die Forschung mit DBD

Hintergrund: (Big) Data ist zunehmend Grundlage für politische Maßnahmen, die Gestaltung von Produkten und Dienstleistungen und für die automatisierte Entscheidungsfindung

  • Herausforderungen in Bezug auf DBD-Forschung: fehlender Konsens über ein Vokabular oder eine Taxonomie, häufig nur impliziter Bezug in der Forschung

  • Generelle Herausforderung: bias ist ein weit gefasster & in unterschiedlichen Disziplinen genutzter Begriff

Know your bias!

Framework zur Minimierung von Fehlern und Problemen (Olteanu et al., 2019)

Worauf wirkt die Verzerrung?

Beispiele für Forschung von Typ I & II (Olteanu et al., 2019)

Zu welchen Problemen führen verschiedene Biases?

Einflüsse von Biases auf Datenqualität

Datenqualität & data bias

Definition (Data bias).

A systematic distortion in the sampled data that compromises its representativeness.

Potentielle Probleme
  • Sparsity: Häufig Heavy-Tail-Verteilung, was Analyse am “Kopf” (in Bezug auf häufige Elemente oder Phänomene) erleichtert, am “Schwanz” (wie seltene Elemente oder Phänomene) jedoch erschwert (Baeza-Yates, 2013)

  • Noise: Unvollständige, beschädigte, unzuverlässige oder unglaubwürdige Inhalte (boyd & Crawford, 2012; Naveed et al., 2011)

    • Unterscheidung von “Noise” und “Signal” ist oft unklar und hängt von der Forschungsfrage ab (Salganik, 2018)
  • Organische vs gemessene Daten: Fragen zur Repräsentativität (vs. Stichprobenbeschreibung), Kausalität (vs. Korrelation) und Vorhersagegüte

Im Fokus: Population Bias

Definition (Population biases).

Systematic distortions in demographics or other user characteristics between a population of users represented in a dataset or on a platform and some target population.

Potentielle Probleme
  • Unterschiedliche Demographien (z.B. Geschlechts-, Alters- & Bildungsgruppen) neigen zu unterschiedlichen sozialen Plattformen1 und nutzen deren Mechanismen2 unterschiedlich

  • Proxies für Eigenschaften oder demografische Kriterien der Nutzenden sind unterschiedlich verlässlich3

Im Fokus: Behavioral Biases

Definition (Behavioral biases).

Systematic distortions in user behavior across platforms or contexts, or across users represented in different datasets.

Potentielle Probleme
  • Beeinflussung der Art und Weise, wie Nutzer*Innen miteinander interagieren1

  • Auftreten von Selbstselektion2 und Reaktionsverzerrungen34

Im Fokus: Content Production Biases

Definition (Content Production Biases)

Behavioral biases that are expressed as lexical, syntactic, semantic, and structural differences in the content generated by users.

Potentielle Probleme:
  • Der Gebrauch der Sprache(n) variiert zwischen und innerhalb von Ländern und Bevölkerungsgruppen.1

  • Kontextbedingte Faktoren (z.B. zwischenmenschliche Beziehungen) beeinflussen die Art und Weise, wie Benutzer sprechen.2

  • Die Inhalte von bekannten oder “erfahrenen” Nutzerinnenunterscheiden sich von denen der normalen Nutzer*innen.3

  • Unterschiedliche Bevölkerungsgruppen haben unterschiedliche Neigungen, über bestimmte Themen zu sprechen.4

Im Fokus: Linking Bias

Definition (Linking Bias)

Behavioral biases that are expressed as differences in the attributes of networks obtained from user connections, interactions or activity.

Potentielle Probleme:
  • Netzattribute123 beeinflussen das Verhalten und die Wahrnehmung der Nutzer und umgekehrt

  • Verhaltensbasierte und verbindungsbasierte4 soziale Verbindungen sind unterschiedlich.

  • Die Bildung sozialer Online-Netzwerke hängt auch von Faktoren56 außerhalb der sozialen Plattformen ab

Im Fokus: Temporal Biases

Definition (Temporal Biases)

Systematic distortions across user populations or behaviors over time.

Potentielle Probleme:
  • Bevölkerungsgruppen, Verhaltensweisen1 und Systeme verändern sich mit der Zeit2.

  • Saisonale und periodische Phänomene34.

  • Plötzlich auftretende Phänomene (z.B. Anstieg oder Rückgang von besteimmten Aktivitäten5 oder externe Ereignisse wie z.B. Katastrophen) wirken sich auf Populationen, Verhaltensweisen und Plattformen aus.

  • Die zeitliche Granularität kann zu feinkörnig sein, um langfristige Phänomene zu beobachten, und zu grobkörnig sein, um kurzlebige Phänomene zu beobachten.

  • Datensätze verfallen und verlieren mit der Zeit an Nutzen6.

Im Fokus: Redundancy

Definition (Redundancy)

Single data items that appear in the data in multiple copies, which can be identical (duplicates), or almost identical (near duplicates).

Potentielle Probleme:
  • Lexikalische (z. B. Duplikate, erneute Tweets, erneut geteilte Inhalte) und semantische (z. B. Beinahe-Duplikate oder dieselbe Bedeutung, aber anders geschrieben) Redundanz macht oft einen erheblichen Teil der Inhalte aus und kann sowohl innerhalb als auch zwischen Datensätzen auftreten.
  • Weitere Quellen für inhaltliche Redundanz sind häufig nicht-menschliche Konten, wie z.B.
    • ein und dieselbe Person, die von mehreren Konten oder Plattformen aus postet (z. B. Spam),

    • mehrere Nutzer, die vom selben Konto aus posten (z. B. Konten von Organisationen),

    • mehrere Personen, die denselben Inhalt posten oder erneut posten (z. B. das Posten von Zitaten, Memes oder anderen Arten von Inhalten).

Sneak Preview in die nächste Sitzung

Datenerhebung im Fokus

Wichtige Rahmenbedingungen von DBD

Ethik & Recht im Fokus

Erweiterung des Blickwinkels

Ethische Erwägungen bei DBD-Forschung

Aus öffentlicher Zugänglich- bzw. Verfügbarkeit von Daten leitet sich nicht automatisch ethische Verwertbarkeit ab (boyd & Crawford, 2012; Zimmer, 2010)

Negative Beispiele
  • Facebook contagion experiment (2012-2014): Feeds von Nutzer*Innen so manipulierten, dass sie je nach den geäußerten Emotionen mehr oder weniger von bestimmten Inhalten enthielten (Kramer et al., 2014)

  • Encore-Forschungsprojekt: Messung der Internetzensur auf der ganzen Welt, bei der Webbrowser angewiesen wurden, zu versuchen, sensible Webinhalte ohne das Wissen oder die Zustimmung der Nutzer herunterzuladen (Burnett & Feamster, 2014)

Ein schmaler Grat

Forschungethik bei digitalen Daten

Hintergrund: Die Herausforderung besteht in der Kombination von zwei extremen Sichtweisen, der Betrachtung der Forschung mit sozialen Daten als “klinische” Forschung oder als Computerforschung

  • Die Sozialdatenforschung unterscheidet sich von klinischen Versuchen.

  • Ethische Entscheidungen in der Sozialdatenforschung müssen gut überlegt sein, da oft sind mehrere Werte betroffen, die miteinander in Konflikt stehen können

Achtung der individuellen Autonomie

Diskussion der Informierte Zustimmung als Indikator autonomer Entscheidung

Die Einwilligung nach Aufklärung setzt voraus, dass

  1. die Forscher*Innen den potenziellen Teilnehmenden alle relevanten Informationen offenlegen;
  2. die potenziellen Teilnehmenden in der Lage sind, diese Informationen zu bewerten;
  3. die potenziellen Teilnehmenden freiwillig entscheiden können, ob sie teilnehmen wollen oder nicht;
  4. die Teilnehmenden den Forschernden ihre ausdrückliche Erlaubnis erteilen, häufig in schriftlicher Form; und
  5. die Teilnehmende die Möglichkeit haben, ihre Einwilligung jederzeit zurückzuziehen.


Potentielle Probleme
  • Die Zustimmung von Millionen von Nutzern einzuholen ist unpraktisch.

  • Das öffentliche Teilen von Inhalten im Internet bedeutet nicht unbedingt eine Zustimmung zur Forschung1.

  • Die Nutzungsbedingungen sozialer Plattformen stellen möglicherweise keine informierte Zustimmung zur Forschung dar.

Wohltätigkeit und Unschädlichkeit als Ziel

Bewertung von Risken & Nutzen

Hintergrund: Nicht nur Fokus auf den Nutzen der Forschung, sondern auch auf die möglichen Arten von Schäden, die betroffenen Gruppen und die Art und Weise, wie nachteilige Auswirkungen getestet werden können .(Sweeney, 2013)


Potentielle Probleme
  • Daten über Einzelpersonen können ihnen schaden, wenn sie offengelegt werden12.

  • Forschungsergebnisse können verwendet werden, um Schaden anzurichten3.

  • “Dual-Use”- und Sekundäranalysen sind in der Sozialdatenforschung immer häufiger anzutreffen4.

Faire Verteilung von Risiken & Nutzen

Recht & Gerechtigkeit

Annahme: Es ist von Anfang an bekannt, wer durch die Forschung belastet wird und wer von den Ergebnissen profitieren wird.


Potentielle Probleme
  • Die digitale Kluft kann das Forschungsdesign beeinflussen1 (Stichwort: WEIRD Samples)

  • Algorithmen und Forschungsergebnisse können zu Diskriminierung führen.

  • Forschungsergebnisse sind möglicherweise nicht allgemein zugänglich2.

  • Nicht alle Interessengruppen werden über die Verwendung von Forschungsergebnissen konsultiert3.

Verständnis- & Diskussionsfragen

Ihre Fragen aus MS Teams

Vielen Dank für Ihre Fragen!

Wie wird mit ungenauen, verzerrten und/oder unvollständigen digitalen Verhaltensdaten umgegangen? Was passiert mit ihnen?

  • Bereinigen –> Validieren –> Bereinigen –> Validieren …


Was versteht man unter der Herausforderung des Privacy-Utility-Trade-Off und wie kann dieses “Problem” bewältigt werden?

  • Leider kein Zugang zur Quelle, Antwort “verschoben”

Was denken Sie?

Nutzer sind sich oftmals nicht bewusst, dass ihre Posts/Tweets zu Forschungszwecken verwendet werden.

Sollten im Sinne der Transparenz von Vornherein mehr Informationen zur Verwendung von Daten gegeben werden? Würde dieses tatsächliche Wissen etwas am Verhalten/Akzeptanz der Datenerhebung der Nutzer ändern?

Da die Daten der Nutzer meist ohne Ihr aktives Wissen darüber erhoben werden ist ihr Verhalten sehr nah an der Realität. Würde eine bessere Information und Transparenz über das mitschreiben der Daten Ihr Verhalten beeinflussen und verfälschen? Kann dies bereits durch Benachrichtigungen wie “Coockies” der Fall sein?

Let’s discuss!

Es gibt Individuen, die sich nicht im digitalen Raum bewegen und somit in den Daten nicht erfasst werden können. Dadurch können bestimmte Gruppen nicht untersucht werden, was zu verzerrten Daten führt. Welche Möglichkeiten hat man dieses Problem zu umgehen.

  • Wie würden Sie (methodisch) vorgehen?
  • Ist es das eine Frage der Methodik oder des Forschungsdesigns?

Let’s discuss!

Wenn Unternehmen bei der Verwendung unserer Verhaltensdaten Profit erwirtschaften, sollten wir dann nicht auch etwas daran verdienen?

  • Was denken Sie?

  • Wie könnten/sollte ein potentielles Bezahlungssystem aussehen?

Time for questions

Bis zur nächsten Sitzung!

Literatur

Anderson, C. (2008). The end of theory: The data deluge makes the scientific method obsolete. Wired. https://www.wired.com/2008/06/pb-theory/
Baeza-Yates, R. A. (2013). Big data or right data.
Barocas, S., & Selbst, A. D. (2016). Big Data’s Disparate Impact. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.2477899
boyd, danah m., & Crawford, K. (2012). CRITICAL QUESTIONS FOR BIG DATA: Provocations for a cultural, technological, and scholarly phenomenon. Information, Communication & Society, 15(5), 662–679. https://doi.org/10.1080/1369118X.2012.678878
boyd, danah m., & Ellison, N. B. (2007). Social Network Sites: Definition, History, and Scholarship. Journal of Computer-Mediated Communication, 13(1), 210–230. https://doi.org/10.1111/j.1083-6101.2007.00393.x
Burnett, S., & Feamster, N. (2014). Encore: Lightweight measurement of web censorship with cross-origin requests. https://doi.org/10.48550/ARXIV.1410.1211
Engel, U., Quan-Haase, A., Liu, S. X., & Lyberg, L. (2021). Digital trace data (1st ed., pp. 100–118). Routledge. https://doi.org/10.4324/9781003024583-8
Goroff, D. L. (2015). Balancing privacy versus accuracy in research protocols. Science, 347(6221), 479–480. https://doi.org/10.1126/science.aaa3483
Harford, T. (2014). Big data: A big mistake? Significance, 11(5), 14–19. https://doi.org/10.1111/j.1740-9713.2014.00778.x
Kramer, A. D. I., Guillory, J. E., & Hancock, J. T. (2014). Experimental evidence of massive-scale emotional contagion through social networks. Proceedings of the National Academy of Sciences, 111(24), 8788–8790. https://doi.org/10.1073/pnas.1320040111
Lazer, D. M. J., Pentland, A., Watts, D. J., Aral, S., Athey, S., Contractor, N., Freelon, D., Gonzalez-Bailon, S., King, G., Margetts, H., Nelson, A., Salganik, M. J., Strohmaier, M., Vespignani, A., & Wagner, C. (2020). Computational social science: Obstacles and opportunities. Science, 369(6507), 1060–1062. https://doi.org/10.1126/science.aaz8170
Naveed, N., Gottron, T., Kunegis, J., & Alhadi, A. C. (2011). the 20th ACM international conference. 183. https://doi.org/10.1145/2063576.2063607
Olteanu, A., Castillo, C., Diaz, F., & Kıcıman, E. (2019). Social data: Biases, methodological pitfalls, and ethical boundaries. Frontiers in Big Data, 2, 13. https://doi.org/10.3389/fdata.2019.00013
Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press.
Struminskaya, B., Lugtig, P., Keusch, F., & Höhne, J. K. (2020). Augmenting Surveys With Data From Sensors and Apps: Opportunities and Challenges. Social Science Computer Review, 089443932097995. https://doi.org/10.1177/0894439320979951
Sweeney, L. (2013). Discrimination in Online Ad Delivery: Google ads, black names and white names, racial discrimination, and click advertising. Queue, 11(3), 10–29. https://doi.org/10.1145/2460276.2460278
Weller, K. (2021). A short introduction to computational social science and digital behavioral data. https://www.gesis.org/fileadmin/user_upload/MeettheExperts/GESIS_Meettheexperts_Introductioncss.pdf
Zimmer, M. (2010). But the data is already public: on the ethics of research in Facebook. Ethics and Information Technology, 12(4), 313–325. https://doi.org/10.1007/s10676-010-9227-5