Digital behavioral data - Session 02
02.11.2022
Sitzung | Datum | Thema | Referent*Innen |
---|---|---|---|
1 | 26.10.2022 | Kick-Off Session | Christoph Adrian |
2 | 02.11.2022 | DBD: Einführung und Überblick | Christoph Adrian |
3 | 09.11.2022 | DBD: Datenerhebung | Christoph Adrian |
4 | 16.11.2022 | API-Access (I): Twitter | Falk |
5 | 23.11.2022 | API-Access (II): YouTube | Denisov |
6 | 30.11.2022 | API-Access (II): Reddit | Landauer |
7 | 07.12.2022 | Webscraping: TikTok | Brand & Kocher |
8 | 14.12.2022 | ESM: m-path | Dörr |
WEIHNACHTSPAUSE | |||
9 | 12.01.2023 | Data Donations | |
10 | 19.01.2023 | Mock-Up-Virtual Environments | |
11 | 26.01.2023 | Open Science | |
12 | 02.02.2023 | Guest Lecture: Linking DBD & Survey data | Johannes Breuer |
13 | 09.02.2023 | Semesterabschluss & Evaluation | Christoph Adrian |
Fragen, MS Teams & alternativer Seminarplan
Sitzung | Datum | Thema | Referent*Innen |
---|---|---|---|
1 | 26.10.2022 | Kick-Off Session | Christoph Adrian |
2 | 02.11.2022 | DBD: Einführung und Überblick | Christoph Adrian |
3 | 09.11.2022 | DBD: Datenerhebung | Christoph Adrian |
4 | 16.11.2022 | API-Access (I): Twitter | Falk |
5 | 23.11.2022 | API-Access (II): YouTube | Denisov |
6 | 30.11.2022 | API-Access (II): Reddit | Landauer |
7 | 07.12.2022 | Webscraping: TikTok | Brand & Kocher |
8 | 14.12.2022 | Exkurs: DBD Analyse mit R | Christoph Adrian |
WEIHNACHTSPAUSE | |||
9 | 12.01.2023 | ESM: m-path | Dörr |
10 | 19.01.2023 | TBD | Hofmann & Wierzbicki |
11 | 26.01.2023 | Puffer | |
12 | 02.02.2023 | Guest Lecture: Linking DBD & Survey data | Johannes Breuer |
13 | 09.02.2023 | Semesterabschluss & Evaluation | Christoph Adrian |
Was sind digital behavior data?
Und was können wir mit Ihnen untersuchen?
… fasst eine Vielzahl von möglichen Datenquellen zusammen, die verschiedene Arten von Aktivitäten aufzeichnen (häufig sogar “nur” als Nebenprodukt)
… können dabei helfen, Meinungen, Verhalten und Merkmale der menschlichen Nutzung digitaler Technologien zu erkennen
Definition (Computational Social Science).
We define CSS as the development and application of computational methods to complex, typically large-scale, human (sometimes simulated) behavioral data.” (Lazer et al., 2020)
hilft dabei …
genuine digitale Phänomene zu untersuchen
digitale Verhaltensdaten zu sammeln und vorzuverarbeiten
neue Methoden zur Analyse von großen Datensätzen anzuwenden
Kategorisierung ist Momentaufnahme und nicht überschneidungsfrei
Selektive Nutzung von bestimmten digitalen Geräten bzw. Funktionen
Einsatz besonders Vorteilhaft bei Themen bzw. Untersuchungen …
Beispiel: Streaming und/oder Mining von Inhalten aus bestehenden digitalen Kommunikationsströmen
Digitale Geräte oder Sensoren können sich besser an bestimmte Fakten besser “erinnern” als das menschliche Gedächtnis.
Sensoren sind oft bereits in alltägliche Technologie eingebaut und produzieren digitale Verhaltensdaten als ein “Nebenprodukt”.
Unaufdringliche Erfassung als potentieller Vorteil bzw. Entlastung für Teilnehmer*Innen
Kombination mit Umfragedaten möglich (und bereichernd!)
Aber:
Zur erfolgreichen Nutzung müssen Forschungsziele & verfügbare Daten in Einklang gebracht, mögliche Biases und methodische Probleme berücksichttigt sowie die Datenqualität evaluiert werden.
Der Umgang mit Biases, methodischen Tücken und ethischen Einschränkungen
Unterscheidung zwischen aufdringlichen (z.B. spezielle Research-App & Befragungen) & unaufdringlichen (z.B. Cookies, Browserplugins & APIs) erhobenen Daten
Bewertung und Erwartung an Datensammlung ist abhängig vom Kontext (z.B. Amazon vs. Researchgate)
Dilema:
Einerseits bereitwillige (oft unwissende) Abgabe der Daten an Konzerne, andererseits häufig Bedenken bezüglich Datenschutz & Privatsphäre bei wissenschaftlichen Studien
“Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak for themselves.” (Anderson, 2008)
“Size alone does not necessarily make the data better” (boyd & Ellison, 2007)
“There are a lot of small data problems that occur in big data [which] don’t disappear because you’ve got lots of the stuff. They get worse.” (Harford, 2014)
Hintergrund: (Big) Data ist zunehmend Grundlage für politische Maßnahmen, die Gestaltung von Produkten und Dienstleistungen und für die automatisierte Entscheidungsfindung
Herausforderungen in Bezug auf DBD-Forschung: fehlender Konsens über ein Vokabular oder eine Taxonomie, häufig nur impliziter Bezug in der Forschung
Generelle Herausforderung: bias ist ein weit gefasster & in unterschiedlichen Disziplinen genutzter Begriff
Definition (Data bias).
A systematic distortion in the sampled data that compromises its representativeness.
Sparsity: Häufig Heavy-Tail-Verteilung, was Analyse am “Kopf” (in Bezug auf häufige Elemente oder Phänomene) erleichtert, am “Schwanz” (wie seltene Elemente oder Phänomene) jedoch erschwert (Baeza-Yates, 2013)
Noise: Unvollständige, beschädigte, unzuverlässige oder unglaubwürdige Inhalte (boyd & Crawford, 2012; Naveed et al., 2011)
Organische vs gemessene Daten: Fragen zur Repräsentativität (vs. Stichprobenbeschreibung), Kausalität (vs. Korrelation) und Vorhersagegüte
Definition (Population biases).
Systematic distortions in demographics or other user characteristics between a population of users represented in a dataset or on a platform and some target population.
Unterschiedliche Demographien (z.B. Geschlechts-, Alters- & Bildungsgruppen) neigen zu unterschiedlichen sozialen Plattformen1 und nutzen deren Mechanismen2 unterschiedlich
Proxies für Eigenschaften oder demografische Kriterien der Nutzenden sind unterschiedlich verlässlich3
Definition (Behavioral biases).
Systematic distortions in user behavior across platforms or contexts, or across users represented in different datasets.
Beeinflussung der Art und Weise, wie Nutzer*Innen miteinander interagieren1
Auftreten von Selbstselektion2 und Reaktionsverzerrungen34
Definition (Content Production Biases)
Behavioral biases that are expressed as lexical, syntactic, semantic, and structural differences in the content generated by users.
Der Gebrauch der Sprache(n) variiert zwischen und innerhalb von Ländern und Bevölkerungsgruppen.1
Kontextbedingte Faktoren (z.B. zwischenmenschliche Beziehungen) beeinflussen die Art und Weise, wie Benutzer sprechen.2
Die Inhalte von bekannten oder “erfahrenen” Nutzerinnenunterscheiden sich von denen der normalen Nutzer*innen.3
Unterschiedliche Bevölkerungsgruppen haben unterschiedliche Neigungen, über bestimmte Themen zu sprechen.4
Definition (Linking Bias)
Behavioral biases that are expressed as differences in the attributes of networks obtained from user connections, interactions or activity.
Netzattribute123 beeinflussen das Verhalten und die Wahrnehmung der Nutzer und umgekehrt
Verhaltensbasierte und verbindungsbasierte4 soziale Verbindungen sind unterschiedlich.
Die Bildung sozialer Online-Netzwerke hängt auch von Faktoren56 außerhalb der sozialen Plattformen ab
Definition (Temporal Biases)
Systematic distortions across user populations or behaviors over time.
Bevölkerungsgruppen, Verhaltensweisen1 und Systeme verändern sich mit der Zeit2.
Saisonale und periodische Phänomene34.
Plötzlich auftretende Phänomene (z.B. Anstieg oder Rückgang von besteimmten Aktivitäten5 oder externe Ereignisse wie z.B. Katastrophen) wirken sich auf Populationen, Verhaltensweisen und Plattformen aus.
Die zeitliche Granularität kann zu feinkörnig sein, um langfristige Phänomene zu beobachten, und zu grobkörnig sein, um kurzlebige Phänomene zu beobachten.
Datensätze verfallen und verlieren mit der Zeit an Nutzen6.
Definition (Redundancy)
Single data items that appear in the data in multiple copies, which can be identical (duplicates), or almost identical (near duplicates).
ein und dieselbe Person, die von mehreren Konten oder Plattformen aus postet (z. B. Spam),
mehrere Nutzer, die vom selben Konto aus posten (z. B. Konten von Organisationen),
mehrere Personen, die denselben Inhalt posten oder erneut posten (z. B. das Posten von Zitaten, Memes oder anderen Arten von Inhalten).
Ethik & Recht im Fokus
Aus öffentlicher Zugänglich- bzw. Verfügbarkeit von Daten leitet sich nicht automatisch ethische Verwertbarkeit ab (boyd & Crawford, 2012; Zimmer, 2010)
Verletzung der Privatsphäre der Nutzer (Goroff, 2015)
Ermöglichung von rassischem, sozioökonomischem oder geschlechtsspezifischem Profiling (Barocas & Selbst, 2016)
Facebook contagion experiment (2012-2014): Feeds von Nutzer*Innen so manipulierten, dass sie je nach den geäußerten Emotionen mehr oder weniger von bestimmten Inhalten enthielten (Kramer et al., 2014)
Encore-Forschungsprojekt: Messung der Internetzensur auf der ganzen Welt, bei der Webbrowser angewiesen wurden, zu versuchen, sensible Webinhalte ohne das Wissen oder die Zustimmung der Nutzer herunterzuladen (Burnett & Feamster, 2014)
Hintergrund: Die Herausforderung besteht in der Kombination von zwei extremen Sichtweisen, der Betrachtung der Forschung mit sozialen Daten als “klinische” Forschung oder als Computerforschung
Die Sozialdatenforschung unterscheidet sich von klinischen Versuchen.
Ethische Entscheidungen in der Sozialdatenforschung müssen gut überlegt sein, da oft sind mehrere Werte betroffen, die miteinander in Konflikt stehen können
Die Einwilligung nach Aufklärung setzt voraus, dass
Die Zustimmung von Millionen von Nutzern einzuholen ist unpraktisch.
Das öffentliche Teilen von Inhalten im Internet bedeutet nicht unbedingt eine Zustimmung zur Forschung1.
Die Nutzungsbedingungen sozialer Plattformen stellen möglicherweise keine informierte Zustimmung zur Forschung dar.
Hintergrund: Nicht nur Fokus auf den Nutzen der Forschung, sondern auch auf die möglichen Arten von Schäden, die betroffenen Gruppen und die Art und Weise, wie nachteilige Auswirkungen getestet werden können .(Sweeney, 2013)
Daten über Einzelpersonen können ihnen schaden, wenn sie offengelegt werden12.
Forschungsergebnisse können verwendet werden, um Schaden anzurichten3.
“Dual-Use”- und Sekundäranalysen sind in der Sozialdatenforschung immer häufiger anzutreffen4.
Annahme: Es ist von Anfang an bekannt, wer durch die Forschung belastet wird und wer von den Ergebnissen profitieren wird.
Die digitale Kluft kann das Forschungsdesign beeinflussen1 (Stichwort: WEIRD Samples)
Algorithmen und Forschungsergebnisse können zu Diskriminierung führen.
Forschungsergebnisse sind möglicherweise nicht allgemein zugänglich2.
Nicht alle Interessengruppen werden über die Verwendung von Forschungsergebnissen konsultiert3.
Trend 1: Eine zunehmende Skepsis gegenüber einfachen Antworten
Wie einstehen die Daten, was enthalten sie tatsächlich und wie die Arbeitsdatensätze zusammengestellt?
Wird deutlich, was was ausgewertet wird?
Wird die Verwendung von vorgefertigten Datensätzen und Modellen des maschinellen Lernens hinterfragt?
Trend 2: Vom Aufwerfen von Bedenken über soziale Daten zum Umgang mit ihnen. 4 Empfehlungen:
Detaillierte Dokumentation und kritische Prüfung der Datensatz- und Modellerstellung
DBD-Studien auf verschiedene Plattformen, Themen, Zeitpunkte und Teilpopulationen auszuweiten, um festzustellen, wie sich die Ergebnisse beispielsweise in verschiedenen kulturellen, demografischen und verhaltensbezogenen Kontexten unterscheiden
Transparenzmechanismen zu schaffen, die es ermöglichen, soziale Software zu überprüfen und Verzerrungen in sozialen Daten an der Quelle zu evaluieren
Forschung zu diesen Leitlinien, Standards, Methoden und Protokollen auszuweiten und ihre Übernahme zu fördern.
Ihre Fragen aus MS Teams
Wie wird mit ungenauen, verzerrten und/oder unvollständigen digitalen Verhaltensdaten umgegangen? Was passiert mit ihnen?
Was versteht man unter der Herausforderung des Privacy-Utility-Trade-Off und wie kann dieses “Problem” bewältigt werden?
Nutzer sind sich oftmals nicht bewusst, dass ihre Posts/Tweets zu Forschungszwecken verwendet werden.
Sollten im Sinne der Transparenz von Vornherein mehr Informationen zur Verwendung von Daten gegeben werden? Würde dieses tatsächliche Wissen etwas am Verhalten/Akzeptanz der Datenerhebung der Nutzer ändern?
Da die Daten der Nutzer meist ohne Ihr aktives Wissen darüber erhoben werden ist ihr Verhalten sehr nah an der Realität. Würde eine bessere Information und Transparenz über das mitschreiben der Daten Ihr Verhalten beeinflussen und verfälschen? Kann dies bereits durch Benachrichtigungen wie “Coockies” der Fall sein?
Es gibt Individuen, die sich nicht im digitalen Raum bewegen und somit in den Daten nicht erfasst werden können. Dadurch können bestimmte Gruppen nicht untersucht werden, was zu verzerrten Daten führt. Welche Möglichkeiten hat man dieses Problem zu umgehen.
Wenn Unternehmen bei der Verwendung unserer Verhaltensdaten Profit erwirtschaften, sollten wir dann nicht auch etwas daran verdienen?
Was denken Sie?
Wie könnten/sollte ein potentielles Bezahlungssystem aussehen?