Digital behavioral data - Session 06
30.11.2022
Sitzung | Datum | Thema | Referent*Innen |
---|---|---|---|
1 | 26.10.2022 | Kick-Off Session | Christoph Adrian |
2 | 02.11.2022 | DBD: Einführung und Überblick | Christoph Adrian |
3 | 09.11.2022 | DBD: Datenerhebung | Christoph Adrian |
4 | 16.11.2022 | API-Access (I): Twitter | Falk |
5 | 23.11.2022 | API-Access (II): YouTube | Denisov |
6 | 30.11.2022 | API-Access (II): Reddit | Landauer |
7 | 07.12.2022 | Webscraping: TikTok | Brand & Kocher |
8 | 14.12.2022 | Exkurs: DBD Analyse mit R | Christoph Adrian |
WEIHNACHTSPAUSE | |||
9 | 12.01.2023 | ESM: m-path | Dörr |
10 | 19.01.2023 | Data Donations | Hofmann & Wierzbicki |
11 | 26.01.2023 | PUFFER | |
12 | 02.02.2023 | Guest Lecture: Linking DBD & Survey data | Johannes Breuer |
13 | 09.02.2023 | Semesterabschluss & Evaluation | Christoph Adrian |
Gruppenarbeit zu 4CAT: Capture and Analysis Toolkit
4CAT
(Peeters & Hagen, 2022)Tool zur Analyse und Verarbeitung von Daten aus sozialen Online-Plattformen
Ziel ist es, die Erfassung und Analyse von Daten aus diesen Plattformen über eine Webschnittstelle zugänglich zu machen, ohne dass Programmier- oder Web-Scraping-Kenntnisse erforderlich sind.
Reddit
news, worldness
an beim Feld Subreddit(s)
Message search
ein.Date range
Dataset name
Im Fokus: News über 🤡Elon Musk
Zwei (einfache) Szenarien:
Visualisierung der Anzahl der Beiträge im Zeitverlauf
Erstellung einer Wordcloud mit den meistgenannten Named Entities
Rows: 4,838
Columns: 16
$ thread_id <chr> "fa3188370daf15e630f9121ab7e1ff76", "e00fff6599660fbfd7…
$ id <chr> "0427331b4ed6b36be917779e839c732f", "9465790a781133af6b…
$ timestamp <dttm> 2022-11-14 00:13:59, 2022-11-14 01:11:53, 2022-11-14 0…
$ body <chr> "a82402045c5afcce8e1e20c9d3d7978a", "f07ff47103d975865a…
$ subject <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
$ author <chr> "736bbd33d9055a81d41f1f0aa12859c2", "89a6bdaaa7351e189a…
$ author_flair <chr> "9c63023a4dad721af7dc04902c9ddecb", "9c63023a4dad721af7…
$ post_flair <chr> "9b09f05e8ca418b2b85266625985528b", "9b09f05e8ca418b2b8…
$ domain <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
$ url <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
$ image_file <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
$ image_md5 <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
$ subreddit <chr> "worldnews", "news", "news", "news", "news", "news", "n…
$ parent <chr> "e1ef5b33cbd8891c1a005cf5521d1408", "e342d97798ff809247…
$ score <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
$ unix_timestamp <dbl> 1668384839, 1668388313, 1668391383, 1668391676, 1668391…
Rows: 3,633
Columns: 3
$ word <chr> "musk", "twitter", "twitter", "elon musk", "tesla", "trump", "t…
$ entity <chr> "PERSON", "PERSON", "PRODUCT", "PRODUCT", "ORG", "ORG", "GPE", …
$ count <dbl> 1147, 861, 479, 404, 345, 273, 222, 218, 205, 187, 154, 132, 13…
news
& worldnews
)news
& worldnews
)Ihre Fragen aus MS Teams
Die Reddit API erlaubt nur bis 500 Kommentare pro Post über ein automatisches Tool zu ‘extrahieren’. Manuell ist es jedoch möglich über diese Grenze hinaus zu gehen. Wie kann das sein? Das würde ja bedeuten, dass man die Regeln der Reddit API manuell umgehen kann?
In dem Paper wird darauf hingewiesen, dass die Verwendung der API von Reddit ein möglicher Verstoß gegen die Nutzungsvereinbarungen ist. Wann würde so ein Fall eintreten bzw. wann spricht man von einem Verstoß und was wäre dann die Bestrafung?
Wie kann es sein, dass Reddit eine kostenlose API zur verfügung stellt, die Nutzung dieser dann aber teilweise nicht legal sein kann?
Es wird erwähnt, dass viele Nutzer mehrere Accounts haben und dementsprechend Diskussionen in bestimmten Subreddits stärker beeinflussen können. Besteht die Möglichkeit solche Accounts zu erkennen und angemessen in der Studie zu berücksichtigen ohne die Datenschutzrichtlinien zu verletzen?
Viele Social Media Plattformen, wie Instagram, Facebook und Twitter beschränken ihren API Zugang. Weshalb legt Reddit den API Zugang im Gegensatz zu den anderen Plattformen so offen dar?
Viele der Reddit-Daten basierenden Publikationen enthielten nur unvollständige oder zweideutige Beschreibungen ihrer Datensätze. Auch die Methoden der Datenerhebung bleiben teilweise verschleiert. Warum ist das so und welche ethischen Gründe liegen hier möglicherweise zu Grunde?
Wie stark sind Reddit-Daten (evtl. auch im Vergleich zu Twitter) generalisierbar, wenn die Struktur von Reddit doch Diskussionen und Gespräche in gewisser Weise leitet (z.B. durch Sichtbarkeit von Themen)?