Un anno di /r/italy (Giugno 2018-Giugno 2019)
Scritto il da Timendum
Continuo con le analisi su Reddit e /r/italy in particolare.
Questa volta ho analizzato un anno di contenuti di /r/italy, dal 1 giugno 2018 al 1 giugno 2019.
Inoltre l’analisi è divisa in due parti:
- una prima sui post (numero di voti, commenti, autori, eccetera)
- una seconda sulle parole (quanti commenti o post hanno generato)
Perimetro
L’analisi include 30.373
post dal 2018-06-01T01:46:09+00:00 al 2019-06-01T00:31:05+00:00.
Sono stati inclusi anche i post cancellati o di utenti cancellati, sempre che abbia salvato l’id in tempo.
Ho preferito aspettare qualche giorno per chiudere i risultati, per avere gli ultimi upvote. In ogni caso i voti dei contenuti degli ultimi sei mesi possono cambiare, in quanto non ancora archiviati da Reddit.
Qualche numero per partire
Iniziamo con qualche numero facile e generico sui post.
Il totale del karma, cioè la somma di tutti i punteggi di tutte le submission è 1.084.969
Il numero dei commenti di tutti i post è 797.011
.
I self post sono il 37.64%
, cioè sono 11.433
(su 30.373). I post NSFW sono 183
.
Analisi sui post
I Voti
Il voto medio è 35.7
, ma la deviazione standard è di 115
, molto alta. Per capirci:
- Il 25% dei post è a
1
o meno - Il 50% dei post è a
5
o meno - Il 75% dei post è a
25
o meno
Per i più curiosi, ho disegnato un istogramma cumulativo in scala logaritmica.
La classifica
Ecco i 5 thread più votati:
Punteggio | Titolo | Autore |
---|---|---|
3125 | Un Doge a Venezia | ForLadiesPleasure |
2396 | Italy, early this morning, panorama. | n0_1d |
2357 | Vampiri Italiani | 42n8 |
2357 | Evergreen | francesco11111 |
2192 | Meanwhile in Alto Adige… | Duxuev |
Il numero di commenti
Il numero medio di commenti riportati da Reddit è circa 26
, ma la deviazione standard è di 80
. Per capirci:
- Il
25%
dei post è a1
o meno - Il
50%
dei post è a5
o meno - Il
75%
dei post è a22
o meno (ancora meno degli upvote!)
Per i più curiosi, ho disegnato un istogramma cumulativo in scala logaritmica.
La classifica
Commenti | Titolo | Autore |
---|---|---|
2023 | [Megathread] 69° Festival di Sanremo - Quinta Serata (Finale) | Jockbaia |
2009 | 🇪🇺🇮🇹 Elezioni Europee 2019 - Megathread 🇮🇹🇪🇺 | Lord_TheJc |
1475 | [Megathread] 69° Festival di Sanremo - Quarta Serata (Duetti) | Jockbaia |
1156 | Caffè Italia * 15/01/19 | RedditItalyBot |
1070 | Caffè Italia * 12/02/19 | RedditItalyBot |
… Altri escludendo Megathread, Caffè e Casual …
Commenti | Titolo | Autore |
---|---|---|
771 | Negozi chiusi la domenica… ma di cosa stiamo parlando? | V_Frln |
683 | Quali sono le vostre opinioni impopolari? | albadellasera |
597 | Andrologo here - Mi occupo di curare piselli e palle della gente. AMA (per la terza volta!) | Mishulo |
571 | Attentato in moschea in Nuova Zelanda, 40 morti. Sui caricatori i terroristi hanno lasciato un omaggio a Luca Traini | HarmfulCicada |
525 | Il parlamento europeo approva con 348 voti favorevoli e 274 contrari la direttiva sul copyright | accountperritaly |
511 | No stupid questions | nerdvana89 |
467 | Sono un dentista e ho pensato di scrivere una guida sull’igiene orale. Spero possa esservi utile! | il_dentista |
Punteggio e Numero di commenti
Di seguito un grafico di TUTTI i thread: sulle X (in orizzontale) il numero dei commenti, sulle Y (in verticale) il voto (o punteggio o score).
Per i più nerd, ne ho anche una versione logaritmica.
Gli autori
Analisi degli autori più attivi. I primi 13
poster, per numero di post, totalizzano 2.944
submission (su 30.373, quindi quasi il 10%
).
Sommando il punteggio dei loro post, arriviamo a 93.825
karma (su 1.084.969), quindi 8.6%
.
Di seguito i 13
autori più prolifici in un grafico: sulle X (in orizzontale) il numero dei post, sulle Y il karma totale accumulato con i post.
I domini
Analizziamo ora i siti più condivisi su Reddit.
Nota: ho cercato di normalizzare i domini il più possibile, per convertire i link youtu.be
in youtube.com
per esempio. Qualcosa potrebbe essermi sfuggito.
I migliori
I migliori 3
domini sono:
Dominio | Karma totale | Numero di post |
---|---|---|
reddit.com | 432.296 (39,84%) | 4.330 (14,25%) |
self.italy | 177.725 (16,38%) | 11.433 (37,64%) |
imgur.com | 94.331 (8,69%) | 865 (2,85%) |
Per karma
Un bel grafico a torta dei 10
domini con più karma accumulato tra tutti i post.
Per numero
Ora gli stessi 10
domini, i valori rappresentano il numero di post.
Gli orari
Ho trovato interessante gli orari in cui vengono inviati i post, in particolare rispetto al karma accumulato e al numero di post.
In arancione il punteggio atteso, cioè x
per il karma totale dei post dell’anno diviso il numero di post stessi.
L’orario riportato è quello relativo al fuso orario Italiano.
I giorni della settimana
In che giorno appaiono più post? E quando vengono più votati?.
Non si nota molto, ma il sabato e domenica il rapporto upvote su numero di post è migliore: grafico specifico.
Analisi sulle parole
Per questa sezione mi sono concentrato su quante volte una certa parola compare nei commenti di /r/italy.
Operatori telefonici
Un argomento molto ricorrente sono gli operatori telefonici, le loro offerte e i disservizi.
Il grafico seguente mostra quante volte un certo operatore è stato nominato in quella settimana.
Per curiosità ho fatto un conto e l’indice di correlazione di Pearson tra “vodafone” e “Iliad” è di 0.873
.
Piatti
Quali sono i piatti preferiti da r/italy?
Il seguente grafico mostra tutti i post con più di 1 voto, suddivisi per piatto.
Cibo
Di quale cibo si parla di più?
Il seguente grafico mostra quanti commenti sono stati fatti, per settimana.
I politici
Questo invece quante volte appare il cognome di un politico nei commenti.
Focus Salvini
Avete idea di quanti post su Salvini sono stati aperti su r/italy?.
Ve lo dico io: 953
.
Nel seguente grafico tutti i post con punteggio almeno 2 dove “Salvini” appare nel titolo.
Tecnicismi
Ho usato PRAW per estrarre le submission, salvate per /r/italy_SS e riaggiornate.
Il tutto è stato salvato su CSV.
L’analisi e i grafici sono stati fatti su Jupyter Notebook, con pandas, NumPy e matplotlib; in cloud su Azure Notebook.
Ho formattato con Visual Studio code e buttato su Netlify.
Un grazie a LaTalpa123 per la revisione; a Fennec223 per l’idea sul grafico per giorno della settimana; a iltredici, giovablackops98, ulhio e kidmenot per le correzioni.