Un anno di /r/italy (Giugno 2018-Giugno 2019)

Continuo con le analisi su Reddit e /r/italy in particolare.

Questa volta ho analizzato un anno di contenuti di /r/italy, dal 1 giugno 2018 al 1 giugno 2019.

Inoltre l’analisi è divisa in due parti:

  • una prima sui post (numero di voti, commenti, autori, eccetera)
  • una seconda sulle parole (quanti commenti o post hanno generato)

Perimetro

L’analisi include 30.373 post dal 2018-06-01T01:46:09+00:00 al 2019-06-01T00:31:05+00:00.

Sono stati inclusi anche i post cancellati o di utenti cancellati, sempre che abbia salvato l’id in tempo.

Ho preferito aspettare qualche giorno per chiudere i risultati, per avere gli ultimi upvote. In ogni caso i voti dei contenuti degli ultimi sei mesi possono cambiare, in quanto non ancora archiviati da Reddit.

Qualche numero per partire

Iniziamo con qualche numero facile e generico sui post.

Il totale del karma, cioè la somma di tutti i punteggi di tutte le submission è 1.084.969

Il numero dei commenti di tutti i post è 797.011.

I self post sono il 37.64%, cioè sono 11.433 (su 30.373). I post NSFW sono 183.

Analisi sui post

I Voti

Il voto medio è 35.7, ma la deviazione standard è di 115, molto alta. Per capirci:

  • Il 25% dei post è a 1 o meno
  • Il 50% dei post è a 5 o meno
  • Il 75% dei post è a 25 o meno

Per i più curiosi, ho disegnato un istogramma cumulativo in scala logaritmica.

La classifica

Ecco i 5 thread più votati:

Punteggio Titolo Autore
3125 Un Doge a Venezia ForLadiesPleasure
2396 Italy, early this morning, panorama. n0_1d
2357 Vampiri Italiani 42n8
2357 Evergreen francesco11111
2192 Meanwhile in Alto Adige… Duxuev

Il numero di commenti

Il numero medio di commenti riportati da Reddit è circa 26, ma la deviazione standard è di 80. Per capirci:

  • Il 25% dei post è a 1 o meno
  • Il 50% dei post è a 5 o meno
  • Il 75% dei post è a 22 o meno (ancora meno degli upvote!)

Per i più curiosi, ho disegnato un istogramma cumulativo in scala logaritmica.

La classifica

Commenti Titolo Autore
2023 [Megathread] 69° Festival di Sanremo - Quinta Serata (Finale) Jockbaia
2009 🇪🇺🇮🇹 Elezioni Europee 2019 - Megathread 🇮🇹🇪🇺 Lord_TheJc
1475 [Megathread] 69° Festival di Sanremo - Quarta Serata (Duetti) Jockbaia
1156 Caffè Italia * 15/01/19 RedditItalyBot
1070 Caffè Italia * 12/02/19 RedditItalyBot

… Altri escludendo Megathread, Caffè e Casual …

Commenti Titolo Autore
771 Negozi chiusi la domenica… ma di cosa stiamo parlando? V_Frln
683 Quali sono le vostre opinioni impopolari? albadellasera
597 Andrologo here - Mi occupo di curare piselli e palle della gente. AMA (per la terza volta!) Mishulo
571 Attentato in moschea in Nuova Zelanda, 40 morti. Sui caricatori i terroristi hanno lasciato un omaggio a Luca Traini HarmfulCicada
525 Il parlamento europeo approva con 348 voti favorevoli e 274 contrari la direttiva sul copyright accountperritaly
511 No stupid questions nerdvana89
467 Sono un dentista e ho pensato di scrivere una guida sull’igiene orale. Spero possa esservi utile! il_dentista

Punteggio e Numero di commenti

Di seguito un grafico di TUTTI i thread: sulle X (in orizzontale) il numero dei commenti, sulle Y (in verticale) il voto (o punteggio o score).

Per i più nerd, ne ho anche una versione logaritmica.

Grafico punteggio e Numero di commenti

Gli autori

Analisi degli autori più attivi. I primi 13 poster, per numero di post, totalizzano 2.944 submission (su 30.373, quindi quasi il 10%).

Sommando il punteggio dei loro post, arriviamo a 93.825 karma (su 1.084.969), quindi 8.6%.

Di seguito i 13 autori più prolifici in un grafico: sulle X (in orizzontale) il numero dei post, sulle Y il karma totale accumulato con i post.

Grafico autori

I domini

Analizziamo ora i siti più condivisi su Reddit.

Nota: ho cercato di normalizzare i domini il più possibile, per convertire i link youtu.be in youtube.com per esempio. Qualcosa potrebbe essermi sfuggito.

I migliori

I migliori 3 domini sono:

Dominio Karma totale Numero di post
reddit.com 432.296 (39,84%) 4.330 (14,25%)
self.italy 177.725 (16,38%) 11.433 (37,64%)
imgur.com 94.331 (8,69%) 865 (2,85%)

Per karma

Un bel grafico a torta dei 10 domini con più karma accumulato tra tutti i post.

Grafico domini per karma

Per numero

Ora gli stessi 10 domini, i valori rappresentano il numero di post.

Grafico domini per numero di post

Gli orari

Ho trovato interessante gli orari in cui vengono inviati i post, in particolare rispetto al karma accumulato e al numero di post.

In arancione il punteggio atteso, cioè x per il karma totale dei post dell’anno diviso il numero di post stessi.

L’orario riportato è quello relativo al fuso orario Italiano.

Grafico post per orario

I giorni della settimana

In che giorno appaiono più post? E quando vengono più votati?.

Grafico post per giorno della settimana

Non si nota molto, ma il sabato e domenica il rapporto upvote su numero di post è migliore: grafico specifico.

Analisi sulle parole

Per questa sezione mi sono concentrato su quante volte una certa parola compare nei commenti di /r/italy.

Operatori telefonici

Un argomento molto ricorrente sono gli operatori telefonici, le loro offerte e i disservizi.

Il grafico seguente mostra quante volte un certo operatore è stato nominato in quella settimana.

Citazioni di un operatore telefonico

Per curiosità ho fatto un conto e l’indice di correlazione di Pearson tra “vodafone” e “Iliad” è di 0.873.

Piatti

Quali sono i piatti preferiti da r/italy?

Il seguente grafico mostra tutti i post con più di 1 voto, suddivisi per piatto.

Citazione di piatti

Cibo

Di quale cibo si parla di più?

Il seguente grafico mostra quanti commenti sono stati fatti, per settimana.

Citazioni di cibo

I politici

Questo invece quante volte appare il cognome di un politico nei commenti.

Citazione di un politico

Focus Salvini

Avete idea di quanti post su Salvini sono stati aperti su r/italy?.

Ve lo dico io: 953.

Nel seguente grafico tutti i post con punteggio almeno 2 dove “Salvini” appare nel titolo.

Post su Salvini

Tecnicismi

Ho usato PRAW per estrarre le submission, salvate per /r/italy_SS e riaggiornate.

Il tutto è stato salvato su CSV.

L’analisi e i grafici sono stati fatti su Jupyter Notebook, con pandas, NumPy e matplotlib; in cloud su Azure Notebook.

Ho formattato con Visual Studio code e buttato su Netlify.

Un grazie a LaTalpa123 per la revisione; a Fennec223 per l’idea sul grafico per giorno della settimana; a iltredici, giovablackops98, ulhio e kidmenot per le correzioni.