En Rapport om Twitter – men var är Nyheterna?

Hampus Brynolf på konsultföretaget Intellecta presenterade i morse en rapport om Twitter i Sverige (PDF) som fick stort genomslag bland svenska twittrare. Som alltid när en siffra på antalet användare utlovas blir intresset stort, och som alltid hamnar man i svårigheter kring dels definitioner och dels mätmetoder.

Definitionerna handlar även i detta fall om begreppen “svenska” och “aktiva”. Rapportens undertitel är “En rapport om Twitter i Sverige” men redan i första stycket i metodavsnittet (s. 1) avfärdas möjligheten att geografiskt bestämma användare och man förespråkar istället en indelning efter språk. Därmed utesluts de i Sverige som twittrar på andra språk (det finns antagligen en hel del som uteslutande twittrar på engelska) och man får även in de utanför Sverige som twittrar på svenska (t.ex. användare på Åland och de svensktalande delarna av Finland). Man kan fråga sig om man inte borde ha tagit med de som angivit svenska platser som en kontrollgrupp för att få möjlighet att se hur många av dessa som man fångat upp genom sin språkidentifiering.

Man nämner inte hur man seedade insamlingen av data (andra stycket under metod, s. 1), dvs. vilka personer man började insamlingen ifrån. Är påståendet om att det bara finns ett sammankopplat kluster (som görs nederst på sidan 2) korrekt spelar det ingen roll hur seedningen gjordes eftersom man ändå skulle nå alla som twittrar på svenska. Problemet är att det inte alls är otroligt att “hermetiskt slutna system” skulle uppstå. Backstrom, Huttenlocher et al 2006 t.ex. nämner som ett exempel att “disconnected components” kan uppstå i sociala nätverk där rekryteringen inte främst sker genom att vänner bjuder in vänner utan där beslutet att gå med inte främst påverkas av vilka vänner som redan är med. Har man haft en liten seedning skulle man inte upptäcka sådana okopplade kluster.

Definitionen av aktiv sätts här (stycke 2, s. 3) som att ha skrivit tre eller fler tweets och att ha skrivit minst en tweet de senaste 30 dagarna. Eftersom man inte givit referenser till de “mer eller mindre omfattande och seriösa försök” (s. 1) som gjorts de senaste åren går det inte heller att ställa definitionen av aktiv i förhållande till siffran över aktiva twittrare som ges. Valet av just dessa gränser motiveras hur som helst inte. I ett senare skede (s. 9) talar man om att en person kan “ha en normal twitterfrekvens där de bara uppdaterar varannan månad” men det är inget man diskuterar i samband med den valda gränsen.

Ett genomgående problem med texten är att man likställer person med konto. Genomgående används ordet person när man drar slutsatser om data från konton. Att en person kan ha olika konton eller ett företagskonto kan ha flera skribenter nämns inte.

I analysdelen nämns att genomslaget för Twitter-meddelanden i svenska medier ökat. “Antalet omnämnanden av twitter[sic!] i mediearkivet[sic!] är ständigt ökande, men antalet aktiva twittrare verkar inte öka nämnvärt.” (s. 10) Någon siffra på hur antalet omnämnanden varierat över tid ges dock inte. Man hävdar att “ju färre som använder tjänsten, desto större blir det relativa inflytandet för varje aktiv twittrare”. För att komma med ett sådant påstående behöver man ha tittat på vilka som omnämns i samband med detta. Det skulle ju kunna vara så att man gått från att nämna flera twittrare i medierna men till slut bara citerar Carl Bildts tweets, och i såfall har ju det relativa inflytandet för varje aktiv twittrare utom Carl Bildt faktiskt minskat (medan det varit oförändrat på noll för de flesta).

I analysen tas aktiviteten hos twittrarna upp. Att tio procent står för åttio procent av antalet tweets kanske är korrekt men denna siffras användbarhet är ganska begränsad. En mer intressant fråga är hur många procent som står för åttio procent av antalet lästa tweets. En fråga som dock är betydligt svårare att få besvarad.

Det jag anser vara det största problemet med denna analys är att den alldeles för lättvindligt bortser från faktorer som man valt att inte undersöka samt att man ger en siffra på antalet aktiva twittrare med fem värdesiffror utan några osäkerhetsmarginaler. Man redogör inte heller någon karakteristik hos den närmare en miljon twitterkonton man studerat men inte bedömt vara på svenska. Vilka språk är de på? Hur många svenska konton följer dessa? Vad har de angett som geografisk position? Nu är det ju av upphovsrättsskäl svårt att dela med sig av all insamlad data men man skulle åtminstone kunna erbjuda en datamängd bestående av vilka konton som undersökts, hur de hänger ihop samt vilken av metoderna för språkanalys som använts för var och ett.

Bilderna från presentationen verkar innehålla en konstighet som inte finns med i rapporten. Enligt tidsaxeln i detta diagram har folk börjat twittra redan innan Twitterskaparna ens börjat jobba med Odeo.
Twittercensus live

Vi väntar fortfarande på en “korrekt och med verkligheten överensstämmande mätning” av Twitter i Sverige. Ja, jag tittar på er, högskolesverige.

Viralt så in i helvete

Vadihelveteskajaglagatillmiddag.nu kom till på en kombinerad konferens/hackday vi körde på Värmdö i höstas. Chrille stod för idén (att göra en svensk version efter en amerikansk förlaga och koppla den mot recept.nu) samt formuleringar och Brian stod för implementationen. Det här är ju förstås inte en riktig tv4-sajt, men det är kul att låta den rulla som ett litet experiment för att se hur viral spridning fungerar.

Nästan all trafik har kommit från Facebook. I början kunde vi så fort någon av oss lade ut länken på facebook följa hur den snabbt spred sig till en sisådär 500-1000 besökare/dag för att sedan sjunka igen trafikmässigt till normalnivån ett par dagar senare. Igår exploderade dock trafiken med 21.218 unika besökare. Den inledande boosten kom av en länk på existenz.se, och sen tog facebook över som trafikdrivare. Facebooktrafiken brukar öka fort för att sedan avta betydligt långsammare, så gissningen är väl den får några tusen besökare om dagen närmsta veckan för att sedan återgå till de vanliga mer blygsamma nivåerna.

Nu får vi väl lägga in en “dela på facebook”-knapp på sidan också, så återkommer vi när den går över 50.000!

Småtopparna ligger på 1500-2000 besökare, den stora peaken är på drygt 21.000, lägstavärdena ligger på 70.

Lögn, förbannad dikt och statistik

Vi har förstås ett antal olika mätskript på våra olika sajter. Man kan se skript från bl.a. Google, Nielsen och TNS Sifo. Nackdelen med dem är att eftersläpningen är för stor för att göra taktiska ändringar på innehållet till skillnad mot de mer strategiska. I bästa fall är eftersläpningen några timmar och intressanta nyheter är redan gammal skåpmat.

Sedan tidigare har TV4 använt sig av den norska produkten Linkpulse, vilket bland annat var underlaget till datat som vi använde för den röda lådan vi byggde förra året. Linkpulse räknar antalet klick på länkar på sajterna så att man kan följa flödet av besökare. Tyvärr har Linkpulse inte vunnit något större gehör hos redaktionerna och användandet har varit lågt. Vi tror att anledningen till detta går att finna i hur datat presenterats (vilket också var anledningen till att den röda lådan byggdes). För att få ett mer användbart och roligare verktyg tror vi att det behöver finnas ett sätt för redaktörerna att omedelbart få feedback och på ett sätt som inte stör deras befintliga arbetssätt. Idén vi har nu är att förmedla det i statusdisplayer, ungefär som den vi har själva fast med innehåll som handlar mer om artiklar och mindre om testresultat från våra byggen.

Utöver som ett hjälpmedel till redaktörer har vi även ett behov av mer direkt besöksstatistik som underlag till mest lästa/tittade-listor. Med anledning av det har vi gjort en snabbare koll på verktyg som Woopra och Clicky. Där är det inte direkt realtidsdata vi vill ha utan snarare aktuellt data över en period av senaste timmen eller dygnet.

Någon som uppmärksammat vårt jobb med att visualisera saker på vår 47-tumsskärm på kontoret är Allan BeaufourChartbeat som bokade in ett möte hos oss samtidigt som han träffade andra medieföretag någon dag innan julafton. Han demonstrerade deras produkt och vi beslöt oss för att utvärdera. Eftersom de flesta av våra sajter ännu ligger i system som inte är direkt snabbrörliga så var det enklast att börja med Väderkanalen. Den är ju inte en redaktionell sajt men eftersom den driftas med Ruby on Rails på Heroku är det en enkel sak att lägga till de Javascript som behövs och lägga ut på sajten. Längre fram kommer vi att prova på någon av de redaktionella, Polopoly-baserade sajterna, där den inflödande datan kommer till större nytta.

Hursomhelst har teknikavdelningens LCD-skärm fått agera försökskanin de senaste dagarna och visa de mest tittade sidorna just nu. Man märker av när Expressen länkar till Väderkanalen på förstasidan och det är ständigt lite av en tävling (Stadskampen?) mellan de olika orterna (inte för att Stockholm, Göteborg och Malmö är riktigt hotade på de översta platserna). Umeå som också visas på startsidan som default är inte i närheten lika stor.