Chilitoke 11.11.2020 14:50
Problemet er at de statistikker vi har optænkt pt er et dimensionel og mange af dem er blot milestones og watermarks.
Dvs. at den viden de giver er hvor stort noget er, og den eneste reaktion man kan have på det er 'wow det er stort' eller 'det var ikke så stort som jeg troede' begge to ting noget man ikke har behov for at undersøge mere end en gang og begge ting noget der sjældent ændre sig.
Det næste problem der opstår med den slags målinger er at det største sjæleendt ændre sig.
Om vi så måler det absolut eller relativt.
Jo vi kan ændre det til relative værdier i stedet for absolutte værdier, men hvis vi stadig kun viser den største andel så er det underordnet om vi visre 1000 eller 10% hvis nr to på listen er 200 og 2%. Gabet mellem de to er så stort at det ikke ændres lige med det samme.
Som jeg skrev i Topposter debatten i sin tid så skal vi sætte os ned og tænke over hvorfor vi samler og udstiller disse tal.
Jeg vil dog også forslå en række måder at skærer data og betragte det på der i sig selv kan bruges til at give lidt mere indsigt og måske endda også er lidt mere forandrings fyldte end, hvem der bruger X mest.
Det første skridt er at indsamle data der ikke er flad, dvs. i stedet for at vi blot indsamler hvor mange gange noget har været et sted indsamler vi også stedet og hvad det stod sammen med. Vi begynder altså at tracker relationen mellem to events i stedet for det enkelt stående events.
Jeg syntes derfor at vi skal begynde at snakke om højde og bredden af datasæt, hermed menes det hvor mange gange en gruppering fremgår i datasættet og hvor mange enheder den gruppering består af.
F.eks.
#drama 62.
Er et sæt med en brede på 1 (drama) og en højde på 62, da det har været brugt 62 gange.
Det siger ikke så meget mere end at drama bliver brugt, men hvis vi i stedet tager
#drama + #dagligdag 15.
Så ser vi her at drama og dagligdag optræder sammen 15 gange, altså et sæt med en brede på 2 og en højde på 15.
og at det faktisk er en ret stor del af #drama mængden der står sammen med #dagligdag.(15/62 = 24,19%).
Med denne måde at anskue dataen på kan vi opstille milepæle som:
Bredeste datasæt (dvs. hvilken kombination af hashtags er størst)
Laveste datasæt (dvs. hvilket hashtag bliver brugt mindst og kunne måske have behov for at blive udforsket.)
For hvert hashtag lave
det højeste sæt, med en brede større end en. (dvs at vi nu kan se ikke blot hvor meget det bliver anvendt men i hvilken gruppering det står stærkest med.)
Smalleste datasæt (dvs findes der hashtag som står helt alene og aldrig sammen med andet? eller er det en kombination som står alene)
Vi kunne tage overstående skridtet videre og lave det fulde krydsprodukt af alle hashtags og udstille dem således at vi kan se hvor meget alle de mulige kombinationer af hashtags bliver anvendt.
NB: de ovenstående forslag skal være liste visninger og skal i værste fald kunne understøtte den totale mængde i tilfælde af perfekt ligevægt, eller have en øvre grænse for hvor meget der vises som fx 3 eller 10 i hver kategori, de er ikke tænkt som en top 1 måling.
NB 2:
det giver også anledning til at lave område tracking og bruge det som et implicit tag, så vi kan se hvor #drama sker kontra #venskab.
OBS! hvis denne ikke skæres med omtanke kommer den blot til at vise hvor de folk der anvender hashtag tråder mest mere end noget andet.
NB 3:
Tanke med dise måle punkter er at finde hvad der bliver brugt, men også sætte et fokus på de mindre brugte for den vindende kombination har sjældent brug for fokus, da den ved sin natur jo er den folk anvender, imens den ukendt og sjælende måske mere har burg for et løft.
men det bæres alt sammen på ryggen af 'hvorfor indsamler vi dataen og hvad vil vi med den?'.