Alteryx

Alteryx Predictive: Kategoriske modeller

Hvad er en kategorisk model?

Forestil dig, at du som analytiker bliver bedt om at forudsige, hvilket af jeres produkter en kunde med størst sandsynlighed vil købe. Foretrækker kunden for eksempel den nyeste Iphone, Samsung Galaxy eller en Nokia? Det kunne også være, at vi gerne vil forudsige hvilket parti en vælger har tænkt sig at stemme på, eller hvilken abonnementstype kunden vil vælge.

Denne type variable kaldes kategoriske og fælles for dem er, at der er et begrænset antal udfald, som vi ikke umiddelbart kan rangordne. Vi kan for eksempel ikke sige, at en Iphone er 2.5 gange 'bedre' end en Samsung Galaxy eller at en BMW er lige så god som en Mercedes. I stedet betragter vi det som forskellige, mulige valg.

Kategoriske modeller i Alteryx

Når den afhængige variabel, dvs. den variabel vi gerne vil forudsige, er multikategorisk, kan vi derfor heller ikke bruge de almindelige regressionsmodeller som lineær og logistisk regression. I stedet har Alteryx en række forskellige tools, der særligt godt egnede til kategoriske modeller. Følgende tools kan alle håndtere kategoriske target variable:

  • Boosted Model
  • Decision Tree
  • Forest Model
  • Naive Bayes
  • Neural Network
  • Support Vector Machine
  • Spline Model

Personligt har jeg gode erfaringer med Boosted Model, der tit er mindst lige så god til at klassificere som de øvrige modeller, og ofte noget bedre.

Opsætning

Det er hurtigt og enkelt at opsætte en kategorisk model og begynde at lave forudsigelser af nye kunder, produkter, etc.For at bruge én af de nævnte modeller til kategoriske klassificering skal man man blot definere (1) hvilken variabel man gerne vil klassificere (target) og (2) hvilke variable der skal bruges til at klassificere den. Selvom den variabel vi gerne vil klassificere eller forudsige er kategorisk, kan vi stadig bruge både binære (0/1), diskrete (0, 1, 2, etc.) og kontinuerte variable (f.eks. omsætning i kr.) til at klassificere vores target.

Eksempel

Jeg har lavet en video der viser, hvordan man kan bruge en Boosted Model eller en Forest Model til klassifikation, og hvordan man efterfølgende kan bruge Score-toolet til at kvantificere sandsynlighederne for de forskellige udfald.


Back to blog


Subscribe for updates