Beslutsträd – när AI fattar beslut som vi kan följa steg för steg

Sustainability Circle
8 aug.
4 min läsning

Sustainability Circle’s Lilla AI-skola om hur AI kan fatta beslut på ett sätt som både är kraftfullt och lätt att förstå.

Illustration av ett beslutsträd för kvalitetskontroll i produktion. Första frågan: ‘Var pressningstrycket över 200 bar?’ leder till grenarna ‘Godkänd’ eller vidare till nästa fråga: ‘Var tillverkningstemperaturen över 600°C?’ vilket leder till ‘Godkänd’ eller ‘Underkänd’.

Vad är ett beslutsträd?

Ett beslutsträd är en typ av supervised learning-modell som används både för klassificering (förutsäga kategorier, t.ex. om en produkt är godkänd eller underkänd) och regression (förutsäga numeriska värden, t.ex. hur lång livslängd en komponent har).

Modellen fungerar genom att ställa frågor om datan i särskilda noder. Varje svar leder till en gren i trädet, och till slut når vi en bladnod som ger en förutsägelse.

Beslutsträd i relation till andra metoder

Beslutsträd tillhör familjen av supervised learning-metoder, precis som linjär regression, logistisk regression, neurala nätverk och support vector machines (SVM).

Det som gör beslutsträd speciella är:

Tydlig logik – modellen är enkel att följa, till skillnad från till exempel djupa neurala nätverk som vi pratade om i avsnittet om Transformers – tekniken som förändrade AI och i XAI – förklarbar AI.
Flexibilitet – kan hantera både numeriska och kategoriska variabler utan att man behöver normalisera eller skala datan lika noggrant som vid t.ex. SVM eller neurala nätverk (se avsnittet Pre-Processing – inte bara början utan grunden).
Inget krav på linjära samband – till skillnad från linjär regression kan trädet enkelt fånga komplexa, icke-linjära mönster.
Mindre datakrav – fungerar ofta bra även med mindre datamängder, medan djupa neurala nätverk kräver stora mängder data för att prestera bra.

Nackdelen är att beslutsträd ensamma kan vara känsliga för variation i datan och ibland ge sämre noggrannhet än mer avancerade metoder. Därför används de ofta i ensemblemetoder som Random Forest eller Gradient Boosting – något vi förklarade i avsnittet Ensemble Learning – kombinera flera modeller för smartare resultat.

Exempel: kvalitetskontroll i produktionFöreställ dig en fabrik som tillverkar metallkomponenter. Varje komponent mäts på flera sätt:

Temperatur vid tillverkning
Tryck under pressning
Vibrationsnivå på maskinen
Visuell inspektion (OK/ej OK)

Målet är att förutsäga om en komponent kommer att bli godkänd eller underkänd vid slutkontrollen.

Hur fungerar det?

Ett beslutsträd börjar alltid i rotnoden – startpunkten där den första frågan ställs.

I vårt exempel kan den första frågan vara: ”Var pressningstrycket över 200 bar?”

Gren 1 (Ja): Här är en stor andel delar godkända → ”ren” grupp.
Gren 2 (Nej): Här finns fler felaktiga delar → ”ren” grupp åt andra hållet.

Beroende på svaret följer vi en gren till nästa nod, där en ny fråga ställs, till exempel: ”Var tillverkningstemperaturen över 600°C?”

Målet vid varje uppdelning är att grupperna ska vara så ”rena”, enhetliga som möjligt – antingen tillhöra samma kategori (vid klassificering) eller ha liknande värden (vid regression).

För att avgöra detta använder modellen ett delningsmått (splitting criteria):

Gini Index – mäter hur blandade klasserna är i en nod. Låg Gini betyder att de flesta datapunkter tillhör samma klass.
Cross-Entropy (även kallat log-loss) – liknar Gini men med vissa matematiska fördelar.
Residual Sum of Squares (RSS) – används vid regression och mäter hur mycket förutsägelserna skiljer sig från de faktiska värdena.

Trädet växer tills vi når en bladnod. Där finns inget mer att fråga om – modellen kan nu ge sitt svar:

”Godkänd”
”Underkänd”

För att trädet inte ska bli för stort och krångligt (och börja ”lära sig utantill” i stället för att förstå mönster) använder man stoppregler, som till exempel:

Max antal frågor (maxdjup)
Sluta om det finns för få exempel kvar att dela upp
Sluta om alla i noden redan tillhör samma grupp

Vanliga fallgropar - och hur de kan undvikas

I vårt kvalitetskontroll-exempel kan följande problem uppstå:

Överträning – om trädet blir för djupt kanske det börjar känna igen enskilda, ovanliga kombinationer av tryck, temperatur och vibrationer som bara råkar finnas i historiska data. Resultatet blir sämre på nya delar. → Lösning: Begränsa djupet, använd beskärning (pruning) och testa alltid på ny data.
Känsligt för små dataskillnader – om mätutrustningen kalibreras om kan trädet behöva byggas om, annars kan strukturen ändras mycket. → Lösning: Använd fler data, stabiliserande tekniker som Random Forest, och se över mätprocesserna.
Bias mot variabler med många nivåer – om vi inkluderar ”maskin-ID” för varje maskin kan trädet favorisera den variabeln, även om det egentligen är tryck och temperatur som är viktigast. → Lösning: Granska variabler med domänkunskap och ta bort sådana som inte är orsakssamband.

· Obalanserad data – om nästan alla delar historiskt varit godkända kan modellen missa att upptäcka mönster som leder till underkännande. → Lösning: Använd omviktning, översampling eller syntetiska data med metoder som SMOTE (en teknik som skapar konstgjorda exempel av den ovanliga klassen för att balansera datan).”

Praktiska tillämpningar

Beslutsträd används inom många områden, men vårt exempel visar styrkan i industriell användning:

Snabb felsökning – operatörer kan se exakt vilka kombinationer av tryck, temperatur och vibrationer som ökar risken för fel.
Förtroende – eftersom modellen är visuell och logisk, kan kvalitetschefer enkelt förklara för både produktion och ledning varför en viss del underkänns.
Förebyggande åtgärder – fabriken kan ändra processparametrar i realtid för att undvika att stora batcher blir felaktiga.

Vidare läsning och inspiration

Wikipedia – Decision Tree -> [Länk]
The Concise Guide to Feature Engineering for Better Model Performance - A comprehensive guide covering various feature engineering methods, including transformation, scaling, and normalization, with practical tips -> [Länk]
Beginner's Guide to Decision Trees for Supervised Machine Learning - A comprehensive introduction to decision trees, perfect for beginners, covering the basics, splitting criteria, and depth control -> [Länk]
1.10. Decision Trees - Official documentation from scikit-learn, explaining decision trees with practical examples and code. -> [Länk]

Beslutsträd – när AI fattar beslut som vi kan följa steg för steg

Sustainability Circle’s Lilla AI-skola om hur AI kan fatta beslut på ett sätt som både är kraftfullt och lätt att förstå.

Senaste inlägg

Kommentarer