Feature Engineering – skapa smarta data för AI – Del 2

Sustainability Circle
6 aug.
4 min läsning

Sustainability Circle's "Lilla AI Skola" om hur vi gör våra variabler tydliga och användbara för AI

Illustration med rubriken "Feature Engineering – skapa smarta data för AI – Del 2". En stiliserad AI-ikon i form av ett huvud med mikrochip omges av färgglada rutor med orden: "Kategorisering", "Feature creation", "Encoding" och "Feature selection". En kvinna pekar upp mot AI-symbolen, och en enkel stapelgraf visas i bakgrunden.

I Del 1 pratade vi om hur man hanterar numerisk data: saknade värden, outliers, normalisering och binning. Nu fortsätter vi resan med mer avancerade tekniker inom Feature Engineering.

Det handlar om hur vi förvandlar text, kategorier och andra typer av data till något som AI kan förstå. Och hur vi väljer ut de features som faktiskt gör skillnad.

Det här steget hänger tätt ihop med Pre-Processing (du hittar vårt tidigare avsnitt här) och bygger vidare på förståelsen för vad som är en bra feature.

1. Kategorisk data – från text till siffror

AI-modeller fungerar oftast bara med siffror. Så vad gör vi med kolumner som innehåller ord, t.ex. "Produktkategori" eller "Avdelning"?

Vanliga tekniker:

One-hot encoding: Skapar en ny kolumn för varje kategori, med 1 för aktuell och 0 för resten.
Label encoding: Ersätter varje kategori med ett unikt tal (passar bara om det finns en logisk ordning).
Ordinal encoding: Som label encoding, men med medveten rangordning (t.ex. "Låg", "Medel", "Hög").
Target encoding: Ersätter varje kategori med medelvärdet på målvariabeln för just den gruppen (t.ex. snittförsäljning för varje produktkategori).

Tips:

Var försiktig med många kategorier (hög kardinalitet), det kan bli tungt för modellen.
Använd domänkunskap: Vad betyder dessa kategorier i praktiken?

Ett exempel från industrin är underhållsmodeller som använder maskintyp, fabrik eller produktionslinje som kategoriska features. Genom att koda dessa rätt (t.ex. med target encoding) kan en modell lära sig att vissa maskintyper oftare leder till driftstopp – något som kan vara avgörande i prediktivt underhåll.

2. Skapa nya features (feature creation)

Att kombinera eller transformera befintliga variabler kan lyfta modellen rejält.

Exempel:

Längd * Bredd = Area (för byggnader eller produkter)
Temperatur × Tid = Energi
Nuvarande år - Tillverkningsår = Ålder på maskin
Textlängd i en kommentar

Det här kräver inte komplicerad kod, men insikt i verkligheten bakom datan.

Inom energioptimering används kombinerade features som t.ex. 'drifttid × belastning' för att uppskatta slitage eller energianvändning. Ett produktionsbolag kan också skapa en feature som "tid sedan senaste service" för att modellera felrisk. Det här är ofta enkla men effektiva sätt att förbättra modellens träffsäkerhet.

3. Välja rätt features (feature selection)

Alla variabler är inte lika viktiga. Faktum är att vissa stjälper mer än de hjälper.

Metoder:

Korrelation: Ta bort variabler som säger samma sak
Beslutsträd/importance scores: Låt modellen själv visa vilka variabler som är viktiga
Manuellt urval med domänkunskap: "Vet vi redan detta indirekt?" "Pekar det här på något vi inte borde veta?"

TIPS: Undvik data leakage! Se till att du inte råkar inkludera variabler som innehåller framtida information. Mer om detta i vårt avsnitt om dataläckage.

Ett industriföretag som jobbar med kvalitetsanalys i produktion kanske har hundratals sensorer. Men bara ett fåtal sensorer har faktiskt stark koppling till avvikelser. Genom feature selection (t.ex. med beslutsträd eller korrelationsanalys) kan man fokusera på de sensorer som verkligen påverkar utfallet – vilket både sparar beräkningsresurser och förbättrar förståelsen och tolkningen av resultaten.

4. Feature Engineering – det handlar om förståelse

Det krävs inte komplicerade AI-kunskaper för att börja jobba med Feature Engineering. Det handlar om att förstå din verksamhet, din data och vad du vill förutspå.

Vi ser ofta i industriella case att rätt features kan göra skillnaden mellan ett lyckat pilotprojekt och ett verktyg som faktiskt används i produktionen. Ett företag som lyckades förutse flaskhalsar i sin logistik identifierade att skillnaden mellan planerad och faktisk leveranstid (en skapad feature) var mer användbar än båda variablerna var för sig. Sådan förståelse uppstår när domänexpertis och dataanalys möts.

Smarta features gör AI enklare. De gör modellerna snabbare, stabilare och mer begripliga. Och det är just därför Feature Engineering ofta är skillnaden mellan ett AI-projekt som fungerar på riktigt – och ett som bara är en kul demo.

Det finns många tekniker

I detta avsnitt har vi fokuserat på praktiska grunder, men det finns många fler tekniker inom Feature Engineering – exempelvis:

Textanalys och NLP-baserade features
Tidsseriefunktioner som trender och säsong
Automatiserad Feature Engineering med verktyg som Featuretools
Statistiska transformationer, som log- eller z-score-transformeringar
Interaktionsfeatures, där två eller flera variabler kombineras

Vilka metoder som är relevanta beror helt på vilken typ av data och problem du arbetar med. Det viktiga är att börja med det du förstår – och bygga vidare därifrån.

Sammanfattning – checklista för Feature Engineering:

Har du koll på vilken typ av data du har (numerisk, kategorisk, text)?
Har du skapat nya features som bygger på verkliga samband?
Har du skalat, grupperat eller normaliserat där det behövs?
Har du rensat bort features som inte tillför värde?
Har du tänkt på risken för dataläckage?

Fortsätt vara nyfiken. Det behövs fler som förstår datan för att vi ska kunna bygga AI som fungerar i verkligheten.

Vidare läsning och inspiration

Wikipedia – Feature Engineering -> [Länk]
The Concise Guide to Feature Engineering for Better Model Performance - A comprehensive guide covering various feature engineering methods, including transformation, scaling, and normalization, with practical tips -> [Länk]
Feature Engineering in Machine Learning: A Practical Guide - A hands-on guide to feature engineering techniques like encoding, scaling, and handling missing values, with Python examples -> [Länk]

Feature Engineering – skapa smarta data för AI – Del 2

Senaste inlägg

Kommentarer