A vállalkozások életében előfordulnak olyan időszakok, amikor valami „nem illik a képbe”: egy szokatlanul magas költség, váratlan bevételcsökkenés, hirtelen készletkiugrás vagy teljesítményesés. Ezeket nevezzük anomáliáknak vagy rendellenességeknek. Az anomália detektálás célja ezeknek a pontoknak a gyors észlelése, hogy a vezetés azonnal reagálhasson.
Az információ hatalom, mondják, az üzleti folyamatokban az anomália időben történő detektálása és még inkább előrejelzése nagyon jó példa erre a népi bölcsességre. Mi történik, ha időben felismerünk vagy előre jelzünk egy anomáliát?
- Ha a folyamatainkban, értékesítésben vagy költségszerkezetben valami szokatlan történik, időben be tudunk avatkozni.
- Minőségbiztosítás: A rendellenességek gyakran hibát jeleznek a gyártásban, szolgáltatásban vagy adatrögzítésben.
- Költségcsökkentés: Egy korán észlelt anomália megelőzheti a veszteséget.
Hogyan működik a gyakorlatban?
Hogyan működik az anomália detektálás?
Idősoros adatoknál (például napi értékesítési adatok, készletszint, szenzormérések) a módszer az adott időszak adatait hasonlítja össze a szokásos mintázattal. Ha egy érték szignifikánsan eltér a megszokottól, azt jelzi a rendszer.
Példa: indiai légszennyezettségi adatok anomáliáinak felismerése
Tegyük fel, hogy a Kaggle „Air Quality Data of India” (https://www.kaggle.com/datasets/abhisheksjha/time-series-air-quality-data-of-india-2010-2023) adatkészletéből egy mérőállomás NO2 értékeit vizsgáljuk, és szeretnénk látni, mely pontok lehetnek rendellenesek.
Mi olvasható le az ábráról?
A kék vonal a napi mért értékeket mutatja (vonal a napi értékek összekötésével keletkezik). A piros pontok azok a napok, ahol a NO2 érték szokatlanul magas vagy alacsony volt az előző időszakhoz képest. A kiugró értékek kezelése a legegyszerűbb, ám a gyakorlatban sokszor jól működő interkvartilis terjedelem alapján történt. Ezt úgy kell elképzelni, hogy ha tekintjük az összes megfigyelésünket és nagyság szerint sorba rendezzük őket, akkor ebben a „tornasorban” az az érték, aminél a megfigyelések 25%-a kisebb, valamint az az érték, aminél a megfigyelések 25%-a nagyobb kijelöl egy tartományt. Ezt nevezzük interkvartilis terjedelem. A jelenlegi megközelítésben pedig szélsőségesnek definiáltuk azokat a megfigyeléseket amelyek kisebbek az interkvartilis terjedelem (angolul interkvartilis range IQR) másfélszeresénél vagy nagyobbak az IQR másfélszeresénél.
Ezzel a megközelítéssel 7661 megfigyelésből 191 (2,5%) kiugró értéket találtunk.
A blogban található elemzés és grafikon R kódja


