AI అసాధారణతలను ఎలా గుర్తిస్తుంది?

AI అసాధారణతలను ఎలా గుర్తిస్తుంది?

డేటా ఆపరేషన్లలో అనోమలీ డిటెక్షన్ అనేది నిశ్శబ్ద హీరో - వస్తువులు మంటల్లో చిక్కుకునే ముందు గుసగుసలాడే పొగ అలారం.

సరళంగా చెప్పాలంటే: AI "సాధారణం" ఎలా ఉంటుందో తెలుసుకుంటుంది, కొత్త ఈవెంట్‌లకు అసాధారణ స్కోరును , ఆపై ఒక థ్రెషోల్డ్ . మీ డేటా కాలానుగుణంగా, గజిబిజిగా, డ్రిఫ్టింగ్‌గా మరియు అప్పుడప్పుడు మీకు అబద్ధం చెప్పినప్పుడు మీరు "సాధారణం" అని ఎలా నిర్వచించాలో అది దెయ్యం. [1]

దీని తర్వాత మీరు చదవడానికి ఇష్టపడే కథనాలు:

🔗 AI సమాజానికి ఎందుకు హానికరం కావచ్చు
విస్తృతంగా AI స్వీకరించడం వల్ల కలిగే నైతిక, ఆర్థిక మరియు సామాజిక నష్టాలను పరిశీలిస్తుంది.

🔗 AI వ్యవస్థలు వాస్తవానికి ఎంత నీటిని ఉపయోగిస్తాయి
డేటా సెంటర్ శీతలీకరణ, శిక్షణ డిమాండ్లు మరియు పర్యావరణ నీటి ప్రభావాన్ని వివరిస్తుంది.

🔗 AI డేటాసెట్ అంటే ఏమిటి మరియు అది ఎందుకు ముఖ్యమైనది
డేటాసెట్‌లు, లేబులింగ్, మూలాలు మరియు మోడల్ పనితీరులో వాటి పాత్రను నిర్వచిస్తుంది.

🔗 సంక్లిష్ట డేటా నుండి ధోరణులను AI ఎలా అంచనా వేస్తుంది
నమూనా గుర్తింపు, యంత్ర అభ్యాస నమూనాలు మరియు వాస్తవ-ప్రపంచ అంచనా ఉపయోగాలను కవర్ చేస్తుంది.


“AI క్రమరాహిత్యాలను ఎలా గుర్తిస్తుంది?” 

వాస్తవమైన, అసంపూర్ణమైన డేటాకు వాటిని వర్తింపజేసినప్పుడు మెకానిక్స్ మరియు

  • ప్రాథమిక పదార్థాలను చూపించు: లక్షణాలు , బేస్‌లైన్‌లు , స్కోర్‌లు మరియు థ్రెషోల్డ్‌లు . [1]

  • ఆచరణాత్మక కుటుంబాలను పోల్చండి: దూరం, సాంద్రత, ఒక-తరగతి, ఒంటరితనం, సంభావ్యత, పునర్నిర్మాణం. [1]

  • సమయ శ్రేణి విచిత్రాలను నిర్వహించండి: “సాధారణం” అనేది రోజు సమయం, వారంలోని రోజు, విడుదలలు మరియు సెలవులపై ఆధారపడి ఉంటుంది. [1]

  • మూల్యాంకనాన్ని నిజమైన అడ్డంకిగా పరిగణించండి: తప్పుడు హెచ్చరికలు కేవలం చికాకు కలిగించేవి కావు - అవి నమ్మకాన్ని కూడా కాల్చేస్తాయి. [4]

  • "ఇది వింతగా ఉంది" అనేది మూల కారణం కాదు కాబట్టి, అర్థవివరణ + మానవ-లోపలి-లూప్‌ను చేర్చండి. [5]


కోర్ మెకానిక్స్: బేస్‌లైన్‌లు, స్కోర్‌లు, థ్రెషోల్డ్‌లు 🧠

చాలా అసాధారణ వ్యవస్థలు - మీకు నచ్చినా, తెలియకపోయినా - మూడు కదిలే భాగాలకు కుదించబడతాయి:

1) ప్రాతినిధ్యం (aka: మోడల్ ఏమి చూస్తుంది )

ముడి సంకేతాలు చాలా అరుదుగా సరిపోతాయి. మీరు లక్షణాలను (రోలింగ్ గణాంకాలు, నిష్పత్తులు, లాగ్‌లు, కాలానుగుణ డెల్టాలు) ఇంజనీర్ చేయవచ్చు లేదా (ఎంబెడ్డింగ్‌లు, సబ్‌స్పేస్‌లు, పునర్నిర్మాణాలు) నేర్చుకోవచ్చు

2) స్కోరింగ్ (aka: ఇది ఎంత "వింత"?)

సాధారణ స్కోరింగ్ ఆలోచనలు:

  • దూరం ఆధారితం : పొరుగువారికి దూరంగా = అనుమానాస్పదం. [1]

  • సాంద్రత-ఆధారితం : తక్కువ స్థానిక సాంద్రత = అనుమానాస్పదం (LOF అనేది మొదటిది). [1]

  • ఒక-తరగతి సరిహద్దులు : “సాధారణం” నేర్చుకోండి, బయట ఉన్న వాటిని ఫ్లాగ్ చేయండి. [1]

  • సంభావ్యత : అమర్చిన మోడల్ కింద తక్కువ సంభావ్యత = అనుమానాస్పదం. [1]

  • పునర్నిర్మాణ లోపం : సాధారణ శిక్షణ పొందిన మోడల్ దానిని పునర్నిర్మించలేకపోతే, అది బహుశా ఆఫ్‌లో ఉండవచ్చు. [1]

3) థ్రెషోల్డింగ్ (అకా: గంట ఎప్పుడు మోగించాలి)

థ్రెషోల్డ్‌లను స్థిరీకరించవచ్చు, క్వాంటైల్-ఆధారితంగా, ప్రతి-విభాగానికి లేదా ఖర్చు-సున్నితంగా చేయవచ్చు - కానీ వాటిని వైబ్‌లకు కాకుండా హెచ్చరిక బడ్జెట్‌లు మరియు దిగువ ఖర్చులకు వ్యతిరేకంగా క్రమాంకనం

ఒక ఆచరణాత్మకమైన వివరాలు: scikit-learn యొక్క అవుట్‌లియర్/నావెల్టీ డిటెక్టర్లు ముడి స్కోర్‌లను , ఆపై స్కోర్‌లను ఇన్‌లియర్/అవుట్‌లియర్ నిర్ణయాలుగా మార్చడానికి థ్రెషోల్డ్‌ను


తరువాత నొప్పిని నివారించే త్వరిత నిర్వచనాలు 🧯

సూక్ష్మమైన తప్పుల నుండి మిమ్మల్ని రక్షించే రెండు తేడాలు:

  • అవుట్‌లియర్ డిటెక్షన్ : మీ శిక్షణ డేటాలో ఇప్పటికే అవుట్‌లియర్‌లు ఉండవచ్చు; అల్గోరిథం ఏమైనప్పటికీ “దట్టమైన సాధారణ ప్రాంతం”ని మోడల్ చేయడానికి ప్రయత్నిస్తుంది.

  • కొత్తదనాన్ని గుర్తించడం : శిక్షణ డేటా శుభ్రంగా భావించబడుతుంది; కొత్త పరిశీలనలు నేర్చుకున్న సాధారణ నమూనాకు సరిపోతాయో లేదో మీరు నిర్ణయిస్తున్నారు. [2]

ఒక-తరగతి వర్గీకరణగా రూపొందించబడింది - అసాధారణ ఉదాహరణలు అరుదుగా లేదా నిర్వచించబడనందున సాధారణ నమూనా. [1]

 

AI క్రమరాహిత్యాలు గ్లిచింగ్

మీరు నిజంగా ఉపయోగించే పర్యవేక్షణ లేని వర్క్‌హార్స్‌లు 🧰

లేబుల్స్ కొరత ఉన్నప్పుడు (ఇది ఎల్లప్పుడూ ఉంటుంది), నిజమైన పైప్‌లైన్‌లలో కనిపించే సాధనాలు ఇవి:

  • ఐసోలేషన్ ఫారెస్ట్ : అనేక పట్టిక సందర్భాలలో బలమైన డిఫాల్ట్, ఆచరణలో విస్తృతంగా ఉపయోగించబడుతుంది మరియు స్కికిట్-లెర్న్‌లో అమలు చేయబడింది. [2]

  • వన్-క్లాస్ SVM : ప్రభావవంతంగా ఉంటుంది కానీ ట్యూనింగ్ మరియు అంచనాలకు సున్నితంగా ఉంటుంది; scikit-learn జాగ్రత్తగా హైపర్‌పారామీటర్ ట్యూనింగ్ అవసరాన్ని స్పష్టంగా పిలుస్తుంది. [2]

  • లోకల్ అవుట్‌లియర్ ఫ్యాక్టర్ (LOF) : క్లాసిక్ డెన్సిటీ-బేస్డ్ స్కోరింగ్; "సాధారణం" అనేది చక్కని బ్లాబ్ కానప్పుడు చాలా బాగుంటుంది. [1]

ప్రతి వారం ఒక ఆచరణాత్మకమైన గోచా బృందాలు తిరిగి కనుగొంటాయి: మీరు శిక్షణా సెట్‌లో అవుట్‌లియర్ డిటెక్షన్ చేస్తున్నారా లేదా అనే దానిపై ఆధారపడి LOF భిన్నంగా ప్రవర్తిస్తుంది vs. కొత్త డేటాపై నావెల్టీ డిటెక్షన్ - scikit-learn కూడా కనిపించని పాయింట్లను సురక్షితంగా స్కోర్ చేయడానికి నావెల్టీ=ట్రూ


డేటా చిరాకుగా ఉన్నప్పుడు కూడా పనిచేసే బలమైన బేస్‌లైన్ 🪓

మీరు "మనల్ని ఉపేక్షలోకి నెట్టనిది మనకు అవసరం" అనే మోడ్‌లో ఉంటే, బలమైన గణాంకాలు తక్కువగా అంచనా వేయబడతాయి.

సవరించిన z-స్కోర్ మధ్యస్థం మరియు MAD (మధ్యస్థ సంపూర్ణ విచలనం)ను ఉపయోగిస్తుంది 3.5 కంటే ఎక్కువ సంపూర్ణ విలువ వద్ద సాధారణంగా ఉపయోగించే “సంభావ్య అవుట్‌లియర్” నియమాన్ని గమనిస్తుంది . [3]

ఇది ప్రతి క్రమరాహిత్య సమస్యను పరిష్కరించదు - కానీ ఇది తరచుగా బలమైన మొదటి రక్షణ చర్య, ముఖ్యంగా శబ్దం ఎక్కువగా ఉండే కొలమానాలు మరియు ప్రారంభ దశ పర్యవేక్షణకు. [3]


టైమ్ సిరీస్ రియాలిటీ: “సాధారణం” అనేది ఎప్పుడు అనే దానిపై ఆధారపడి ఉంటుంది ⏱️📈

సమయ శ్రేణి క్రమరాహిత్యాలు సంక్లిష్టంగా ఉంటాయి ఎందుకంటే సందర్భమే ప్రధాన విషయం: మధ్యాహ్నం స్పైక్ ఊహించబడవచ్చు; తెల్లవారుజామున 3 గంటలకు అదే స్పైక్ అంటే ఏదో మంటల్లో ఉందని అర్థం. అందువల్ల అనేక ఆచరణాత్మక వ్యవస్థలు సమయ-అవగాహన లక్షణాలను (లాగ్‌లు, కాలానుగుణ డెల్టాలు, రోలింగ్ విండోలు) మరియు అంచనా వేసిన నమూనాకు సంబంధించి స్కోర్ విచలనాలను ఉపయోగించి సాధారణతను మోడల్ చేస్తాయి. [1]

మీకు ఒకే ఒక నియమం గుర్తుంటే: మీ ట్రాఫిక్‌లో సగం “అసాధారణమైనది” అని ప్రకటించే ముందు మీ బేస్‌లైన్‌ను (గంట/రోజు/ప్రాంతం/సేవా శ్రేణి) విభజించండి


మూల్యాంకనం: అరుదైన సంఘటనల ఉచ్చు 🧪

క్రమరాహిత్య గుర్తింపు తరచుగా "గడ్డివాములో సూది" లాంటిది, ఇది మూల్యాంకనాన్ని వింతగా చేస్తుంది:

  • పాజిటివ్‌లు అరుదుగా ఉన్నప్పుడు ROC వక్రతలు మోసపూరితంగా చక్కగా కనిపిస్తాయి.

  • అసమతుల్య సెట్టింగ్‌లకు ప్రెసిషన్-రీకాల్ వీక్షణలు తరచుగా మరింత సమాచారంగా ఉంటాయి ఎందుకంటే అవి సానుకూల తరగతిపై పనితీరుపై దృష్టి పెడతాయి. [4]

  • కార్యాచరణపరంగా, మీకు హెచ్చరిక బడ్జెట్ : మానవులు కోపాన్ని విడిచిపెట్టకుండా గంటకు ఎన్ని హెచ్చరికలను పరీక్షించగలరు? [4]

రోలింగ్ విండోలలో బ్యాక్‌టెస్టింగ్ చేయడం వలన మీరు క్లాసిక్ ఫెయిల్యూర్ మోడ్‌ను పట్టుకోవడంలో సహాయపడుతుంది: “ఇది గత నెల పంపిణీలో అందంగా పనిచేస్తుంది.” [1]


అర్థవివరణ & మూల కారణం: మీ పనిని చూపించు 🪄

వివరణ లేకుండా హెచ్చరించడం అనేది ఒక రహస్య పోస్ట్‌కార్డ్‌ను పొందడం లాంటిది. ఉపయోగకరమైనది, కానీ నిరాశపరిచేది.

ఏ ఫీచర్లు అనోమలీ స్కోర్‌కు ఎక్కువగా దోహదపడ్డాయో సూచించడం ద్వారా లేదా “ఇది సాధారణంగా కనిపించడానికి ఏమి మార్చాలి?” శైలి వివరణలు ఇవ్వడం ద్వారా సహాయపడతాయి ఇంటర్‌ప్రెటబుల్ మెషిన్ లెర్నింగ్ పుస్తకం సాధారణ పద్ధతులు (SHAP-శైలి లక్షణాలతో సహా) మరియు వాటి పరిమితులకు దృఢమైన, కీలకమైన మార్గదర్శి. [5]

లక్ష్యం కేవలం వాటాదారుల సౌకర్యం మాత్రమే కాదు - ఇది వేగవంతమైన ట్రయాజ్ మరియు తక్కువ పునరావృత సంఘటనలు.


విస్తరణ, డ్రిఫ్ట్ మరియు అభిప్రాయ ఉచ్చులు 🚀

మోడల్స్ స్లయిడ్లలో నివసించవు. అవి పైప్‌లైన్లలో నివసిస్తాయి.

"ఉత్పత్తిలో మొదటి నెల" అనే సాధారణ కథనం: డిటెక్టర్ ఎక్కువగా డిప్లాయ్‌లు, బ్యాచ్ జాబ్‌లు మరియు తప్పిపోయిన డేటాను ఫ్లాగ్ చేస్తుంది... ఇది ఇప్పటికీ ఉపయోగకరంగా ఉంటుంది ఎందుకంటే ఇది "డేటా నాణ్యత సంఘటనలను" "వ్యాపార క్రమరాహిత్యాల" నుండి వేరు చేయడానికి మిమ్మల్ని బలవంతం చేస్తుంది.

ఆచరణలో:

  • ప్రవర్తన మారినప్పుడు డ్రిఫ్ట్‌ను పర్యవేక్షించండి

  • లాగ్ స్కోర్ ఇన్‌పుట్‌లు + మోడల్ వెర్షన్ , తద్వారా మీరు ఏదో పేజ్ చేయబడిందో పునరుత్పత్తి చేయవచ్చు. [5]

  • కాలక్రమేణా థ్రెషోల్డ్‌లు మరియు సెగ్మెంట్‌లను ట్యూన్ చేయడానికి మానవ అభిప్రాయాన్ని (ఉపయోగకరమైన vs ధ్వనించే హెచ్చరికలు) సంగ్రహించండి


భద్రతా కోణం: IDS మరియు ప్రవర్తనా విశ్లేషణలు 🛡️

భద్రతా బృందాలు తరచుగా క్రమరాహిత్య ఆలోచనలను నియమ-ఆధారిత గుర్తింపుతో మిళితం చేస్తాయి: “సాధారణ హోస్ట్ ప్రవర్తన” కోసం ప్రాథమిక అంశాలు, అలాగే తెలిసిన చెడు నమూనాల కోసం సంతకాలు మరియు విధానాలు. చొరబాటు గుర్తింపు మరియు నివారణ వ్యవస్థ పరిగణనల కోసం NIST యొక్క SP 800-94 (ఫైనల్) విస్తృతంగా ఉదహరించబడిన ఫ్రేమింగ్‌గా మిగిలిపోయింది; 2012 డ్రాఫ్ట్ “రెవ్. 1” ఎప్పుడూ తుది రూపం దాల్చలేదని మరియు తరువాత విరమించబడిందని కూడా ఇది పేర్కొంది. [3]

అనువాదం: ML సహాయపడే చోట వాడండి, కానీ బోరింగ్ నియమాలను విస్మరించవద్దు - అవి పని చేస్తాయి కాబట్టి అవి బోరింగ్‌గా ఉంటాయి.


పోలిక పట్టిక: జనాదరణ పొందిన పద్ధతులు క్లుప్తంగా 📊

సాధనం / పద్ధతి ఉత్తమమైనది ఇది ఎందుకు పనిచేస్తుంది (ఆచరణలో)
దృఢమైన / సవరించిన z-స్కోర్‌లు సాధారణ కొలమానాలు, శీఘ్ర ప్రాథమిక అంశాలు మీకు "తగినంత మంచిది" మరియు తక్కువ తప్పుడు అలారాలు అవసరమైనప్పుడు బలమైన మొదటి పాస్. [3]
ఐసోలేషన్ ఫారెస్ట్ పట్టిక, మిశ్రమ లక్షణాలు ఘన డిఫాల్ట్ అమలు మరియు ఆచరణలో విస్తృతంగా ఉపయోగించబడుతుంది. [2]
వన్-క్లాస్ SVM కాంపాక్ట్ "సాధారణ" ప్రాంతాలు సరిహద్దు ఆధారిత నవీనత గుర్తింపు; ట్యూనింగ్ చాలా ముఖ్యమైనది. [2]
స్థానిక బాహ్య కారకం మానిఫోల్డ్-ఇష్ నార్మల్స్ సాంద్రత వ్యత్యాసం vs పొరుగువారు స్థానిక వింతను పట్టుకుంటారు. [1]
పునర్నిర్మాణ లోపం (ఉదా., ఆటోఎన్‌కోడర్-శైలి) హై-డైమెన్షనల్ నమూనాలు సాధారణ మార్గంలో శిక్షణ ఇవ్వండి; పెద్ద పునర్నిర్మాణ లోపాలు విచలనాలను సూచిస్తాయి. [1]

చీట్ కోడ్: బలమైన బేస్‌లైన్‌లతో ప్రారంభించండి + బోరింగ్ పర్యవేక్షణ లేని పద్ధతి, ఆపై అద్దె చెల్లించే చోట మాత్రమే సంక్లిష్టతను జోడించండి.


ఒక మినీ ప్లేబుక్: జీరో నుండి అలర్ట్‌ల వరకు 🧭

  1. కార్యాచరణపరంగా "విచిత్రం" ను నిర్వచించండి (జాప్యం, మోసం ప్రమాదం, CPU త్రాష్, జాబితా ప్రమాదం).

  2. బేస్‌లైన్‌తో ప్రారంభించండి (బలమైన గణాంకాలు లేదా విభజించబడిన థ్రెషోల్డ్‌లు). [3]

  3. మొదటి పాస్‌గా ఒక పర్యవేక్షణ లేని మోడల్‌ను ఎంచుకోండి

  4. అప్రమత్తమైన బడ్జెట్‌తో పరిమితులను సెట్ చేయండి మరియు PR-శైలి ఆలోచనతో మూల్యాంకనం చేయండి. [4]

  5. ప్రతి హెచ్చరికను పునరుత్పత్తి చేయడానికి మరియు డీబగ్ చేయడానికి వివరణలు + లాగింగ్‌ను జోడించండి

  6. బ్యాక్‌టెస్ట్, షిప్, లెర్న్, రీకాలిబ్రేట్ - డ్రిఫ్ట్ సాధారణం. [1]

మీ టైమ్‌స్టాంప్‌లు డక్ట్ టేప్ మరియు హోప్‌తో కలిపి ఉంచబడకపోతే మీరు దీన్ని ఒక వారంలోనే చేయగలరు. 😅


చివరి వ్యాఖ్యలు - చాలా పొడవుగా ఉంది, నేను చదవలేదు🧾

"సాధారణం" యొక్క ఆచరణాత్మక చిత్రాన్ని నేర్చుకోవడం, విచలనాలను స్కోర్ చేయడం మరియు ఒక పరిమితిని దాటిన వాటిని ఫ్లాగ్ చేయడం ద్వారా AI క్రమరాహిత్యాలను గుర్తిస్తుంది. ఉత్తమ వ్యవస్థలు మెరుస్తూ ఉండటం ద్వారా కాదు, క్రమాంకనం చేయడం : విభజించబడిన బేస్‌లైన్‌లు, హెచ్చరిక బడ్జెట్‌లు, అర్థమయ్యే అవుట్‌పుట్‌లు మరియు ధ్వనించే అలారాలను నమ్మదగిన సిగ్నల్‌గా మార్చే ఫీడ్‌బ్యాక్ లూప్. [1]


ప్రస్తావనలు

  1. పిమెంటెల్ మరియు ఇతరులు (2014) - నావెల్టీ డిటెక్షన్ సమీక్ష (PDF, ఆక్స్‌ఫర్డ్ విశ్వవిద్యాలయం) మరింత చదవండి

  2. scikit-learn డాక్యుమెంటేషన్ - నావెల్టీ మరియు అవుట్‌లియర్ డిటెక్షన్ మరింత చదవండి

  3. NIST/SEMATECH e-హ్యాండ్‌బుక్ - అవుట్‌లియర్‌ల గుర్తింపు మరింత చదవండి మరియు NIST CSRC - SP 800-94 (ఫైనల్): చొరబాటు గుర్తింపు మరియు నివారణ వ్యవస్థలకు (IDPS) గైడ్ మరింత చదవండి

  4. సైటో & రెహ్మ్స్మీర్ (2015) - అసమతుల్య డేటాసెట్‌లపై బైనరీ వర్గీకరణదారులను మూల్యాంకనం చేసేటప్పుడు ROC ప్లాట్ కంటే ప్రెసిషన్-రీకాల్ ప్లాట్ మరింత సమాచారంతో కూడుకున్నది (PLOS ONE) మరింత చదవండి

  5. మోల్నార్ - ఇంటర్‌ప్రెటబుల్ మెషిన్ లెర్నింగ్ (వెబ్ బుక్) మరింత చదవండి

అధికారిక AI అసిస్టెంట్ స్టోర్‌లో తాజా AI ని కనుగొనండి

మా గురించి

బ్లాగుకు తిరిగి వెళ్ళు