AI తన సమాచారాన్ని ఎక్కడి నుండి పొందుతుంది?

అసలు ఇదంతా ఎక్కడి నుంచి వస్తోంది అని మీరు ఎప్పుడైనా తల గోక్కుంటూ ఆలోచించారా ? అంటే, ఏఐ (AI) దుమ్ముపట్టిన లైబ్రరీ పుస్తకాల అరలను వెతకడం గానీ, దొంగచాటుగా యూట్యూబ్ షార్ట్స్ చూడటం గానీ చేయదు కదా. అయినా కూడా, దాని లోపల అంతులేని ఫైలింగ్ క్యాబినెట్ ఉన్నట్టుగా, లాసగ్నా హ్యాక్స్ నుండి బ్లాక్ హోల్ ఫిజిక్స్ వరకు ప్రతీదానికి సమాధానాలను ఎలాగోలా బయటకు కక్కేస్తుంది. వాస్తవం మీరు ఊహించిన దానికంటే వింతగా, బహుశా మరింత ఆసక్తికరంగా ఉంటుంది. దాని గురించి కొంచెం లోతుగా పరిశీలిద్దాం (అవును, ఈ క్రమంలో కొన్ని అపోహలను కూడా తొలగిద్దాం).

ఇది మంత్రవిద్యనా? 🌐

ఇది మాయాజాలం కాదు, కానీ కొన్నిసార్లు అలా అనిపిస్తుంది. తెర వెనుక జరిగేది ప్రాథమికంగా నమూనా అంచనా. పెద్ద భాషా నమూనాలు (LLMలు) వాస్తవాలను నిల్వ ; బదులుగా, అవి ముందు వచ్చిన దాని ఆధారంగా తదుపరి పదాన్ని (టోకెన్) ఊహించడానికి శిక్షణ పొందుతాయి [2]. ఆచరణలో, అంటే అవి సంబంధాలను పట్టుకుంటాయి: ఏ పదాలు కలిసి ఉంటాయి, వాక్యాలు సాధారణంగా ఎలా రూపు తీసుకుంటాయి, మొత్తం ఆలోచనలు ఎలా పరంపరలా నిర్మించబడతాయి. అందుకే అవుట్‌పుట్ అనిపిస్తుంది , అయినప్పటికీ-పూర్తి నిజాయితీతో-ఇది గణాంక అనుకరణ, గ్రహణశక్తి కాదు [4].

కాబట్టి AI-సృష్టించిన సమాచారాన్ని వాస్తవానికి ఉపయోగకరంగా? కొన్ని విషయాలు:

డేటా వైవిధ్యం - ఒక ఇరుకైన ప్రవాహం నుండి కాకుండా లెక్కలేనన్ని మూలాల నుండి తీసుకోవడం.
అప్‌డేట్‌లు - రిఫ్రెష్ సైకిల్స్ లేకుండా, ఇది త్వరగా పాతబడిపోతుంది.
వడపోత - ఆదర్శవంతంగా చెత్త లోపలికి చేరకముందే పట్టుకోవడం (అయితే, నిజం చెప్పాలంటే, ఆ వలలో రంధ్రాలు ఉంటాయి).
క్రాస్-చెకింగ్ - అధికార వనరులపై ఆధారపడటం (NASA, WHO, ప్రధాన విశ్వవిద్యాలయాలు వంటివి), ఇది చాలా AI గవర్నెన్స్ ప్లేబుక్‌లలో తప్పనిసరిగా ఉండాలి [3].

అయినప్పటికీ, కొన్నిసార్లు అది నమ్మకంగా కల్పితం చేస్తుంది. ఆ భ్రాంతులు అని పిలవబడేవి ? ప్రాథమికంగా మెరుగుపెట్టిన అర్ధంలేనివి నేరుగా ముఖంతో అందించబడతాయి [2][3].

దీని తర్వాత మీరు చదవడానికి ఇష్టపడే కథనాలు:

🔗 AI లాటరీ సంఖ్యలను అంచనా వేయగలదా?
AI లాటరీ అంచనాల గురించి అపోహలు మరియు వాస్తవాలను అన్వేషించడం.

🔗 AI కి సమగ్ర విధానాన్ని తీసుకోవడం అంటే ఏమిటి?
నైతికత మరియు ప్రభావంపై సమతుల్య దృక్పథాలతో AIని అర్థం చేసుకోవడం.

🔗 కృత్రిమ మేధస్సు గురించి బైబిల్ ఏమి చెబుతుంది?
సాంకేతికత మరియు మానవ సృష్టిపై బైబిల్ దృక్కోణాలను పరిశీలించడం.

త్వరిత పోలిక: AI ఎక్కడి నుండి వస్తుంది 📊

ప్రతి మూలం సమానంగా ఉండదు, కానీ ప్రతి ఒక్కటి దాని పాత్రను పోషిస్తుంది. ఇక్కడ స్నాప్‌షాట్ వీక్షణ ఉంది.

మూల రకం	దీన్ని ఎవరు ఉపయోగిస్తారు (AI)	ధర/విలువ	ఇది ఎందుకు పనిచేస్తుంది (లేదా పనిచేయదు...)
పుస్తకాలు & వ్యాసాలు	పెద్ద భాషా నమూనాలు	అమూల్యమైనది (ఇష్)	దట్టమైన, నిర్మాణాత్మక జ్ఞానం - త్వరగా వృద్ధాప్యం అవుతుంది.
వెబ్‌సైట్‌లు & బ్లాగులు	దాదాపు అన్ని AIలు	ఉచితం (శబ్దంతో)	అడవి రకం; ప్రకాశం మరియు సంపూర్ణ చెత్త మిశ్రమం.
విద్యా విషయక పత్రాలు	పరిశోధన-భారీ AIలు	కొన్నిసార్లు చెల్లింపుతో కూడినది	కఠినత్వం + విశ్వసనీయత, కానీ భారీ పరిభాషలో ఉంది.
వినియోగదారు డేటా	వ్యక్తిగతీకరించిన AIలు	అత్యంత సున్నితమైనది ⚠️	టైలరింగ్ బాగానే ఉంది, కానీ గోప్యతా తలనొప్పులు చాలా ఉన్నాయి.
రియల్-టైమ్ వెబ్	శోధన-లింక్డ్ AIలు	ఉచితం (ఆన్‌లైన్‌లో ఉంటే)	సమాచారాన్ని తాజాగా ఉంచుతుంది; ప్రతికూలత ఏమిటంటే పుకార్లు వ్యాప్తి చెందే ప్రమాదం.

శిక్షణ డేటా విశ్వం 🌌

ఇది “బాల్య అభ్యాస” దశ. ఒక పిల్లాడికి లక్షలాది కథల పుస్తకాలు, వార్తాపత్రిక క్లిప్పింగ్‌లు మరియు వికీపీడియాలోని అంతులేని సమాచారాన్ని ఒకేసారి అందించడాన్ని ఊహించుకోండి. ప్రీట్రైనింగ్ అలా ఉంటుంది. వాస్తవ ప్రపంచంలో, ప్రొవైడర్లు బహిరంగంగా అందుబాటులో ఉన్న డేటా, లైసెన్స్ పొందిన మూలాలు మరియు శిక్షకుడు రూపొందించిన టెక్స్ట్‌ను [2] కలిపి ఉపయోగిస్తారు.

పైన పొరలుగా: క్యూరేటెడ్ మానవ ఉదాహరణలు-మంచి సమాధానాలు, చెడు సమాధానాలు, సరైన దిశలో నెట్టడం-బలోపేతం ప్రారంభమయ్యే ముందు [1].

పారదర్శకత హెచ్చరిక: కంపెనీలు ప్రతి వివరాలను వెల్లడించవు. కొన్ని గార్డ్‌రెయిల్‌లు రహస్యంగా ఉంటాయి (IP, భద్రతా సమస్యలు), కాబట్టి మీరు వాస్తవ మిశ్రమంలోకి పాక్షిక విండోను మాత్రమే పొందుతారు [2].

రియల్-టైమ్ సెర్చ్: ది ఎక్స్‌ట్రా టాపింగ్ 🍒

కొన్ని నమూనాలు ఇప్పుడు వాటి శిక్షణ బబుల్ వెలుపల చూడగలవు. అదే రిట్రీవల్-ఆగ్మెంటెడ్ జనరేషన్ (RAG) -ప్రాథమికంగా లైవ్ ఇండెక్స్ లేదా డాక్ స్టోర్ నుండి ముక్కలను లాగి, ఆపై దానిని ప్రత్యుత్తరంలోకి అల్లడం [5]. వార్తల ముఖ్యాంశాలు లేదా స్టాక్ ధరల వంటి వేగంగా మారుతున్న విషయాలకు ఇది ఖచ్చితంగా సరిపోతుంది.

అసలు విషయం ఏంటి? ఇంటర్నెట్ అనేది తెలివితేటలు మరియు చెత్త నిప్పుతో సమానం. ఫిల్టర్లు లేదా మూల తనిఖీలు బలహీనంగా ఉంటే, మీరు జంక్ డేటా తిరిగి దొంగిలించే ప్రమాదం ఉంది - రిస్క్ ఫ్రేమ్‌వర్క్‌లు దేని గురించి హెచ్చరిస్తాయో అదే [3].

ఒక సాధారణ ప్రత్యామ్నాయ మార్గం: కంపెనీలు మోడల్‌లను తమ సొంత అంతర్గత డేటాబేస్‌లకు అనుసంధానిస్తాయి , తద్వారా సమాధానాలు ఊహాగానాలతో కాకుండా ప్రస్తుత హెచ్‌ఆర్ పాలసీని లేదా అప్‌డేట్ చేయబడిన ప్రొడక్ట్ డాక్యుమెంట్‌ను ఉదహరిస్తాయి. ఇలా ఆలోచించండి: తక్కువ "అయ్యో" క్షణాలు, మరింత విశ్వసనీయమైన సమాధానాలు.

ఫైన్-ట్యూనింగ్: AI యొక్క పాలిషింగ్ దశ 🧪

ముడి ప్రీ-ట్రైన్డ్ మోడల్స్ వికృతంగా ఉంటాయి. కాబట్టి అవి చక్కగా ట్యూన్ చేయబడతాయి:

వారికి సహాయకారిగా, హానిచేయనిదిగా, నిజాయితీగా ఉండటానికి నేర్పించడం (మానవ అభిప్రాయం నుండి ఉపబల అభ్యాసం ద్వారా, RLHF) [1].
అసురక్షిత లేదా విషపూరిత అంచులను ఇసుక వేయడం (అమరిక) [1].
స్నేహపూర్వకంగా, అధికారికంగా లేదా సరదాగా వ్యంగ్యంగా మాట్లాడే స్వరానికి తగ్గట్టుగా సర్దుబాటు చేసుకోవడం.

ఇది వజ్రాన్ని మెరుగుపెట్టడం కాదు, గణాంకపరంగా వచ్చిన హిమపాతాన్ని సంభాషణ భాగస్వామిలా ప్రవర్తించేలా చేయడం.

ఒడిదుడుకులు మరియు వైఫల్యాలు 🚧

ఇది దోషరహితంగా ఉందని నటించవద్దు:

భ్రాంతులు - పూర్తిగా తప్పుగా ఉండే స్పష్టమైన సమాధానాలు [2][3].
పక్షపాతం - ఇది డేటాలో బేక్ చేయబడిన నమూనాలను ప్రతిబింబిస్తుంది; తనిఖీ చేయకపోతే వాటిని విస్తరించవచ్చు [3][4].
ప్రత్యక్ష అనుభవం లేదు - ఇది మాట్లాడగలదు కానీ ఎప్పుడూ రుచి చూడలేదు [4].
అతి విశ్వాసం - తెలియకపోయినా, తెలిసినట్లుగా గద్యం ప్రవహిస్తుంది. రిస్క్ ఫ్రేమ్‌వర్క్‌లు అంచనాలను ఫ్లాగ్ చేయడాన్ని నొక్కి చెబుతాయి [3].

తెలిసినట్లు ఎందుకు అనిపిస్తుంది 🧠

దానికి నమ్మకాలు లేవు, మానవ అర్థంలో జ్ఞాపకశక్తి లేదు, మరియు ఖచ్చితంగా స్వీయత లేదు. అయినప్పటికీ అది వాక్యాలను సజావుగా కలుపుతుంది కాబట్టి, మీ మెదడు దానిని అర్థం చేసుకున్నట్లుగా. జరుగుతున్నది కేవలం భారీ-స్థాయి తదుపరి-టోకెన్ అంచనా: ట్రిలియన్ల సంభావ్యతలను క్షణాల్లో లెక్కించడం [2].

“తెలివి” అనే భావన ఉద్భవిస్తున్న ప్రవర్తన- పరిశోధకులు దీనిని కొంచెం వ్యంగ్యంగా “స్టోకాస్టిక్ చిలుక” ప్రభావం అని పిలుస్తారు [4].

పిల్లలకు అనుకూలమైన సారూప్యత 🎨

గ్రంథాలయంలోని ప్రతి పుస్తకాన్ని చదివిన ఒక చిలుకను ఊహించుకోండి. దానికి అర్థం , కానీ అందులోని పదాలను కలిపి ఏదో జ్ఞానోపదేశంలా అనిపించేలా చెప్పగలదు. కొన్నిసార్లు అది అచ్చం సరిగ్గా ఉంటుంది; కొన్నిసార్లు అర్థరహితంగా ఉంటుంది-కానీ దానికి తగినంత నేర్పు ఉంటే, ఆ రెండింటి మధ్య తేడాను మీరు ఎల్లప్పుడూ గుర్తించలేరు.

సంక్షిప్తంగా: AI సమాచారం ఎక్కడి నుండి వస్తుంది 📌

సరళంగా చెప్పాలంటే:

భారీ శిక్షణ డేటా (పబ్లిక్ + లైసెన్స్ పొందిన + శిక్షకుడు రూపొందించినది) [2].
స్వరం/ప్రవర్తనను రూపొందించడానికి మానవ అభిప్రాయంతో ఫైన్-ట్యూనింగ్ [1]
లైవ్ డేటా స్ట్రీమ్‌లకు అనుసంధానించబడినప్పుడు తిరిగి పొందే వ్యవస్థలు [5]

AI కి విషయాలు "తెలియవు"-అది టెక్స్ట్‌ను అంచనా వేస్తుంది. అది దాని సూపర్‌పవర్ మరియు దాని అకిలెస్ మడమ కూడా. చివరిగా చెప్పేది ఏంటంటే? ముఖ్యమైన విషయాలను ఎల్లప్పుడూ విశ్వసనీయమైన మూలంతో సరిపోల్చి చూసుకోండి [3].

ప్రస్తావనలు

ఔయాంగ్, ఎల్. మరియు ఇతరులు (2022). మానవ అభిప్రాయంతో సూచనలను అనుసరించడానికి భాషా నమూనాలకు శిక్షణ ఇవ్వడం (InstructGPT). arXiv.
OpenAI (2023). GPT-4 సాంకేతిక నివేదిక - లైసెన్స్ పొందిన, పబ్లిక్ మరియు మానవ-సృష్టించిన డేటా మిశ్రమం; తదుపరి-టోకెన్ అంచనా లక్ష్యం మరియు పరిమితులు. arXiv.
NIST (2023). AI రిస్క్ మేనేజ్‌మెంట్ ఫ్రేమ్‌వర్క్ (AI RMF 1.0) - మూలం, విశ్వసనీయత మరియు రిస్క్ నియంత్రణలు. PDF.
బెండర్, EM, గెబ్రూ, T., మెక్‌మిలన్-మేజర్, A., మిచెల్, S. (2021). స్టోకాస్టిక్ చిలుకల ప్రమాదాలపై: భాషా నమూనాలు చాలా పెద్దవిగా ఉండగలవా? PDF.
లూయిస్, పి. మరియు ఇతరులు (2020). నాలెడ్జ్-ఇంటెన్సివ్ NLP కోసం తిరిగి పొందే-వృద్ధి చెందిన తరం. arXiv.

అధికారిక AI అసిస్టెంట్ స్టోర్‌లో తాజా AI ని కనుగొనండి

మా గురించి

బ్లాగుకు తిరిగి వెళ్ళు