Ad Code

ఆర్టిఫిషియల్‌ ఇంటెలిజెన్స్‌లోకి అమెజాన్‌ ప్రవేశం !


ఆర్టిఫిషియల్‌ ఇంటెలిజెన్స్‌ అభివృద్ధి, ఏఐ బేస్డ్‌ ప్రొడక్టుల రేసులోకి అమెజాన్‌ ప్రవేశించింది. OpenAI కంపెనీ రెండు నెలల క్రితం ChatGPTని ఇంట్రడ్యూస్‌ చేసింది. ఈ AI-బేస్ట్‌ చాట్‌బాట్‌ గురించి విస్తృత చర్చలు మొదలయ్యాయి. బిజినెస్‌, ఎడ్యుకేషన్‌ వంటి రంగాల్లో రానున్న మార్పుల గురించి చాలా విశ్లేషణలు వినిపించాయి. ఆ తర్వాత Google, Baidu కంపెనీలు తమ చాట్‌బాట్‌ల వివరాలను వెల్లడించాయి. త్వరలో జెనరేటివ్ AI కన్వర్జేషనల్ టెక్స్ట్‌, గ్రాఫిక్స్ మరిన్నింటిని క్రియేట్‌ చేయగల టెక్నాలజీని అందిస్తామని ప్రకటించాయి. ScienceQA బెంచ్‌మార్క్‌లో అమెజాన్‌ న్యూ లాంగ్వేజ్‌ మోడల్స్‌ GPT-3.5 కంటే 16 శాతం పాయింట్లు (75.17%) మెరుగ్గా ఉంది. చాలా మంది మానవులను అధిగమించే సత్తా దీని సొంతం. ScienceQA బెంచ్‌మార్క్ అనేది సమాధానాలతో కూడిన మల్టీమోడల్ సైన్స్ క్వశ్చన్స్‌ సెట్. ఇందులో 21,000కు పైగా మల్టీమోడల్ మల్టిపుల్‌ ఛాయిస్‌ క్వశ్చన్స్‌ ఉన్నాయి. ఇటీవలి టెక్నాలజీ అడ్వాన్సెస్‌ లార్జ్‌ లాంగ్వేజ్‌ మోడల్స్‌ను కాంప్లెక్స్‌ రీజనింగ్‌ అవసరమయ్యే పనులను మెరుగ్గా చేసేలా మార్చాయి. ఇది చైన్-ఆఫ్-థాట్ (CoT) ప్రాంప్టింగ్ ద్వారా జరుగుతుంది. దీన్ని ఏదైనా ఒక పనిని చేయడానికి సిద్ధం చేయడంలో సెన్స్ ద్వార ఇంటర్మీడియట్ స్టెప్స్‌ను అభివృద్ధి చేసే ప్రక్రియగా పేర్కొంటారు. CoTపై ప్రస్తుతం జరుగుతున్న పనులు చాలావరకు లాంగ్వేజ్ మోడాలిటీ మీద ఉన్నాయి. మల్టీమోడాలిటీలో CoT రీజనింగ్‌ను కనుగొనడానికి పరిశోధకులు తరచుగా మల్టీమోడల్-CoT నమూనాను ఉపయోగిస్తారు. మల్టీమోడాలిటీ విజన్‌, లాంగ్వేజ్‌ వంటి మల్టిపుల్‌ ఇన్‌పుట్స్‌పై ఆధారపడుతుంది. మల్టీమోడల్-CoT అనేది ఇంటర్మీడియట్ రీజనింగ్ ప్రాసెస్‌లో ఒకటి కంటే ఎక్కువ భాగాలను ప్రాబ్లమ్స్‌ను విడగొడుతుంది. ఇది లాంగ్వేజ్‌, విజన్‌ వంటి విభిన్న పద్ధతుల నుంచి ఇన్‌పుట్‌లు వచ్చినప్పటికీ, తుది సమాధానం అందిస్తుంది. CoT చేయమని LLMలను అడగడానికి ముందు.. మల్డిమోడాలిటీస్‌ నుంచి వచ్చిన సమాచారాన్ని సింగిల్‌ మోడాలిటీగా కలపడమే మల్డిమోడల్‌-CoT చేయడంలో సాధారణ పద్ధతి. కానీ ఈ పద్ధతికి కొన్ని సమస్యలు ఉన్నాయి. డేటాను ఒక ఫార్మాట్ నుంచి మరొకదానికి మూవ్‌ చేసే సమయంలో చాలా సమాచారం పోతుంది. ఫైన్-ట్యూనింగ్ స్మాల్‌ లాంగ్వేజ్‌ మోడల్స్‌ కూడా విజన్‌, లాంగ్వేజ్‌ఇక సంబంధించిన విభిన్న అంశాలను కలపడం ద్వారా మల్టీమోడాలిటీలో CoT రీజనింగ్‌ను చేయగలవు. అయితే ఈ విధానంలో ఉన్న ప్రధాన సమస్య ఏంటంటే.. ఈ లాంగ్వేజ్‌ మోడల్స్‌ ఆన్సర్‌ ఇన్‌ఫెరెన్స్‌ను గణనీయంగా ప్రభావితం చేసే భ్రాంతికరమైన తార్కిక నమూనాలను ఉత్పత్తి చేసే ప్రవృత్తిని కలిగి ఉంటాయి. అమెజాన్ పరిశోధకులు మల్టీమోడల్-కోట్‌తో ముందుకు వచ్చారు. ఇది ఈ తప్పుల ప్రభావాలను తగ్గించడానికి ప్రత్యేక ట్రైనింగ్‌ ఫ్రేమ్‌వర్క్‌లో విజువల్‌ ఫీచర్స్‌ను కంబైన్‌ చేస్తుంది. ఫ్రేమ్‌వర్క్ రీజనింగ్‌ ప్రాసెస్‌ను రెండు భాగాలుగా విభజిస్తుంది. అవి కారణాన్ని కనుగొనడం, సమాధానాన్ని గుర్తించడం. రెండు దశల్లో విజన్‌ను చేర్చడం ద్వారా మోడల్ మరింత నమ్మదగిన ఆర్గ్యుమెంట్స్‌ను ముందు ఉంచుతుంది. అదనంగా సమాధానాల గురించి మరింత ఖచ్చితమైన ముగింపులు తీసుకోవడానికి ఇది సహాయపడుతుంది. CoT రీజనింగ్ ఎలా విభిన్నంగా పనిచేస్తుందో చూడటం కోసం ScienceQA బెంచ్‌మార్క్‌ వినియోగించారు. అమెజాన్ పరిశోధకులు అందించిన టెక్నాలజీ అత్యాధునిక పనితీరును ప్రదర్శిస్తుంది. GPT-3.5 కచ్చితత్వాన్ని 16 శాతం పాయింట్లతో అధిగమించింది. మల్టీమోడల్-ఆన్సర్‌ CoT ఇన్‌ఫెరెన్స్‌, రీజనింగ్‌- జనరేటింగ్‌ స్టేజెస్‌ కూడా ఒకే మోడల్ ఆర్కిటెక్చర్‌ను ఉపయోగిస్తాయి. కానీ ఇన్‌పుట్‌లు, అవుట్‌పుట్‌లలో విభిన్నంగా ఉంటాయి. విజన్-లాంగ్వేజ్ మోడల్ రేషనల్‌ జనరేషన్‌ స్టేజ్‌లో.. మోడల్‌కు విజన్‌, లాంగ్వేజ్‌ డొమైన్‌ల నుంచి డేటా అందుతుంది. రేషనల్‌ రూపొందిన తర్వాత తదుపరి దశకు లాంగ్వేజ్‌ ఇన్‌పుట్‌ అందించడానికి, ఇనీషియల్‌ లాంగ్వేజ్‌ ఇన్‌పుట్‌కి యాడ్ చేస్తుంది. సరళంగా చెప్పాలంటే టెక్ట్స్‌ ప్రాతినిధ్యాన్ని రూపొందించడానికి లాంగ్వేజ్‌ టెక్స్ట్ ట్రాన్స్‌ఫార్మర్ ఎన్‌కోడర్‌లోకి వెళ్తుంది. అనంతరం ఈ టెక్స్ట్‌, విజన్‌ ఒకచోట చేరి, ట్రాన్స్‌ఫార్మర్ డీకోడర్‌కి చేరుతుంది. ఈ పద్ధతి ఎలా పనిచేస్తుందో చూడటానికి, పరిశోధకులు ScienceQAలో అనేక పరీక్షలను నిర్వహించారు. మునుపటి స్టేట్ ఆఫ్ ది ఆర్ట్ GPT-3.5 మోడల్ కంటే బెంచ్‌మార్క్‌లో వారి పద్ధతి 16 శాతం మెరుగ్గా ఉందని పరిశోధకులు నిర్ధారించారు. అమెజాన్ పరిశోధకులు మల్టీమోడల్-CoTని అమలు చేయడంతో విజన్‌, లాంగ్వేజ్‌ ప్రాతినిధ్యాలను కలపడానికి రెండు-దశల ఫ్రేమ్‌వర్క్‌ను ప్రతిపాదించారు. మల్టీమోడల్-కోట్ రీజనింగ్‌ను పొందే సమస్యను పరిశీలించారు, పరిష్కరించారు. మోడల్ తుది సమాధానాలను గుర్తించడంలో సహాయపడటానికి ఆచరణాత్మక కారణాలను అందిస్తుంది.

Post a Comment

0 Comments

Close Menu