ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ అభివృద్ధి, ఏఐ బేస్డ్ ప్రొడక్టుల రేసులోకి అమెజాన్ ప్రవేశించింది. OpenAI కంపెనీ రెండు నెలల క్రితం ChatGPTని ఇంట్రడ్యూస్ చేసింది. ఈ AI-బేస్ట్ చాట్బాట్ గురించి విస్తృత చర్చలు మొదలయ్యాయి. బిజినెస్, ఎడ్యుకేషన్ వంటి రంగాల్లో రానున్న మార్పుల గురించి చాలా విశ్లేషణలు వినిపించాయి. ఆ తర్వాత Google, Baidu కంపెనీలు తమ చాట్బాట్ల వివరాలను వెల్లడించాయి. త్వరలో జెనరేటివ్ AI కన్వర్జేషనల్ టెక్స్ట్, గ్రాఫిక్స్ మరిన్నింటిని క్రియేట్ చేయగల టెక్నాలజీని అందిస్తామని ప్రకటించాయి. ScienceQA బెంచ్మార్క్లో అమెజాన్ న్యూ లాంగ్వేజ్ మోడల్స్ GPT-3.5 కంటే 16 శాతం పాయింట్లు (75.17%) మెరుగ్గా ఉంది. చాలా మంది మానవులను అధిగమించే సత్తా దీని సొంతం. ScienceQA బెంచ్మార్క్ అనేది సమాధానాలతో కూడిన మల్టీమోడల్ సైన్స్ క్వశ్చన్స్ సెట్. ఇందులో 21,000కు పైగా మల్టీమోడల్ మల్టిపుల్ ఛాయిస్ క్వశ్చన్స్ ఉన్నాయి. ఇటీవలి టెక్నాలజీ అడ్వాన్సెస్ లార్జ్ లాంగ్వేజ్ మోడల్స్ను కాంప్లెక్స్ రీజనింగ్ అవసరమయ్యే పనులను మెరుగ్గా చేసేలా మార్చాయి. ఇది చైన్-ఆఫ్-థాట్ (CoT) ప్రాంప్టింగ్ ద్వారా జరుగుతుంది. దీన్ని ఏదైనా ఒక పనిని చేయడానికి సిద్ధం చేయడంలో సెన్స్ ద్వార ఇంటర్మీడియట్ స్టెప్స్ను అభివృద్ధి చేసే ప్రక్రియగా పేర్కొంటారు. CoTపై ప్రస్తుతం జరుగుతున్న పనులు చాలావరకు లాంగ్వేజ్ మోడాలిటీ మీద ఉన్నాయి. మల్టీమోడాలిటీలో CoT రీజనింగ్ను కనుగొనడానికి పరిశోధకులు తరచుగా మల్టీమోడల్-CoT నమూనాను ఉపయోగిస్తారు. మల్టీమోడాలిటీ విజన్, లాంగ్వేజ్ వంటి మల్టిపుల్ ఇన్పుట్స్పై ఆధారపడుతుంది. మల్టీమోడల్-CoT అనేది ఇంటర్మీడియట్ రీజనింగ్ ప్రాసెస్లో ఒకటి కంటే ఎక్కువ భాగాలను ప్రాబ్లమ్స్ను విడగొడుతుంది. ఇది లాంగ్వేజ్, విజన్ వంటి విభిన్న పద్ధతుల నుంచి ఇన్పుట్లు వచ్చినప్పటికీ, తుది సమాధానం అందిస్తుంది. CoT చేయమని LLMలను అడగడానికి ముందు.. మల్డిమోడాలిటీస్ నుంచి వచ్చిన సమాచారాన్ని సింగిల్ మోడాలిటీగా కలపడమే మల్డిమోడల్-CoT చేయడంలో సాధారణ పద్ధతి. కానీ ఈ పద్ధతికి కొన్ని సమస్యలు ఉన్నాయి. డేటాను ఒక ఫార్మాట్ నుంచి మరొకదానికి మూవ్ చేసే సమయంలో చాలా సమాచారం పోతుంది. ఫైన్-ట్యూనింగ్ స్మాల్ లాంగ్వేజ్ మోడల్స్ కూడా విజన్, లాంగ్వేజ్ఇక సంబంధించిన విభిన్న అంశాలను కలపడం ద్వారా మల్టీమోడాలిటీలో CoT రీజనింగ్ను చేయగలవు. అయితే ఈ విధానంలో ఉన్న ప్రధాన సమస్య ఏంటంటే.. ఈ లాంగ్వేజ్ మోడల్స్ ఆన్సర్ ఇన్ఫెరెన్స్ను గణనీయంగా ప్రభావితం చేసే భ్రాంతికరమైన తార్కిక నమూనాలను ఉత్పత్తి చేసే ప్రవృత్తిని కలిగి ఉంటాయి. అమెజాన్ పరిశోధకులు మల్టీమోడల్-కోట్తో ముందుకు వచ్చారు. ఇది ఈ తప్పుల ప్రభావాలను తగ్గించడానికి ప్రత్యేక ట్రైనింగ్ ఫ్రేమ్వర్క్లో విజువల్ ఫీచర్స్ను కంబైన్ చేస్తుంది. ఫ్రేమ్వర్క్ రీజనింగ్ ప్రాసెస్ను రెండు భాగాలుగా విభజిస్తుంది. అవి కారణాన్ని కనుగొనడం, సమాధానాన్ని గుర్తించడం. రెండు దశల్లో విజన్ను చేర్చడం ద్వారా మోడల్ మరింత నమ్మదగిన ఆర్గ్యుమెంట్స్ను ముందు ఉంచుతుంది. అదనంగా సమాధానాల గురించి మరింత ఖచ్చితమైన ముగింపులు తీసుకోవడానికి ఇది సహాయపడుతుంది. CoT రీజనింగ్ ఎలా విభిన్నంగా పనిచేస్తుందో చూడటం కోసం ScienceQA బెంచ్మార్క్ వినియోగించారు. అమెజాన్ పరిశోధకులు అందించిన టెక్నాలజీ అత్యాధునిక పనితీరును ప్రదర్శిస్తుంది. GPT-3.5 కచ్చితత్వాన్ని 16 శాతం పాయింట్లతో అధిగమించింది. మల్టీమోడల్-ఆన్సర్ CoT ఇన్ఫెరెన్స్, రీజనింగ్- జనరేటింగ్ స్టేజెస్ కూడా ఒకే మోడల్ ఆర్కిటెక్చర్ను ఉపయోగిస్తాయి. కానీ ఇన్పుట్లు, అవుట్పుట్లలో విభిన్నంగా ఉంటాయి. విజన్-లాంగ్వేజ్ మోడల్ రేషనల్ జనరేషన్ స్టేజ్లో.. మోడల్కు విజన్, లాంగ్వేజ్ డొమైన్ల నుంచి డేటా అందుతుంది. రేషనల్ రూపొందిన తర్వాత తదుపరి దశకు లాంగ్వేజ్ ఇన్పుట్ అందించడానికి, ఇనీషియల్ లాంగ్వేజ్ ఇన్పుట్కి యాడ్ చేస్తుంది. సరళంగా చెప్పాలంటే టెక్ట్స్ ప్రాతినిధ్యాన్ని రూపొందించడానికి లాంగ్వేజ్ టెక్స్ట్ ట్రాన్స్ఫార్మర్ ఎన్కోడర్లోకి వెళ్తుంది. అనంతరం ఈ టెక్స్ట్, విజన్ ఒకచోట చేరి, ట్రాన్స్ఫార్మర్ డీకోడర్కి చేరుతుంది. ఈ పద్ధతి ఎలా పనిచేస్తుందో చూడటానికి, పరిశోధకులు ScienceQAలో అనేక పరీక్షలను నిర్వహించారు. మునుపటి స్టేట్ ఆఫ్ ది ఆర్ట్ GPT-3.5 మోడల్ కంటే బెంచ్మార్క్లో వారి పద్ధతి 16 శాతం మెరుగ్గా ఉందని పరిశోధకులు నిర్ధారించారు. అమెజాన్ పరిశోధకులు మల్టీమోడల్-CoTని అమలు చేయడంతో విజన్, లాంగ్వేజ్ ప్రాతినిధ్యాలను కలపడానికి రెండు-దశల ఫ్రేమ్వర్క్ను ప్రతిపాదించారు. మల్టీమోడల్-కోట్ రీజనింగ్ను పొందే సమస్యను పరిశీలించారు, పరిష్కరించారు. మోడల్ తుది సమాధానాలను గుర్తించడంలో సహాయపడటానికి ఆచరణాత్మక కారణాలను అందిస్తుంది.
0 Comments