Takneeki Vichaar: खोज में मशीन सीखने के लिए एक गाइड: मुख्य शब्द, अवधारणाएं और एल्गोरिदम

समझना चाहते हैं कि मशीन लर्निंग खोज को कैसे प्रभावित करता है? जानें कि Google कैसे खोज में मशीन लर्निंग मॉडल और एल्गोरिदम का उपयोग करता है।

जब मशीन लर्निंग की बात आती है, तो कुछ व्यापक अवधारणाएं और शब्द होते हैं जिन्हें खोज में सभी को पता होना चाहिए। हम सभी को पता होना चाहिए कि मशीन लर्निंग का उपयोग कहाँ किया जाता है, और विभिन्न प्रकार की मशीन लर्निंग मौजूद है।

मशीन लर्निंग कैसे खोज को प्रभावित करती है, सर्च इंजन क्या कर रहे हैं और काम पर मशीन लर्निंग को कैसे पहचानें, इसकी बेहतर समझ हासिल करने के लिए आगे पढ़ें। आइए कुछ परिभाषाओं से शुरू करें। फिर हम मशीन लर्निंग एल्गोरिदम और मॉडल में शामिल होंगे।

मशीन सीखने की शर्तें

कुछ महत्वपूर्ण मशीन सीखने की शर्तों की परिभाषा इस प्रकार है, जिनमें से अधिकांश पर लेख में किसी बिंदु पर चर्चा की जाएगी। यह प्रत्येक मशीन लर्निंग टर्म की व्यापक शब्दावली होने का इरादा नहीं है। यदि आप ऐसा चाहते हैं, तो Google यहां एक अच्छा प्रदान करता है।

    एल्गोरिथम: आउटपुट उत्पन्न करने के लिए डेटा पर चलने वाली गणितीय प्रक्रिया। विभिन्न मशीन सीखने की समस्याओं के लिए विभिन्न प्रकार के एल्गोरिदम हैं।
    आर्टिफिशियल इंटेलिजेंस (एआई): कंप्यूटर विज्ञान का एक क्षेत्र कंप्यूटर को ऐसे कौशल या क्षमताओं से लैस करने पर केंद्रित है जो मानव बुद्धि से दोहराते हैं या प्रेरित होते हैं।
    कॉर्पस: लिखित पाठ का संग्रह। आमतौर पर किसी न किसी तरह से आयोजित किया जाता है।
    इकाई: एक चीज या अवधारणा जो अद्वितीय, एकवचन, अच्छी तरह से परिभाषित और अलग है। आप इसे संज्ञा के रूप में शिथिल रूप से सोच सकते हैं, हालाँकि यह इससे थोड़ा व्यापक है। लाल रंग का एक विशिष्ट रंग एक इकाई होगा। क्या यह अद्वितीय और विलक्षण है कि इसके जैसा कुछ और नहीं है, यह अच्छी तरह से परिभाषित है (हेक्स कोड सोचें) और यह अलग है कि आप इसे किसी अन्य रंग से अलग बता सकते हैं।
    मशीन लर्निंग: आर्टिफिशियल इंटेलिजेंस का एक क्षेत्र, कार्यों को करने के लिए एल्गोरिदम, मॉडल और सिस्टम के निर्माण पर केंद्रित है और आम तौर पर स्पष्ट रूप से प्रोग्राम किए बिना उस कार्य को करने में खुद को बेहतर बनाने के लिए।

https://takneekivichar.blogspot.com/2022/04/blog-post_25.html

    मॉडल: एक मॉडल अक्सर एल्गोरिथम के साथ भ्रमित होता है। भेद धुंधला हो सकता है (जब तक कि आप मशीन लर्निंग इंजीनियर न हों)। अनिवार्य रूप से, अंतर यह है कि जहां एक एल्गोरिदम केवल एक सूत्र है जो आउटपुट मान उत्पन्न करता है, एक मॉडल एक विशिष्ट कार्य के लिए प्रशिक्षित होने के बाद उस एल्गोरिदम का प्रतिनिधित्व करता है। इसलिए, जब हम "बीईआरटी मॉडल" कहते हैं, तो हम उस बीईआरटी का जिक्र कर रहे हैं जिसे एक विशिष्ट एनएलपी कार्य के लिए प्रशिक्षित किया गया है (कौन सा कार्य और मॉडल आकार किस विशिष्ट बीईआरटी मॉडल को निर्धारित करेगा)।
    प्राकृतिक भाषा प्रसंस्करण (एनएलपी): किसी कार्य को पूरा करने के लिए भाषा-आधारित जानकारी को संसाधित करने में कार्य के क्षेत्र का वर्णन करने के लिए एक सामान्य शब्द।
    तंत्रिका नेटवर्क: एक मॉडल वास्तुकला, जिसमें मस्तिष्क से प्रेरणा लेते हुए, एक इनपुट परत शामिल होती है (जहां सिग्नल प्रवेश करते हैं - एक मानव में आप इसे किसी वस्तु को छूने पर मस्तिष्क को भेजे गए सिग्नल के रूप में सोच सकते हैं)), कई छिपी हुई परतें (कई अलग-अलग पथ प्रदान करते हुए इनपुट को आउटपुट का उत्पादन करने के लिए समायोजित किया जा सकता है), और आउटपुट परत। सिग्नल प्रवेश करते हैं, आउटपुट परत का उत्पादन करने के लिए कई अलग-अलग "पथ" का परीक्षण करते हैं, और हमेशा बेहतर आउटपुट स्थितियों की ओर बढ़ने के लिए प्रोग्राम किए जाते हैं। नेत्रहीन इसे द्वारा दर्शाया जा सकता है:

आर्टिफिशियल इंटेलिजेंस बनाम मशीन लर्निंग: क्या अंतर है?

अक्सर हम आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग जैसे शब्दों को एक दूसरे के स्थान पर इस्तेमाल करते हुए सुनते हैं। वे बिल्कुल समान नहीं हैं।

आर्टिफिशियल इंटेलिजेंस मशीनों को मिमिक इंटेलिजेंस बनाने का क्षेत्र है, जबकि मशीन लर्निंग सिस्टम की खोज है जो किसी कार्य के लिए स्पष्ट रूप से प्रोग्राम किए बिना सीख सकते हैं।

नेत्रहीन, आप इसके बारे में इस तरह सोच सकते हैं:

Google का मशीन लर्निंग-संबंधित एल्गोरिदम

सभी प्रमुख सर्च इंजन मशीन लर्निंग का उपयोग एक या कई तरीकों से करते हैं। वास्तव में, माइक्रोसॉफ्ट कुछ महत्वपूर्ण सफलताओं का उत्पादन कर रहा है। तो वेबफॉर्मर जैसे मॉडलों के साथ मेटा एआई के माध्यम से फेसबुक जैसे सामाजिक नेटवर्क हैं।

लेकिन यहां हमारा फोकस SEO पर है। और जबकि बिंग एक खोज इंजन है, 6.61% अमेरिकी बाजार हिस्सेदारी के साथ, हम इस लेख में इस पर ध्यान केंद्रित नहीं करेंगे क्योंकि हम लोकप्रिय और महत्वपूर्ण खोज-संबंधित तकनीकों का पता लगाते हैं।

Google मशीन लर्निंग एल्गोरिदम के ढेर सारे उपयोग करता है। सचमुच ऐसा कोई तरीका नहीं है जिससे आप, मैं या कोई Google इंजीनियर उन सभी को जान सके। इसके शीर्ष पर, कई खोज के अनसंग नायक हैं, और हमें उन्हें पूरी तरह से तलाशने की आवश्यकता नहीं है क्योंकि वे अन्य प्रणालियों को बेहतर तरीके से काम करते हैं।

संदर्भ के लिए, इनमें एल्गोरिदम और मॉडल शामिल होंगे जैसे:

Google FLAN - जो सरलता से गति देता है, और एक डोमेन से दूसरे डोमेन में सीखने के हस्तांतरण को कम्प्यूटेशनल रूप से कम खर्चीला बनाता है। ध्यान देने योग्य: मशीन लर्निंग में, एक डोमेन किसी वेबसाइट को संदर्भित नहीं करता है, बल्कि कार्य या कार्यों के समूहों को संदर्भित करता है, जैसे प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में भावना विश्लेषण या कंप्यूटर विजन (सीवी) में ऑब्जेक्ट डिटेक्शन।
वी-एमओई - इस मॉडल का एकमात्र काम कम संसाधनों वाले बड़े विजन मॉडल के प्रशिक्षण की अनुमति देना है। यह इस तरह का विकास है जो तकनीकी रूप से जो किया जा सकता है उसका विस्तार करके प्रगति की अनुमति देता है।
उप-छद्म लेबल - यह प्रणाली वीडियो में कार्रवाई की पहचान में सुधार करती है, वीडियो से संबंधित विभिन्न समझ और कार्यों में सहायता करती है।

इनमें से कोई भी सीधे रैंकिंग या लेआउट को प्रभावित नहीं करता है। लेकिन वे प्रभावित करते हैं कि Google कितना सफल है।

तो अब आइए Google रैंकिंग से जुड़े मुख्य एल्गोरिदम और मॉडलों को देखें।

रैंकब्रेन

यहीं से यह सब शुरू हुआ, Google के एल्गोरिदम में मशीन लर्निंग का परिचय।

2015 में पेश किया गया, रैंकब्रेन एल्गोरिथम उन प्रश्नों पर लागू किया गया था जिन्हें Google ने पहले नहीं देखा था (उनमें से 15% के लिए लेखांकन)। जून 2016 तक सभी प्रश्नों को शामिल करने के लिए इसका विस्तार किया गया था।

हमिंगबर्ड और नॉलेज ग्राफ़ जैसी बड़ी प्रगति के बाद, रैंकब्रेन ने Google को दुनिया को स्ट्रिंग्स (कीवर्ड और शब्दों और वर्णों के सेट) से लेकर चीज़ों (इकाइयाँ) तक विस्तारित करने में मदद की। उदाहरण के लिए, इससे पहले Google अनिवार्य रूप से उस शहर (विक्टोरिया, बीसी) को दो शब्दों के रूप में देखता है जो नियमित रूप से सह-अस्तित्व में होते हैं, लेकिन नियमित रूप से अलग-अलग होते हैं और जब वे करते हैं तो हमेशा कुछ अलग नहीं होता है।

रैंकब्रेन के बाद उन्होंने विक्टोरिया, बीसी को एक इकाई के रूप में देखा - शायद मशीन आईडी (/ एम / 07ypt) - और इसलिए भले ही वे "विक्टोरिया" शब्द को हिट करते हों, अगर वे संदर्भ स्थापित कर सकते हैं तो वे इसे उसी इकाई के रूप में मानेंगे। विक्टोरिया, ई.पू.

इसके साथ वे केवल खोजशब्दों और अर्थों से परे "देखते हैं", बस हमारे दिमाग करते हैं। आखिरकार, जब आप "मेरे पास पिज्जा" पढ़ते हैं, तो क्या आप तीन अलग-अलग शब्दों के संदर्भ में समझते हैं या क्या आपके पास पिज्जा के सिर में एक दृश्य है, और आप जिस स्थान पर हैं, उसकी समझ है?

संक्षेप में, रैंकब्रेन एल्गोरिदम को कीवर्ड के बजाय चीजों पर अपने सिग्नल लागू करने में मदद करता है।

बर्ट

BERT (ट्रांसफॉर्मर से द्विदिश एनकोडर प्रतिनिधित्व)।

2019 में Google के एल्गोरिदम में BERT मॉडल की शुरुआत के साथ, Google अवधारणाओं की यूनिडायरेक्शनल समझ से द्विदिश में स्थानांतरित हो गया।

यह कोई सांसारिक परिवर्तन नहीं था।

2018 में BERT मॉडल के अपने ओपन-सोर्सिंग की घोषणा में शामिल दृश्य Google चित्र को चित्रित करने में मदद करता है:

मशीन लर्निंग में टोकन और ट्रांसफॉर्मर कैसे काम करते हैं, इस बारे में विस्तार से बताए बिना, हमारी जरूरतों के लिए यहां केवल तीन छवियों और तीरों को देखना और यह सोचना पर्याप्त है कि कैसे बीईआरटी संस्करण में, प्रत्येक शब्द किसी से भी जानकारी प्राप्त करता है पक्ष, उन कई शब्दों सहित दूर।

जहां पहले एक मॉडल केवल एक दिशा में शब्दों से अंतर्दृष्टि लागू कर सकता था, अब वे दोनों दिशाओं में शब्दों के आधार पर एक प्रासंगिक समझ प्राप्त करते हैं।

एक साधारण उदाहरण "कार लाल है" हो सकता है।

BERT के लाल होने के बाद ही कार का रंग ठीक से समझा गया, क्योंकि तब तक कार शब्द के बाद लाल शब्द आया था, और वह जानकारी वापस नहीं भेजी गई थी।

एक तरफ, यदि आप BERT के साथ खेलना चाहते हैं, तो GitHub पर विभिन्न मॉडल उपलब्ध हैं।

लाएमडीए

LaMDA को अभी तक जंगली में तैनात नहीं किया गया है, और पहली बार मई 2021 में Google I/O में इसकी घोषणा की गई थी।

स्पष्ट करने के लिए, जब मैं लिखता हूं "अभी तक तैनात नहीं किया गया है" मेरा मतलब है "मेरे सर्वोत्तम ज्ञान के लिए।" आखिरकार, हमने रैंकब्रेन महीनों के बारे में पता लगाया जब इसे एल्गोरिदम में तैनात किया गया था। उन्होंने कहा, जब यह होगा तो क्रांतिकारी होगा।

LaMDA एक संवादी भाषा मॉडल है, जो प्रतीत होता है कि वर्तमान अत्याधुनिक को कुचल देता है।

LaMDA के साथ फोकस मूल रूप से दो गुना है:

बातचीत में तर्कशीलता और विशिष्टता में सुधार करें। अनिवार्य रूप से, यह सुनिश्चित करने के लिए कि चैट में प्रतिक्रिया उचित और विशिष्ट है। उदाहरण के लिए, अधिकांश प्रश्नों के उत्तर "मुझे नहीं पता" उचित है लेकिन यह विशिष्ट नहीं है। दूसरी ओर, "आप कैसे हैं?" जैसे प्रश्न का उत्तर। अर्थात्, “मुझे बरसात के दिनों में बत्तख का सूप पसंद है। यह काफी कुछ पतंग उड़ाने जैसा है।" बहुत विशिष्ट है लेकिन शायद ही उचित है।
     LaMDA दोनों समस्याओं का समाधान करने में मदद करता है।
     जब हम संवाद करते हैं, तो यह शायद ही कभी एक रैखिक बातचीत होती है। जब हम सोचते हैं कि कोई चर्चा कहाँ से शुरू हो सकती है और कहाँ समाप्त हो सकती है, भले ही वह किसी एक विषय के बारे में ही क्यों न हो (उदाहरण के लिए, "इस सप्ताह हमारा ट्रैफ़िक कम क्यों है?"), हम आम तौर पर अलग-अलग विषयों को कवर करेंगे जो हमारे पास नहीं होंगे। अंदर जाने की भविष्यवाणी की।
     चैटबॉट का उपयोग करने वाला कोई भी व्यक्ति जानता है कि वे इन परिदृश्यों में अबाध हैं। वे अच्छी तरह से अनुकूलन नहीं करते हैं, और वे पिछली जानकारी को भविष्य में अच्छी तरह से नहीं ले जाते हैं (और इसके विपरीत)।
     LaMDA आगे इस समस्या का समाधान करता है।

हम इसे चैटबॉट से अपेक्षा से कहीं बेहतर तरीके से अपनाते हुए देख सकते हैं।

मुझे लगता है कि LaMDA को Google Assistant में लागू किया जा रहा है। लेकिन अगर हम इसके बारे में सोचते हैं, तो यह समझने की क्षमताओं में वृद्धि हुई है कि व्यक्तिगत स्तर पर प्रश्नों का प्रवाह कैसे काम करता है, निश्चित रूप से खोज परिणाम लेआउट की सिलाई और उपयोगकर्ता के लिए अतिरिक्त विषयों और प्रश्नों की प्रस्तुति दोनों में मदद मिलेगी।

मूल रूप से, मुझे पूरा यकीन है कि हम LaMDA से प्रेरित तकनीकों को खोज के गैर-चैट गैर-चैट क्षेत्रों में देखेंगे।

केल्मो

ऊपर, जब हम रैंकब्रेन पर चर्चा कर रहे थे, हमने मशीन आईडी और संस्थाओं को छुआ। खैर, केईएलएम, जिसे मई 2021 में घोषित किया गया था, इसे एक नए स्तर पर ले जाता है।

KELM का जन्म खोज में पूर्वाग्रह और विषाक्त जानकारी को कम करने के प्रयास से हुआ था। चूंकि यह विश्वसनीय जानकारी (विकिडेटा) पर आधारित है, इसलिए इस उद्देश्य के लिए इसका अच्छी तरह से उपयोग किया जा सकता है।

एक मॉडल होने के बजाय, केईएलएम एक डेटासेट की तरह है। मूल रूप से, यह मशीन लर्निंग मॉडल के लिए प्रशिक्षण डेटा है। यहां हमारे उद्देश्यों के लिए अधिक दिलचस्प यह है कि यह हमें उस दृष्टिकोण के बारे में बताता है जिसे Google डेटा के लिए लेता है।

संक्षेप में, Google ने अंग्रेजी विकिडाटा ज्ञान ग्राफ लिया, जो त्रिगुणों (विषय इकाई, संबंध, वस्तु इकाई (कार, रंग, लाल) का एक संग्रह है और इसे विभिन्न इकाई उप-अनुच्छेदों में बदल दिया और इसे मौखिक रूप दिया। इसे सबसे आसानी से समझाया गया है एक छवि:

इस छवि में हम देखते हैं:

     ट्रिपल एक व्यक्तिगत संबंध का वर्णन करता है।
     इकाई सबग्राफ एक केंद्रीय इकाई से संबंधित त्रिगुणों की बहुलता का मानचित्रण करती है।
     निकाय सबग्राफ का टेक्स्ट संस्करण।
     उचित वाक्य।

इसके बाद अन्य मॉडलों द्वारा उन्हें तथ्यों को पहचानने और विषाक्त सूचनाओं को फ़िल्टर करने के लिए प्रशिक्षित करने में मदद करने के लिए उपयोग किया जा सकता है।

Google ने कॉर्पस को ओपन-सोर्स किया है, और यह GitHub पर उपलब्ध है। यदि आप अधिक जानकारी चाहते हैं, तो उनके विवरण को देखने से आपको यह समझने में मदद मिलेगी कि यह कैसे काम करता है और इसकी संरचना।

गेंदा

मई 2021 में Google I/O में MUM की भी घोषणा की गई थी।

हालांकि यह क्रांतिकारी है, इसका वर्णन करना भ्रामक रूप से सरल है।

MUM का मतलब मल्टीटास्क यूनिफाइड मॉडल है और यह मल्टीमॉडल है। इसका मतलब यह है कि यह विभिन्न सामग्री प्रारूपों जैसे परीक्षण, छवियों, वीडियो आदि को "समझता" है। यह इसे कई तौर-तरीकों से जानकारी प्राप्त करने के साथ-साथ प्रतिक्रिया देने की शक्ति देता है।

इसके अलावा: यह मल्टीमॉडल आर्किटेक्चर का पहला प्रयोग नहीं है। इसे पहली बार 2017 में Google द्वारा पेश किया गया था।

इसके अतिरिक्त, क्योंकि एमयूएम चीजों में काम करता है और स्ट्रिंग्स में नहीं, यह सभी भाषाओं में जानकारी एकत्र कर सकता है और फिर उपयोगकर्ता के अपने उत्तर में प्रदान कर सकता है। यह सूचना पहुंच में व्यापक सुधार के द्वार खोलता है, विशेष रूप से उन लोगों के लिए जो ऐसी भाषाएं बोलते हैं जिन्हें इंटरनेट पर पूरा नहीं किया जाता है, लेकिन यहां तक कि अंग्रेजी बोलने वालों को भी सीधे लाभ होगा।

Google जिस उदाहरण का उपयोग करता है वह माउंट फ़ूजी पर चढ़ने के लिए एक हाइकर है। कुछ बेहतरीन टिप्स और जानकारी जापानी में लिखी जा सकती हैं और उपयोगकर्ता के लिए पूरी तरह से अनुपलब्ध हो सकती हैं क्योंकि वे नहीं जानते कि इसे कैसे पेश किया जाए, भले ही वे इसका अनुवाद कर सकें।

एमयूएम पर एक महत्वपूर्ण नोट यह है कि मॉडल न केवल सामग्री को समझता है, बल्कि इसका उत्पादन भी कर सकता है। इसलिए किसी उपयोगकर्ता को परिणाम में निष्क्रिय रूप से भेजने के बजाय, यह कई स्रोतों से डेटा के संग्रह की सुविधा प्रदान कर सकता है और प्रतिक्रिया (पृष्ठ, आवाज, आदि) स्वयं प्रदान कर सकता है।

यह कई लोगों के लिए इस तकनीक का एक संबंधित पहलू भी हो सकता है, जिसमें मैं भी शामिल हूं।

अन्य जगहों पर मशीन लर्निंग का उपयोग किया जाता है

हमने केवल कुछ प्रमुख एल्गोरिदम को छुआ है जिनके बारे में आपने सुना होगा और मेरा मानना है कि जैविक खोज पर महत्वपूर्ण प्रभाव डाल रहे हैं। लेकिन यह उस समग्रता से बहुत दूर है जहां मशीन लर्निंग का उपयोग किया जाता है।

उदाहरण के लिए, हम यह भी पूछ सकते हैं:

     विज्ञापनों में, स्वचालित बोली-प्रक्रिया कार्यनीतियों और विज्ञापन स्वचालन के पीछे सिस्टम को क्या प्रेरित करता है?
     समाचार में, सिस्टम कैसे जानता है कि कहानियों को समूहीकृत कैसे किया जाता है?
     छवियों में, सिस्टम विशिष्ट वस्तुओं और वस्तुओं के प्रकारों की पहचान कैसे करता है?
     ईमेल में, सिस्टम स्पैम को कैसे फ़िल्टर करता है?
     अनुवाद में, सिस्टम डील नए शब्दों और वाक्यांशों को कैसे सीखता है?
     वीडियो में, सिस्टम कैसे सीखता है कि आगे कौन से वीडियो की सिफारिश करनी है?

ये सभी प्रश्न और सैकड़ों यदि अधिक नहीं तो सभी का एक ही उत्तर है:

यंत्र अधिगम।

मशीन लर्निंग एल्गोरिदम और मॉडल के प्रकार

अब मशीन लर्निंग एल्गोरिदम और मॉडल के दो पर्यवेक्षण स्तरों के माध्यम से चलते हैं - पर्यवेक्षित और अनुपयोगी शिक्षण। हम जिस प्रकार के एल्गोरिदम को देख रहे हैं, और उन्हें कहां देखना है, यह समझना महत्वपूर्ण है।
पर्यवेक्षित अध्ययन

सीधे शब्दों में कहें, पर्यवेक्षित शिक्षण के साथ एल्गोरिथ्म को पूरी तरह से लेबल प्रशिक्षण और परीक्षण डेटा दिया जाता है।

कहने का तात्पर्य यह है कि किसी ने विश्वसनीय डेटा पर एक मॉडल को प्रशिक्षित करने के लिए हजारों (या लाखों) उदाहरणों को लेबल करने के प्रयास से गुजरा है। उदाहरण के लिए, लाल शर्ट पहनने वाले लोगों की x संख्या में लाल शर्ट का लेबल लगाना।

पर्यवेक्षित शिक्षण वर्गीकरण और प्रतिगमन समस्याओं में उपयोगी है। वर्गीकरण की समस्याएं काफी सीधी हैं। यह निर्धारित करना कि कुछ समूह का हिस्सा है या नहीं।

एक आसान उदाहरण Google फ़ोटो है।

Google ने मुझे और साथ ही चरणों को वर्गीकृत किया है। उन्होंने इनमें से प्रत्येक चित्र को मैन्युअल रूप से लेबल नहीं किया है। लेकिन मॉडल को चरणों के लिए मैन्युअल रूप से लेबल किए गए डेटा पर प्रशिक्षित किया जाएगा। और जिसने भी Google फ़ोटो का उपयोग किया है, वह जानता है कि वे आपसे समय-समय पर फ़ोटो और उनमें मौजूद लोगों की पुष्टि करने के लिए कहते हैं। हम मैनुअल लेबलर हैं।

क्या आपने कभी रीकैप्चा का इस्तेमाल किया है? सोचो तुम क्या कर रहे हो? ये सही है। आप नियमित रूप से मशीन लर्निंग मॉडल को प्रशिक्षित करने में मदद करते हैं।

दूसरी ओर, प्रतिगमन समस्याएं उन समस्याओं से निपटती हैं जहां इनपुट का एक सेट होता है जिसे आउटपुट मान पर मैप करने की आवश्यकता होती है।

एक सरल उदाहरण एक घर के बिक्री मूल्य का अनुमान लगाने के लिए एक प्रणाली के बारे में सोचना है जिसमें वर्ग फुट, शयनकक्षों की संख्या, स्नानघरों की संख्या, समुद्र से दूरी आदि शामिल हैं।

क्या आप किसी अन्य प्रणाली के बारे में सोच सकते हैं जो सुविधाओं/संकेतों की एक विस्तृत श्रृंखला में हो सकती है और फिर प्रश्न में इकाई (/ साइट) को एक मान निर्दिष्ट करने की आवश्यकता हो सकती है?

जबकि निश्चित रूप से अधिक जटिल और विभिन्न कार्यों की सेवा करने वाले अलग-अलग एल्गोरिदम की एक विशाल सरणी में, प्रतिगमन संभवतः एल्गोरिदम प्रकारों में से एक है जो खोज के मुख्य कार्यों को चलाता है।

मुझे संदेह है कि हम यहां अर्ध-पर्यवेक्षित मॉडल में जा रहे हैं - मैन्युअल लेबलिंग (गुणवत्ता रेटर्स सोचें) कुछ चरणों में किया जा रहा है और सिस्टम-एकत्रित सिग्नल उपयोगकर्ताओं की संतुष्टि को निर्धारित करने वाले परिणाम सेट के साथ मॉडल को समायोजित और तैयार करने के लिए उपयोग किए जा रहे हैं। .

अनुपयोगी शिक्षा

बिना पर्यवेक्षित शिक्षण में, एक सिस्टम को बिना लेबल वाले डेटा का एक सेट दिया जाता है और यह निर्धारित करने के लिए छोड़ दिया जाता है कि इसके साथ क्या करना है।

कोई अंतिम लक्ष्य निर्दिष्ट नहीं है। सिस्टम समान वस्तुओं को एक साथ क्लस्टर कर सकता है, आउटलेयर की तलाश कर सकता है, सह-संबंध ढूंढ सकता है, आदि।

जब आपके पास बहुत अधिक डेटा होता है, तो अप्रशिक्षित शिक्षण का उपयोग किया जाता है, और आप पहले से नहीं जानते या नहीं जानते कि इसका उपयोग कैसे किया जाना चाहिए।

एक अच्छा उदाहरण Google समाचार हो सकता है।

Google समान समाचारों को क्लस्टर करता है और उन समाचारों को भी सामने रखता है जो पहले मौजूद नहीं थे (इस प्रकार, वे समाचार हैं)।

इन कार्यों को मुख्य रूप से (हालांकि विशेष रूप से नहीं) असुरक्षित मॉडल द्वारा सर्वोत्तम रूप से किया जाएगा। मॉडल जिन्होंने "देखा" है कि पिछली क्लस्टरिंग या सरफेसिंग कितनी सफल या असफल रही है, लेकिन वर्तमान डेटा पर इसे पूरी तरह से लागू करने में सक्षम नहीं हैं, जो कि लेबल रहित है (जैसा कि पिछली खबर थी) और निर्णय लेते हैं।

यह मशीन लर्निंग का एक अविश्वसनीय रूप से महत्वपूर्ण क्षेत्र है क्योंकि यह खोज से संबंधित है, खासकर जैसे-जैसे चीजें विस्तारित होती हैं।

Google अनुवाद एक और अच्छा उदाहरण है। एक-से-एक अनुवाद मौजूद नहीं था, जहां सिस्टम को यह समझने के लिए प्रशिक्षित किया गया था कि अंग्रेजी में x शब्द स्पेनिश में शब्द y के बराबर है, बल्कि नई तकनीकें जो दोनों के उपयोग में पैटर्न की तलाश करती हैं, अर्ध के माध्यम से अनुवाद में सुधार -पर्यवेक्षित शिक्षण (कुछ लेबल किए गए डेटा और बहुत कुछ नहीं) और अनुपयोगी शिक्षा, एक भाषा से पूरी तरह से अज्ञात (सिस्टम के लिए) भाषा में अनुवाद करना।

हमने इसे ऊपर एमयूएम के साथ देखा, लेकिन यह अन्य कागजात में मौजूद है और मॉडल अच्छी तरह से हैं।

बस शुरुवात है

उम्मीद है, इसने मशीन लर्निंग के लिए एक आधार रेखा प्रदान की है और इसका उपयोग खोज में कैसे किया जाता है।

मेरे भविष्य के लेख केवल इस बारे में नहीं होंगे कि मशीन लर्निंग को कैसे और कहाँ पाया जा सकता है (हालाँकि कुछ होगा)। हम मशीन लर्निंग के व्यावहारिक अनुप्रयोगों में भी गोता लगाएँगे जिनका उपयोग आप एक बेहतर SEO के लिए कर सकते हैं। चिंता न करें, उन मामलों में मैंने आपके लिए कोडिंग की होगी और आम तौर पर उपयोग में आसान Google Colab प्रदान करता हूं, जिससे आपको कुछ महत्वपूर्ण SEO और व्यावसायिक प्रश्नों का उत्तर देने में मदद मिलती है।

उदाहरण के लिए, आप अपनी साइट, सामग्री, ट्रैफ़िक आदि के बारे में अपनी समझ विकसित करने के लिए डायरेक्ट मशीन लर्निंग मॉडल का उपयोग कर सकते हैं। मेरा अगला लेख आपको दिखाएगा कि कैसे। टीज़र: टाइम सीरीज़ फोरकास्टिंग।

स्रोत: https://searchengineland.com/machine-learning-search-terms-concepts-algorithms-383913

मंगलवार, 3 मई 2022

खोज में मशीन सीखने के लिए एक गाइड: मुख्य शब्द, अवधारणाएं और एल्गोरिदम