ऑडियो डीपफेक: क्या कोई बता सकता है कि वे नकली हैं?

ध्वनि तरंगों से निर्मित AI चेहरा।

लकीस्टेप/शटरस्टॉक



वीडियो डीपफेक का मतलब है कि आप जो कुछ भी देखते हैं उस पर आप भरोसा नहीं कर सकते। अब, ऑडियो डीपफेक का मतलब यह हो सकता है कि अब आप अपने कानों पर भरोसा नहीं कर सकते। क्या वह वास्तव में राष्ट्रपति कनाडा पर युद्ध की घोषणा कर रहे थे? क्या वाकई आपके पिताजी फोन पर अपना ईमेल पासवर्ड मांग रहे हैं?

इस सूची में एक और अस्तित्व संबंधी चिंता जोड़ें कि कैसे हमारा अपना अहंकार अनिवार्य रूप से हमें नष्ट कर सकता है। रीगन युग के दौरान, एकमात्र वास्तविक तकनीकी जोखिम परमाणु, रासायनिक और जैविक युद्ध का खतरा था।





बाद के वर्षों में, हमें नैनोटेक के ग्रे गू और वैश्विक महामारी के बारे में जानने का अवसर मिला है। अब, हमारे पास डीपफेक हैं—लोग अपनी समानता या आवाज पर नियंत्रण खो रहे हैं।

एक ऑडियो डीपफेक क्या है?

हम में से अधिकांश ने देखा है वीडियो डीपफेक , जिसमें एक व्यक्ति को किसी और की समानता के साथ बदलने के लिए डीप-लर्निंग एल्गोरिदम का उपयोग किया जाता है। सर्वश्रेष्ठ अविश्वसनीय रूप से यथार्थवादी हैं, और अब ऑडियो की बारी है। एक ऑडियो डीपफेक तब होता है जब एक क्लोन आवाज जो वास्तविक व्यक्ति से संभावित रूप से अप्रभेद्य होती है, का उपयोग सिंथेटिक ऑडियो बनाने के लिए किया जाता है।



यह आवाज के लिए फोटोशॉप जैसा है, के सीईओ जोहैब अहमद ने कहा एआई से मिलता-जुलता , उनकी कंपनी की वॉयस-क्लोनिंग तकनीक के बारे में।

विज्ञापन

हालांकि, खराब फोटोशॉप जॉब्स को आसानी से खारिज किया जा सकता है। एक सुरक्षा फर्म जिसके साथ हमने बात की थी, ने कहा कि लोग आमतौर पर केवल अनुमान लगाते हैं कि एक ऑडियो डीपफेक वास्तविक है या नकली लगभग 57 प्रतिशत सटीकता के साथ-एक सिक्का फ्लिप से बेहतर नहीं है।

इसके अतिरिक्त, क्योंकि बहुत सारी वॉयस रिकॉर्डिंग निम्न-गुणवत्ता वाले फोन कॉल (या शोर वाले स्थानों में रिकॉर्ड की गई) की होती हैं, ऑडियो डीपफेक को और भी अधिक अप्रभेद्य बनाया जा सकता है। ध्वनि की गुणवत्ता जितनी खराब होगी, उन गप्पी संकेतों को पहचानना उतना ही कठिन होगा कि आवाज वास्तविक नहीं है।



लेकिन किसी को भी आवाज के लिए फोटोशॉप की जरूरत क्यों होगी, वैसे भी?

सिंथेटिक ऑडियो के लिए सम्मोहक मामला

सिंथेटिक ऑडियो की वास्तव में भारी मांग है। अहमद के अनुसार, आरओआई बहुत तत्काल है।

जब गेमिंग की बात आती है तो यह विशेष रूप से सच है। अतीत में, भाषण एक खेल में एक घटक था जिसे ऑन-डिमांड बनाना असंभव था। यहां तक ​​​​कि वास्तविक समय में प्रदान किए गए सिनेमा-गुणवत्ता वाले दृश्यों के साथ संवादात्मक शीर्षकों में, गैर-नाटकीय पात्रों के साथ मौखिक बातचीत हमेशा अनिवार्य रूप से स्थिर होती है।

अब, हालांकि, तकनीक ने पकड़ लिया है। स्टूडियो में अभिनेता की आवाज को क्लोन करने और टेक्स्ट-टू-स्पीच इंजन का उपयोग करने की क्षमता होती है ताकि पात्र वास्तविक समय में कुछ भी कह सकें।

विज्ञापन

विज्ञापन, और तकनीक और ग्राहक सहायता में भी अधिक पारंपरिक उपयोग हैं। यहां, एक आवाज जो प्रामाणिक रूप से मानवीय लगती है और मानवीय इनपुट के बिना व्यक्तिगत और प्रासंगिक रूप से प्रतिक्रिया करती है, वह महत्वपूर्ण है।

वॉयस-क्लोनिंग कंपनियां भी मेडिकल एप्लिकेशन को लेकर उत्साहित हैं। बेशक, चिकित्सा में आवाज बदलना कोई नई बात नहीं है-स्टीफन हॉकिंग ने 1985 में अपनी खुद की खो जाने के बाद प्रसिद्ध रूप से एक रोबोटिक संश्लेषित आवाज का इस्तेमाल किया था। हालांकि, आधुनिक आवाज क्लोनिंग कुछ और बेहतर करने का वादा करती है।

2008 में, सिंथेटिक वॉयस कंपनी, सेरेप्रोक , दिवंगत फिल्म समीक्षक रोजर एबर्ट ने कैंसर के बाद उनकी आवाज को वापस ले लिया। सेरेप्रोक ने एक वेब पेज प्रकाशित किया था जो लोगों को संदेश टाइप करने की इजाजत देता था जो तब पूर्व राष्ट्रपति जॉर्ज बुश की आवाज में बोले जाते थे।

एबर्ट ने देखा और सोचा, 'ठीक है, अगर वे बुश की आवाज की नकल कर सकते हैं, तो वे मेरी नकल करने में सक्षम होना चाहिए,' सेरेप्रोक के मुख्य वैज्ञानिक अधिकारी मैथ्यू आयलेट ने कहा। एबर्ट ने तब कंपनी को एक प्रतिस्थापन आवाज बनाने के लिए कहा, जो उन्होंने वॉयस रिकॉर्डिंग की एक बड़ी लाइब्रेरी को संसाधित करके किया।

आयलेट ने कहा कि यह पहली बार किसी ने ऐसा किया था और यह एक वास्तविक सफलता थी।

हाल के वर्षों में, कई कंपनियों (सेरेप्रोक सहित) ने इनके साथ काम किया है एएलएस एसोसिएशन पर प्रोजेक्ट रिवॉइस एएलएस से पीड़ित लोगों को सिंथेटिक आवाज प्रदान करने के लिए।

प्रोजेक्ट रिवॉइस लोगो।

एएलएस एसोसिएशन

सिंथेटिक ऑडियो कैसे काम करता है

वॉयस क्लोनिंग में अभी एक क्षण चल रहा है, और कई कंपनियां उपकरण विकसित कर रही हैं। एआई से मिलता-जुलता तथा विवरण: ऑनलाइन डेमो हैं कोई भी मुफ्त में कोशिश कर सकता है। आप केवल उन वाक्यांशों को रिकॉर्ड करते हैं जो ऑनस्क्रीन दिखाई देते हैं और कुछ ही मिनटों में, आपकी आवाज़ का एक मॉडल बन जाता है।

विज्ञापन

आप एआई को धन्यवाद दे सकते हैं—विशेष रूप से, डीप-लर्निंग एल्गोरिदम - आपकी आवाज बनाने वाले घटक स्वरों को समझने के लिए रिकॉर्ड किए गए भाषण को टेक्स्ट से मिलाने में सक्षम होने के लिए। इसके बाद यह परिणामी भाषाई बिल्डिंग ब्लॉक्स का उपयोग उन शब्दों को अनुमानित करने के लिए करता है जिन्हें आपने नहीं सुना है।

बुनियादी तकनीक कुछ समय के लिए आसपास रही है, लेकिन जैसा कि आयलेट ने बताया, इसके लिए कुछ मदद की आवश्यकता थी।

आवाज की नकल करना पेस्ट्री बनाने जैसा था, उन्होंने कहा। यह करना कठिन था और इसे काम करने के लिए आपको इसे हाथ से मोड़ने के कई तरीके थे।

पास करने योग्य परिणाम प्राप्त करने के लिए डेवलपर्स को भारी मात्रा में रिकॉर्ड किए गए वॉयस डेटा की आवश्यकता होती है। फिर, कुछ साल पहले, बाढ़ के द्वार खुल गए। कंप्यूटर दृष्टि के क्षेत्र में अनुसंधान महत्वपूर्ण साबित हुआ। वैज्ञानिकों ने जनरेटिव एडवरसैरियल नेटवर्क (जीएएन) विकसित किया है, जो पहली बार मौजूदा डेटा के आधार पर एक्सट्रपलेशन और भविष्यवाणियां कर सकता है।

विज्ञापन

आयलेट ने कहा, कंप्यूटर के बजाय घोड़े की तस्वीर देखकर और 'यह एक घोड़ा है,' कहने के बजाय मेरा मॉडल अब घोड़े को ज़ेबरा बना सकता है। तो, भाषण संश्लेषण में विस्फोट अब कंप्यूटर दृष्टि से अकादमिक कार्य के लिए धन्यवाद है।

वॉयस क्लोनिंग में सबसे बड़े नवाचारों में से एक यह है कि आवाज बनाने के लिए कितने कच्चे डेटा की आवश्यकता होती है। अतीत में, सिस्टम को दर्जनों या सैकड़ों घंटे के ऑडियो की आवश्यकता होती थी। अब, हालांकि, कुछ ही मिनटों की सामग्री से सक्षम आवाजें उत्पन्न की जा सकती हैं।

सम्बंधित: एआई के साथ समस्या: मशीनें चीजें सीख रही हैं, लेकिन उन्हें समझ नहीं सकती

किसी भी चीज़ पर भरोसा न करने का मौजूदा डर

परमाणु ऊर्जा, नैनोटेक, 3डी प्रिंटिंग और सीआरआईएसपीआर के साथ यह तकनीक एक साथ रोमांचकारी और भयानक है। आखिरकार, वॉयस क्लोन द्वारा लोगों को ठगे जाने की खबरें पहले भी आती रही हैं। 2019 में, यूके की एक कंपनी ने दावा किया कि यह थी एक ऑडियो डीपफेक द्वारा धोखा दिया गया अपराधियों को पैसे देने के लिए फोन कॉल।

आश्चर्यजनक रूप से आश्वस्त करने वाले ऑडियो नकली खोजने के लिए आपको दूर जाने की जरूरत नहीं है। यूट्यूब चैनल स्वर संश्लेषण जाने-माने लोगों को ऐसी बातें कहते हैं जो उन्होंने कभी नहीं कही, जैसे जॉर्ज डब्लू. बुश 50 सेंट . द्वारा दा क्लब में पढ़ रहे हैं . यह हाजिर है।

YouTube पर कहीं और, आप पूर्व राष्ट्रपतियों के झुंड को सुन सकते हैं, जिनमें शामिल हैं ओबामा, क्लिंटन और रीगन, रैपिंग NWA . संगीत और पृष्ठभूमि ध्वनियां कुछ स्पष्ट रोबोटिक गड़बड़ियों को छिपाने में मदद करती हैं, लेकिन इस अपूर्ण स्थिति में भी, क्षमता स्पष्ट है।

हमने टूल्स के साथ प्रयोग किया एआई से मिलता-जुलता तथा विवरण: और वॉयस क्लोन बनाया। डिस्क्रिप्ट एक वॉयस-क्लोनिंग इंजन का उपयोग करता है जिसे मूल रूप से लाइरेबर्ड कहा जाता था और यह विशेष रूप से प्रभावशाली था। हम गुणवत्ता पर चौंक गए थे। अपनी खुद की आवाज सुनकर ऐसी बातें कहना जो आप जानते हैं कि आपने कभी नहीं कहा है, वह परेशान करने वाली है।

भाषण में निश्चित रूप से एक रोबोटिक गुण होता है, लेकिन एक आकस्मिक सुनने पर, अधिकांश लोगों के पास यह सोचने का कोई कारण नहीं होगा कि यह नकली था।

डिस्क्रिप्ट वॉयस क्लोनिंग स्क्रिप्ट एडिटर।

विज्ञापन

हमें Resemble AI से और भी ज्यादा उम्मीदें थीं। यह आपको कई आवाजों के साथ बातचीत बनाने और संवाद की अभिव्यक्ति, भावना और गति को बदलने के लिए उपकरण देता है। हालांकि, हमें नहीं लगता था कि वॉयस मॉडल ने हमारे द्वारा इस्तेमाल की जाने वाली आवाज के आवश्यक गुणों को पकड़ लिया है। वास्तव में, किसी को मूर्ख बनाने की संभावना नहीं थी।

एक समान एआई प्रतिनिधि ने हमें बताया कि अगर वे इसे सही तरीके से करते हैं तो अधिकांश लोग परिणामों से उड़ जाते हैं। हमने समान परिणामों के साथ दो बार ध्वनि मॉडल बनाया। तो, जाहिर है, वॉयस क्लोन बनाना हमेशा आसान नहीं होता है जिसका उपयोग आप डिजिटल डकैती को दूर करने के लिए कर सकते हैं।

फिर भी, लाइरेबर्ड (जो अब डिस्क्रिप्ट का हिस्सा है) के संस्थापक, कुंदन कुमार को लगता है कि हम पहले ही उस सीमा को पार कर चुके हैं।

मामलों के एक छोटे प्रतिशत के लिए, यह पहले से ही है, कुमार ने कहा। अगर मैं भाषण में कुछ शब्दों को बदलने के लिए सिंथेटिक ऑडियो का उपयोग करता हूं, तो यह पहले से ही इतना अच्छा है कि आपको यह जानने में मुश्किल होगी कि क्या बदल गया है।

एआई वॉयस क्लोनिंग स्क्रिप्ट एडिटर जैसा दिखता है।

हम यह भी मान सकते हैं कि यह तकनीक केवल समय के साथ बेहतर होगी। मॉडल बनाने के लिए सिस्टम को कम ऑडियो की आवश्यकता होगी, और तेज़ प्रोसेसर वास्तविक समय में मॉडल का निर्माण करने में सक्षम होंगे। होशियार एआई सीखेगा कि कैसे काम करने के लिए एक उदाहरण के बिना मानव-जैसी ताल और भाषण पर जोर देना है।

इसका मतलब है कि हम सहज आवाज क्लोनिंग की व्यापक उपलब्धता के करीब रेंग रहे हैं।

भानुमती के बक्से की नैतिकता

इस क्षेत्र में काम करने वाली अधिकांश कंपनियां सुरक्षित, जिम्मेदार तरीके से प्रौद्योगिकी को संभालने के लिए तैयार हैं। उदाहरण के लिए, AI से मिलता-जुलता है अपनी वेबसाइट पर एक संपूर्ण नैतिकता अनुभाग , और निम्नलिखित अंश उत्साहजनक है:

विज्ञापन

हम यह सुनिश्चित करने के लिए एक कठोर प्रक्रिया के माध्यम से कंपनियों के साथ काम करते हैं कि वे जिस आवाज की क्लोनिंग कर रहे हैं वह उनके द्वारा प्रयोग करने योग्य है और आवाज अभिनेताओं के साथ उचित सहमति है।

इसी तरह, कुमार ने कहा कि लाइरेबर्ड शुरू से ही दुरुपयोग के बारे में चिंतित था। इसलिए अब, डिस्क्रिप्ट के एक भाग के रूप में, यह केवल लोगों को अपनी आवाज का क्लोन बनाने की अनुमति देता है। वास्तव में, रेसेम्बल और डिस्क्रिप्ट दोनों के लिए आवश्यक है कि लोग गैर-सहमति वाली आवाज-क्लोनिंग को रोकने के लिए अपने नमूनों को लाइव रिकॉर्ड करें।

यह खुशी की बात है कि प्रमुख वाणिज्यिक खिलाड़ियों ने कुछ नैतिक दिशानिर्देश लागू किए हैं। हालांकि, यह याद रखना महत्वपूर्ण है कि ये कंपनियां इस तकनीक के द्वारपाल नहीं हैं। जंगली में पहले से ही कई ओपन-सोर्स टूल हैं, जिनके लिए कोई नियम नहीं हैं। थ्रेट इंटेलिजेंस के प्रमुख हेनरी अजडर के अनुसार डीपट्रेस , इसका दुरुपयोग करने के लिए आपको उन्नत कोडिंग ज्ञान की भी आवश्यकता नहीं है।

अजदर ने कहा कि अंतरिक्ष में बहुत प्रगति गिटहब जैसी जगहों पर सहयोगी कार्य के माध्यम से हुई है, जो पहले प्रकाशित अकादमिक पत्रों के ओपन-सोर्स कार्यान्वयन का उपयोग कर रही है। इसका उपयोग कोई भी व्यक्ति कर सकता है जिसे कोडिंग में मध्यम दक्षता प्राप्त है।

सुरक्षा पेशेवरों ने यह सब पहले देखा है

वॉयस क्लोनिंग संभव होने से बहुत पहले अपराधियों ने फोन द्वारा पैसे चुराने की कोशिश की है, और सुरक्षा विशेषज्ञ हमेशा इसका पता लगाने और इसे रोकने के लिए कॉल पर रहते हैं। सुरक्षा कंपनी सुई का गिरना यह सत्यापित करके बैंक धोखाधड़ी को रोकने की कोशिश करता है कि क्या कॉलर वह है जो वह ऑडियो से होने का दावा करता है। अकेले 2019 में, पिंड्रॉप ने 1.2 बिलियन वॉयस इंटरैक्शन का विश्लेषण करने और धोखाधड़ी के प्रयासों में लगभग 470 मिलियन डॉलर को रोकने का दावा किया है।

विज्ञापन

वॉयस क्लोनिंग से पहले, जालसाजों ने कई अन्य तकनीकों की कोशिश की। सबसे आसान बस निशान के बारे में व्यक्तिगत जानकारी के साथ कहीं और से फोन करना था।

हमारे ध्वनिक हस्ताक्षर हमें यह निर्धारित करने की अनुमति देते हैं कि ध्वनि विशेषताओं के कारण नाइजीरिया में एक स्काइप फोन से वास्तव में एक कॉल आ रही है, पिंड्रोप के सीईओ, विजय बालासुब्रमण्यन ने कहा। फिर, हम तुलना कर सकते हैं कि जानने वाला ग्राहक अटलांटा में एटी एंड टी फोन का उपयोग करता है।

कुछ अपराधियों ने बैंकिंग प्रतिनिधि को ठिकाने लगाने के लिए पृष्ठभूमि ध्वनियों का उपयोग करके भी करियर बनाया है।

बालासुब्रमण्यन ने कहा कि एक धोखेबाज है जिसे हम चिकन मैन कहते हैं, जिसकी पृष्ठभूमि में हमेशा मुर्गा रहता था। और एक महिला है जिसने कॉल सेंटर एजेंटों को अनिवार्य रूप से समझाने के लिए पृष्ठभूमि में रोते हुए एक बच्चे का इस्तेमाल किया, कि 'अरे, मैं एक कठिन समय से गुजर रहा हूं' सहानुभूति पाने के लिए।

और फिर पुरुष अपराधी हैं जो महिलाओं के बैंक खातों के पीछे जाते हैं।

बालासुब्रमण्यन ने समझाया कि वे अपनी आवाज की आवृत्ति बढ़ाने के लिए, अधिक स्त्री ध्वनि के लिए प्रौद्योगिकी का उपयोग करते हैं। ये सफल हो सकते हैं, लेकिन कभी-कभी, सॉफ़्टवेयर गड़बड़ हो जाता है और वे एल्विन और चिपमंक्स की तरह लगते हैं।

विज्ञापन

बेशक, इस लगातार बढ़ते युद्ध में वॉयस क्लोनिंग सिर्फ नवीनतम विकास है। सुरक्षा फर्मों ने पहले ही कम से कम एक स्पीयरफिशिंग हमले में सिंथेटिक ऑडियो का उपयोग करने वाले धोखेबाजों को पकड़ा है।

सही लक्ष्य के साथ, भुगतान बड़े पैमाने पर हो सकता है, बालासुब्रमण्यन ने कहा। इसलिए, सही व्यक्ति की संश्लेषित आवाज बनाने के लिए समय समर्पित करना समझ में आता है।

क्या कोई बता सकता है कि आवाज नकली है या नहीं?

किसी चेहरे का सिल्हूट जिसके पीछे ध्वनि तरंगें हों।

सर्गेई निवेन्स / शटरस्टॉक

जब यह पहचानने की बात आती है कि क्या कोई आवाज नकली है, तो अच्छी और बुरी दोनों खबरें हैं। बुरी बात यह है कि वॉयस क्लोन दिन-ब-दिन बेहतर होते जा रहे हैं। डीप-लर्निंग सिस्टम स्मार्ट हो रहे हैं और अधिक प्रामाणिक आवाजें बना रहे हैं जिन्हें बनाने के लिए कम ऑडियो की आवश्यकता होती है।

जैसा कि आप इस क्लिप से बता सकते हैं राष्ट्रपति ओबामा ने एमसी रेन को स्टैंड लेने के लिए कहा , हम पहले से ही उस बिंदु पर पहुंच गए हैं जहां एक उच्च-निष्ठा, सावधानी से निर्मित आवाज मॉडल मानव कान के लिए काफी ठोस लग सकता है।

एक ध्वनि क्लिप जितनी लंबी होगी, उतनी ही अधिक संभावना होगी कि आप देखेंगे कि कुछ गड़बड़ है। हालाँकि, छोटी क्लिप के लिए, आप इसे सिंथेटिक नहीं देख सकते हैं - खासकर यदि आपके पास इसकी वैधता पर सवाल उठाने का कोई कारण नहीं है।

ध्वनि की गुणवत्ता जितनी स्पष्ट होगी, ऑडियो डीपफेक के संकेतों को नोटिस करना उतना ही आसान होगा। अगर कोई सीधे स्टूडियो-गुणवत्ता वाले माइक्रोफ़ोन में बोल रहा है, तो आप बारीकी से सुन सकेंगे। लेकिन खराब गुणवत्ता वाली फोन कॉल रिकॉर्डिंग या शोरगुल वाले पार्किंग गैरेज में हैंडहेल्ड डिवाइस पर कैप्चर की गई बातचीत का मूल्यांकन करना बहुत कठिन होगा।

विज्ञापन

अच्छी खबर यह है कि भले ही इंसानों को असली को नकली से अलग करने में परेशानी हो, लेकिन कंप्यूटर की समान सीमाएँ नहीं हैं। सौभाग्य से, ध्वनि सत्यापन उपकरण पहले से मौजूद हैं। पिंड्रोप में एक है जो एक दूसरे के खिलाफ गहरी-सीखने की प्रणाली को खड़ा करता है। यह दोनों का उपयोग यह पता लगाने के लिए करता है कि क्या ऑडियो नमूना वह व्यक्ति है जिसे वह माना जाता है। हालाँकि, यह इस बात की भी जाँच करता है कि क्या मानव नमूने में सभी ध्वनियाँ भी निकाल सकता है।

ऑडियो की गुणवत्ता के आधार पर, भाषण के प्रत्येक सेकंड में 8,000-50,000 डेटा नमूने होते हैं जिनका विश्लेषण किया जा सकता है।

बालासुब्रमण्यन ने समझाया कि जिन चीजों की हम आम तौर पर तलाश कर रहे हैं वे मानव विकास के कारण भाषण पर बाधाएं हैं।

उदाहरण के लिए, दो मुखर ध्वनियों में एक दूसरे से न्यूनतम संभव अलगाव होता है। ऐसा इसलिए है क्योंकि आपके मुंह और वोकल कॉर्ड की मांसपेशियां जिस गति से अपने आप को फिर से कॉन्फ़िगर कर सकती हैं, उसके कारण उन्हें किसी भी तेजी से कहना शारीरिक रूप से संभव नहीं है।

जब हम संश्लेषित ऑडियो देखते हैं, तो बालासुब्रमण्यन ने कहा, हम कभी-कभी चीजों को देखते हैं और कहते हैं, 'यह कभी भी मानव द्वारा उत्पन्न नहीं किया जा सकता था क्योंकि एकमात्र व्यक्ति जो इसे उत्पन्न कर सकता था उसे सात फुट लंबी गर्दन की आवश्यकता होती है।

ध्वनि का एक वर्ग भी होता है जिसे फ़्रीकेटिव कहा जाता है। जब आप f, s, v, और z जैसे अक्षरों का उच्चारण करते हैं तो वे तब बनते हैं जब हवा आपके गले में एक संकीर्ण कसना से गुजरती है। डीप-लर्निंग सिस्टम में महारत हासिल करने के लिए फ़्रिकेटिव विशेष रूप से कठिन होते हैं क्योंकि सॉफ़्टवेयर को उन्हें शोर से अलग करने में परेशानी होती है।

विज्ञापन

तो, कम से कम अभी के लिए, वॉयस-क्लोनिंग सॉफ़्टवेयर इस तथ्य से लड़खड़ा गया है कि मनुष्य मांस के बैग हैं जो बात करने के लिए उनके शरीर में छिद्रों के माध्यम से हवा का प्रवाह करते हैं।

बालासुब्रमण्यन ने कहा, मैं मजाक करता रहता हूं कि डीपफेक बहुत तेज होते हैं। उन्होंने समझाया कि एल्गोरिदम के लिए रिकॉर्डिंग में शब्दों के सिरों को पृष्ठभूमि शोर से अलग करना बहुत कठिन है। इसका परिणाम कई आवाज मॉडल में भाषण के साथ होता है जो मनुष्यों की तुलना में अधिक पीछे होता है।

बालासुब्रमण्यन ने कहा कि जब एक एल्गोरिथम ऐसा होता हुआ देखता है, तो सांख्यिकीय रूप से, यह अधिक आश्वस्त हो जाता है कि यह ऑडियो मानव के विपरीत उत्पन्न किया गया है।

Resemble AI एक ओपन-सोर्स डीप-लर्निंग टूल Resemblyzer के साथ डिटेक्शन प्रॉब्लम से भी निपट रहा है गिटहब पर उपलब्ध है . यह नकली आवाजों का पता लगा सकता है और स्पीकर सत्यापन कर सकता है।

यह सतर्कता लेता है

यह अनुमान लगाना हमेशा कठिन होता है कि भविष्य में क्या हो सकता है, लेकिन यह तकनीक लगभग निश्चित रूप से केवल बेहतर होगी। साथ ही, कोई भी संभावित रूप से शिकार हो सकता है-न कि केवल हाई-प्रोफाइल व्यक्ति, जैसे निर्वाचित अधिकारी या बैंकिंग सीईओ।

मुझे लगता है कि हम पहले ऑडियो उल्लंघन के कगार पर हैं जहां लोगों की आवाज चोरी हो जाती है, बालासुब्रमण्यन ने भविष्यवाणी की।

विज्ञापन

फिलहाल, हालांकि, ऑडियो डीपफेक से वास्तविक दुनिया का जोखिम कम है। पहले से ही ऐसे उपकरण हैं जो सिंथेटिक वीडियो का पता लगाने के लिए बहुत अच्छा काम करते हैं।

साथ ही, अधिकांश लोगों को हमले का खतरा नहीं होता है। अजदर के अनुसार, मुख्य व्यावसायिक खिलाड़ी विशिष्ट ग्राहकों के लिए बीस्पोक समाधानों पर काम कर रहे हैं, और अधिकांश के पास काफी अच्छे नैतिक दिशानिर्देश हैं कि वे किसके साथ काम करेंगे और किसके साथ नहीं करेंगे।

असली खतरा आगे है, हालांकि, जैसा कि अजदर ने समझाया:

पेंडोरा का बॉक्स ऐसे लोग होंगे जो प्रौद्योगिकी के ओपन-सोर्स कार्यान्वयन को तेजी से उपयोगकर्ता के अनुकूल, सुलभ ऐप या सेवाओं में शामिल कर रहे हैं, जिनके पास उस तरह की नैतिक परत नहीं है जो इस समय वाणिज्यिक समाधान करते हैं।

यह शायद अपरिहार्य है, लेकिन सुरक्षा कंपनियां पहले से ही अपने टूलकिट में नकली ऑडियो डिटेक्शन रोल कर रही हैं। फिर भी सुरक्षित रहने के लिए सतर्कता जरूरी है।

हमने इसे अन्य सुरक्षा क्षेत्रों में किया है, अजदर ने कहा। उदाहरण के लिए, अगले शून्य-दिन की भेद्यता क्या है, यह समझने में बहुत सारे संगठन बहुत समय व्यतीत करते हैं। सिंथेटिक ऑडियो बस अगली सीमा है।

सम्बंधित: एक डीपफेक क्या है, और क्या मुझे चिंतित होना चाहिए?

आगे पढ़िए डेव जॉनसन के लिए प्रोफाइल फोटो डेव जॉनसन
डेव जॉनसन ने पाम पायलट और विंडोज 95 के दिनों से एक तकनीकी पत्रकार के रूप में काम किया है। वह प्रौद्योगिकी के बारे में लगभग तीन दर्जन पुस्तकों के लेखक हैं, उन्होंने माइक्रोसॉफ्ट में कंटेंट लीड के रूप में 8 साल बिताए हैं, और फैमिली टेक साइट टेकवाला के संस्थापक हैं। .
पूरा जैव पढ़ें

दिलचस्प लेख

लोकप्रिय पोस्ट

क्या धुंधला है, और यह मेरे मैक पर क्यों चल रहा है?

क्या धुंधला है, और यह मेरे मैक पर क्यों चल रहा है?

ऑटो से बाहर निकलें: बेहतर तस्वीरों के लिए अपने कैमरे के शूटिंग मोड का उपयोग कैसे करें

ऑटो से बाहर निकलें: बेहतर तस्वीरों के लिए अपने कैमरे के शूटिंग मोड का उपयोग कैसे करें

Screenshot Tour: Android 4.2 जेली बीन में 10 नई सुविधाएं

Screenshot Tour: Android 4.2 जेली बीन में 10 नई सुविधाएं

अपनी नेटवर्क की गई फाइलों को ऑफलाइन कैश करने के लिए विंडोज़ में ऑफलाइन फाइलों का उपयोग कैसे करें

अपनी नेटवर्क की गई फाइलों को ऑफलाइन कैश करने के लिए विंडोज़ में ऑफलाइन फाइलों का उपयोग कैसे करें

जब आप मर जाते हैं तो अपने Minecraft आइटम कैसे रखें (और अन्य चतुर चालें)

जब आप मर जाते हैं तो अपने Minecraft आइटम कैसे रखें (और अन्य चतुर चालें)

अपने अमेज़न इको डिवाइस का नाम कैसे बदलें

अपने अमेज़न इको डिवाइस का नाम कैसे बदलें

क्रोम को हमेशा अपने पहले के खुले टैब कैसे खोलें

क्रोम को हमेशा अपने पहले के खुले टैब कैसे खोलें

मैकोज़ एप्लिकेशन को उनके डॉक आइकन को छोटा करने के लिए कैसे सेट करें

मैकोज़ एप्लिकेशन को उनके डॉक आइकन को छोटा करने के लिए कैसे सेट करें

डेस्कटॉप और वेब के लिए स्लैक पर अपने हाल के वार्तालापों को त्वरित रूप से कैसे एक्सेस करें

डेस्कटॉप और वेब के लिए स्लैक पर अपने हाल के वार्तालापों को त्वरित रूप से कैसे एक्सेस करें

कैसे ठीक करें आपका ध्यान विंडोज 10 सेटअप त्रुटियों की आवश्यकता है

कैसे ठीक करें आपका ध्यान विंडोज 10 सेटअप त्रुटियों की आवश्यकता है