Voicebox एक ओपन-सोर्स ऐप है जो तुम्हारे Mac को एक छोटे लोकल वॉइस सिंथेसिस और क्लोनिंग स्टूडियो में बदल देता है। यह Qwen3-TTS मॉडल का इस्तेमाल करके सीधे तुम्हारे डिवाइस पर यथार्थवादी ऑडियो जनरेट करता है, बिना क्लाउड सेवाओं, टोकन, या पेड सब्सक्रिप्शन पर निर्भर हुए।
macOS के लिए डिज़ाइन किया गया वॉइस क्लोनिंग ऐप
Voicebox के साथ, तुम कुछ सेकंड के रेफ़रेंस ऑडियो (अधिकतम 30 सेकंड) से वॉइस प्रोफ़ाइल बना सकते हो। Qwen3-TTS मॉडल टोन, टिंबर और एक्सेंट का विश्लेषण करके उन्हें काफ़ी हद तक सटीकता के साथ दोहराता है। तुम्हें बस एक वॉइस फ़ाइल अपलोड करनी है या अपने Mac के माइक्रोफ़ोन से रिकॉर्ड करनी है, बताना है कि क्या कहा गया था, या ऑटोमैटिक ट्रांसक्रिप्शन का उपयोग करना है, और फिर तुम्हारे पास एक प्रोफ़ाइल तैयार होगी जिससे नया ऑडियो बनाने के लिए प्रक्रिया दोहरानी नहीं पड़ेगी।
कस्टम वॉइस प्रोफ़ाइल के साथ ऑडियो जनरेट करो
जब तुम्हारे पास सेव की हुई प्रोफ़ाइल हो जाए, तो बस वह टेक्स्ट टाइप करो जो तुम चाहते हो और Voicebox उस आवाज़ में ऑडियो बना देगा। इससे, उदाहरण के लिए, तुम अपने टोन को बनाए रखते हुए वाक्यों को दूसरी भाषाओं में अनुवाद कर सकते हो, ताकि तुम घर पर डब बना सको या वीडियो गेम प्रोजेक्ट्स के लिए आवाज़ें जनरेट कर सको। तुम वॉइस प्रोफ़ाइल एक्सपोर्ट भी कर सकते हो और उन्हें दूसरे यूज़र्स के साथ शेयर कर सकते हो ताकि वे अपने डिवाइस पर ऑडियो जनरेट कर सकें।
ऑटोमैटिक ट्रांसक्रिप्शन और सिस्टम साउंड कैप्चर
ऐप Whisper को इंटिग्रेट करता है, जो ऑडियो को टेक्स्ट में बदलता है और उसे जनरेट की गई आवाज़ के साथ सिंक्रोनाइज़ करता है। इससे टाइमलाइन पर सीधे डायलॉग एडिट करना आसान हो जाता है—पॉज़ समायोजित करना या उच्चारण सुधारना—बिना वॉइस प्रोफ़ाइल की स्थिरता खोए। इसके अलावा, इसमें सिस्टम ऑडियो कैप्चर भी शामिल है, जिससे तुम अपने Mac पर चल रही आवाज़ (जैसे किसी गेम या कॉल की) रिकॉर्ड कर सकते हो और उसे नए क्लोन्स या ऑडियो सीन के लिए रेफ़रेंस के रूप में इस्तेमाल कर सकते हो।
अन्य प्रोजेक्ट्स के लिए लोकल वॉइस सर्वर और API
Voicebox सिर्फ़ अपने ग्राफ़िकल इंटरफ़ेस तक सीमित नहीं है; यह अपने इंटिग्रेटेड REST API की वजह से लोकल वॉइस सर्वर की तरह भी काम कर सकता है। तुम इसे एक क्लिक से एक्टिवेट कर सकते हो, गेम्स, ऐप्स या AI एजेंट्स से टेक्स्ट भेज सकते हो, और स्टैंडर्ड फ़ॉर्मैट में जनरेट किया हुआ ऑडियो पा सकते हो। इससे बाहरी सेवाओं पर निर्भर हुए बिना नैरेशन, डायलॉग, या नोटिफ़िकेशन ऑटोमेशन आसान हो जाता है। यह ऐप Tauri, Rust, और Python के साथ विकसित किया गया है, जो इसे कई Electron-आधारित विकल्पों से हल्का बनाता है। फिर भी, परफ़ॉर्मेंस इस बात पर निर्भर करेगी कि तुम्हारा Mac कितना शक्तिशाली है और Qwen3-TTS मॉडल कैसे सेट अप है, क्योंकि सारी प्रोसेसिंग लोकल रूप से की जाती है।
किसी भी आवाज़ से नैरेटेड कहानियाँ बनाओ
Voicebox में नैरेटेड कहानियाँ जनरेट करने के लिए एक सेक्शन भी है। तुम्हें बस बताना है कि तुम क्या होना चाहते हो, और ऐप तुम्हारी चुनी हुई आवाज़ का इस्तेमाल करके कंटेंट बना देगा। यह फ़ीचर मज़ेदार कंटेंट, बच्चों की कहानियाँ, या वॉइस स्केच बनाने के लिए उपयोगी है।
Mac पर Voicebox इस्तेमाल करने का मेरा अनुभव
जब मैंने macOS पर Voicebox टेस्ट किया, तो क्लोनिंग प्रक्रिया तेज़ और आसान थी: कुछ सेकंड का ऑडियो प्रोफ़ाइल बनाने और टाइमलाइन पर कई वॉइस क्लिप्स जनरेट करने के लिए काफ़ी था। अनुभव स्मूद है, हालांकि कुछ एडवांस्ड विकल्प अभी भी नहीं हैं, जैसे क्वालिटी सुधारने के लिए और सैंपल जोड़ना या क्लोन की गई आवाज़ को फाइन-ट्यून करना।
Voicebox में मुझे सबसे ज़्यादा क्या पसंद आया और क्या सुधारा जा सकता है
मुझे सबसे ज़्यादा क्या पसंद आया: पूरी क्लोनिंग और सिंथेसिस प्रक्रिया तुम्हारे Mac पर लोकल रूप से होती है, क्लाउड पर निर्भर हुए बिना या सब्सक्रिप्शन के लिए भुगतान किए बिना।