Alibaba lanceert het opensource AI-audiomodel Qwen3-TTS

Alibaba heeft het open source AI-model ๐ค๐๐ฒ๐ป๐ฏ-๐ง๐ง๐ฆ vrijgegeven. Het is software die je lokaal, op je eigen computer draait om audio te genereren.
Dit past precies in de trend die ik voor 2026 zie: we gaan van ‘huren’ (API-kosten) naar ‘bezitten’ (lokale modellen). Voor bedrijven die veel audio genereren, is dit een potentieel kostenvoordeel.
Qwen3-TTS is biedt drie manieren om stemmen te genereren, zonder dat er een tech-reus tussen zit:
1. Voice Design
Je typt een beschrijving en het model genereert een unieke stem.
2. Voice Clone
Met slechts een paar seconden audio kopieer je een bestaande stem.
3. Custom Voice
Voor consistente merkstemmen.
Lokaal draaien
Vroeger had je voor dit soort modellen een team developers nodig. Nu kun je met tools zoals Pinokio dit relatief eenvoudig zelf installeren op een snelle computer met een goede GPU. Je bent niet meer afhankelijk van een cloudplatform, je data (privacy) blijft binnenshuis en de latentie (vertraging) is minimaal.
Nog geen Nederlands
Het model ondersteunt direct diverse wereldtalen, maar Nederlands ontbreekt nog. Als je het nu test met Nederlandse tekst, klinkt het als een toerist die een woordenboek voorleest.
Voorbeeld van de Nederlandse tekst: “Elke ochtend wandelde Anna door het park. Ze luisterde naar het ritselen van de bladeren en het zachte geluid van haar voetstappen op het pad. Even stond ze stil, haalde diep adem en glimlachte. Het zou een goede dag worden.”
Instructie voor de stem: Speak in a calm, informative tone with a subtle sense of urgency, as if introducing an important technological development to a professional audience.
Waarschuwing
De drempel voor ‘voice cloning’ is hiermee technisch nul. Vertrouw dus nooit op dat voicemailberichtje van een “bekende” die iets van je nodig heeft.
Downloaden en testen kan via HuggingFace of via de Pinokio-localhost cloud.


Plaats een Reactie
Meepraten?Draag gerust bij!