Fransk AI-lab Stjæler Rampelyset fra OpenAI
Mens vi stadig tålmodigt venter på, at OpenAI frigiver deres GPT-4o stemmeassistent, har et fransk non-profit AI-laboratorium, Kyutai, slået dem til stregen. De har netop lanceret Moshi, en realtidsstemmeassistent, der bygger på Helium 7B-modellen. Denne model er udviklet og trænet med både syntetisk tekst og lyddata, fintunet med syntetiske dialoger for at lære interaktion.
Moshis Evner Taler For Sig Selv
Moshi kan forstå og udtrykke hele 70 forskellige følelser, tale i forskellige stilarter og accentere. Demoen af dens imponerende end-to-end latency på kun 200 millisekunder fik virkelig publikum til at måbe. Ved at lytte, tænke og tale samtidigt gør Moshi interaktionerne glatte uden akavede pauser.
Realistisk og Interaktiv Sci-fi Rollespil
Trods sin lille størrelse sammenlignet med GPT-4o, betyder Helium 7B’s kompakte natur, at den kan køres på almindelig forbrugerelektronik eller i skyen med lavenergi GPU’er. En Kyutai-ingeniør demonstrerede dette ved at køre Moshi på en MacBook Pro.
Perspektiver og Potentiale
Selvom Moshi stadig er en eksperimentel prototype, og hjemmesideversionen kører lidt ustabilt på grund af høj efterspørgsel, så påpeger Kyutai, at de kommer til at frigive modellen, kodeken, koden og vægtene snart. Det giver håb om, at ydeevnen snart vil kunne matche det, man så i demoen.
Så selvom Moshi måske har sine barnesygdomme, viser denne førstefødselsret over for OpenAI, at en lille tropp af dedikerede ingeniører kan udrette store ting – og får os til at spørge: “Hvorfor venter vi stadig på, at GPT-4o skal tale til os?” Besøg https://kyutai.org/ for selv at opleve Moshi.