Moshi slår OpenAI med en overraskende udgivelse
Da vi alle venter spændt på OpenAIs nyeste vidunder, GPT-4o voice assistant, har en fransk non-profit AI forskningslab, Kyutai, allerede sneget sig forbi med lanceringen af Moshi. Denne nye stemmeassistent er bygget på deres Helium 7B model og imponerer stort med sin evne til at håndtere realtidsinteraktioner uden den mindste tøven.
Moshis imponerende funktioner
Moshi kan ikke bare følge med i samtalen; den forstår og udtrykker hele 70 forskellige følelser og kan tale i forskellige stilarter og accent. Moshi er trænet på syntetiske dialoger for å tillære sig sosiale kompetencer helt uden menneskelige script.
Den tekniske bedrift bag Moshi
Trods sin beskedne størrelse sammenlignet med GPT-4o, kan Helium 7B køre på forbrugerhardware som en almindelig MacBook Pro. Kyutais anvendelse af en ny audio codec kaldet Mimi, komprimerer audio 300 gange mere end traditionelt MP3-format, hvilket betyder at Moshi kan køre mere effektivt med mindre hardwarekrav.
Fremtidens potentialer og nuværende udfordringer
Under demonstrationen oplevede vi visse tekniske småproblemer, men disse er småting sammenlignet med den revolutionerende lav-latens Moshi tilbyder. Selvom applikationen stadig er i prototypefasen og lidt buggy, viser det, hvad en lille skare af ingeniører kan nå på blot seks måneder.
Du kan selv prøve Moshi ved at besøge Kyutais hjemmeside. Det er en fantastisk mulighed for selv at opleve fremtidens teknologi i dag!