Onlangs hadden wij het nog over Apple en AI: wij vonden het opmerkelijk dat Apple zo lang niets van zich liet horen op dat gebied. Maar toen bleek Apple een MLLM Guided Image uitgebarcht hebben, een multimodaal large language model dat gewone spreektaal omzet in instructies om een afbeelding te bewerken. (1)
En kijk, nog een andere speler die lange tijd stil bleef, Amazon, kondigt een mijlpaal aan in zijn AI-ontwikkeling. Het zou namelijk het grootste tekst-naar-spraak model getraind hebben, Big Adaptive Streamable TTs met Emergent Abilities (BASE TTS). Die zou in staat zijn om zelfs complexe zinnen op natuurlijke wijze uit te spreken.
De grootste versie van dit model maakt gebruik van 100.000 uren van gesproken woord die in het publiek domein behoren. 90% daarvan is in het Engels, de rest in het Duits, Spaans en... Nederlands.
Bij TechCrunch kan je lezen dat het opmerkelijk is dat LLM's, eens zij een bepaalde grootte bereiken, robuuster en veelzijdiger worden, en taken kunnen uitvoeren waarvoor zij eigenlijk niet getraind waren. Wat niet wil zeggen dat zij nu voor zichzelf kunnen denken hoor!
https://www.netties.be/v20/toon_artikel.php?id=38625&cat=Nie ...
https://techcrunch.com/2024/02/14/largest-text-to-speech-ai- ...
|