De filmpjes die met Sora gemaakt zijn - het valt niet te ontkennen dat die indrukwekkend zijn. En meteen volgden de waarschuwingen van doemdenkers: dat dit het einde zou betekenen van vele creatieve videoberoepen. Enkele podcasts die wij beluisterden stellen dit toch in vraag.
De All-In Podcast bijvoorbeeld stipte aan dat Sora de fysieke wereld niet begrijpt. Wanneer iemand in een filmpje een hap uit een hamburger neemt bijvoorbeeld, dan is in het volgende beeld die hamburger nog compleet, wordt die hap dus niet getoond. De AI is dan ook volledig verschillend van bijvoorbeeld JEPA (Joint Embedding Predictive Architecture) dat geen generatieve AI is, maar technologie die voorspelt wat de volgende stap zal zijn. Een X-bericht van YannLeCun (1) verduidelijkt dit. Volgens hem levert JEPA een veel betere weergavaevan visuele inputs dan generatieve architecturen die pixels reconstrueren (1).
Er is ook de kritiek dat Sora geen lagen kent. Stel dat je via een tekst een video hebt gemaakt, en je wil een appel in de afbeelding bijvoorbeeld vervangen door een peer, dan gaat die dat niet kunnen. (2 vanaf 15:36)
En dan is er nog de kritiek die we hoorden bijDTNS. Die stelde vast dat OpenAI zijn tools voor een steeds meer beperkt publiek uitbrengt. In dit geval: enkel een beperkt aantal videomakers en beveiligingsexperts. Maar er wel heel veel publiciteit rond weeft.
Terwijl Google veel voorzichtiger is. Het is veel terughoudender om zijn AI-tools uit te brengen, omdat het weet dat alles wat het doet, heel nauwlettend bekeken zal worden. Maar als het die uitbrengt, dan is het dan wel voor iedereen. Meer "Open" dus dan OpenAI.... (3)
https://twitter.com/ylecun/status/1758740106955952191
https://twitter.com/theallinpod/status/1758645238401204591
https://dailytechnewsshow.com/2024/02/16/dont-pass-on-passke ...
|