Hoe werkt AI eigenlijk? En is het slim? MIT Technology Review bracht hierover een erg interessant artikel, onder de titel: "Large language models kunnen verbazingwekkende dingen doen. Maar niemand weet echt waarom".
Bij DTNS vonden wij een uitstekende samenvatting van het artikel. Het is namelijk zo dat we ondertussen wel weten wat de LLM's kunnen doen - het zijn gewoon grote taalmodellen, en de AI "raadt" het volgende woord in een zin. Maar waarom de AI die wonderbaarlijke dingen kan, blijft een raadsel. Want het is niet zozeer dat er echt een groot plan achter steekt om die AI aan te sturen, als wel dat het een zaak is van "trial & error". Wetenschappers keken gewoon naar wat er al werkt, en experimenteerden dan met dingen waarvan zij denken dat die de resultaten nog kunnen verbeteren. De dingen die niet werkten werden opzij geschoven, en wat wel werkte, werd behouden. Maar het is puur experimenteel, er zit geen theorie achter.
Die grote taalmodellen worden dus op grote hoeveelheden data getraind, en op een of andere manier slagen zij erin om die data te veralgemenen naar andere data. Een complexe versie van wat de Markov Chain genoemd wordt (1). Een proces dat er wonderwel goed in slaagt om te voorspellen wat er nu moet volgen, zoals we al vertelden. Maar de AI kan meer: je traint hem bvijvoorbeeld op Engelse voorbeelden, maar hij verstaat ook Frans. En we weten niet waarom, we weten alleen dat het werkt. En hoe langer er wordt getraind op die data, hoe beter de AI werkt.
Maar alleen tot een zeker punt - een statistisch principe dat "overfitting" heet. Heel kort de bocht kan je stellen dat een model té nauwkeurig wordt door de data waarmee het gevoed wordt, zodat het niet meer kan generaliseren. Denk bijvoorbeeld aan het weerK; Wanneer je de temperatuur en de dag noteert, dan kan je met amper een handvol voorbeelden verspreid over het jaar, een curve trekken die dan zal tonen dat er hogere temperaturen zijn in de zomer en koudere in de winter. Maar met veel meer data, wanneer je bijvoorbeeld zou uitgaan van de temperatuur van uur tot uur, dan krijg je een curve die elke dag op en neer gaat , en kan je de temperatuur van de seizoenen niet zien. Tenzij je terug uitzoomt, dan wordt het gemakkelijker om te voorspellen hoe warm het zou zijn op een bepaalde dag. Dat is, heel kort door de bocht, het fenomeen van overfitting uitgelegd door DTNS: hoe meer data, hoe beter, tot op het punt dat je te veel data hebt
Alleen... de AI blijkt dat principe van overfitting overgeslagen te hebben. In het artikel wordt het voorbeeld gegeven van wetenschappers bij OPenAI die probeerden om een model correct te laten rekenen. Het model leerde dat 1 + 1, 2 was, en 2 + 2, 4, maar kon niet 1 +2 optellen. Het kon de sommen maken waarvoor het opgeleid was, maar kon niet generaliseren naar nieuwe sommen. Tot op een dag dat ze per ongeluk vergaten om het traininproces af te zetten wanneer het aan zijn overfitting limiet kwam. Het model ging door die limiet en werd daarna beter, en kon zelfs sommen maken waarvoor het niet getraind was.
Andere wetenschappers merkten hetzelfde fenomeen op - wat zij "grokking" noemden. En wat gelijkaardig is aan een ander fenomeen, "double descent". Dat is wanneer de grootte van een model over verloop van tijd eerst de fouten vermindert, dan verhoogt, en dan weer verlaagt.
Nu blijft nog altijd de vraag: waarom? We weten het niet. En sommige wetenschappers proberen dat met experimenten uit te zoeken. Net zoals wetenschappers proberen uit te vinden hoe fysica werkt.
https://en.wikipedia.org/wiki/Markov_chain
https://en.wikipedia.org/wiki/Overfitting
https://www.technologyreview.com/2024/03/04/1089403/large-la ...
|