Zoeken

Dit MOET je weten als je in Tech bedrijven investeert

Rabi Safi
4 sep 2023
2 minuten om te lezen

In het kort:

AI-ontwikkelaars zijn op zoek naar nieuwe data om hun modellen te verfijnen.
Contenteigenaren beschermen zichzelf tegen AI-bedrijven die het web afzoeken naar data.
Specifieke datasets met traceerbare bronnen zijn een lucratieve markt.

Niet zo lang geleden twijfelden analisten aan het overlevingsvermogen van Adobe in een AI-gedreven wereld. Echter, in een dramatische wending heeft Adobe gebruik gemaakt van zijn uitgebreide fotodatabase om een eigen AI-oplossing te creëren, Firefly. Dana Rao van Adobe deelde dat ze in staat waren om de controversiële copyrightkwesties die veel AI-bedrijven achtervolgen te omzeilen.

Deze opkomst van Adobe werpt licht op de grotere strijd om dominantie in de AI-markt. De nieuwste generatie AI maakt gebruik van enorme datasets, waardoor ze steeds meer op zoek zijn naar kwalitatieve databronnen.

Het Essentiële Recept voor AI

De succesformule voor een AI-systeem draait om twee dingen: datasets en verwerkingskracht. Door het tekort aan gespecialiseerde AI-chips is het verkrijgen van data nu nog crucialer. Deze stijgende vraag heeft echter geleid tot een tekort aan kwalitatieve tekstdatasets, waardoor men verwacht dat deze in 2026 mogelijk uitgeput zijn.

De kwaliteit van deze data is ook van belang. Zoals Russell Kaplan van Scale AI opmerkt, zullen modellen getraind op kwalitatieve data betere resultaten leveren. Dit verklaart ook de toenemende vraag naar gespecialiseerde informatiesets, zoals die van GitHub, dat werd overgenomen door Microsoft.

Het Vraagstuk van Copyright

De stijgende vraag naar data heeft geleid tot een tegenreactie van contentmakers. Verschillende rechtszaken zijn aangespannen tegen AI-bedrijven vanwege vermeende inbreuken op auteursrechten. De strijd om toegang tot data heeft geleid tot opmerkelijke samenwerkingen en overeenkomsten tussen AI-bedrijven en gegevensverstrekkers.

De Macht van Data

Als gevolg hiervan zijn AI-bedrijven zich gaan concentreren op het verbeteren van hun bestaande data. Ze maken gebruik van data-annotators om hun modellen te trainen en te verfijnen. Feedbackmechanismen, zoals die ingebouwd zijn in Google's Bard en Adobe's Firefly, helpen AI-labs om betere inzichten te krijgen en hun systemen te verfijnen.

Het Onbenutte Goud: Zakelijke Data

Een vaak over het hoofd geziene bron van data zijn de bedrijfsklant en van technologiebedrijven. Deze bedrijven zitten vaak op een schat aan waardevolle informatie, variërend van callcenter transcripts tot consumentenuitgaven. Het ontsluiten van deze databronnen zou deze bedrijven in staat stellen om hun AI-tools aan te passen aan hun specifieke behoeften.

Het pad naar het ontsluiten van deze data is echter niet zonder uitdagingen. Christian Kleinerman van Snowflake merkt op dat bedrijven steeds meer moeite doen om hun datagebaseerde silo's af te breken. Hierdoor is er een opkomst van startups en nieuwe initiatieven om bedrijven te helpen deze schat aan informatie te ontsluiten.

Conclusie

In het tijdperk van AI is data het nieuwe goud. Terwijl AI-bedrijven hongerig zijn naar meer en betere data, worden bedrijven zich steeds bewuster van de waarde van hun data. De strijd om toegang tot en controle over deze data belooft in de komende jaren alleen maar te intensiveren.

Bedrijven moeten nu voorzichtig te werk gaan en zorgen voor een evenwichtige benadering, waarbij zowel de waarde van hun data wordt gemaximaliseerd als de privacy en rechten van hun gebruikers worden beschermd. In deze nieuwe koude oorlog om data zullen alleen diegenen die snel en slim handelen als overwinnaars uit de bus komen.