Het Ontdekkracht blog

Je bent hier: Home → Archives → Tag → data
apr 5, 2015

Data analyse maar dan anders

 

Iemand het artikeltje in het FD van zaterdag 4 april 2015 gelezen over OAD? Met name de slot alinea trok mijn aandacht. Zeker na het lezen van deze blog van onze vrienden bij Coney

Door de curatoren zijn 1.600 ordners ingescanned. 1.600! Reken even mee. In een ordner gaan gemiddeld 350 A4 bladen. Op een pagina staan gemiddeld 350 woorden. Omdat het een faillissement betreft zullen er genoeg facturen etc. tussen zitten. Vooruit nemen we 275 woorden. Dan gaat het dus om 154.000.000 woorden!

Het is te hopen dat de curatoren de beschikking hebben over een intelligent Document Management Systeem (DMS). Waarom? Ik kijk dan even naar het door ons bij Ontdekkracht gebruikte DMS, hier wordt elk gescanned woord in een index opgeslagen. En dat kunnen wij zo naar een grote XML file dumpen en aan de slag!

Als die curatoren dat laatste nu ook kunnen dan is er toch een prachtige combi met Coney te maken? Een fraude zoekwoordonderzoek op 1.2 Terrabyte aan data, in PDF weliswaar hopen we maar. Het is flinke klus maar zeker niet onmogelijk en in XML gelukkig wat minder groot bestandsformaat.

Het is data analyse waar je niet direct aan denkt maar zeker mogelijk is. Want wat je met getallen kan, kan ook je met woorden. Het is maar de wijze van je algoritme goed bouwen. Iets met een IF Contains statement enzo. 

Bij Coney noemen ze het Textmining. Een hele nieuwe wereld om te ontdekken.