De weegschaal op
Wat hebben afvallen of lijnen, zoals je wil, te maken met real-time monitoring? Lees meer →
Data analyse maar dan anders
Iemand het artikeltje in het FD van zaterdag 4 april 2015 gelezen over OAD? Met name de slot alinea trok mijn aandacht. Zeker na het lezen van deze blog van onze vrienden bij Coney.
Door de curatoren zijn 1.600 ordners ingescanned. 1.600! Reken even mee. In een ordner gaan gemiddeld 350 A4 bladen. Op een pagina staan gemiddeld 350 woorden. Omdat het een faillissement betreft zullen er genoeg facturen etc. tussen zitten. Vooruit nemen we 275 woorden. Dan gaat het dus om 154.000.000 woorden!
Het is te hopen dat de curatoren de beschikking hebben over een intelligent Document Management Systeem (DMS). Waarom? Ik kijk dan even naar het door ons bij Ontdekkracht gebruikte DMS, hier wordt elk gescanned woord in een index opgeslagen. En dat kunnen wij zo naar een grote XML file dumpen en aan de slag!
Als die curatoren dat laatste nu ook kunnen dan is er toch een prachtige combi met Coney te maken? Een fraude zoekwoordonderzoek op 1.2 Terrabyte aan data, in PDF weliswaar hopen we maar. Het is flinke klus maar zeker niet onmogelijk en in XML gelukkig wat minder groot bestandsformaat.
Het is data analyse waar je niet direct aan denkt maar zeker mogelijk is. Want wat je met getallen kan, kan ook je met woorden. Het is maar de wijze van je algoritme goed bouwen. Iets met een IF Contains statement enzo.
Bij Coney noemen ze het Textmining. Een hele nieuwe wereld om te ontdekken.
Wat doe jij met je data?
We hadden het vanmiddag al een beetje laten doorschemeren dat we een sneak preview zouden geven. In elk bedrijf is er zoveel data te vinden. Meer dan je denkt. En daar kun je zoveel mee. Lees meer →