Skip to main content

Mechanical Turk (HIT Crowdsourcing)

This idea is a part of Banedanmark - Digitisation of cable drawings

mcmukkel
November 21, 2019

Det er meget tydeligt i denne opgave - som i også selv har erfaret - at der ikke findes en fuld automatiseret løsning til problemet i nævner.

Det skyldes meget simpelt at jeres filer er i så varierende format og kvalitet, at det ville kræve en meget godt trænet machine learning model, som netop kun er trænet i præcis jeres filer og tegninger - hvilket vil tage så mange manuelle træningstimer at det ville være tæt på det samme som hvis man udførte hele arbejdet manuelt.
- Hertil kommer udviklingstiden og oversættelsen til GIS formatet.

Udelukkende set ud fra omkostninger, tid og kvalitet, er der for mig at se kun én økonomisk bæredygtig løsning der ville løse jeres problem:

Mechanical Turk (HIT)

Begrebet "Mechanical Turk" - også kendt som HIT (Human Intelligence Tasks), bygger på pretotyping tankegangen, og stammer helt tilbage fra år 1770, hvor man brugte menneskelig arbejdskraft til at simulere kunstig intelligens.

I dag er HIT kendt som "crowdsourcing", hvor man løser repetitive opgaver ved at dele opgaven op i flere små manuelle opgaver, kombineret med et interface hvor man nemt indtaster resultatet af opgaven (survey format).

Det kunne i jeres tilfælde f.eks. være følgende manuelle opgave:
- Kig på følgende billede (billede af et ledningskort).
- Indeholder billedet en "drænledning"? (Eksempel på drænledning ikon) 
- Tegn drænledningen på følgende kort (Kort over den pågældende station/område).

En anden type opgave kunne være:
- Kig på følgende billede (billede af et ledningskort)
- Angiv tegningsnavn, tegningsnummer, tegningsdato, sted for tegning etc.

Interfacet kan være et simpelt web interface hvor der kan tegnes og tastes data på forskellige måder for at imødekomme den manuelle indtastning nemmest muligt. 
Det kunne f.eks. være en tegning på et Google Maps kort, hvor linjernes vectorpunkter gemmes i et valgfrit format i en database.

Herefter ligger de indtastede data i et system, hvor det nemt kan konverteres til det ønskede GIS format. 

Fordelen ved at dele opgaverne op i disse små opgaver på denne måde er:
- Det kan udføres af mange forskellige mennesker, der ikke behøver nævnværdig oplæring eller træning 
- Kan udføres på alle sprog og alle steder i verden
- Opgaverne kan nemt kvalitetsvalideres ved at have samme opgave blive udført af 2 forskellige mennesker, og på den måde dobbelttjekke indtastningen uden selv at skulle kontrollere resultaterne
 

Det vil blot kræve at alle billederne bliver loadet ind i et system der kan vise dem på en skærm, et survey inspireret interface for indtastning af data, samt en opsamling af resultater hvor konvertering til det ønskede format nemt kan udføres.

Typisk bliver HIT opgaver i dag udført af folk fra lande hvor arbejdskraft er billig, f.eks. Indien, hvor prisen på en såkaldt "Data Entry Clerk" er cirka 22 kr/timen. (kilde: https://staff-india.com/outsourcing-cost/cost-of-outsourcing.html).

Det kunne dog sagtens være arbejdskraft i Danmark, udført af f.eks. studiemedhjælpere eller lign. 
Der er i princippet ingen krav til at kunne udføre opgaven, udover at kunne se og læse samt benytte en computer.

Der findes i dag færdigbyggede systemet der udnytter dette princip, f.eks. "Amazon Mechanical Turk". 
Jeg ville dog foreslå at det løses med et egenbygget system, hvor der rekruteres såkaldte "workers" på en anden måde, f.eks. i udlandet. 

Kort fortalt: 40% automatisering og 60% manuelt arbejde, hvor den manuelle del dækker den mest avancerede AI del, og på den måde sparer rigtig mange udviklingstimer, samt opdeling af opgaver gør det nemt og hurtigt at få udført, med mulighed for automatisk dobbeltvalidering af data.

Der kan relativt hurtigt sættes en prototype op på konceptet, for at validere kvaliteten og hastigheden - hurtigt mockup på løsningen er vedhæftet.

Jeg demonstrerer gerne en løsning der forklarer og validerer idéen. 
 

Prisen for at få indtastet alle data (konverteret alt fra billedefiler til digitalt brugbart format), burde ikke overstige prisen for førstepræmien af denne challenge :-)

Comments