Inspiration
Datenschutz war noch nie so aktuell wir zur Zeit - zurecht! Viele viele sensible Daten liegen frei zugänglich herum bzw. werden weiter gegeben. Ein Grund dafür ist die fehlende Digitalisierung die dies automatisiert verhindern kann.
What it does
Das Foto eines Lieferscheins reicht aus um auf diesem personenbezogene Daten automatisch zu erkennen und diese mit schwarzen Blöcken zu versehen.
How we built it
Eine JPG Datei wird mit Hilfe eines Layoutparses analysiert und kann damit in verschiedene Bereiche unterteilt werden. Mit Hilfe von OCR werden die darin liegenden Texte erkannt und können nun der Position auf dem Bild zugeordnet werden. Anhand verschiedener Keywords wird entschieden, ob es sich um einen Personenbezogenen Eintrag handelt oder nicht. Ist dies der Fall wird über die vorher bestimmte Position ein schwarzer Balken gelegt. Das Ganze steht bisher als Microservice bereit und kann lokal Dateien einlesen.
Challenges we ran into
Da die Lieferscheine meist sehr individuell sind, war es schwer die Struktur des Lieferscheins allgemein zu erkenn. Ebenso die vollständige Entscheidung darüber, was als personenbezogen gilt und was nicht, da die Lieferscheine auch individuell Begrifflichkeiten verwenden. Des weitern wollten wir den Microservice mit Flask als Webanwendung bereitstellen, was leider nicht gleich so funktioniert hat wie vorgestellt und nun aus Zeitgründen zunächst lokal blieb.
Accomplishments that we're proud of
Das Erkennen der Position der Worte auf dem Dokument und überhaupt das extrahieren einzelner Wörter.
What we learned
Umgang mit verschiedenen KI Algorithmen zur Analyse von Bilddateien.
What's next for Anonymize IT
Feedback der Jury abwarten.
Log in or sign up for Devpost to join the conversation.