Die Reden des Landtags NRW sind in PDF Format archiviert und können von jedem eingesehen werden. Ich habe ein Programm geschrieben, dass die Reden ausliest, organisiert und in Textformat umwandelt. Dadurch wird eine bessere Stichwortsuche als derzeit im Archiv angeboten ermöglicht.
Das ist für den Wähler interessant, der wissen möchte, was sein Abgeordneter im Landtag zu bestimmten Themen sagt, aber auch für Journalisten und alle, die Sprache auswerten.
Umgebung mit Python 3.6, vim, venv, git. Verschiedene Libs wie requests, beautifulsoup, pdf2textbox (pdfminer2).