We beschrijven een aantal tekortkomingen van de site officielebekendmakingen.nl. De bedoeling van deze site is dat alle Handelingen der Staten Generaal vanaf 1995-01-01 er beschikbaar en vindbaar worden gemaakt.
Deze site is de opvolger van Parlando. Er zijn een flink aantal verbeteringen doorgevoerd. De belangrijkste zijn:
officielebekendmakingen.nl is een grote stap naar een open overheid en heeft de potentie om de gegevens uit het parlement beter toegankelijk te maken. In de stukken hierover wordt veel gesproken over de "transparantie van het parlementaire proces".
Dit stuk gaat over twee eigenschappen van zo'n portaal die onontbeerlijk zijn voor zowel wetenschappelijk als maatschappelijk gebruik: volledigheid en betrouwbaarheid. Jammer genoeg is er met beide aspecten nog heel wat mis. Wat volledigheid betreft lijkt er een enorme achteruitgang met betrekking tot Parlando.
We kijken ook nog naar de bruikbaarheid van het portaal als een bron van open overheids data. Hierbij gaan we uit van een mashup site zoals bijvoorbeeld van het IPP, Het Nieuwe Stemmen of parlement.com die de Handelingen willen gebruiken als basis om overheids informatie beter beschikbaar te maken. Een veel genoemd voorbeeld is een website waarin meteen zichtbaar is hoe de partijen stemmen. Ook met de bruikbaarheid is het niet goed gesteld.
Samenvattend kunnen we stellen dat officielebekendmakingen.nl een mooi begin is van een verbetering van Parlando, die we het best kunnen aanduiden met de term Overheid 0.0.
Eerst bepalen we wat we bedoelen met de drie begrippen.
Het is niet de bedoeling van dit stuk om een uitgebreide foutenanalyse van officielebekendmakingen.nl te maken. We leveren dus zoveel mogelijk bewijs van tekortkomingen. Het kan zijn dat er meer zijn.
Voor volledigheid gebruiken we simpele technieken:
Met alleen de eerste techniek kunnen we specifieke hiaten vinden. De andere drie geven alleen een indicatie dat er iets mis is. En natuurlijk een aanknopingspunt om uit te gaan zoeken wat er dan mis is.
Voor betrouwbaarheid geven we een aantal uitgewerkte voorbeelden waarin het mis gaat.
Voor bruikbaarheid geven we een meer technisch verhaal.
Begin December 2010 hebben wij alle Handelingen der Staten Generaal van de opvolger van Parlando, officielebekendmakingen.nl opgehaald. We deden dit door voor elke datum vanaf 01-01-1995 alle documenten van die dag op te vragen en op te halen. We hebben dezelfde methode ook in de zomer van 2010 toegepast.
In ons onderzoek hebben we vrijwel alleen naar de stukken gekeken die met Handelingen worden aangeduid. Hiermee worden de verslagen van de plenaire vergaderingen van de Eerste en Tweede Kamer, en de Verenigde Vergadering bedoeld. In het vervolg bedoelen we met Handelingen dan ook alleen deze stukken.
Dit onderzoek is uitgebreid beschreven op politicalmashup.nl. We konden slechts 13 van de 16 troonredes uitgesproken tussen 1995 en 2010 in XML formaat vinden, een recall van 81%. Vijf van de 16 troonredes hebben verkeerde of missende metadata waardoor ze niet of moeilijker te vinden zijn. Met 37.5% van de troonredes is dus iets mis.
Het bleek ontzettend moeilijk de troonredes te vinden. Tijdens de zoektocht vonden we dat de precisie (onderdeel van de betrouwbaarheid) van officielebekendmakingen.nl erg laag is. We hebben gevraagd naar alle documenten uit de Verenigde Vergadering (VV), en alleen naar die. Slechts 21 van de 60 hits waren uit de Verenigde Vergadering. Dus maar één op de drie "hits" was correct: een betrouwbaarheid van net iets boven de 33%.
We hebben in December en in de zomer van 2010 met dezelfde methode alle documenten opgehaald. We vonden 23.174 meer documenten in December. De tabel hieronder geeft aan in welke documententypes die nieuwe documenten zatten. De tweede tabel geeft het aantal nieuwe documenten per dag. Hier zijn mooi de enorme gaten te zien die er in de eerste crawl zaten. Vooral uit 2001, 2002 en 2003 misten er erg veel stukken. Maar misschien zijn de jaren met wat sporadische toevoegingen nog zorgwekkender. Hoeveel is er nog meer zoek?
'Aanhangsel van de Handelingen': 3533,
'Antwoord': 2,
'Bijlage': 23,
'Handeling': 2456,
'Kamerstuk': 14156,
'Kamervragen zonder Antwoord': 61,
'Niet-dossierstuk': 5,
'Schriftelijke vragen': 2938
De eerste twee datums in NieuwPerDag.csv zijn trouwens in een verkeerd datumformaat. Het gebruik op de site is de iso-standaard jjjj-mm-dd.
14-12-2010;7
15-12-2010;1
1998-03-25;4
Parlando had alle Handelingen vanaf 01-01-1995. We hoopten die ook bij de opvolger te vinden. In onderstaande tabel laten we zien voor hoeveel dagen we per jaar documenten hebben gevonden. Het is meteen te zien dat de jaren 1995,1996,1997 en 2009 minder scoren dan normaal. (Dit lijkt ook het geval voor 2010, maar dat is verklaarbaar uit het feit dat nog niet alle stukken zijn geplaatst.)
76 1996
44 1997
108 1998
109 1999
111 2000
111 2001
103 2002
103 2003
110 2004
115 2005
112 2006
115 2007
119 2008
84 2009
89 2010
Eén manier om een eerste inzicht in te krijgen in wat hier aan de hand is is om uit te printen op hoeveel dagen per maand er in een bepaald jaar vergaderd wordt. Dit doen we voor de "verdachte jaren". Als vergelijking printen we hier eerst de tabel voor een gewoon jaar, 2004. De verschillende recessen zijn hier goed herkenbaar. Ter uitleg: 6 2004-01 in de eerste regel betekent dat er documenten zijn van 6 dagen in januari 2004.
6 2004-01
9 2004-02
9 2004-03
14 2004-04
7 2004-05
14 2004-06
3 2004-07
1 2004-08
14 2004-09
9 2004-10
14 2004-11
10 2004-12
Het valt meteen op dat er geen documenten uit Juli, Augustus en September zijn. Terwijl er toch wel vergaderd wordt in die maanden. Zo zijn de Troonrede en de Algemene Beschouwingen uit 2009 niet vindbaar.
9 2009-01
9 2009-02
13 2009-03
3 2009-04
7 2009-05
13 2009-06
0 2009-07
0 2009-08
0 2009-09
7 2009-10
13 2009-11
10 2009-12
Uit 1995 hebben we geen enkel document. Zoeken met de hand levert ook nul resultaten op.
Ook is de verdeling van het aantal vergaderdagen per jaar niet "normaal" (zoals in 2004) in de jaren 1996 en 1997. Er is echter niet zoals in 2009 een duidelijk "gat" in het jaar gevallen.
4 1996-01
4 1996-02
6 1996-03
6 1996-04
5 1996-05
7 1996-06
2 1996-08
6 1996-09
16 1996-10
12 1996-11
8 1996-12
3 1997-01
4 1997-02
4 1997-03
5 1997-04
5 1997-05
5 1997-06
1 1997-08
4 1997-09
4 1997-10
4 1997-11
5 1997-12
Wat zou dan wel de oorzaak kunnen zijn?
We hebben voor de jaren 1996 en 1997 respectievelijk 1167 en 740 files opgehaald. Dit correspondeert met evenzoveel vergaderonderwerpen ("Aan de orde is"). Als we dit vergelijken met de aantallen die we met Parlando kunnen vinden zien we een duidelijk verschil
Jaar Parlando Officiele bekendmakingen
1995 1302 0
1996 1396 1167
1997 1416 740
Wat hiervan de oorzaak is weten we niet.
Het is in ieder geval duidelijk dat er een groot verschil zit tussen het aanbod van Parlando en dat van haar opvolger.
Hierbij lijkt het dat de opvolger een stuk minder data bevat dan Parlando.
Voor dit nogal technische verhaal verwijzen we naar dit stuk. Samenvattend: het is feitelijk onmogelijk om een up-to-date mirror van de site te onderhouden. De enige manier waarop dit echt kan is om elke keer alles opnieuw op te halen. Dit is een enorme versprilling van bandbreedte en rekenkracht, en duurt ook erg lang (4 dagen in ons geval). Logisch, het gaat om bijna een kwart miljoen documenten. (Voor een uitsplitsing per document type, zie de tabel hieronder). Probleempunten zijn
Aantal files Type document
36637 Aanhangsel_van_de_Handelingen
45 Agenda
620 Antwoord
1356 Bijlage
21007 Handeling
135291 Kamerstuk
3639 Kamervragen_zonder_Antwoord
75 Mededeling
1 Nader_Antwoord
440 Niet-dossierstuk
21678 Schriftelijke_vragen
220789 Totaal
Metadata zijn gegevens die toegevoegd worden aan een document en belangrijke eifenschappen van een document beschrijven. Deze metadata worden gebruikt in de "uitgebreid zoeken" opties. Zo staat er in de metadata op welke dag een document gedatereerd is, voor voor soort doocument het is, uit welke Kamer het komt, etc, etc. Vanzelfsprekend is het belangrijk dat die metadata correct zijn. Dit betekent dat de waarde overeenkomt met de werkelijkheid.
In veel gevallen is dit niet zo. Wij hebben de datum uit de metadata vergelijken met de datum zoals die in de PDF versie en in de XML versie van een document staat. Dit hebben we gedaan voor alle Handelingen
(opnieuw, de verslagen uit beide Kamers).
Daarnaast hebben we de onderlinge consistentie van de metadata vergeleken. We hebben steeds de datum zoals genoemd in het datum veld vergeleken met de datum zoals genoemd in het titel veld. Bijvoorbeeld:
<dc:date>1996-01-25</dc:date>
<dc:title>Lijst van ingekomen stukken (25 Februari 1996)</dc:title>
In dit voorbeeld komt de datum waarop het stuk gedateerd is niet overeen met de datum in de als metadata toegevoegde titel van het stuk.
Het is vanzelfsprekend niet evident welke van de twee nu verkeerd is .....
COMMENTAAR: Bevestigt het vermoeden dat 1996/1997 de echte (en enige boosdoener is),
volledige log hieronder.
Links staats steeds de meta-data datum, en rechts de meetingtime-datum
(ernaast, of met indent eronder als het er meer dan 1 zijn).
(Onderaan nog een vergelijkinkje van de meetingtime en de datum in de
metadata-title.)
elements: 83
day: 18
1996-09-17: 4
1996-09-18: 1
1996-09-19: 1
1996-09-24: 1
1996-11-19: 1
1996-11-12: 1 (1996-11-13: 1)
1996-11-19: 1 (1996-11-20: 1)
1996-12-03: 2
1996-12-04: 1
1996-12-05: 1
1996-12-10: 1 (1996-12-11: 1)
1997-02-04: 2
1997-02-05: 1
1997-02-06: 1
1997-04-29: 1 (1997-05-01: 1)
1997-05-06: 1 (1997-05-07: 1)
1997-06-17: 1 (1997-06-18: 1)
1997-06-30: 1 (1997-07-01: 1)
1997-09-16: 1 (1997-10-07: 1)
1997-11-18: 1 (1997-11-19: 1)
1997-12-22: 1 (1997-12-23: 1)
month: 4
1996-09-17: 1 (1996-11-19: 1)
1997-04-29: 1 (1997-05-01: 1)
1997-06-30: 1 (1997-07-01: 1)
1997-09-16: 1 (1997-10-07: 1)
year: 61 (1996: 61)
1996-01-22: 1 (1997-01-22: 1)
1996-01-23: 1 (1997-01-23: 1)
1996-01-29: 1 (1997-01-29: 1)
1996-01-30: 1 (1997-01-30: 1)
1996-02-19: 1 (1997-02-19: 1)
1996-02-20: 1 (1997-02-20: 1)
1996-02-26: 1 (1997-02-26: 1)
1996-02-27: 1 (1997-02-27: 1)
1996-03-05: 1 (1997-03-05: 1)
1996-03-06: 1 (1997-03-06: 1)
1996-03-12: 1 (1997-03-12: 1)
1996-03-13: 1 (1997-03-13: 1)
1996-03-19: 1 (1997-03-19: 1)
1996-03-20: 1 (1997-03-20: 1)
1996-04-09: 1 (1997-04-09: 1)
1996-04-10: 1 (1997-04-10: 1)
1996-04-15: 1 (1997-04-15: 1)
1996-04-17: 1 (1997-04-17: 1)
1996-04-23: 1 (1997-04-23: 1)
1996-04-24: 1 (1997-04-24: 1)
1996-05-14: 1 (1997-05-14: 1)
1996-05-15: 1 (1997-05-15: 1)
1996-05-22: 1 (1997-05-22: 1)
1996-05-28: 1 (1997-05-28: 1)
1996-05-29: 1 (1997-05-29: 1)
1996-06-04: 1 (1997-06-04: 1)
1996-06-05: 1 (1997-06-05: 1)
1996-06-11: 1 (1997-06-11: 1)
1996-06-12: 1 (1997-06-12: 1)
1996-06-19: 1 (1997-06-19: 1)
1996-06-25: 1 (1997-06-25: 1)
1996-06-26: 1 (1997-06-26: 1)
1996-08-27: 1 (1997-08-27: 1)
1996-08-28: 1 (1997-08-28: 1)
1996-09-03: 1 (1997-09-03: 1)
1996-09-04: 1 (1997-09-04: 1)
1996-09-24: 1 (1997-09-24: 1)
1996-09-25: 1 (1997-09-25: 1)
1996-10-01: 1 (1997-10-01: 1)
1996-10-02: 1 (1997-10-02: 1)
1996-10-08: 1 (1997-10-08: 1)
1996-10-09: 1 (1997-10-09: 1)
1996-10-21: 1 (1997-10-21: 1)
1996-10-22: 1 (1997-10-22: 1)
1996-10-29: 1 (1997-10-29: 1)
1996-10-30: 1 (1997-10-30: 1)
1996-11-05: 1 (1997-11-05: 1)
1996-11-06: 1 (1997-11-06: 1)
1996-11-12: 1 (1997-11-12: 1)
1996-11-13: 1 (1997-11-13: 1)
1996-11-19: 1 (1997-11-19: 1)
1996-11-20: 1 (1997-11-20: 1)
1996-11-21: 1 (1997-11-21: 1)
1996-11-26: 1 (1997-11-26: 1)
1996-11-27: 1 (1997-11-27: 1)
1996-12-03: 1 (1997-12-03: 1)
1996-12-04: 1 (1997-12-04: 1)
1996-12-10: 1 (1997-12-10: 1)
1996-12-11: 1 (1997-12-11: 1)
1996-12-17: 1 (1997-12-17: 1)
1996-12-18: 1 (1997-12-18: 1)
Meetingtime vs. meta-titel:
COMMENTAAR: Dit zijn denk ik voorbeelden van waar de meta-titel niet klopt.
elements: 17
day: 7
2000-05-20: 1 (2000-05-30: 1)
2000-11-29: 1 (2000-11-28: 1)
2004-03-04: 1 (2004-03-09: 1)
2004-12-03: 1 (2004-12-13: 1)
2004-12-10: 1 (2004-12-14: 1)
2006-10-30: 1 (2006-10-31: 1)
2009-11-04: 1 (2009-11-24: 1)
month: 2
1996-10-03: 1 (1996-12-03: 1)
2005-11-01: 1 (2005-12-01: 1)
year: 8
1996: 1 (1996-11-21: 1) (1997-11-21: 1)
2003: 1 (2003-03-16: 1) (2004-03-16: 1)
2005: 2
2005-02-07: 1 (2006-02-07: 1)
2005-12-05: 1 (2006-12-05: 1)
2006: 1 (2006-01-30: 1) (2007-01-30: 1)
2008: 1 (2008-12-18: 1) (2007-12-18: 1)
2010: 1 (2010-12-16: 1) (2009-12-16: 1)
2011: 1 (2011-11-09: 1) (2010-11-09: 1)