Onvolledigheid van officielebekendmakingen.nl

Samenvatting

We beschrijven een aantal tekortkomingen van de site officielebekendmakingen.nl. De bedoeling van deze site is dat alle Handelingen der Staten Generaal vanaf 1995-01-01 er beschikbaar en vindbaar worden gemaakt.

Deze site is de opvolger van Parlando. Er zijn een flink aantal verbeteringen doorgevoerd. De belangrijkste zijn:

officielebekendmakingen.nl is een grote stap naar een open overheid en heeft de potentie om de gegevens uit het parlement beter toegankelijk te maken. In de stukken hierover wordt veel gesproken over de "transparantie van het parlementaire proces".

Dit stuk gaat over twee eigenschappen van zo'n portaal die onontbeerlijk zijn voor zowel wetenschappelijk als maatschappelijk gebruik: volledigheid en betrouwbaarheid. Jammer genoeg is er met beide aspecten nog heel wat mis. Wat volledigheid betreft lijkt er een enorme achteruitgang met betrekking tot Parlando.

We kijken ook nog naar de bruikbaarheid van het portaal als een bron van open overheids data. Hierbij gaan we uit van een mashup site zoals bijvoorbeeld van het IPP, Het Nieuwe Stemmen of parlement.com die de Handelingen willen gebruiken als basis om overheids informatie beter beschikbaar te maken. Een veel genoemd voorbeeld is een website waarin meteen zichtbaar is hoe de partijen stemmen. Ook met de bruikbaarheid is het niet goed gesteld.

Samenvattend kunnen we stellen dat officielebekendmakingen.nl een mooi begin is van een verbetering van Parlando, die we het best kunnen aanduiden met de term Overheid 0.0.

Methodologie

Eerst bepalen we wat we bedoelen met de drie begrippen.

Volledigheid
Elk document dat gepubliceerd wordt als onderdeel van de Handelingen der Staten Generaal is in de drie formaten aanwezig. Dit geldt voor de periode 1995-01-01 tot heden, met de beperking dat we alleen naar definitieve stukken kijken.
Betrouwbaarheid
Dit is een begrip met een groot aantal facetten. Wij richten ons op alleen op de site en op de metadata die zijn toegevoegd aan de documenten. Dus niet op foutjes in de documenten zelf. Wij kijken naar de volgende aspecten:
  1. Klopt de zoekfunctie? Als je een beperking van je zoekresultaten maakt, dan krijg je ook alleen documenten die aan die beperking voldoen. (Bijvoorbeeld: beperken tot Tweede Kamer leidt tot alleen stukken uit de Tweede Kamer).
  2. Zijn de toegevoegde metadata waarheidsgetrouw?
  3. Zijn de metadata consistent en consequent toegevoegd? (Bijvoorbeeld: datums worden altijd geschreven als jjjj-mm-dd).
Bruikbaarheid
Is de site bruikbaar als archief om makkelijk en betrouwbaar overheids-documenten van te downloaden? In het bijzonder bekijken we of het mogelijk is om een up-to-date mirror van officielebekendmakingen.nl te maken. Voor wetenschappelijk onderzoek is zo'n mirror onmisbaar. Maar ook voor een website die bijhoudt hoeveel woorden elke politicus in zijn Haagse leven tot nu toe gezegd heeft.

Onderzoeksmethode

Het is niet de bedoeling van dit stuk om een uitgebreide foutenanalyse van officielebekendmakingen.nl te maken. We leveren dus zoveel mogelijk bewijs van tekortkomingen. Het kan zijn dat er meer zijn.

Voor volledigheid gebruiken we simpele technieken:

Met alleen de eerste techniek kunnen we specifieke hiaten vinden. De andere drie geven alleen een indicatie dat er iets mis is. En natuurlijk een aanknopingspunt om uit te gaan zoeken wat er dan mis is.

Voor betrouwbaarheid geven we een aantal uitgewerkte voorbeelden waarin het mis gaat.

Voor bruikbaarheid geven we een meer technisch verhaal.

Crawl

Begin December 2010 hebben wij alle Handelingen der Staten Generaal van de opvolger van Parlando, officielebekendmakingen.nl opgehaald. We deden dit door voor elke datum vanaf 01-01-1995 alle documenten van die dag op te vragen en op te halen. We hebben dezelfde methode ook in de zomer van 2010 toegepast.

Beperking

In ons onderzoek hebben we vrijwel alleen naar de stukken gekeken die met Handelingen worden aangeduid. Hiermee worden de verslagen van de plenaire vergaderingen van de Eerste en Tweede Kamer, en de Verenigde Vergadering bedoeld. In het vervolg bedoelen we met Handelingen dan ook alleen deze stukken.

Onderzoek 1: troonredes

Dit onderzoek is uitgebreid beschreven op politicalmashup.nl. We konden slechts 13 van de 16 troonredes uitgesproken tussen 1995 en 2010 in XML formaat vinden, een recall van 81%. Vijf van de 16 troonredes hebben verkeerde of missende metadata waardoor ze niet of moeilijker te vinden zijn. Met 37.5% van de troonredes is dus iets mis.

Het bleek ontzettend moeilijk de troonredes te vinden. Tijdens de zoektocht vonden we dat de precisie (onderdeel van de betrouwbaarheid) van officielebekendmakingen.nl erg laag is. We hebben gevraagd naar alle documenten uit de Verenigde Vergadering (VV), en alleen naar die. Slechts 21 van de 60 hits waren uit de Verenigde Vergadering. Dus maar één op de drie "hits" was correct: een betrouwbaarheid van net iets boven de 33%.

Onderzoek 2: onvolledigheid

Verschil tussen de 2 crawls.

We hebben in December en in de zomer van 2010 met dezelfde methode alle documenten opgehaald. We vonden 23.174 meer documenten in December. De tabel hieronder geeft aan in welke documententypes die nieuwe documenten zatten. De tweede tabel geeft het aantal nieuwe documenten per dag. Hier zijn mooi de enorme gaten te zien die er in de eerste crawl zaten. Vooral uit 2001, 2002 en 2003 misten er erg veel stukken. Maar misschien zijn de jaren met wat sporadische toevoegingen nog zorgwekkender. Hoeveel is er nog meer zoek?

            'Aanhangsel van de Handelingen': 3533,
            'Antwoord': 2,
            'Bijlage': 23,
            'Handeling': 2456,
            'Kamerstuk': 14156,
            'Kamervragen zonder Antwoord': 61,
            'Niet-dossierstuk': 5,
            'Schriftelijke vragen': 2938
        

De eerste twee datums in NieuwPerDag.csv zijn trouwens in een verkeerd datumformaat. Het gebruik op de site is de iso-standaard jjjj-mm-dd.

                14-12-2010;7
                15-12-2010;1
                1998-03-25;4
            

Aantallen Handelingen per jaar

Parlando had alle Handelingen vanaf 01-01-1995. We hoopten die ook bij de opvolger te vinden. In onderstaande tabel laten we zien voor hoeveel dagen we per jaar documenten hebben gevonden. Het is meteen te zien dat de jaren 1995,1996,1997 en 2009 minder scoren dan normaal. (Dit lijkt ook het geval voor 2010, maar dat is verklaarbaar uit het feit dat nog niet alle stukken zijn geplaatst.)

            76 1996
            44 1997
            108 1998
            109 1999
            111 2000
            111 2001
            103 2002
            103 2003
            110 2004
            115 2005
            112 2006
            115 2007
            119 2008
            84 2009
            89 2010
        

Aantallen Handelingen per maand

Eén manier om een eerste inzicht in te krijgen in wat hier aan de hand is is om uit te printen op hoeveel dagen per maand er in een bepaald jaar vergaderd wordt. Dit doen we voor de "verdachte jaren". Als vergelijking printen we hier eerst de tabel voor een gewoon jaar, 2004. De verschillende recessen zijn hier goed herkenbaar. Ter uitleg: 6 2004-01 in de eerste regel betekent dat er documenten zijn van 6 dagen in januari 2004.

            6 2004-01
            9 2004-02
            9 2004-03
            14 2004-04
            7 2004-05
            14 2004-06
            3 2004-07
            1 2004-08
            14 2004-09
            9 2004-10
            14 2004-11
            10 2004-12
        

2009

Het valt meteen op dat er geen documenten uit Juli, Augustus en September zijn. Terwijl er toch wel vergaderd wordt in die maanden. Zo zijn de Troonrede en de Algemene Beschouwingen uit 2009 niet vindbaar.

            9 2009-01
            9 2009-02
            13 2009-03
            3 2009-04
            7 2009-05
            13 2009-06
            0 2009-07
            0 2009-08
            0 2009-09
            7 2009-10
            13 2009-11
            10 2009-12
        

1995, 1996 en 1997

Uit 1995 hebben we geen enkel document. Zoeken met de hand levert ook nul resultaten op.

Ook is de verdeling van het aantal vergaderdagen per jaar niet "normaal" (zoals in 2004) in de jaren 1996 en 1997. Er is echter niet zoals in 2009 een duidelijk "gat" in het jaar gevallen.

            4 1996-01
            4 1996-02
            6 1996-03
            6 1996-04
            5 1996-05
            7 1996-06
            2 1996-08
            6 1996-09
            16 1996-10
            12 1996-11
            8 1996-12
            3 1997-01
            4 1997-02
            4 1997-03
            5 1997-04
            5 1997-05
            5 1997-06
            1 1997-08
            4 1997-09
            4 1997-10
            4 1997-11
            5 1997-12
        
Wat zou dan wel de oorzaak kunnen zijn?

Vergelijking met Parlando

We hebben voor de jaren 1996 en 1997 respectievelijk 1167 en 740 files opgehaald. Dit correspondeert met evenzoveel vergaderonderwerpen ("Aan de orde is"). Als we dit vergelijken met de aantallen die we met Parlando kunnen vinden zien we een duidelijk verschil

            Jaar    Parlando Officiele bekendmakingen
            1995    1302               0
            1996    1396          1167   
            1997    1416            740
       
Wat hiervan de oorzaak is weten we niet. Het is in ieder geval duidelijk dat er een groot verschil zit tussen het aanbod van Parlando en dat van haar opvolger. Hierbij lijkt het dat de opvolger een stuk minder data bevat dan Parlando.

Onderzoek 3: bruikbaarheid

Voor dit nogal technische verhaal verwijzen we naar dit stuk. Samenvattend: het is feitelijk onmogelijk om een up-to-date mirror van de site te onderhouden. De enige manier waarop dit echt kan is om elke keer alles opnieuw op te halen. Dit is een enorme versprilling van bandbreedte en rekenkracht, en duurt ook erg lang (4 dagen in ons geval). Logisch, het gaat om bijna een kwart miljoen documenten. (Voor een uitsplitsing per document type, zie de tabel hieronder). Probleempunten zijn

Dit "probleem" is eenvoudig op te lossen: zorg dat je site te harvesten is door data aan te bieden met het OAI-PMH harvesting protocol. Dit doet de Koninklijke Bibliotheek voor alle Handelingen uit de periode 1814-1995 en dat werkt perfect.
                Aantal files	Type document
                36637	Aanhangsel_van_de_Handelingen
                45	Agenda
                620	Antwoord
                1356	Bijlage
                21007	Handeling
                135291	Kamerstuk
                3639	Kamervragen_zonder_Antwoord
                75	Mededeling
                1	Nader_Antwoord
                440	Niet-dossierstuk
                21678	Schriftelijke_vragen
                
                220789	Totaal
                
                
            

Onderzoek 4: correctheid van de metadata

Metadata zijn gegevens die toegevoegd worden aan een document en belangrijke eifenschappen van een document beschrijven. Deze metadata worden gebruikt in de "uitgebreid zoeken" opties. Zo staat er in de metadata op welke dag een document gedatereerd is, voor voor soort doocument het is, uit welke Kamer het komt, etc, etc. Vanzelfsprekend is het belangrijk dat die metadata correct zijn. Dit betekent dat de waarde overeenkomt met de werkelijkheid.

In veel gevallen is dit niet zo. Wij hebben de datum uit de metadata vergelijken met de datum zoals die in de PDF versie en in de XML versie van een document staat. Dit hebben we gedaan voor alle Handelingen (opnieuw, de verslagen uit beide Kamers).
Daarnaast hebben we de onderlinge consistentie van de metadata vergeleken. We hebben steeds de datum zoals genoemd in het datum veld vergeleken met de datum zoals genoemd in het titel veld. Bijvoorbeeld:

                <dc:date>1996-01-25</dc:date>
                <dc:title>Lijst van ingekomen stukken (25 Februari 1996)</dc:title>
            
In dit voorbeeld komt de datum waarop het stuk gedateerd is niet overeen met de datum in de als metadata toegevoegde titel van het stuk. Het is vanzelfsprekend niet evident welke van de twee nu verkeerd is .....

Vergelijking metadata-datum met datum in het document, en metadata onderling

            COMMENTAAR: Bevestigt het vermoeden dat 1996/1997 de echte (en enige boosdoener is), 
            volledige log hieronder.
            
            Links staats steeds de meta-data datum, en rechts de meetingtime-datum 
            (ernaast, of met indent eronder als het er meer dan 1 zijn).
            
            (Onderaan nog een vergelijkinkje van de meetingtime en de datum in de 
            metadata-title.)
            
            elements: 83
            day: 18
            1996-09-17: 4
            1996-09-18: 1
            1996-09-19: 1
            1996-09-24: 1
            1996-11-19: 1
            1996-11-12: 1 (1996-11-13: 1)
            1996-11-19: 1 (1996-11-20: 1)
            1996-12-03: 2
            1996-12-04: 1
            1996-12-05: 1
            1996-12-10: 1 (1996-12-11: 1)
            1997-02-04: 2
            1997-02-05: 1
            1997-02-06: 1
            1997-04-29: 1 (1997-05-01: 1)
            1997-05-06: 1 (1997-05-07: 1)
            1997-06-17: 1 (1997-06-18: 1)
            1997-06-30: 1 (1997-07-01: 1)
            1997-09-16: 1 (1997-10-07: 1)
            1997-11-18: 1 (1997-11-19: 1)
            1997-12-22: 1 (1997-12-23: 1)
            month: 4
            1996-09-17: 1 (1996-11-19: 1)
            1997-04-29: 1 (1997-05-01: 1)
            1997-06-30: 1 (1997-07-01: 1)
            1997-09-16: 1 (1997-10-07: 1)
            year: 61 (1996: 61)
            1996-01-22: 1 (1997-01-22: 1)
            1996-01-23: 1 (1997-01-23: 1)
            1996-01-29: 1 (1997-01-29: 1)
            1996-01-30: 1 (1997-01-30: 1)
            1996-02-19: 1 (1997-02-19: 1)
            1996-02-20: 1 (1997-02-20: 1)
            1996-02-26: 1 (1997-02-26: 1)
            1996-02-27: 1 (1997-02-27: 1)
            1996-03-05: 1 (1997-03-05: 1)
            1996-03-06: 1 (1997-03-06: 1)
            1996-03-12: 1 (1997-03-12: 1)
            1996-03-13: 1 (1997-03-13: 1)
            1996-03-19: 1 (1997-03-19: 1)
            1996-03-20: 1 (1997-03-20: 1)
            1996-04-09: 1 (1997-04-09: 1)
            1996-04-10: 1 (1997-04-10: 1)
            1996-04-15: 1 (1997-04-15: 1)
            1996-04-17: 1 (1997-04-17: 1)
            1996-04-23: 1 (1997-04-23: 1)
            1996-04-24: 1 (1997-04-24: 1)
            1996-05-14: 1 (1997-05-14: 1)
            1996-05-15: 1 (1997-05-15: 1)
            1996-05-22: 1 (1997-05-22: 1)
            1996-05-28: 1 (1997-05-28: 1)
            1996-05-29: 1 (1997-05-29: 1)
            1996-06-04: 1 (1997-06-04: 1)
            1996-06-05: 1 (1997-06-05: 1)
            1996-06-11: 1 (1997-06-11: 1)
            1996-06-12: 1 (1997-06-12: 1)
            1996-06-19: 1 (1997-06-19: 1)
            1996-06-25: 1 (1997-06-25: 1)
            1996-06-26: 1 (1997-06-26: 1)
            1996-08-27: 1 (1997-08-27: 1)
            1996-08-28: 1 (1997-08-28: 1)
            1996-09-03: 1 (1997-09-03: 1)
            1996-09-04: 1 (1997-09-04: 1)
            1996-09-24: 1 (1997-09-24: 1)
            1996-09-25: 1 (1997-09-25: 1)
            1996-10-01: 1 (1997-10-01: 1)
            1996-10-02: 1 (1997-10-02: 1)
            1996-10-08: 1 (1997-10-08: 1)
            1996-10-09: 1 (1997-10-09: 1)
            1996-10-21: 1 (1997-10-21: 1)
            1996-10-22: 1 (1997-10-22: 1)
            1996-10-29: 1 (1997-10-29: 1)
            1996-10-30: 1 (1997-10-30: 1)
            1996-11-05: 1 (1997-11-05: 1)
            1996-11-06: 1 (1997-11-06: 1)
            1996-11-12: 1 (1997-11-12: 1)
            1996-11-13: 1 (1997-11-13: 1)
            1996-11-19: 1 (1997-11-19: 1)
            1996-11-20: 1 (1997-11-20: 1)
            1996-11-21: 1 (1997-11-21: 1)
            1996-11-26: 1 (1997-11-26: 1)
            1996-11-27: 1 (1997-11-27: 1)
            1996-12-03: 1 (1997-12-03: 1)
            1996-12-04: 1 (1997-12-04: 1)
            1996-12-10: 1 (1997-12-10: 1)
            1996-12-11: 1 (1997-12-11: 1)
            1996-12-17: 1 (1997-12-17: 1)
            1996-12-18: 1 (1997-12-18: 1)
            
            
            
            
            Meetingtime vs. meta-titel:
            COMMENTAAR: Dit zijn denk ik voorbeelden van waar de meta-titel niet klopt.
            
            elements: 17
            day: 7
            2000-05-20: 1 (2000-05-30: 1)
            2000-11-29: 1 (2000-11-28: 1)
            2004-03-04: 1 (2004-03-09: 1)
            2004-12-03: 1 (2004-12-13: 1)
            2004-12-10: 1 (2004-12-14: 1)
            2006-10-30: 1 (2006-10-31: 1)
            2009-11-04: 1 (2009-11-24: 1)
            month: 2
            1996-10-03: 1 (1996-12-03: 1)
            2005-11-01: 1 (2005-12-01: 1)
            year: 8
            1996: 1 (1996-11-21: 1) (1997-11-21: 1)
            2003: 1 (2003-03-16: 1) (2004-03-16: 1)
            2005: 2
            2005-02-07: 1 (2006-02-07: 1)
            2005-12-05: 1 (2006-12-05: 1)
            2006: 1 (2006-01-30: 1) (2007-01-30: 1)
            2008: 1 (2008-12-18: 1) (2007-12-18: 1)
            2010: 1 (2010-12-16: 1) (2009-12-16: 1)
            2011: 1 (2011-11-09: 1) (2010-11-09: 1)