Utrecht University
Faculty of Humanities
Master of Science Thesis

Automatic Assignment of Section Structure to Texts of Dutch Court Judgments

Supervisor Utrecht University:
Ad Feelders
Supervisor Leibniz Center for Law:
Radboud Winkels
Utrecht, 2016

Abstract

A growing amount of Dutch case law is openly distributed on Rechtspraak.nl. Currently, many documents are not marked up or marked up only very sparsely, hampering our ability to process these documents automatically.

In this thesis, we explore the problem of automatic assignment of a section structure to the texts of Dutch court judgments. To this end, we develop a database that mirrors the XML data offering of Rechtspraak.nl. We experiment with Linear-Chain Conditional Random Fields to label text elements with their roles in the document (text, title or numbering). Given a list of labels, we experiment with Probabilistic Context-Free Grammars to generate a parse tree which represents the section hierarchy of a document.

We report F1 scores of around 0.91 for tagging section titles (around 1.0 for other types) and 0.92 for parsing the tokens into a section hierarchy.


This is a print version of a web site. Visit https://digitalheir.github.io/java-rechtspraak-library/ for for a version of this thesis with hyperlinks and some interactive elements.

Table of Contents

Introduction

The Council for the Judiciary in the Netherlands (Raad voor de Rechtspraak) publishes an open data set of Dutch case law in XML and HTML on Rechtspraak.nl, with cases dating back to about . Most documents contain little semantic markup, such as element tags detailing the structure of (sub-)sections in a document.

It is useful to have such a section hierarchy, however. It is obviously useful for rendering documents to human users: a clear section hierarchy allows us to display a table of contents and to style section titles. Furthermore, because sections usually chunk similar kinds of information together, a good section hierarchy also allows search engines to better index texts by localizing semantic units, which in turn makes these documents better searchable for legal users. It is also a stepping stone to make the documents machine readable. A richly marked up document facilitates advanced text mining operations, such as automatically extracting the final judgment, extracting the judge's considerations, etcetera.

Recently, more richly marked up documents have been published on Rechtspraak.nl, as we can see in Figure 1. Still, there is an overwhelmingly large portion of documents which contain no or only sparse markup. To illustrate: at the time of writing, 78.7% of all judgment texts on Rechtspraak.nl do not contain any section tag, implying that a large number of documents are barely marked up. These documents are mostly from before . Older case law documents still produce legal knowledge, so it is desirable to have these older documents in good shape as well.

197619821985198819911994199720002003200620092012201505,00010,00015,00020,00025,00030,000Document countContains <*.info> tag and <section> tagContains only <section> tagContains <*.info> tagContains neither <*.info> tag nor <section> tagContains <*.info> tag and <section> tag, 1970 (1)Contains <*.info> tag and <section> tag, 1976 (0)Contains <*.info> tag and <section> tag, 1977 (0)Contains <*.info> tag and <section> tag, 1979 (0)Contains <*.info> tag and <section> tag, 1982 (0)Contains <*.info> tag and <section> tag, 1983 (0)Contains <*.info> tag and <section> tag, 1984 (0)Contains <*.info> tag and <section> tag, 1985 (0)Contains <*.info> tag and <section> tag, 1986 (0)Contains <*.info> tag and <section> tag, 1987 (0)Contains <*.info> tag and <section> tag, 1988 (0)Contains <*.info> tag and <section> tag, 1989 (0)Contains <*.info> tag and <section> tag, 1990 (0)Contains <*.info> tag and <section> tag, 1991 (1)Contains <*.info> tag and <section> tag, 1992 (0)Contains <*.info> tag and <section> tag, 1993 (0)Contains <*.info> tag and <section> tag, 1994 (0)Contains <*.info> tag and <section> tag, 1995 (0)Contains <*.info> tag and <section> tag, 1996 (0)Contains <*.info> tag and <section> tag, 1997 (2)Contains <*.info> tag and <section> tag, 1998 (0)Contains <*.info> tag and <section> tag, 1999 (0)Contains <*.info> tag and <section> tag, 2000 (3)Contains <*.info> tag and <section> tag, 2001 (4)Contains <*.info> tag and <section> tag, 2002 (6)Contains <*.info> tag and <section> tag, 2003 (5)Contains <*.info> tag and <section> tag, 2004 (3)Contains <*.info> tag and <section> tag, 2005 (4)Contains <*.info> tag and <section> tag, 2006 (5)Contains <*.info> tag and <section> tag, 2007 (15)Contains <*.info> tag and <section> tag, 2008 (19)Contains <*.info> tag and <section> tag, 2009 (42)Contains <*.info> tag and <section> tag, 2010 (56)Contains <*.info> tag and <section> tag, 2011 (102)Contains <*.info> tag and <section> tag, 2012 (417)Contains <*.info> tag and <section> tag, 2013 (10162)Contains <*.info> tag and <section> tag, 2014 (17360)Contains <*.info> tag and <section> tag, 2015 (15060)Contains only <section> tag, 1970 (0)Contains only <section> tag, 1976 (0)Contains only <section> tag, 1977 (0)Contains only <section> tag, 1979 (0)Contains only <section> tag, 1982 (0)Contains only <section> tag, 1983 (0)Contains only <section> tag, 1984 (0)Contains only <section> tag, 1985 (0)Contains only <section> tag, 1986 (0)Contains only <section> tag, 1987 (0)Contains only <section> tag, 1988 (0)Contains only <section> tag, 1989 (1)Contains only <section> tag, 1990 (1)Contains only <section> tag, 1991 (0)Contains only <section> tag, 1992 (0)Contains only <section> tag, 1993 (0)Contains only <section> tag, 1994 (0)Contains only <section> tag, 1995 (1)Contains only <section> tag, 1996 (0)Contains only <section> tag, 1997 (0)Contains only <section> tag, 1998 (0)Contains only <section> tag, 1999 (1)Contains only <section> tag, 2000 (5)Contains only <section> tag, 2001 (0)Contains only <section> tag, 2002 (2)Contains only <section> tag, 2003 (3)Contains only <section> tag, 2004 (4)Contains only <section> tag, 2005 (1)Contains only <section> tag, 2006 (2)Contains only <section> tag, 2007 (4)Contains only <section> tag, 2008 (2)Contains only <section> tag, 2009 (11)Contains only <section> tag, 2010 (18)Contains only <section> tag, 2011 (16)Contains only <section> tag, 2012 (93)Contains only <section> tag, 2013 (4515)Contains only <section> tag, 2014 (7944)Contains only <section> tag, 2015 (6361)Contains <*.info> tag, 1970 (0)Contains <*.info> tag, 1976 (0)Contains <*.info> tag, 1977 (0)Contains <*.info> tag, 1979 (0)Contains <*.info> tag, 1982 (0)Contains <*.info> tag, 1983 (0)Contains <*.info> tag, 1984 (0)Contains <*.info> tag, 1985 (0)Contains <*.info> tag, 1986 (0)Contains <*.info> tag, 1987 (0)Contains <*.info> tag, 1988 (0)Contains <*.info> tag, 1989 (0)Contains <*.info> tag, 1990 (0)Contains <*.info> tag, 1991 (0)Contains <*.info> tag, 1992 (0)Contains <*.info> tag, 1993 (0)Contains <*.info> tag, 1994 (0)Contains <*.info> tag, 1995 (0)Contains <*.info> tag, 1996 (0)Contains <*.info> tag, 1997 (0)Contains <*.info> tag, 1998 (0)Contains <*.info> tag, 1999 (0)Contains <*.info> tag, 2000 (0)Contains <*.info> tag, 2001 (0)Contains <*.info> tag, 2002 (0)Contains <*.info> tag, 2003 (0)Contains <*.info> tag, 2004 (0)Contains <*.info> tag, 2005 (0)Contains <*.info> tag, 2006 (0)Contains <*.info> tag, 2007 (0)Contains <*.info> tag, 2008 (0)Contains <*.info> tag, 2009 (0)Contains <*.info> tag, 2010 (0)Contains <*.info> tag, 2011 (0)Contains <*.info> tag, 2012 (1)Contains <*.info> tag, 2013 (3)Contains <*.info> tag, 2014 (9)Contains <*.info> tag, 2015 (10)Contains neither <*.info> tag nor <section> tag, 1970 (0)Contains neither <*.info> tag nor <section> tag, 1976 (1)Contains neither <*.info> tag nor <section> tag, 1977 (2)Contains neither <*.info> tag nor <section> tag, 1979 (1)Contains neither <*.info> tag nor <section> tag, 1982 (1)Contains neither <*.info> tag nor <section> tag, 1983 (4)Contains neither <*.info> tag nor <section> tag, 1984 (7)Contains neither <*.info> tag nor <section> tag, 1985 (9)Contains neither <*.info> tag nor <section> tag, 1986 (14)Contains neither <*.info> tag nor <section> tag, 1987 (14)Contains neither <*.info> tag nor <section> tag, 1988 (12)Contains neither <*.info> tag nor <section> tag, 1989 (17)Contains neither <*.info> tag nor <section> tag, 1990 (13)Contains neither <*.info> tag nor <section> tag, 1991 (9)Contains neither <*.info> tag nor <section> tag, 1992 (18)Contains neither <*.info> tag nor <section> tag, 1993 (27)Contains neither <*.info> tag nor <section> tag, 1994 (151)Contains neither <*.info> tag nor <section> tag, 1995 (530)Contains neither <*.info> tag nor <section> tag, 1996 (568)Contains neither <*.info> tag nor <section> tag, 1997 (723)Contains neither <*.info> tag nor <section> tag, 1998 (1048)Contains neither <*.info> tag nor <section> tag, 1999 (2259)Contains neither <*.info> tag nor <section> tag, 2000 (5443)Contains neither <*.info> tag nor <section> tag, 2001 (7759)Contains neither <*.info> tag nor <section> tag, 2002 (11218)Contains neither <*.info> tag nor <section> tag, 2003 (12732)Contains neither <*.info> tag nor <section> tag, 2004 (15310)Contains neither <*.info> tag nor <section> tag, 2005 (17308)Contains neither <*.info> tag nor <section> tag, 2006 (20582)Contains neither <*.info> tag nor <section> tag, 2007 (23215)Contains neither <*.info> tag nor <section> tag, 2008 (25906)Contains neither <*.info> tag nor <section> tag, 2009 (28059)Contains neither <*.info> tag nor <section> tag, 2010 (29870)Contains neither <*.info> tag nor <section> tag, 2011 (32258)Contains neither <*.info> tag nor <section> tag, 2012 (31073)Contains neither <*.info> tag nor <section> tag, 2013 (16378)Contains neither <*.info> tag nor <section> tag, 2014 (5669)Contains neither <*.info> tag nor <section> tag, 2015 (4011)Data source
Fig 1. Chart showing the number of documents with different kinds of markup. In particular, we are interested in the number of *.info tags, which are headers that contain metadata about the case, and section tags, denoting sections.

The problem that we investigate in this thesis, then, is whether we can enrich the markup of scarcely marked up documents in Rechtspraak.nl by automatically assigning a section hierarchy to the text elements. We divide this problem into the following subtasks:

  1. Importing documents from the Rechtspraak.nl web service;
  2. Tokenizing relevant text elements;
  3. Labeling these text elements with their respective roles (i.e. section title; numbering; text block; newline);
  4. Combining the tokens in such a way that they represent the most likely section hierarchy
  5. Publishing the resulting documents so that search engines can make use of the enriched markup

Tasks 1 and 2 are theoretically straightforward and mostly a problem of implementation, and the following chapter touches on both of these subjects briefly, mostly through a specification of the data set of court judgments from Rechtspraak.nl.

Task 3 describes labeling the text elements with their roles in the text, which we translate into the relevant markup tags. This is achieved by training a Conditional Random Field on a set of manually labeled documents. The trained model is then able to correctly label most elements: for all labels we report F1 scores of around 1.0, except for section titles: for these we report 0.91.

Task 4, organizing the tagged elements into a section hierarchy, is approached as a probabilistic parsing problem. We create a Context-Free Grammar which accepts a list of text elements as tokens and creates a parse tree which represents the section hierarchy. This approach returns a desirable section hierarchy in most cases: in our experiment we report an F1 score of 0.92.

Tasks 3 and 4 require more complicated machinery than importing and tokenization do, so these topics merit a more comprehensive explication. We describe our treatment of tasks 3 and 4 as two separate chapters, which are similarly structured: first, we introduce the problem to solve, then describe the methods used to solve the problem, and finally report and discuss experimental results.

Importing & Tokenizing Data

In this chapter, we provide an introduction to the Rechtspraak.nl data set that we use in our experiments. We then make a number of remarks on the necessary steps of importing and tokenization that we perform on documents in the corpus. Importing and tokenization are necessary pre-processing steps which result in a collection of token sequences, where each token corresponds to an XML node in a document. These token sequences then serve as input for the labeling process. Eventually, after the tokens are assigned a type, they serve as leaf nodes for the section hierarchy by analyzing their order according to some formal grammar.

Rechtspraak.nl Data Set

Rechtspraak.nl is the official website for the Dutch judiciary. The website hosts an open data portal for Dutch case law, containing metadata for about 2 million court judgments[source] and judgment texts for about 350.000 judgments in XML[source]. In this thesis, we only consider those documents that contain text. The full data set of Rechtspraak.nl court judgments contains only a fraction of all court judgments that exist in the Netherlands, but the collection is curated so that it is representative of all case law in the Netherlands.

For a comprehensive study on the legal and technical background of the digital publication of Dutch case law, see van Opijnen (). For a general overview of Rechtspraak.nl's web service, see Trompper ().

We wish to automatically annotate documents in the corpus with some semantic markup, so it is helpful to see what is already done in this regard by Rechtspraak.nl. As noted earlier, recent documents tend to be more richly marked up than older documents. Indeed, most older documents consist exclusively of para and paragroup elements, denoting paragraphs and groups of paragraphs respectively.

We observe that a richly marked up case law document typically consists of the following parts:

  1. The first element in a document is typically a unique header element with a tag name of either uitspraak.info or conclusie.info for two types of case law (judgments and conclusions, respectively). We refer to either of these as *.info elements. *.info elements contain interesting metadata such as names and court location. The information is generally not semantically marked up, but is reasonably easy to parse thanks to style consistencies (e.g., most units of metadata are on a separate line).

    The *.info element typically contains metadata about the legal case, such as:

    • A case law identifier following some identification scheme
    • Heading on the type of judgment (e.g. "U I T S P R A A K")
    • Date of judgment
    • Branch of the judiciary (i.e. type of court)
    • Location of the judgment (i.e. court, jurisdiction)
    • A description of the parties involved, possibly detailing their names, roles, locations, representatives
    • A reference to preceding cases, for example in the case of an appeal to a previous judgment

    The order and formatting of this information appears in a multitude of order and formatting, making it difficult to write a deterministic grammar for recognizing a header section. [TODO figref] suggests that analyzing tf–idf in *.infoelements does not seem to be a particularly useful method of generating features that select for these metadata items. But it is easy for the human eye to recognize some recurring patterns.

    See, e.g., ECLI:NL:GHARL:2014:9139 for an example.

    Automatically marking up text portions within *.info tags is outside of the scope of this thesis. For our further purposes, we do not distinguish header elements from generic sections, although this can easily be achieved by extending the label set to include a *.info label.

    A *.info element is generally followed by any number of section tags.

  2. section tags generally contain a title element, and optionally contain an attribute which denotes the section role. A section is a generic grouping of running text, and can be nested to create a section hierarchy.

    In practice, we see three values for the role attribute.[source] These values are either

    • beslissing (judgment)
    • overwegingen (considerations)
    • procesverloop (proceedings)

    Many section elements have no role, although one may imagine other roles than the above, such as feiten (facts). Assigning roles to sections is an interesting avenue of research, but we do not explore this in this thesis. Instead, we limit ourselves to demarcating sections and assigning some hierarchical section structure.

  3. title elements typically occur as the first descendant of a section element, and contain either a numbering or some text, or both. title elements may occur elsewhere, for example as labels for figures, but we only consider section titles in this thesis.

    Titles are the most difficult elements to label, so we make a special effort to describe common title patterns. In Figure 2 we see that if a title element contains text, it usually contains only a handful of words. Close to 99% of section titles contain 10 words or less.

  4. Data source
    Number of wordsRelative frequency
    123.97%23.97%23.97%
    216.51%16.51%16.51%
    321.81%21.81%21.81%
    47.66%7.66%7.66%
    59.18%9.18%9.18%
    610.67%10.67%10.67%
    73.77%3.77%3.77%
    81.91%1.91%1.91%
    91.59%1.59%1.59%
    101.50%1.50%1.50%
    Fig 2. Word count in section titles, excluding numbering.

    Title texts have a number of patterns that often recur. See Figure 3 for a treemap of the distribution of normalized title texts.

    No role
    beslissing
    overwegingen
    procesverloop
    Data source
    feiten11049
    procedure7921
    geding in hoger beroep6681
    tenlastelegging6186
    rechtsmiddel5698
    geschil5498
    geding in cassatie4330
    vaststaande feiten3357
    verdachte3315
    bewezenverklaring3300
    proceskosten3270
    overwegingen3165
    beslissing3067
    voorvragen3060
    uitspraak3002
    geding in eerste aanleg2896
    strafbaarheid van verdachte2822
    toepasselijke wettelijke voorschriften2555
    onderzoek van de zaak2517
    onderzoek ter terechtzitting2291
    strafbaarheid van de verdachte2128
    verloop van de procedure1631
    strafbaarheid van het feit1613
    gerechtshof den haag1509
    vonnis waarvan beroep1188
    geding in feitelijke instanties1186
    strafbaarheid van het bewezenverklaarde1166
    strafoplegging1085
    hd1069
    geschil in hoger beroep1043
    oordeel van de rechtbank1034
    waardering van het bewijs1032
    toepasselijke wetsartikelen1014
    conclusie996
    _EMPTY990
    geding952
    strafbaarheid916
    kosten842
    verzoek840
    rechtbank oostbrabant835
    wettelijke voorschriften795
    oplegging van straf enof maatregel789
    rechtbank noordnederland770
    strafbaarheid van het bewezen verklaarde759
    beslag745
    verweer701
    geschil de standpunten en conclusies van partijen692
    vordering van de officier van justitie691
    vordering van de benadeelde partij slachtoffer675
    verdere verloop van het geding in hoger beroep674
    hoger beroep656
    vordering645
    onderzoek op de terechtzitting643
    vrijspraak639
    inhoud van de tenlastelegging596
    verloop van het geding584
    toegepaste wettelijke bepalingen581
    arrest577
    kwalificatie van het bewezenverklaarde559
    strafbaarheid van de feiten556
    bewijs555
    oplegging van straf551
    benadeelde partij547
    formele voorvragen543
    gedaagde536
    vordering van de benadeelde partij benadeelde522
    toepassing van wetsartikelen502
    appellant499
    standpunten van partijen489
    inleiding480
    eiser475
    toegepaste wettelijke voorschriften465
    gentimeerde463
    conclusies van partijen439
    op te leggen straf of maatregel430
    arrest van de meervoudige kamer voor strafzaken van het gerechtshof428
    loop van het geding in hoger beroep392
    standpunt van de verdediging381
    geschil alsmede standpunten en conclusies van partijen374
    beoordeling van het hoger beroep368
    x te z belanghebbende361
    bespreking van het cassatiemiddel348
    omvang van het geschil333
    vordering officier van justitie311
    stukken van het geding309
    verkort arrest van de meervoudige kamer voor strafzaken308
    vordering van de benadeelde partij benadeelde partij300
    kwalificatie291
    omschrijving geschil in hoger beroep en standpunten van partijen287
    a281
    rechtbank gelderland278
    bewijsmiddelen269
    grondslag van het geschil265
    proceskosten en griffierecht264
    tussen partijen vaststaande feiten263
    verdere verloop van de procedure260
    feit260
    benadeelde partijen256
    uitspraak van de rechtbank luidt254
    nk253
    standpunt van het openbaar ministerie246
    strafbaarheid van het bewezenverklaarde en de kwalificatie243
    rechtbank overijssel242
    ap239
    vonnis238
    ten aanzien van de benadeelde partij en de schadevergoedingsmaatregel232
    verzoek en het verweer230
    gedaagde sub229
    verzoek en verweer228
    schade van benadeelden227
    ij220
    bewijsvraag216
    naam215
    terbeschikkinggestelde215
    wrakingsverzoek208
    geschil in conventie208
    geding in eerste aanleg zaaknr ha za204
    standpunt van de officier van justitie203
    identiteit van de opgeiste persoon200
    feiten en omstandigheden199
    geding in eerste aanleg zaaknr cv expl198
    geding in feitelijke instantie198
    beoordeling196
    grondslag en inhoud van het eab190
    uitspraak van de rechtbank188
    vordering van de benadeelde partij187
    b183
    gentimeerde sub182
    geschil in reconventie177
    vordering tenuitvoerlegging177
    ontvankelijkheid van het openbaar ministerie174
    overweging met betrekking tot het bewijs173
    vordering en het verweer173
    rechtbank169
    ontvankelijkheid van het hoger beroep167
    standpunt van verzoeker167
    verzoeker166
    appellant sub165
    arrest van de meervoudige kamer voor strafzaken160
    qh156
    feiten en het geding in feitelijke instanties153
    appellante152
    toepasselijkheid wettelijke voorschriften150
    eis van de officier van justitie148
    tm143
    eiser sub143
    bewijsoverweging139
    uitgangspunten in cassatie136
    verdere verloop van het geding134
    inbeslaggenomen goederen133
    zitting132
    grieven131
    en129
    c128
    standpunt van de notaris127
    kwalificatie en strafbaarheid van de feiten127
    cvg127
    ontvankelijkheid125
    kwalificatie en strafbaarheid van het feit122
    mk122
    rechtbank noordholland120
    tweede geding in cassatie117
    besloten vennootschap met beperkte aansprakelijkheid117
    verloop van het geding in hoger beroep116
    standpunten113
    uitgangspunten113
    geschil in hoger beroep en standpunten van partijen113
    eis officier van justitie111
    vordering en verweer111
    vordering van de benadeelde partij de schadevergoedingsmaatregel108
    standpunt van de rechter105
    vonnis in de strafzaak van104
    de vader103
    um103
    mondelinge behandeling van het wrakingsverzoek103
    eh102
    de man102
    geding in eerste instantie102
    belanghebbende100
    beoordeling van het bewijs100
    hetgeen de rechtbank bewezen acht99
    kwalificaties99
    vordering in conventie98
    afdeling strafrecht98
    vordering na voorwaardelijke veroordeling97
    oplegging van straf en maatregel97
    vonnis van de kantonrechter97
    rechtbank limburg97
    eiseres95
    d95
    verzoek en het verweer daartegen95
    de moeder94
    in reconventie92
    geding in eerste aanleg zaaknr cha za92
    in conventie91
    eerste geding in cassatie91
    strafbaarheid verdachte91
    toepasselijke wetsbepalingen90
    vordering van het openbaar ministerie90
    veroordeelde90
    verweerder88
    rechtbank den haag88
    procesverloop87
    de vrouw87
    standpunt van klager86
    rechtbank amsterdam82
    vorderingen van de benadeelde partijen82
    gentimeerde wonende te woonplaats82
    uitspraak van april82
    geding in eerste aanleg zaaknummer cv expl82
    uitspraak van de accountantskamer82
    parketnummer82
    schadevergoedingsmaatregel81
    vordering tot tenuitvoerlegging81
    jl80
    vordering in reconventie80
    bewezenverklaring en bewijsvoering79
    uitspraak waarvan herziening is gevraagd79
    verzoekster79
    bestreden uitspraak op bezwaar79
    rb78
    eerste middel78
    tenuitvoerlegging voorwaardelijke veroordeling77
    redengeving bewezenverklaring74
    uitspraak van de rechtbank luidt rechtdoende74
    appellant wonende te woonplaats74
    ontvankelijkheid van de officier van justitie73
    geschil in het incident73
    rechtbank middennederland73
    terechtzitting73
    geschil en standpunten van partijen73
    nadere bewijsoverweging73
    verdere procedure72
    schadevergoeding72
    tweede middel71
    standpunt van klaagster71
    beschikking aanslag bezwaar en geding in eerste aanleg69
    benadeelde partij slachtoffer68
    straf68
    aanslag bezwaar en geding in eerste aanleg67
    arrest van juli67
    tenlasteleggingen67
    loop van het geding67
    standpunten van partijen in hoger beroep67
    oplegging van straffen66
    vordering benadeelde partij en schadevergoedingsmaatregel66
    ten aanzien van de feiten63
    bespreking van de grieven63
    ten aanzien van feit63
    verkort vonnis61
    aanvraag tot herziening61
    oplegging van straf of maatregel60
    overzicht60
    inbeslaggenomen voorwerpen60
    arrest van juni60
    subsidiair60
    aanslag beschikking bezwaar en geding in eerste aanleg58
    gerechtshof arnhemleeuwarden58
    vorderingen57
    feiten in conventie en in reconventie56
    geding in het principaal en het incidenteel hoger beroep56
    betrokkene56
    reactie van de rechter56
    arrest van maart56
    geding in eerste aanleg zaaknr ckg za56
    ciz55
    geding in eerste aanleg zaaknr55
    primair54
    tekst tenlastelegging53
    klacht53
    deelgeschil53
    procedure in de hoofdzaak53
    vordering benadeelde partij53
    wettelijk kader52
    bespreking van de cassatiemiddelen52
    artikel52
    rk52
    benadeelde partij en de schadevergoedingsmaatregel52
    omvang van het hoger beroep51
    geldigheid van de dagvaarding50
    arrest van september49
    internationale kinderontvoering49
    derde middel49
    handelen in strijd met artikel eerste lid van de wet wapens en munitie49
    procedure in de zaak49
    middel49
    geschil in de hoofdzaak47
    standpunt van de gerechtsdeurwaarder47
    naam verdachte47
    strafmaatregel47
    voorlopige hechtenis46
    aanhechten draagkrachtberekeningen46
    arrest van april46
    motivering46
    dcision46
    verder verloop van het geding45
    in conventie en in reconventie45
    arrest van mei45
    strafbaarheid feit44
    kwalificatie en strafbaarheid van het bewezenverklaarde44
    gronden van de beslissing44
    beschouwing44
    verweer in reconventie43
    standpunt van klagers43
    verweer in conventie43
    procedure in de vrijwaringszaak43
    bijlage43
    bedreiging met enig misdrijf tegen het leven gericht42
    gerechtshof sgravenhage42
    strafbaarheid feiten42
    verweerster42
    geding in eerste aanleg zaaknummer rolnummer42
    standpunt van de kantonrechter41
    mishandeling41
    beschikking41
    vordering in de hoofdzaak41
    nw41
    stukken41
    uitspraak van de enkelvoudige kamer in de zaak tussen41
    afdeling civiel recht40
    cak40
    vonnis in de zaak van40
    ontvankelijkheid van het verzoek40
    arrest van februari39
    js39
    diefstal39
    behandeling in raadkamer38
    navorderingsaanslagen kwijtscheldingsbesluiten boetebeschikkingen en bezwaar38
    geschil in conventie en in reconventie38
    beschikking in de zaak van38
    uitspraak dd juni38
    doodslag38
    uitspraak dd juli37
    verwijzingsopdracht37
    in de hoofdzaak37
    geding in eerste aanleg zaaknr c kg za37
    eiseres sub37
    e37
    arrest van november36
    feit primair36
    vordering van de benadeelde partij aangever36
    bijlagen35
    x35
    rh35
    algemeen35
    geschil na verwijzing en standpunten van partijen35
    vorderingen benadeelde partijen35
    staat der nederlanden ministerie van veiligheid en justitie35
    appellante sub35
    arrest van oktober35
    bewijsbeslissingen35
    poging tot doodslag35
    geding in eerste aanleg zaaknr rolnr34
    bewijsvoering34
    officier van justitie heeft aangevoerd verkort en zakelijk weergegeven34
    garantie als bedoeld in artikel eerste lid van de olw34
    vrijspraak feit34
    geding in eerste aanleg zaaknr haza34
    in beslag genomen voorwerpen34
    arrest dd april33
    bevestigt de aangevallen uitspraak33
    x bv te z belanghebbende33
    partneralimentatie33
    maatregel van schadevergoeding van subsidiair dagen hechtenis33
    uitspraak van juni33
    vordering van de advocaatgeneraal33
    tav parketnummer33
    tenlastelegging aan de verdachte is ten laste gelegd dat33
    f32
    vordering van de benadeelde partij aangeefster32
    ontvankelijkheid van het cassatieberoep32
    ten aanzien van de benadeelde partij32
    aanslagen beschikkingen bezwaar en geding in eerste aanleg31
    geschillen31
    arrest van augustus31
    kinderalimentatie31
    uitspraak dd mei31
    geding in eerste aanleg zaaknr c ha za31
    beschikking bezwaar en geding in eerste aanleg31
    arrest van januari31
    bespreking van het middel31
    uitspraak dd oktober31
    openlijk in vereniging geweld plegen tegen personen31
    beklag31
    verdere loop van het geding30
    verloop van het proces30
    verplichting tot betaling aan de staat30
    cassatiemiddel30
    vernietigt het vonnis waarvan beroep en doet opnieuw recht30
    vordering in het incident30
    geschil standpunten en conclusies30
    ontvankelijkheid openbaar ministerie30
    arrest van december29
    benadeelde partij benadeelde29
    procesverbaal van de mondelinge uitspraak van de enkelvoudige kamer van29
    straf enof de maatregel29
    aanduiding bestreden besluit29
    slachtoffer29
    beschikkende29
    standpunt van belanghebbenden29
    feiten en het geding in feitelijke instantie29
    overweegt29
    proceskosten en griffierechten29
    verder verloop van de procedure29
    standpunt van verzoekster29
    omschrijving geschil en standpunten van partijen28
    vordering en de standpunten van partijen28
    feiten in beide zaken28
    geschil en standpunten28
    standpunten van de officier van justitie en de verdediging28
    arrest dd maart28
    ingangsdatum28
    geding in eerste aanleg zaaknr chaza28
    tav feit28
    geding in eerste aanleg zaaknummerrolnummer ha za28
    inspecteur van de belastingdienstte p verweerder28
    de man wonende te woonplaats27
    feiten in het incident27
    uitspraak dd december27
    uitspraak dd maart27
    toegepaste wetsartikelen27
    vordering van de benadeelde partijslachtoffer27
    verzoeken27
    verdere geding in hoger beroep27
    vordering van de benadeelde partij mbt het onder bewezen verklaarde27
    wia27
    voorgeschiedenis27
    bespreking van het cassatieberoep27
    standpunt van gedaagde26
    proceskostenveroordeling26
    schatting van het wederrechtelijk verkregen voordeel26
    geding na cassatie26
    immaterile schadevergoeding26
    incident tot tussenkomst26
    verweren26
    hof26
    geschil in voorwaardelijke reconventie25
    eisers25
    x wonende te z belanghebbende25
    uitspraak dd april25
    samenstelling raadkamer en uitspraakdatum25
    vaststelling van het wederrechtelijk verkregen voordeel25
    verzoek en de grondslag daarvan25
    gerechtshof shertogenbosch25
    vordering van de benadeelde partij betrokkene25
    uitspraak van januari25
    ag24
    terbeschikkinggestelde heeft verklaard kort en zakelijk weergegeven24
    vordering en het verweer in conventie24
    tekst gewijzigde tenlastelegging24
    uitspraak dd augustus24
    uitspraak dd september24
    arrest dd juli24
    veroordeelt de verdachte tot een gevangenisstraf voor de duur van24
    reactie van de rechters24
    belanghebbende sub24
    geschil standpunten en conclusies van partijen24
    procedure in eerste aanleg24
    verdere geding24
    rechtbank zeelandwestbrabant24
    geintimeerde24
    vrijspraken24
    in beslag genomen goederen24
    uitspraak van maart23
    deprocedure23
    naam gedaagde23
    arrest dd september23
    bestreden uitspraak23
    ten aanzien van de benadeelde partijen en de schadevergoedingsmaatregel23
    geding in eerste aanleg zaaknr kg za23
    geding in eerste aanleg zaakrolnr ha za23
    geding in eerste aanleg zaaknummer ha za23
    oordeel van het hof23
    arrest dd mei22
    uitspraak van juli22
    behandeling van de middelen22
    arrest dd juni22
    verklaring van verdachte ter terechtzitting van juni22
    maatregel van schadevergoeding van eur subsidiair dagen hechtenis22
    h22
    stellingen van partijen22
    wijziging van eis22
    weigeringsgrond als bedoeld in artikel olw22
    verdere beoordeling van het hoger beroep22
    poging tot zware mishandeling22
    conclusie van de advocaatgeneraal21
    toepasselijk wettelijk voorschrift21
    onschuldverweer21
    arrest dd februari21
    zw21
    uitspraak van mei21
    verkort arrest van de economische kamer21
    diefstal door twee of meer verenigde personen21
    x te z hierna belanghebbende21
    standpunt van de kbvg21
    verdere loop van het geding in hoger beroep21
    aanslag beschikkingen bezwaar en geding in eerste aanleg21
    strafbaarheid van het bewezenverklaarde en van de verdachte20
    verlenging ondertoezichtstelling en verlenging machtiging tot uithuisplaatsing20
    beschikking ontbinding arbeidsovereenkomst20
    geding voor de rechtbank en het hof20
    bedrijf20
    advies20
    arrest dd januari20
    overtreding van artikel van de wegenverkeerswet20
    bevoegdheid van de rechtbank20
    prejudicile procedure20
    verslag van de advocaatgeneraal20
    verordening20
    ontvankelijkheid van het openbaar ministerie in de vervolging20
    standpunt van eiser19
    weigeringsgrond als bedoeld in artikel eerste lid onder a olw19
    beschikkingen aanslagen bezwaar en geding in eerste aanleg19
    standpunt van de oudnotaris19
    bedreiging met enig misdrijf tegen het leven gericht meermalen gepleegd19
    standpunt van de notarissen19
    vordering en verweer in conventie19
    tegen deze uitspraak staat geen rechtsmiddel open19
    vordering tot schadevergoeding benadeelde partij19
    appellant sub en19
    vordering van de benadeelde partij slachtoffer feit19
    draagkracht van de man18
    noot verbalisanten18
    standpunt van de ind en van de officier van justitie18
    vordering en het verweer in reconventie18
    bespreking van de klachten18
    onttrekking aan het verkeer18
    op te leggen straf18
    oplegging van straffen en maatregel18
    vordering van de benadeelde partijbenadeelde18
    adres18
    x bv statutair gevestigd te z belanghebbende18
    vierde middel18
    klager18
    met betrekking tot de grieven18
    arrest dd oktober18
    eendaadse samenloop van18
    rechtdoende17
    feiten in conventie en reconventie17
    rechtbank rotterdam17
    met betrekking tot feit17
    hoofdzaak17
    vermeerdering van eis17
    geintimeerde sub17
    overweging17
    alimentatie17
    gevoerde verweren17
    gevangenisstraf voor de duur van maanden17
    aanslagen bezwaar en geding in eerste aanleg17
    uitspraak dd januari17
    voor een proceskostenveroordeling bestaat geen aanleiding17
    x wonende te z hierna belanghebbende17
    geschil in hoger beroep na verwijzing17
    vordering van de benadeelde partij persoon16
    wrakingskamer16
    gedingen in hoger beroep16
    stelt als algemene voorwaarden dat de veroordeelde16
    stelt als bijzondere voorwaarden dat de veroordeelde16
    partile vrijspraak16
    beklaagde16
    strafbaarheid feiten vermeld op bijlage bij de olw16
    meer subsidiair16
    appellante wonende te woonplaats16
    standpunt van partijen16
    vordering van de benadeelde partij verbalisant16
    rg16
    inhoud van het verzoek16
    standpunt van de advocaatgeneraal16
    geding in eerste aanleg zaakrolnr cv expl16
    beschikking op het op juli ingekomen verzoek van16
    beschikking op het op mei ingekomen verzoekschrift van16
    naam wonende te woonplaats16
    beschouwing rechtbank16
    toepasselijk recht16
    afschrift verzonden op16
    vonnis van de kantonrechter in kort geding16
    vordering in voorwaardelijke reconventie16
    standpunt verdediging16
    standpunt van a16
    feiten voor zover van belang in het incident16
    uitspraak dd november16
    garantie als bedoeld in artikel eerste lid olw16
    juridisch kader16
    procureurgeneraal bij de hoge raad der nederlanden16
    naam van de verdachte15
    vordering van de benadeelde partijen15
    voorhanden stukken15
    ten aanzien van parketnummer15
    bezwaar en beroep15
    gedaagden15
    geding in eerste aanleg zaaknummer cha za15
    staat der nederlanden15
    beschikking van de kantonrechter15
    uitspraak dd februari15
    beschikking op het op juni ingekomen verzoek van15
    scheiding15
    bewijsaanbod15
    gang van zaken15
    naam eiser15
    feitelijke gang van zaken15
    vordering en het geschil15
    ter beschikking gestelde heeft verklaard kort en zakelijk weergegeven15
    toepasselijke wettelijke bepaling15
    geding na verwijzing15
    standpunt van de toegevoegd kandidaatgerechtsdeurwaarder15
    g15
    tussenarrest van september15
    grondslag van de vordering15
    draagkracht15
    geding in eerste aanleg zaakrolnr14
    bv14
    standpunt van de inrichting14
    ontvankelijkheid officier van justitie14
    gezagsuitoefening14
    relevante wettelijke bepalingen14
    p verweerder14
    relevante regelgeving14
    vader14
    aanleiding van het geschil14
    deelneming aan een organisatie die tot oogmerk heeft het plegen van misdrijven14
    waarvan het hof uitgaat14
    gronden14
    geintimeerde wonende te woonplaats14
    algemeen rechtskader14
    klacht en het verweer daartegen14
    tussenarrest van de meervoudige kamer voor strafzaken14
    rechthebbende14
    gentimeerde sub en14
    vordering van benadeelde partij slachtoffer14
    uitspraak van oktober14
    appellant en14
    bestreden beschikking14
    wijziging van omstandigheden14
    beschikking op het op oktober ingekomen verzoek van14
    inhoud van de vordering14
    vorderingen tot tenuitvoerlegging13
    vaststaande feiten en de procedure in eerste aanleg13
    standpunt van de rechters13
    conclusies13
    standpunt van de reclassering13
    vordering en verweer in reconventie13
    beschikking op het op december ingekomen verzoek van13
    beantwoording van de prejudicile vragen13
    vorderingen van de benadeelde partijen en de schadevergoedingsmaatregel13
    beschikking op het op augustus ingekomen verzoekschrift van13
    bewijsverweer13
    verweer tevens zelfstandig verzoek13
    kostenveroordeling13
    arrest van de meervoudige kamer voor strafzaken van het gerechtshof te13
    beoordeling van het verzoek13
    geldigheid dagvaarding13
    zitting hebben13
    schadevergoedingsmaatregel benadeelde13
    naam verzoeker13
    wwb13
    verdere feiten13
    overige verweren13
    ontvankelijkheid van het verzet13
    heropening van het onderzoek13
    gerechtshof amsterdam13
    enof13
    verzoek tot verbetering13
    vaststelling feiten13
    rechtbank leeuwarden13
    verweer op het zelfstandig verzoek13
    bespreking van het principaal cassatieberoep13
    behandeling van het hoger beroep13
    bespreking van het principale cassatiemiddel13
    rechtbank overweegt als volgt13
    verbeurdverklaring13
    machtiging tot uithuisplaatsing13
    beslist12
    inhoud van het bezwaarschrift12
    vordering van de benadeelde partij en de schadevergoedingsmaatregel12
    vordering benadeelde partij schadevergoedingsmaatregel12
    beroep is ongegrond12
    geding na verwijzing door de hoge raad12
    bevoegdheid12
    vordering tenuitvoerlegging voorwaardelijke veroordeling12
    b e s l i s s i n g12
    in het incident12
    de pleegouders12
    vrijspraak ten aanzien van feit12
    omschrijving verzoek12
    artikel bw12
    beoordeling van het middel12
    beschikking op het op mei ingekomen verzoek van12
    artikel belastbaar feit12
    kosten en griffierecht12
    vordering tot herroeping van de voorwaardelijke invrijheidstelling12
    wederspannigheid12
    rechtsmiddel tegen deze uitspraak kan binnen vier weken na de dag van verzending daarvan hoger beroep worden ingesteld bij de afdeling bestuursrechtspraak van de raad van state12
    overig12
    beschikking op het op juni ingekomen verzoekschrift van12
    geschil in hoger beroep en standpunten en conclusies van partijen12
    ad12
    ad a12
    geding in eerste aanleg zaaknr cv12
    arrest dd november12
    ontvankelijkheid van de verdachte in het hoger beroep12
    beschikking op het op januari ingekomen verzoekschrift van12
    x wonende te z eiser gemachtigde a12
    mensenhandel12
    verzoeker sub12
    incident tot tussenkomst dan wel voeging12
    gerechtshof te sgravenhage12
    arrest dd december12
    jurisprudentie12
    standpunt van belanghebbende12
    l12
    uitspraak van augustus12
    vorderingen en grondslagen in de hoofdzaak12
    standpunt van de raadsman12
    afronding12
    verwijzingsarrest12
    wrakingsverzoek en het verweer12
    uitspraak van de voorzieningenrechter in de zaak tussen12
    vonnis in kort geding van de kantonrechter12
    agreement12
    verdediging12
    verweer van de gerechtsdeurwaarder12
    eiswijziging12
    beschikking op het op april ingekomen verzoek van12
    geding in eerste aanleg zaakrolnummer11
    uitspraak van november11
    standpunten dexia11
    wederrechtelijk verkregen voordeel11
    proceskosten en schadevergoeding11
    vorderingen van de benadeelde partijen de schadevergoedingsmaatregel11
    uitspraak van december11
    vermogensmaatregel11
    geding in eerste aanleg zaakrolnummer cv expl11
    behandeling ter terechtzitting11
    moeder11
    vorderingen na voorwaardelijke veroordeling11
    klaagster11
    belaging11
    afdoening11
    griffierecht11
    overweging met betrekking tot het bewijs van feit11
    beoordeling van de zaak11
    loop van het geding na verwijzing11
    cassatieberoep11
    tussenarrest van juli11
    overtreding van artikel eerste lid van de wegenverkeerswet11
    vordering van de benadeelde partij slachtoffer nummer11
    toepasselijke recht11
    beschikking op het op april ingekomen verzoekschrift van11
    uitspraak van de enkelvoudige kamer in het geschil tussen11
    beschikking op het op februari ingekomen verzoekschrift van11
    bureau jeugdzorg friesland11
    beschikking op het op maart ingekomen verzoekschrift van11
    verweer en zelfstandig verzoek11
    spoedeisend belang11
    geding in eerste aanleg zaaknummer rolnummer ha za11
    kantonrechter11
    besloten vennootschap11
    j11
    ten aanzien van de tenlastelegging11
    bespreking van het principale cassatieberoep11
    standpunt van appellante11
    vordering en het verweer in het incident11
    vordering en de grondslag daarvan11
    feiten en omstandigheden in conventie en in reconventie11
    bespreking van een verweer10
    geschil in hoger beroep en incidenteel hoger beroep10
    procedure in conventie en in reconventie10
    ondergetekenden10
    beslissing het hof10
    bewijsverweren10
    onderzoek10
    beslissing inzake het bewijs10
    procedures10
    beschikking op het op juli ingekomen verzoekschrift van10
    diefstal meermalen gepleegd10
    als verklaring van betrokkene10
    onderzoek wagner10
    m10
    regelgeving wetsgeschiedenis jurisprudentie en literatuur10
    verder verloop van het geding in hoger beroep10
    standpunt van de rechtercommissaris10
    beschikking bezwaar en beroep10
    beschikking op het op maart ingekomen verzoek van10
    strafbaarheid van de feiten en van verdachte10
    standpunten partijen10
    beantwoording van de vragen10
    vonnis waartegen het hoger beroep is gericht10
    valsheid in geschrift meermalen gepleegd10
    bespreking en waardering van bewijsmiddelen10
    beschikking op het op december ingekomen verzoekschrift van10
    schade van benadeelde10
    vordering tot opheffing van de schorsing van de voorlopige hechtenis10
    in de zaak met parketnummer10
    in de zaak met zaaknummer10
    terbeschikkinggestelde heeft verklaard verkort en zakelijk weergegeven10
    geding in eerste aanleg zaaknrrolnr ha za10
    schadevergoedingsmaatregel minderjarige zaak10
    schatting van de hoogte van het wederrechtelijk verkregen voordeel10
    behandeling van het middel10
    uitspraak van februari10
    verloop van de procedure blijkt uit10
    verweer en het tegenverzoek10
    geding in eerste aanleg zaaknummer ckg za10
    officier van justitie10
    vonnis in het kort geding van10
    beschikking op het op november ingekomen verzoek van10
    weigeringsgrond als bedoeld in artikel eerste lid onder a van de olw10
    zorgregeling10
    voldoening op aangifte bezwaar en beroep10
    arrest dd augustus10
    bespreking van de middelen10
    geldboete van10
    beschikking op het op september ingekomen verzoekschrift van10
    stelt als bijzondere voorwaarden10
    feitelijke uitgangspunten10
    behandeling van de klachten9
    beoordeling van het eerste middel9
    standpunt van de kinderrechter9
    ad b9
    adoptie9
    x bv gevestigd te z belanghebbende9
    standpunt van eiseres9
    standpunt van het bft9
    rechtbank amsterdamkort geding9
    standpunt van verzoekers9
    witwassen9
    als verklaring van verbalisant9
    als verklaring van verdachte9
    standpunten van partijen in conventie en in reconventie9
    prejudicile vragen9
    stichting bureau jeugdzorg friesland9
    werknemer9
    arrest van de economische kamer van het gerechtshof shertogenbosch9
    arrest van de familiekamer dd juni9
    oplichting meermalen gepleegd9
    weigeringsgrond als bedoeld in artikel eerste lid aanhef en onder a olw9
    op te leggen maatregel9
    wao9
    waardering van het bewijs ten aanzien van feit9
    tav feit subsidiair9
    ontvankelijkheid van het beroep9
    ondertoezichtstelling9
    ten aanzien van feit van9
    ter zake het verzoekschrift ex artikel a sv9
    ter zake het verzoekschrift ex artikel sv9
    navorderingsaanslagen beschikkingen bezwaar en geding in eerste aanleg9
    bedreiging met zware mishandeling9
    behandeling9
    naamloze vennootschap9
    standpunt van de gewraakte rechters9
    behoefte9
    belanghebbenden9
    benadeelde partij minderjarige zaak9
    tussenarrest van december9
    benadeelde partij slachtoffer feit9
    tussenarrest van oktober9
    medeplegen van oplichting meermalen gepleegd9
    literatuur9
    lid onder9
    klacht en het verweer9
    beschikking op het op augustus ingekomen verzoek van9
    inhoud van het verzoekschrift9
    in conventie en reconventie9
    hof wijst het beklag af9
    uitspraken van de rechtbank9
    gevangenisstraf voor de duur van jaren9
    gevangenisstraf voor de duur van dagen9
    geschil in principaal en incidenteel hoger beroep9
    beschikking van juli9
    vennootschap onder firma9
    beschikkingen bezwaar en geding in eerste aanleg9
    gentimeerden9
    verdere beoordeling9
    feiten en9
    vordering herroeping voorwaardelijke invrijheidstelling9
    ek9
    verweer van gedaagde9
    bestreden uitspraken op bezwaar9
    verzet9
    draagkracht man9
    voorwaardelijke incidentele beroep9
    voorwaardelijk verzoek9
    bewijsoverweging feit9
    bewijsoverweging ten aanzien van feit9
    relevante wet en regelgeving8
    mishandeling meermalen gepleegd8
    toepassing van de wetsartikelen8
    vorderingen en het verweer8
    wetgeving jurisprudentie en literatuur8
    partile nietontvankelijkheid van het openbaar ministerie in de vervolging8
    standpunt van de kandidaatnotaris8
    algemene uiteenzetting gang van zaken en december8
    aanleiding8
    tussenarrest van november8
    y8
    medeplegen van poging tot zware mishandeling8
    oplegging van straf en maatregelen8
    standpunt van de gerechtsdeurwaarders8
    medeplegen van doodslag8
    beoordeling van het geschil8
    beoordeling van het geschil en de motivering van de beslissing8
    maatregel8
    algemene voorwaarden8
    oplegging van de maatregel8
    kwalificatie van het bewezen verklaarde8
    strafbaarheid van het feit en van verdachte8
    vordering van de benadeelde partij museum catharijneconvent8
    standpunt van de gewraakte rechter8
    inleidende opmerkingen8
    inleidende beschouwingen8
    beschikking op het op februari ingekomen verzoek van8
    oordeel van de kantonrechter8
    incident tot tussenkomst cq voeging8
    in het principaal en incidenteel appel8
    in de zaak met nummer8
    recapitulatie8
    beschikking van april8
    oordeel8
    beschikking van augustus8
    achtergrond van de geschillen8
    gezag8
    taakstraf bestaande uit het verrichten van uren onbetaalde arbeid8
    schorsing vervolging8
    geschil na verwijzing8
    waardering van de bewijsmiddelen8
    ontvankelijkheid van het ingestelde hoger beroep8
    bijlage i8
    beschikking van september8
    aanduiding van het geschil8
    appellant sub wonende te woonplaats8
    ten aanzien van het onder ten laste gelegde8
    gemeente rotterdam8
    verdere loop van de procedure8
    geldigheid van de inleidende dagvaarding8
    verdere verloop van de procedure in hoger beroep8
    verduistering meermalen gepleegd8
    verklaring rechtsvermoeden van overlijden8
    bespreking cassatiemiddel8
    bespreking van bewijsverweren8
    verkrachting8
    verloop van de procedure in hoger beroep8
    geding in eerste aanleg zaaknummer8
    geding in eerste aanleg zaaknr vv expl8
    bespreking van de gevoerde verweren8
    geding in eerste aanleg zaaknr rolnr cv expl8
    formaliteiten met betrekking tot het bewijs in alle zaken8
    feiten in de hoofdzaak en in de vrijwaringszaak8
    bespreking van de verweren8
    omschrijving van het geschil8
    veroordeelt de verdachte tot een gevangenisstraf voor de duur van maanden8
    officier van justitie bij het arrondissementsparket oostnederland8
    bespreking van het incidenteel cassatieberoep8
    vordering en het verweer samengevat en zakelijk weergegeven8
    bespreking van het principaal cassatiemiddel8
    procesverbaal van de mondelinge uitspraak van de enkelvoudige kamer van november in de zaak tussen8
    eiser wonende te woonplaats eiser8
    bestreden besluit8
    eiser a8
    rol van de verdachte8
    procesgang8
    eerste middelfaalt8
    bevoegdheid van het hof8
    beantwoording van de prejudicile vraag8
    naheffingsaanslag bezwaar en geding in eerste aanleg8
    verzoek en het standpunt van de ind8
    bewijsmiddelen en de beoordeling daarvan8
    dochter m8
    naheffingsaanslag beschikking bezwaar en geding in eerste aanleg8
    relevante wetgeving8
    verzoeker en verzoekster8
    voortgezette handeling van8
    poging tot moord8
    wetgeving wetsgeschiedenis jurisprudentie en literatuur8
    voorbedachte raad8
    bureau jeugdzorg flevoland8
    vooraf8
    bnb8
    bijzondere bewijsoverweging8
    geding in eerste aanleg zaakrolnr c ha za7
    beschikking op het op oktober ingekomen verzoekschrift van7
    tenlastelegging aan verdachte is ten laste gelegd dat7
    beschikking op het op september ingekomen verzoek van7
    omvang hoger beroep7
    afschrift verzonden aan partijen op7
    in aanmerking nemende dat7
    tenuitvoerlegging voorwaardelijke veroordelingen7
    arrest van de familiekamer dd april7
    grondslag van de vordering en het verweer7
    overwegende dat7
    rechtbank overweegt het volgende7
    vragen van uitleg7
    wettelijke rente7
    vraagstelling7
    van het plegen van witwassen een gewoonte maken7
    naheffingsaanslagen beschikkingen bezwaar en geding in eerste aanleg7
    teruggave7
    oplichting7
    vaststaande feiten in conventie en in reconventie7
    geschil in eerste aanleg7
    beschikking van oktober7
    arrest in dit geding7
    geschil in de incidenten7
    staat der nederlanden ministerie van financin7
    arrest van de familiekamer dd november7
    geschil en de procedure in eerste aanleg7
    toelichting7
    gentimeerde wonende te woonplaats duitsland7
    afstand van rechtsmiddelen7
    vordering tot herroeping van de voorwaardelijke invrijheidsstelling7
    genoegzaamheid van het eab7
    procedure in hoger beroep7
    gemeente leiden7
    naam betrokkene hierna betrokkene7
    beschikt7
    toepasselijke regelgeving7
    geldigheid dagvaarding en bevoegdheid rechtbank7
    gelast dat de verdachte ter beschikking wordt gesteld7
    openbaar ministerie7
    gedoogbeleid7
    beslssing7
    geding in feitelijke instanties en in cassatie7
    mr rlh ijzerman7
    vorderingen tenuitvoerlegging7
    behandeling van de zaak7
    geding in eerste aanleg zaakrolnummer cha za7
    rechtsmiddel tegen deze uitspraak staat geen rechtsmiddel open7
    bespreking van de cassatieklachten7
    prejudicile vraag7
    standpunt officier van justitie7
    geding in eerste aanleg zaaknummer vv expl7
    geding in eerste aanleg zaaknummer c ha za7
    stelt als bijzondere voorwaarden dat7
    verloop van de procedures7
    reactie van het openbaar ministerie7
    ontvankelijkheid van klager in het hoger beroep7
    reactie van de officier van justitie7
    standpunt van de gemeente7
    tussenarrest van februari7
    artikel tarieven7
    feiten in conventie en voorwaardelijke reconventie7
    mensenhandel meermalen gepleegd7
    benadeelde partijen en de schadevergoedingsmaatregel7
    tav feit maatregel van schadevergoeding van subsidiair dagen hechtenis7
    veroordeelt de verdachte tot een gevangenisstraf voor de duur van n dag7
    relevante teksten en toelichtingen van de gn7
    veroordeelt de verdachte tot een gevangenisstraf voor de duur van n week7
    vordering grondslag en verweer7
    meest subsidiair7
    verplichting tot betaling7
    bespreking van het incidentele cassatieberoep7
    verschenen7
    feit en7
    stichting william schrikker jeugdbescherming en jeugdreclassering7
    wet en regelgeving7
    en alvorens verder te beslissen7
    tegenwoordig7
    eiseres te y eiser7
    pleegouders7
    eiser wonende te plaats eiser7
    ontvankelijkheid in hoger beroep7
    medeplegen7
    vrouw7
    bestreden tuchtuitspraak7
    beoordeling van het incident7
    ontbinding7
    verweren strekkende tot bewijsuitsluiting7
    betrokkene betrokkene7
    eerste en het tweede middel7
    artikel van de olw7
    onderzoek ter zitting7
    legt op de volgende straffen7
    door het hof gebruikte bewijsmiddelen7
    vrijspraak van het primair ten laste gelegde7
    door de verdediging ingediende verzoeken7
    beoordeling van het principale en het incidentele hoger beroep7
    standpunt van eisers7
    voorwaardelijke verzoeken7
    k7
    dadelijke uitvoerbaarheid7
    vrijspraak ten aanzien van feit slachtoffer7
    overwegingen ten aanzien van straf enof maatregel7
    bewijsmiddelen feit7
    wrakingsverzoek en het standpunt van de rechter7
    voortgang van de behandeling van de zaak7
    inleidende klacht7
    onder parketnummer7
    centrale raad van beroep7
    vijfde middel7
    vrijspraak feit primair7
    beschikking op het op november ingekomen verzoekschrift van7
    bureau jeugdzorg drenthe7
    tenlastelegging aan de verdachte is na wijziging van de tenlastelegging ter terechtzitting ten laste gelegd dat7
    incident tot voeging7
    bijzondere voorwaarden7
    vordering van de benadeelde partij bedrijf7
    bewijswaarde van de verklaringen van medeverdachte7
    omvang van het appel7
    bijlage i bij vonnis van oktober7
    vonnis van oktober7
    vonnis van de kantonrechter van juli7
    zware mishandeling7
    bijlage i bij vonnis van november6
    bijlage a6
    vonnis in kort geding in de zaak van6
    vonnis in de hoofdzaak6
    vof vof gevestigd te vestigingsplaats6
    verzonden dd6
    college6
    bewijsmotivering6
    verzoekers6
    conclusie in het principale en incidentele cassatieberoep6
    verzoeker hierna te noemen verzoeker6
    curator6
    de minderjarige geboren op geboortedatum te geboorteplaats6
    verzoek tot uitlevering6
    door de rechtbank gebruikte bewijsmiddelen6
    bewijs en bewijsvoering6
    draagkracht van de vrouw6
    bevindingen6
    betrokkene feit6
    verweren van de verdediging6
    eigen schuld6
    eisende partij6
    eiser te woonplaats eiser6
    bespreking van middel op de zaak betrekking hebbende stukken6
    fed6
    vervolg van de procedure6
    feit parketnummer6
    verordeningen6
    bespreking van het bewijsverweer6
    feit primair poging tot doodslag6
    veroordeelt de verdachte tot een gevangenisstraf voor de duur van n jaar6
    feiten en het geschil6
    bespreking van de overige grieven6
    verloop van het onderzoek6
    geding in eerste aanleg zaakrolnr cha za6
    geding in eerste aanleg zaakrolnr ckg za6
    bespreking middel onafhankelijkheid en onpartijdigheid van de rechter6
    geding in eerste aanleg zaakrolnummer ckg za6
    verdere verloop van het geding in cassatie6
    gemeenschappelijk hof van justitie6
    gentimeerde sub wonende te woonplaats6
    geschil in conventie en reconventie6
    geschil in de hoofdzaak en in het incident6
    geschil in de vrijwaringszaak6
    beschikking van mei6
    vordering tot tenuitvoerlegging in de zaak met parketnummer6
    vaststaande feiten in beide zaken6
    grief i6
    identiteit veroordeelde6
    in elk geval zijnde telkens handelingen waarvan hij enof zijn mededaders6
    inboedel6
    incident tot tussenkomst subsidiair voeging6
    inkoopadministratie6
    beschikking op het op januari ingekomen verzoek van6
    inleidende beschouwing6
    vordering van de benadeelde partij bp bedrijf6
    inspecteur van de belastingdienstbelastingen kantoor te p verweerder6
    beschikking dd augustus6
    beroep op noodweerexces6
    inzake6
    beroep6
    berechtingsrapport6
    komen overeen dat6
    machtiging tot uithuisplaatsing in een accommodatie voor gesloten jeugdzorg6
    man6
    medeplegen en medeplichtigheid6
    tweede middelfaalt6
    tussenarrest van juni6
    tussenarrest van januari6
    vordering van de procureurgeneraal6
    bijlage i bij vonnis van september6
    middel van de benadeelde partij6
    totaal wederrechtelijk verkregen voordeel6
    behandeling van het geschil door het hof6
    minister van onderwijs cultuur en wetenschap verweerder6
    mishandeling terwijl het feit zwaar lichamelijk letsel ten gevolge heeft6
    motivering van de sancties6
    n6
    naamloze vennootschap sns bank nv gevestigd te utrecht6
    nadere feiten6
    naheffingsaanslag boetebeschikking bezwaar en geding in eerste aanleg6
    navorderingsaanslag beschikking bezwaar en geding in eerste aanleg6
    ntfr6
    awb nummers en namen eisers6
    aw6
    omvang van het geschil in hoger beroep6
    asielrelaas6
    onderlinge waarborgmaatschappij6
    vrijspraak van feit6
    vrijspraak van het onder ten laste gelegde6
    ten aanzien van de ontvankelijkheid6
    onrechtmatigheid ontruiming6
    onttrekking aan het verkeer van de inbeslaggenomen goederen te weten6
    waardering bewijs6
    ontvankelijkheid van het openbaar ministerie in de strafvervolging6
    ontvankelijkheid van het openbaar ministerie in zijn vervolging6
    ontvankelijkheid van het wrakingsverzoek6
    artikel belastingplicht6
    waarvan in hoger beroep moet worden uitgegaan6
    oordeel hof6
    article echr6
    oplegging van een maatregel6
    oplegging van maatregel6
    opmerking vooraf6
    strafbaarheid van de dader6
    overweging omtrent het bewijs6
    overweging van de rechtbank6
    poging tot doodslag meermalen gepleegd6
    stichting pensioenfonds metaal en techniek6
    stichting6
    proceskostenvergoeding6
    wettelijk kader en wetsgeschiedenis6
    processtukken6
    procesverbaal van de mondelinge uitspraak van de enkelvoudige kamer van oktober in de zaak tussen6
    analyse6
    procesverbaal van de mondelinge uitspraak van de voorzieningenrechter op6
    raadsman6
    reactie van de kantonrechter6
    wjm schram6
    als verklaring van betrokkene afgelegd op juni6
    rechtbank haarlem6
    rechtbank rechtdoende6
    rechtsmiddel tegen deze uitspraak kan binnen zes weken na de dag van verzending daarvan hoger beroep worden ingesteld bij de centrale raad van beroep6
    ww6
    afwijzing verlenging ondertoezichtstelling6
    recidivegevaar6
    redelijke termijn6
    regelgeving6
    samenstelling rechtbank en uitspraakdatum6
    schadevergoeding nabestaande6
    achtergrond van het geschil6
    standpunt van de moeder6
    x wonende te z eiser6
    achtergrond6
    aanslagen beschikkingen bezwaren en geding in eerste aanleg6
    schriftelijke ronde standpunten vorderingen schadevergoeding6
    aanslag bezwaar en beroep6
    situatie zonder ongeval6
    staatssecretaris van veiligheid en justitie verweerder6
    a hij in de periode van juli tot en met augustus inde boerderij adres te tripscompagnie ter uitvoering van het door verdachte voorgenomen misdrijf om tezamen en in vereniging met anderen met het oogmerk om zich enof een anderen wederrechtelijk te bevoordelen door geweld enof bedreiging met geweld een persoon genaamd benadeelde te dwingen tot de afgifte van geld met dat oogmerk tezamen en in vereniging met verdachtes mededaders6
    michael david ilhan van waveren6
    beslissing49530
    slotsom2423
    motivering van de beslissing820
    gronden van de beslissing694
    motivering van de beslissing in hoger beroep679
    beslissing op het hoger beroep221
    beslissing van de rechtbank198
    beslissing verlenging terbeschikkingstelling178
    geschil en de beslissing in eerste aanleg125
    beslissing inzake het bewijs93
    beslissing in kort geding56
    verdere motivering van de beslissing in hoger beroep53
    feiten het geschil en de beslissing in eerste aanleg49
    beslissingen49
    beoordeling van het geschil en de motivering van de beslissing46
    beslissing op de vordering van de benadeelde partij44
    beoordeling van het verzoek en de motivering van de beslissing41
    _EMPTY41
    bewijsbeslissingen39
    motivering van de beslissing na voorwaardelijke veroordeling37
    slotsom en proceskosten32
    motivering van de beslissing in het incident31
    vordering en de beslissing in eerste aanleg28
    beslissing het gerechtshof28
    slotsom en kosten25
    beslissing op het principale en het incidentele hoger beroep25
    geschil en de beslissing van de rechtbank24
    beslissing op de vordering van de benadeelde partij feit23
    beslissing voorwaardelijk einde verpleging van overheidswege18
    beslissing na voorwaardelijke veroordeling17
    beslissing in eerste aanleg17
    beslissing van de kantonrechter15
    beslissing in het incident15
    voortgezette motivering van de beslissing in hoger beroep12
    geschil en de beslissing van de voorzieningenrechter11
    beslissing van de voorzitter11
    vordering in eerste aanleg en de beslissing daarop10
    geschil en de beslissing van de kantonrechter10
    vorderingen en de beslissing in eerste aanleg10
    vordering en de beslissing daarop in eerste aanleg9
    beslissing in conventie en in reconventie9
    beslissing op de vordering van de benadeelde partij slachtoffer9
    slotsom en conclusie8
    beslissing met betrekking tot de voorlopige hechtenis8
    geschil in eerste aanleg en de beslissing van de voorzieningenrechter8
    gronden voor de beslissing8
    beslissing de rechtbank8
    bewijsbeslissing7
    verdere beoordeling van het geschil en de gronden van de beslissing7
    verdere motivering van de beslissing7
    beslissing in reconventie7
    bestreden beslissing op bezwaar7
    feiten het geschil en de motivering van de beslissing6
    beslissingen op de vorderingen van de benadeelde partijen6
    beslissingen in eerste aanleg6
    beslissing afwijzing vordering verlenging terbeschikkingstelling6
    vorderingen en de beslissingen in eerste aanleg6
    vorderingen in eerste aanleg en de beslissing daarop6
    overwegingen14304
    beoordeling13418
    beoordeling van het geschil2622
    beoordeling van het hoger beroep1655
    verdere beoordeling1563
    beoordeling van het bewijs1516
    beoordeling van het middel1375
    beoordeling van de middelen899
    gronden van het hoger beroep861
    motivering van de straffen en maatregelen768
    gronden695
    beoordeling van de ontvankelijkheid van het beroep in cassatie661
    strafmotivering577
    bewijsoverwegingen540
    motivering van de sancties409
    beoordeling van de klachten403
    beoordeling van het eerste middel370
    beoordeling van het tweede middel303
    beoordeling van het verzoek292
    beoordeling van het geschil in hoger beroep290
    motivering266
    beoordeling in het incident226
    bewijsmiddelen en de beoordeling daarvan204
    beoordeling van de ontvankelijkheid van het beroep200
    overwegingen ten aanzien van straf enof maatregel190
    ambtshalve beoordeling van de bestreden uitspraak178
    beoordeling in conventie176
    motivering van de sanctie159
    beoordeling in hoger beroep156
    motivering van de straf156
    bewijsmotivering153
    beoordeling in reconventie150
    beoordeling van het derde middel142
    beoordeling van de grieven127
    overwegingen van de rechtbank107
    verdere beoordeling van het hoger beroep107
    beoordeling van de vordering107
    geschil en de beoordeling daarvan100
    beoordeling van de ontvankelijkheid98
    beoordeling in conventie en in reconventie94
    beoordeling van de overige middelen90
    motivering van straf of maatregel89
    beoordeling van het middel in het principale beroep87
    verzoek en de gronden daarvan78
    beoordeling van de aanvraag76
    beoordeling in de hoofdzaak72
    beoordeling van de zaak71
    overwegingen ten aanzien van het bewijs64
    beoordeling van de middelen voor het overige62
    geschil en de beoordeling61
    beoordeling van het cassatieberoep57
    verdere beoordeling van het geschil56
    vordering en beoordeling in eerste aanleg55
    verzoek en de beoordeling53
    beoordeling van het vierde middel52
    motivering van de straffen48
    beoordeling van het eerste en het tweede middel46
    beoordeling van het beroep na verwijzing45
    beoordeling van het in het principale beroep voorgestelde middel43
    beoordeling door de rechtbank43
    motivering straf42
    beoordeling van het verzochte42
    motivering van de hoofdelijkheid41
    beoordeling van het wrakingsverzoek41
    rechtsoverwegingen40
    beoordeling van de klacht40
    beoordeling van de ontvankelijkheid van het verzoek tot herziening39
    beoordeling van het door de staatssecretaris voorgestelde middel38
    geschil en de beoordeling in eerste aanleg37
    overwegingen met betrekking tot het bewijs37
    verdere beoordeling in hoger beroep35
    overwegingen van de kantonrechter35
    motivering vrijspraak35
    beoordeling van het middel in het incidentele beroep34
    _EMPTY32
    beoordeling van de door belanghebbende voorgestelde middelen31
    beoordeling en de gronden daarvoor31
    nadere beoordeling30
    beoordeling van het vijfde middel28
    vorderingen en beoordeling in eerste aanleg27
    motivering van de straf en maatregel26
    feiten en achtergronden24
    beoordeling van het beklag24
    nadere bewijsoverwegingen23
    grieven en de beoordeling in hoger beroep23
    beoordeling van het principaal en incidenteel hoger beroep23
    nadere bewijsmotivering22
    beoordeling van het in het incidentele beroep voorgestelde middel22
    beoordeling van het incidentele beroep in cassatie22
    nadere beoordeling van het hoger beroep21
    geschil en beoordeling21
    motivering van de maatregel20
    beoordeling in conventie en reconventie20
    beoordeling in de incidenten19
    beoordeling van de verzoeken19
    gronden van het verzoek19
    vaststellingen en overwegingen19
    verdere beoordeling in conventie en in reconventie18
    beoordeling van de in het principale beroep voorgestelde middelen18
    motivering van de straf en maatregelen17
    vordering en de beoordeling in eerste aanleg16
    beoordeling van het principale en het incidentele hoger beroep16
    beoordeling van het verzet16
    beoordeling van het tweede en het derde middel16
    beoordeling van het beroep16
    standpunten van partijen en de beoordeling daarvan15
    beschouwing en beoordeling15
    verdere beoordeling van de zaak15
    beoordeling in voorwaardelijke reconventie15
    beoordeling van de grieven en de vordering14
    bijzondere overwegingen omtrent het bewijs14
    beoordeling van het namens de benadeelde partij voorgestelde middel14
    beoordeling in eerste aanleg14
    gronden van het verzet14
    op te leggen straf of maatregel en de gronden daarvoor14
    verzoek en de beoordeling daarvan14
    beoordeling van het eerste het tweede en het derde middel13
    beoordeling van het zesde middel13
    gronden van het wrakingsverzoek13
    beoordeling in conventie en in voorwaardelijke reconventie13
    beschouwing en beoordeling van de middelen12
    beoordeling van het zevende middel12
    beoordeling van het eerste namens de verdachte voorgestelde middel12
    beoordeling in de vrijwaringszaak11
    beoordeling van de geschillen11
    beoordeling in het incident tot verzet tegen de eiswijziging11
    beoordeling van de gronden van het verzet11
    beoordeling van het incident11
    beoordeling van het hoger beroep na verwijzing10
    uitgangspunten voor de beoordeling10
    beoordeling van de middelen in het principale beroep10
    beoordeling van het hoger beroep zaaknummer10
    beoordeling van het geschil vaststaande feiten10
    beoordeling van de standpunten10
    beoordeling van de in het incidentele beroep voorgestelde middelen10
    verdere beoordeling van het geschil in hoger beroep10
    beoordeling van het tweede namens de verdachte voorgestelde middel9
    beoordeling van de hoger beroepen9
    beoordeling van de middelen in het principale en in het incidentele beroep9
    motivering van de bewezenverklaring9
    verdere beoordeling vaststaande feiten9
    overwegingen van het hof9
    motivering van de maatregel onttrekking aan het verkeer9
    beoordeling van het door belanghebbende voorgestelde middel9
    vordering en beoordeling daarvan in eerste aanleg9
    beoordeling van het hoger beroep in de zaak met zaaknummer9
    beoordeling van het hoger beroep en het incidenteel hoger beroep9
    beoordeling van de namens de verdachte voorgestelde middelen9
    beoordeling van de incidentele vordering8
    verdere beoordeling van het middel8
    beoordeling van het tiende middel8
    beoordeling van het geschil in conventie en in reconventie8
    inhoudelijke beoordeling8
    beoordeling van het verzoek zaaknummer8
    beoordeling van het cassatiemiddel8
    beoordeling van het bezwaar8
    gronden van het wrakingsverzoek en het standpunt van verzoeker7
    beoordeling van de ten laste gelegde feiten7
    grieven en beoordeling in hoger beroep7
    beoordeling van de vorderingen7
    beoordeling van het hoger beroep en het incidentele hoger beroep7
    beoordeling van het geschil wijziging van eis7
    beoordeling rechtbank7
    beoordeling in beide zaken7
    beoordeling van het achtste middel7
    motivering van de straffen en maatregel7
    achtergronden van de zaak7
    beoordeling van het eerste het tweede het derde en het vierde middel7
    bewijsoverwegingen met betrekking tot zaaksdossier adres7
    verdere beoordeling in reconventie7
    motivering maatregel7
    bewijs en bewijsoverwegingen7
    beoordeling van het verzoek tot het vaststellen van een dwangakkoord7
    verdere beoordeling in de hoofdzaak7
    nadere beoordeling van het middel7
    gronden van wraking7
    beoordeling in het principaal en incidenteel appel6
    beoordeling van de geschillen in hoger beroep6
    tenlastelegging en motivering van de gegeven vrijspraak6
    beoordeling in het incident en in de hoofdzaak6
    beoordeling in het incident ex art rv6
    motivering van de verbeurdverklaring6
    bewijsoverwegingen ten aanzien van feit6
    inleidende overwegingen6
    beschouwing en beoordeling van het middel6
    beoordeling van het ten laste gelegde6
    overwegingen omtrent het geschil6
    beoordeling van het negende middel6
    algemene overwegingen in alle zaken6
    overwegingen en oordeel van het hof6
    algemene bewijsoverwegingen6
    beoordeling van de door de staatssecretaris voorgestelde middelen6
    beoordeling vaststaande feiten6
    procesverloop9511
    ontstaan en loop van het geding2384
    procesverloop in hoger beroep529
    procesgang489
    feiten en procesverloop250
    procesverloop in eerste aanleg en vaststaande feiten226
    feiten en het procesverloop121
    voorgeschiedenis en het procesverloop111
    verdere procesverloop98
    procesverloop en de processtukken93
    ontstaan en loop van de procedure45
    ontstaan en loop van de gedingen31
    verder procesverloop in hoger beroep19
    verdere procesverloop in hoger beroep16
    inleiding feiten en procesverloop10
    ontstaan en loop van het geding voor verwijzing6
    Fig 3. Frequency of normalized title patterns that occur more than 5 times in the corpus, for all types of section that Rechtspraak.nl divides documents in.

    From this figure, we learn that most of the section roles in use have a number of title strings that are used very often, but there is also a greatly diverse set of variations that occur less often. This figure encourages our use of CRFs: there are clearly identifiable patterns, but too many variations to list exhaustively.

    Figure 4 and Figure 5 list terms within section title elements by tf–idf score, which is a number that reflects how important a given term is in an element with respect to all other elements in the corpus.

    tf–idf is short for 'term frequency–inverse document frequency'. It represents the importance of a given word by taking the number of times that word occurs in the document, and offsetting it against the number of times that word occurs elsewhere in the corpus.

    tf–idf is defined as follows:

    tfidf(t,d,D)=tf(t,d)idf(t,D)\text{tfidf}(t, d, D) = \text{tf}(t, d)\cdot \text{idf}(t, D)Eq. 2.

    where

    • tf(t,d)\text{tf}(t,d) is some measure of the importance of a term tt in a given document dd. Let the raw frequency ft,df_{t,d} be the plain number of times the term tt in occurs in a given document dd. We use for tf(t,d)\text{tf}(t,d)the logarithmically scaled term count: tf(t,d)=1+logft,d\text{tf}(t,d) = 1 + \log{f_{t,d}}, or 00 if ft,d=0f_{t,d} = 0.
    • idf(t,D)\text{idf}(t, D) is some measure of how rare it is to find a term tt in a given document corpus DD. We obtain this measure by calculating the logarithmically scaled inverse fraction of documents in DD that contain the term tt. Let DD be the collection of documents, we then define the standard idf measure as:idf(t,D)=logD{dD:td}\text{idf}(t, D) = \log{\frac{|D|}{|\{d \in D:t \in d\}|}}Eq. 2.

Because we want to infer the most important words within title elements specifically, we take as DD the collection of all element types (paragraphs, titles, …), and compute the tf-idf score for each term with the title type. Some classes of words, such as articles and numbers, are treated as a single term.

termtf-idf score
1[NUMBER]393148.65393148.65393148.65
2[de|het|een]384454.94384454.94384454.94
3besliss285029.41285029.41285029.41
4beoordel173667.49173667.49173667.49
5van160068.17160068.17160068.17
6geding132553.37132553.37132553.37
7overweg114450.42114450.42114450.42
8feit94987.7694987.7694987.76
9in84479.6084479.6084479.60
10geschil83552.9583552.9583552.95
11beroep80581.0680581.0680581.06
12hoger78759.2378759.2378759.23
13procesverlop78414.2478414.2478414.24
14strafbar64106.4664106.4664106.46
15procedur60542.1660542.1660542.16
Fig 4. Top 15 tf-idf scores for stemmed words in section titles (DD is the collection element types and dd is 'section titles'). Stemming is performed using the Snowball algorithm for Dutch. '[NUMBER]' and '[de|het|een]' are special classes for numbers and grammatical articles (i.e. the Dutch equivalent of the articles 'the' and 'a').
beslissing
termtf-idf score
1besliss7.967.967.96
2[NUMBER]4.614.614.61
3[de|het|een]3.083.083.08
4van0.470.470.47
5slotsom0.370.370.37
6motiver0.270.270.27
7in0.210.210.21
8[PUNCTUATION]0.170.170.17
9beroep0.160.160.16
10hoger0.160.160.16
overwegingen
termtf-idf score
1[NUMBER]4.744.744.74
2[de|het|een]4.634.634.63
3beoordel4.584.584.58
4van2.542.542.54
5overweg2.202.202.20
6beroep0.690.690.69
7middel0.590.590.59
8hoger0.500.500.50
9geschil0.500.500.50
10in0.440.440.44
procesverloop
termtf-idf score
1procesverlop1.641.641.64
2[NUMBER]0.720.720.72
3[de|het|een]0.640.640.64
4en0.490.490.49
5van0.380.380.38
6ontstan0.370.370.37
7lop0.370.370.37
8geding0.360.360.36
9in0.130.130.13
10feit0.090.090.09
Fig 5. Top 10 tf-idf scores for stemmed words in section titles, per section role. Stemming is performed using the Snowball algorithm for Dutch. '[NUMBER]', '[PUNCTUATION]' and '[de|het|een]' are special classes for numbers, punctation, and grammatical articles (the Dutch equivalent of the articles 'the' and 'a').

We observe, not very surprisingly, that numbers and articles are top terms for section titles. Furthermore, we notice that most terms in a section title are semantically related to the section role.

XML Schema

Regrettably, Rechtspraak.nl does not offer an XML schema. This makes it more difficult to create programs that work with the XML data, because we don't know exactly which elements we can expect in the XML documents. In the absence of an official schema, we have created a makeshift XML schema that was automatically generated from a random sample of 500 documents. The resulting schema was manually corrected afterwards.

Using this schema, we can utilize a technology called JAXB to automatically marshall and demarshall Rechtspraak.nl XML documents to and from Java objects. Source code and schema are available on Github.

Importing

Regarding importing, we have created a separate library for mirroring the Rechtspraak.nl corpus from the web service to a CouchDB database. We mirror the data set in order to facilitate the collection of statistics of case law documents used in this thesis through MapReduce computations. Source code for this project is available on GitHub.

Tokenizing

Regarding tokenization, we need to do some forward thinking in order to determine how to split XML texts from Rechtspraak.nl. We assume a text to be decomposable into a list of tokens, which correspond to the terminal nodes in a section hierarchy. We use the following four terminal types in our section hierarchy:

  1. numbering, for numbering in a section heading
  2. title text, for text in a section heading
  3. text block, for running text outside of a section heading
  4. newline, for newlines

The selection of token types is rather arbitrary. These types were inspired by the existing XML tags of Rechtspraak.nl, and what is useful for creating a section structure. One may, of course, invent any other token type to suits one's needs.

We should obviously tokenize the source documents to tokens that might be labeled with any of the above token types. In this regard, newlines are trivial to detect, and we assume that Rechtspraak.nl has already done the job of splitting text blocks in para tags, which roughly demarcate titles and text blocks, but numberings often appear within these text nodes unannotated. So in our tokenization algorithm, we assume that numberings occur as the beginning of a text block and represent Arabic or Roman numerals or an alphabetic numbering. In this manner, we tokenize potential numberings.

One complication with creating a list of tokens is that Rechtspraak.nl delivers an XML tree, which is potentially more rich than the linear list that we reduce the document to. Indeed, it often happens that multiple para tags are wrapped in a paragroup tag, which sometimes represents a coherent set of paragraphs. On the other hand, sometimes the specified paragraph grouping makes no sense. Classifying a tree structure of tokens instead of a linear list can be done efficiently with CRFs, as in Bradley & Guestrin (, pp. 127‑134), but working with tree structures requires a much more complicated pipeline. So for simplicity we ignore most of those 'higher-level' tags, at the cost of potentially losing semantic markup.

To summarize: our tokenization algorithm returns a linear sequence of tokens, which serves as input for our tagging operation. It is possible that we lose some information in the tokenization process, although this is avoidable in theory.

In the next chapter, we explore how to tag a list of text elements with the four target labels introduced above.

Tagging Elements

Introduction

In the previous chapter, we developed a way to import Rechtspraak.nl XML documents and distill them into a list of text elements, or tokens. In this chapter, we consider how to label these tokens with any of four labels:

  1. numbering, for numbering in a section heading
  2. title text, for text in a section heading
  3. text block, for running text outside of a section heading
  4. newline, for newlines

Even as a human reader, it can be hard to distinguish what should properly be called a section, and so what is a section heading. This means that there is some subjectivity involved in tagging. Consider, for example, a numbered enumeration of facts which might either be considered a list or a section sequence. For our purposes, we call a 'section' any semantic grouping of text that is headed by a title or a number, inspired by the HTML5 definition of section:

A section is a thematic grouping of content. The theme of each section should be identified, typically by including a heading (h1-h6 element) as a child of the section element.

Labeling a string of tokens is a task that has been widely covered in literature, mostly in the application of part-of-speech tagging in natural language. Popular methods include graphical models, which model the probability distributions of labels and observations occurring together. These include Hidden Markov Models (HMMs) and the closely related Linear-Chain Conditional Random Fields (LC-CRFs).

In this chapter, we experiment with CRFs for labeling the tokens, and we compare the results to a hand-written deterministic tagger that utilizes features that are largely the same as those used by the CRF models. It turns out that both approaches score around 1.0 on all labels except section titles. For section titles, CRFs significantly outperform the hand-written tagger in terms of recall, while trading in some precision. For section titles, the hand-written tagger has a precision of 0.96 and recall of 0.74; the trained CRFs of 0.91 and 0.91, respectively.

Methods

For the purpose of tagging, we use a class of statistical classifiers called Conditional Random Fields (CRFs). We use this technique because CRFs tend to have state-of-the-art performance in sequenced pattern recognition tasks, such as DNA/RNA sequencing (Lafferty et al. (, pp. 282‑289)), shallow parsing (Sha & Pereira (, pp. 134‑141)) and named entity recognition (Burr (, pp. 104‑107)).

Features

Based on the metrics and observations on the data set from the previous chapter, we define about 250 binary features for our automatic tagger. The most prominent ones include:

  • word count (text block contains 1, 2, 3, 4, 5—10 or more than 10 words)
  • whether the token is preceded or followed by any of a number of features, such as numberings or inline text
  • whether the token contains bracketed text
  • whether the token matches a known title (similar titles are consolidated into regular expressions)

The full set of features can be accessed from the Features class in the source code.

We use these features in a probabilistic tagger for which we train a CRF model. We now introduce the class of CRF models, and conclude the chapter with experimental results and a short discussion.

Conditional Random Fields

Conditional Random Fields (CRFs) are a class of statistical modelling methods that were first introduced in Freitag et al. (, pp. 591‑598) as a non-generative (i.e., discriminative) alternative to Hidden Markov Models (HMMs). This means that instead of modeling the joint probability p(x,y)p(\mathbf x,\mathbf y) of the observation vector x\mathbf x and label vector y\mathbf y occurring together, we model the conditional probability p(yx)p(\mathbf y|\mathbf x) of labels given the observations. CRFs do not explicitly model p(x)p(\mathbf x), just p(yx)p(\mathbf y|\mathbf x), and so we can use a very rich set of features x\mathbf x and still have a tractable model. As such, CRFs can model a complex interdependence of observation variables, and are therefore popular in pattern recognition tasks.

Diagram of the relationship between naive Bayes, logistic regression, HMMs, linear-chain CRFs, generative models, and general CRFs
Fig 6. Diagram of the relationship between naive Bayes, logistic regression, HMMs, linear-chain CRFs, Bayesian models, and general CRFs. Image adapted from McCallum & Sutton (, pp. 93‑128). For the conditional models, the white nodes are conditioned on the grey nodes. Depending on the application, white nodes are called dependent variables (in logistic regression), hidden variables (in HMMs), output variables or labels (in HMMs and CRFs). Likewise, the grey nodes are called explanatory variables (in logistic regression), observed variables, input variables or observations (in HMMs and CRFs). We stick to the terminology of 'labels', and 'observations', since those terms seem closest to our application.

As illustrated in Figure 6, CRFs can be understood as a graphical version of logistic regression, in which we have an arbitrary number of labels y\mathbf y that are conditioned on a number of observations x\mathbf x (instead of just one label conditioned on a number of observations as in logisitic regression).

In this thesis, we limit ourselves to a subclass of CRFs called linear-chain Conditional Random Fields (LC-CRFs or linear-chain CRFs), which is topologically very similar to HMMs: both model a probability distribution along a chain of labels, where each label is also connected to a single observation.

To emphasize: in our experiments, we consider an input document as a string of tokens which corresponds to a string of observations vectors, and each token is linked to a label with a value of either title, nr, text or newline.

Because of the freedom that CRFs permit for the observation vectors, CRFs tend to have many features: Klinger et al. (, pp. 185‑191) even reports millions of features.

This abundance of features likely explains that CRFs have state-of-the-art performance on NLP tasks such as part-of-speech tagging, since this kind of performance appears to depend on extensive feature engineering. As a downside, it is more likely that a model overfits to a particular corpus, and so suffers in portability with respect to other corpora. Consider Finkel et al. (, pp. 88‑91). In our case, overfitting is likely not a problem because we train explicitly for one corpus, and do not aspire to full language abstraction.

In the following, we provide a definition of Linear-Chain Conditional Random Fields, supported first by an introductory section on Directed Graphical Models, and specifically the conceptually simpler Hidden Markov Models. For a more thorough tutorial into CRFs, including skip-chain CRFs, one may refer to McCallum & Sutton (, pp. 93‑128).

Directed Graphical Models

Directed Graphical Models (or Bayesian Networks) are statistical models that model some probability distribution over variables vv in a set VV which take values from a set V\mathcal{V}. Loosely speaking, Directed Graphical Models can be represented as a directed graph GG where nodes represent the variables vVv \in V, and the edges represent dependencies. Directed graphical models factorize as follows:p(V)=vVp(vπ(v))p(V)=\prod _{v\in V}p(v|\pi(v))Eq. 3.where π(v)\pi(v) are the parents of node vv in graph GG.

The class of Hidden Markov Models (HMMs) is one instance of directed models. HMMs have a linear sequences of observations x={xt}t=1T\mathbf x=\{x_t\}_{t=1}^T and a linear sequence of labels y={yt}t=1T\mathbf y=\{y_t\}_{t=1}^T (in HMM parlance, 'hidden states'), which are assignments of random vectors XX and YY respectively, and V=XYV = X\cup Y. In HMMs, the observations x={xt}t=1T\mathbf x=\{x_t\}_{t=1}^T are assumed to be generated by the labels. One example of an application would be speech recognition, in which samples of the sound waves can be seen as observations and the actual phonemes as the labels.

To assure computational tractability, HMMs make use of the Markov assumption, which is that:

  1. any label yty_t only depends on yt1y_{t-1}, where the initial probability p(y1)p(y_{1}) is given
  2. any observation xtx_t only depends on the label yty_t; the observation xtx_t is generated by label yty_t.

A HMM then factorizes as follows:p(x,y)=t=1Tp(xt)p(yt)=t=1Tp(xtyt)p(ytyt1)p\left (\mathbf x,\mathbf y \right )= \prod _{t=1}^T p(x_t)p(y_t) = \prod _{t=1}^T p(x_t|y_t)p(y_t|y_{t-1})Eq. 3.

If we return to the representation of HMMs in Figure 6, we see that the white nodes represent labels and the grey nodes represent the observations. Typically, observations are given and the labels need to be inferred. This is done from a given HMM by looping over all assignment vectors yY\mathbf y\in Y and selecting yY\mathbf y^*\in Y with the highest likelihood.

To find a model with plausible values of p(xtyt)p(x_t|y_t) and p(ytyt1)p(y_t|y_{t-1}), we typically perform a parameter estimation method such as the Baum-Welch algorithm on a set of pre-tagged observation-label sequences (Lucke (, pp. 2746‑2756)). This is called training the model.

The procedures for inference and parameter estimation for HMMs are very similar to those for LC-CRFs and are explain in more depth in the section on LC-CRFs.

Undirected Graphical Models

Undirected Graphical Models are similar to directed graphical models, except we the underlying graph is an undirected graph. This means that Undirected Graphical Models factorize in a slightly different manner:p(x,y)=1ZAΦA(xA,yA)p( \mathbf x, \mathbf y)=\frac{1}{Z}\prod _A \Phi_A( \mathbf x_A,\mathbf y_A)Eq. 3.where Z=x,y(AΦA(xA,yA))Z=\sum _{\mathbf x, \mathbf y} ( \prod _A \Phi_A( \mathbf x_A,\mathbf y_A))Eq. 3.

and

  • AA is the set of all cliques in the underlying graph
  • x\mathbf x and y\mathbf y denote an assignment to XX and YY, respectively, and so xA\mathbf x_A and yA\mathbf y_A denote only those assignments of variables in AA
  • we consider V=XYV = X\cup Y the union of a set of observation variables XX (for example, word features) and a set of label variables YY (for example, part-of-speech tags).

Intuitively, p(x,y)p( \mathbf x, \mathbf y) describes the joint probability of observation and label vectors in terms of some set of functions F={ΦA}F = \{ \Phi_A\}, collectively known as the factors. The normalization term ZZ ensures that the probability function ranges between 00 and 11: it sums every possible value of the multiplied factors. In general, ΦAF\Phi_A \in F can be any function with parameters taken from the set of observation and label variables AVA \subset V to a positive real number, i.e. ΦA:A R+\Phi_A:A\rightarrow\ \mathbb{R}^+, but we will use these factors simply to multiply feature values by some weight constant. Individually the functions ΦAF\Phi_A \in F are known as local functions or compatibility functions.

It is important to note that FF is specific to the modeling application. Our choice of factors is what distinguishes models from each other; they are the functions that determine the probability of a given input to have a certain output.

ZZ is called the partition function, because it normalizes the function pp to ensure that x,yp(x,y)\sum_{\mathbf x,\mathbf y} p(\mathbf x,\mathbf y) sums to 11. In general, computing ZZ is intractable, because we need to sum over all possible assignments x\mathbf x of observation vectors and all possible assignments y\mathbf y of label vectors. However, efficient methods to estimate ZZ exist.

The factorization of the function for p(x,y)p(\mathbf x,\mathbf y) can be represented as a graph, called a factor graph, which is illustrated in Figure 7.

Factor graphs are bipartite graphs G=(V,F,E)G=(V,F,E) that link variable nodes vsVv_s\in V to function nodes ΦAF\Phi_A\in F through edge evsΦAe^{\Phi_A}_{v_s} iff vsarg(ΦA)v_s\in \mathbf{arg} ( \Phi_A ). The graph thus allows us to graphically represent how the variables interact with local functions to generate a probability distribution.

Illustration of a factor graph. The set V represents all variable nodes; the set F represents all function nodes.
Fig 7. Illustration of a factor graph. The set V represents all variable nodes; the set F represents all function nodes.
Generative-Discriminative Pairs

We define generative models as directed models in which all label variables yYy \in Y are parents of the observation variables xXx\in X. This name is due to the labels "generating" the observations: the labels are the contingencies upon which the probability of the output depends.

When we describe the probability distribution p(yx)p( \mathbf y|\mathbf x), we speak of a discriminative model. Every generative model has a discriminative counterpart. In the words of Ng & Jordan (, pp. 841), we call these generative-discriminative pairs. Training a generative model to maximize p(yx)p(\mathbf y|\mathbf x) yields the same model as training its discriminative counterpart. Conversely, training a discriminative model to maximize the joint probability p(x,y)p(\mathbf x,\mathbf y) (instead of p(yx)p(\mathbf y|\mathbf x)) results in the same model as training the generative counterpart.

It turns out that when we model a conditional distribution, we have more parameter freedom for p(y)p(\mathbf y), because we are not interested in parameter values for p(x)p( \mathbf x). Modeling p(yx)p( \mathbf y|\mathbf x) unburdens us of having to model the potentially very complicated inter-dependencies of p(x)p(\mathbf x). In classification tasks, this means that we are better able to use observations, and so discriminative models tend to outperform generative models in practice.

One generative-discriminative pair is formed by Hidden Markov Models (HMMs) and Linear-Chain CRFs, and the latter is introduced in the next section. For a thorough explanation of the principle of generative-discriminative pairs, see Ng & Jordan (, pp. 841).

Linear-Chain Conditional Random Fields

On the surface, linear-chain CRFs (LC-CRFs) look much like Hidden Markov Models: LC-CRFs also model a sequence of observations along a sequence of labels. As explained earlier, the difference between HMMs and Linear-Chain CRFs is that instead of modeling the joint probability p(x,y)p(\mathbf x,\mathbf y), we model the conditional probability p(yx)p(\mathbf y|\mathbf x).

This is a fundamental difference: we don't assume that the labels generate observations, but rather that the observations provide support for the probability of labels. This means that the elements of xx do not need to be conditionally independent, and so we can encode much richer observation patterns.

We define a linear-chain Conditional Random Field as follows:

Let

  • X,YX, Y be random vectors taking values from V\mathcal{V}, and V=XYV = X\cup Y
  • F={Φ1,Φk}F=\{\Phi_1, \ldots\Phi_k\} be a set of local functions from variables (observation and labels) to the real numbers: V R+V \rightarrow\ \mathbb{R}^+.

Each local function Φk(xt,yt,yt1)=λkfk(xt,yt,yt1)\Phi_{k}(x_t,y_t,y_{t-1}) = \lambda_{k} f_{k}(x_t,y_{t},y_{t-1}) where

  • xtx_t and yty_t be elements of x\mathbf x and y\mathbf y respectively, i.e., xtx_t is the current observation and yty_t is the current label, and yt1y_{t-1} is the previous label, with some null value for y0y_0.
  • F={fk(y,y,x)}\mathcal F=\{f_k(y, y', x)\} be a set of feature functions that give a real-valued score given a current label, the previous label and the current observation. These functions are defined by the CRF designer.
  • Λ={λk}RK\Lambda=\{\lambda_k\} \in \mathbb{R}^K be a vector of weight parameters that give a measure of how important a given feature function is. The values of these parameters are found by training the CRF.

For notational ease, we may shorten Φk(xt,yt,yt1)\Phi_{k}(x_t,y_t,y_{t-1}) as Φk,t\Phi_{k,t}.

We then define the un-normalized CRF distribution as:p^(x,y)=t=1Tk=1KΦk(xt,yt,yt1)\hat{p}(\mathbf x, \mathbf y)=\prod_{t=1}^T\prod_{k=1}^K\Phi_k(x_t, y_t, y_{t-1})Eq. 3.

Recall from our introduction on undirected graphical models that we need a normalizing constant to ensure that our probability distribution adds up to 11. We are interested in representing p(yx)p(\mathbf y|\mathbf x), so we use a normalization function that assumes x\mathbf x is given and sums over every possible string of labels y\mathbf{y}, i.e.:Z(x)=yp^(x,y)Z(\mathbf x)=\sum_{\mathbf{y}}\hat{p}(\mathbf x, \mathbf y)Eq. 3.and sop(yx)=1Z(x)p^(x,y)=1Z(x)t=1Tk=1Kλkfk(xt,yt,yt1)p(\mathbf y|\mathbf x)= \frac{1}{Z(\mathbf x)}\hat{p}(\mathbf x, \mathbf y) = \frac{1}{Z(\mathbf x)}\prod_{t=1}^T\prod_{k=1}^{K} \lambda_k f_k(x_t, y_t, y_{t-1})Eq. 3.

When we recall that the product of exponents equals the logarithm of their sum, we can re-write p(yx)p(\mathbf y|\mathbf x) as

p(yx)=exp{t=1Tk=1Kλkfk(xt,yt,yt1)}yexp{t=1Tk=1Kλkfk(xt,yt,yt1)}p(\mathbf y|\mathbf x) = \frac{\exp\left \{\sum_{t=1}^T\sum_{k=1}^{K} \lambda_k f_k(x_t, y_t, y_{t-1})\right \}}{\sum_{\mathbf y'}\exp\left \{\sum_{t=1}^T\sum_{k=1}^{K} \lambda_k f_k(x_t, y_{t}', y'_{t-1})\right \}}Eq. 3.

This is the canonical form of Conditional Random Fields.

McCallum & Sutton (, pp. 93‑128) show that a logistic regression model is a simple CRF, and also that rewriting the probability distribution p(x,y)p(\mathbf x,\mathbf y) of an HMM yields a Conditional Random Field with a particular choice of feature functions.

Parameter Estimation

As discussed in the previous section, we obtain parameters Λ\Lambda by training our CRF on a pre-labeled training set of pairs D={xi,yi}i=1N\mathcal D=\{\mathbf{x}^{i},\mathbf{y}^{i}\}_{i=1}^N where each ii indexes an example instance: xi={x1i,x2i,,xTi}\mathbf{x}^{i}=\{x^{i}_1, x^{i}_2, \cdots, x^{i}_T\} is a set of observation vectors, and yi={y1i,y2i,,yTi}\mathbf{y}^{i}=\{y^{i}_1, y^{i}_2, \cdots, y^{i}_T\} is a set of labels for instance length TT.

The training process will maximize some likelihood function (Λ)\ell(\Lambda). We are modeling a conditional distribution, so it makes sense to use the conditional log likelihood function:

(Λ)=i=1Nlogp(yixi)\ell(\Lambda)=\sum_{i=1}^N \log{p(\mathbf y^{i}|\mathbf x^{i}})Eq. 3.

Where pp is the CRF distribution as in Eq. 3.8:

(Λ)=i=1Nlogexp{t=1Tk=1Kλkfk(yti,yt1i,xti)}yexp{t=1Tk=1Kλkfk(yt,yt1,xti)}\ell(\Lambda) = \sum_{i=1}^N\log{\frac{\exp\left \{\sum_{t=1}^T\sum_{k=1}^{K} \lambda_k f_k(y^i_t, y^i_{t-1}, x^i_t)\right \}}{\sum_{\mathbf y'}\exp\left \{\sum_{t=1}^T\sum_{k=1}^{K} \lambda_k f_k(y^i_{t}', y'_{t-1}, x^i_t)\right \}}}Eq. 3.

Simplifying, we have:

(Λ)=i=1Nt=1Tk=1Kλkfk(yti,yt1i,xti)i=1NlogZ(xi)\ell(\Lambda) = \sum_{i=1}^N\sum_{t=1}^T\sum_{k=1}^K \lambda_kf_k(y^i_t,y^i_{t-1},x^i_t)-\sum_{i=1}^N\log{Z(\mathbf x^i})Eq. 3.

Because it is generally intractable to find the exact parameters Λ\Lambda that maximize the log likelihood function \ell, we use a hill-climbing algorithm. The general idea of hill-climbing algorithms is to start out with some random assignment to the parameters Λ\Lambda, and estimate the parameters that maximize \ell by iteratively moving along the gradient toward the global maximum. We find the direction to move in by taking the derivative of \ell with respect to Λ\Lambda:

λk=i=1Nt=1Tfk(yti,yt1i,xti)i=1Nt=1Ty,yfk(y,y,xti)p(y,yxi)\frac{\partial\ell}{\partial\lambda_k} = \sum_{i=1}^N\sum_{t=1}^Tf_k(y_t^i,y_{t-1}^i,x_t^i) -\sum_{i=1}^N\sum_{t=1}^T\sum_{\mathbf y,\mathbf y'}f_k(y,y,x_t^i) p(y,y'|\mathbf x^i)Eq. 3.

And then update parameter λk\lambda_k along this gradient:

λk:=λk+αλk\lambda_k := \lambda_k + \alpha \frac{\partial\ell}{\partial\lambda_k}Eq. 3.

Where α\alpha is some learning rate between 00 and 11.

Thanks to the fact that the distribution p(yixi)p(\mathbf{y}^{i}|\mathbf{x}^{i}) is concave, the function (Λ)\ell(\Lambda) is also concave. This ensures that any local optimum will be a global optimum.

In our experiment, we use the Limited-memory Broyden–Fletcher–Goldfarb–Shannon algorithm (LM-BFGS), which approximates Newton's Method (see eg. Nocedal (, pp. 773‑782)). This algorithm is optimized for the memory-constrained conditions in real-world computers and also converges much faster than a naive implementation because it works on the second derivative of \ell.

The algorithmic complexity of the LM-BFGS algorithm is O(TM2NG)O(TM^2NG), where TT is the length of the longest training instance, MM is the number of possible labels, NN in the number of training instances, and GG is the number of gradient computations. The number of gradient computations can be set to a fixed number, or is otherwise unknown. It is however guaranteed to converge within finite time, because of the concavity of \ell.

Regularization

To avoid overfitting, a penalty term can be added to the log likelihood function. This is called regularization, and L2 regularization is one often used version. In this work, we do not worry about overfitting to the corpus, so do not include a regularization term. Still, it is relevant review briefly.

L2 regularization is put in contrast with the closely related L1 regularization. L1 regularization is meant for dealing with truly sparse inputs, and in practice rarely performs better than L2 (van den Doel et al. (, pp. 181‑203)).

The log likelihood function with L2 regularization is the same as that of Eq. 3.11, but with theterm k=1Kλk22σ2-\sum_{k=1}^K\frac{\lambda_{k}^2}{2\sigma^2} added:

(Λ)=i=1Nt=1Tk=1Kλkfk(yti,yt1i,xti)i=1NlogZ(xi)k=1Kλk22σ2\ell(\Lambda) = \sum_{i=1}^N\sum_{t=1}^T\sum_{k=1}^K \lambda_kf_k(y^i_t,y^i_{t-1},x^i_t)-\sum_{i=1}^N\log{Z(x^i)} - \sum_{k=1}^K\frac{\lambda_{k}^2}{2\sigma^2}Eq. 3.

Where σ\sigma is the regularization parameter, which signifies how much we wish to simplify the model.

Intuitively, the regularization term can be understood as a penalty on the complexity of (Λ)\ell(\Lambda), i.e. a term that makes the function more smooth and the resulting model sparser.

Inference

Given a trained CRF and an observation vector x\mathbf x, we wish to compute the most likely label sequence y\mathbf y^*, i.e. y=argmaxyp(yx)\mathbf y^* = \text{argmax}_{\mathbf y}p(\mathbf y|\mathbf x). This label sequence is known as the Viterbi sequence. Thanks to the structure of linear-chain CRFs, we can efficiently compute the Viterbi sequence through a dynamic programming algorithm called the Viterbi algorithm, which is very similar to the forward-backward algorithm.

Substituting the canonical CRF representation of p(yx)p(\mathbf y|\mathbf x), we get:

y=argmaxy1Z(x)t=1Tk=1KΦk,t\mathbf y^*=\text{argmax}_{\mathbf y}\frac{1}{Z(\mathbf x)}\prod_{t=1}^T\prod_{k=1}^{K} \Phi_{k,t}Eq. 3.

We can leave out the normalization factor 1Z(x)\frac{1}{Z(\mathbf x)}, because argmax\text{argmax} will be the same with or without:

y=argmaxyt=1Tk=1KΦk,t\mathbf y^* = \text{argmax}_{\mathbf y}\prod_{t=1}^T\prod_{k=1}^{K} \Phi_{k,t}Eq. 3.

Note that to find y\mathbf y^*, we need to iterate over each possible assignment to the label vector y\mathbf y, which would implicate that computed naively, we need an algorithm of O(MT)O(M^T), where MM is the number of possible labels, and TT is the length of the instance to label. Luckily, linear-chain CRFs fulfil the optimal substructure property which means that we can memoize optimal sub-results and avoid making the same calculation many times, making the algorithm an example of dynamic programming. We calculate the optimal path score δt(j)\delta_t(j) at time tt ending with jj recursively for Φt=k=1KΦk,t\Phi_t = \prod_{k=1}^{K} \Phi_{k,t}:

δt(j)=maxiΦt(xt,j,i)δt1(i)\delta_t(j) = \max_{i}\Phi_t(x_t, j, i)\cdot \delta_{t-1}(i)Eq. 3.

where the base case

δ1(j)=Φ1(x1,j,y0)\delta_1(j) = \Phi_1(x_1, j, y_0)Eq. 3.

We store the results in a table. We find the optimal sequence y\mathbf y^* by maximizing δt(j)\delta_t(j) at the end of the sequence, t=Tt = T:

yT=argmaxyTδT(yT)y^*_T = \text{argmax}_{y_T}\delta_T(y_T)Eq. 3.

And then count back from T1T-1 to 11:

yt=argmaxjΦt(xt+1,yt+1,j)δt(j)y^*_t = \text{argmax}_{j}\Phi_{t}(x_{t+1},y_{t+1}^*,j)\delta_t(j)Eq. 3.

This gives us the best label yty_t^* for each tt, and so y\mathbf y^*.

Using this trick, we reduce the computational complexity of finding the Viterbi path to O(M2T)O(M^2 T).

Results

To compare the performance of CRFs, we also define a deterministic classifier which serves as a baseline performance. The tagger uses many of the same features that we use for training the CRFs. These features are used in rules such as 'if it looks like a known title, assign it to title' and 'if it looks like a number and is congruent with previous numbers, assign it to nr'.

For assessing the performance of our trained CRFs, we compare three conditions:

  1. The deterministic tagger as a baseline
  2. One CRF trained on 100 documents that are randomly selected and manually annotated
  3. One CRF trained on 100 documents that are randomly selected and manually annotated, but with all newline tokens omitted

We include the newline condition because including newlines could either positively or negatively affect performance. On the one hand, newlines carry semantic information: the author thought it appropriate to demarcate something with whitespace. But on the other hand, they might obscure information about the previous label. Consider a numbering, followed by a newline, followed by a section title. Our CRFs only consider one previous label, so the relationship between the numbering and the title might not be represented well. We see in Figure 8 that including newline tokens performs slightly better than not including newlines.

F-scores

We measure classifier performance with the often-used F1 and F0.5 scores. Fβ-scores are composite metrics that combine the precision and recall of a classifier, where

  • precision=true positivestrue positives+false positives\text{precision}=\frac{|\text{true positives}|}{|\text{true positives}|+|\text{false positives}|}, i.e. the fraction of true positives out of all positives
  • recall=true positivestrue positives+false negative\text{recall}=\frac{|\text{true positives}|}{|\text{true positives}|+|\text{false negative}|}, i.e. the fraction of true positives out of all relevant elements

We define the general Fβ-measure as:

Fβ=(1+β2)precisionrecall(β2precision)+recallF_\beta = (1+\beta^2)\cdot\frac{\text{precision}\cdot\text{recall}}{(\beta^2\cdot\text{precision})+\text{recall}}Eq. 3.

Where βR\beta\in\mathbb{R} is a number that represents the number of times we place the importance of the recall metric above that of precision. For β=1\beta = 1, precision is equally as important as recall, and so F1F_1 describes the harmonic mean of precision and recall (F1=2precisionrecallprecision+recallF_1 = 2\cdot\frac{\text{precision}\cdot\text{recall}}{\text{precision}+\text{recall}}). For β=0.5\beta = 0.5, precision is twice as important as recall. We argue that in the case of section titles, precision is more important than recall. The reasoning is that in case of a false negative, we do not lose any information because the title is likely seen as a text node (it is very improbable that it is falsely flagged as a newline or numbering). However, in the case of a false positive for section titles we create false information, which is very undesirable. Precisely how much more important we deem precision to recall is subjective.

Results

For all tokens except for section titles, all models yield F-scores between 0.98 and 1.0. (See the confusion matrix in Figure 9.) Section titles are harder to label, so in Figure 8, we consider the F-score for these.

F-scores for tagging section titles

F1 scoresF0.5 scores0.00.10.20.30.40.50.60.70.80.91.0undefined, Deterministic tagger (baseline) (0.8355263157894737)undefined, CRF trained on manually annotated (with newlines) (0.9122807017543859)undefined, CRF trained on manually annotated (no newlines) (0.91156462585034)undefined, Deterministic tagger (baseline) (0.9032716927453769)undefined, CRF trained on manually annotated (with newlines) (0.9122807017543858)undefined, CRF trained on manually annotated (no newlines) (0.9099728366317423)Deterministic tagger (baseline)CRF trained on manually annotated (with newlines)CRF trained on manually annotated (no newlines)Data source
Fig 8. F1 scores and F0.5 scores for different training conditions of Conditional Random Fields.

We see that the CRFs outperform the baseline task mostly by increasing the recall, although the CRFs have slightly worse precision (0.91 for CRFs contra 0.96 for hand-written).

Deterministic tagger (baseline)
Confusion Matrix
Predicted
NEWLINENRSECTION_TITLETEXT_BLOCK
NEWLINE
Actual
3557000
NR01593010
SECTION_TITLE00381132
TEXT_BLOCK00185417
F-scores
TypePrecisionRecallF1-scoreF0.5-score
NEWLINE1.001.001.001.00
NR1.000.991.001.00
SECTION_TITLE0.950.740.840.90
TEXT_BLOCK0.971.000.990.98
CRF trained on manually annotated (with newlines)
Confusion Matrix
Predicted
NEWLINENRSECTION_TITLETEXT_BLOCK
NEWLINE
Actual
3557000
NR0160300
SECTION_TITLE0046845
TEXT_BLOCK00455390
F-scores
TypePrecisionRecallF1-scoreF0.5-score
NEWLINE1.001.001.001.00
NR1.001.001.001.00
SECTION_TITLE0.910.910.910.91
TEXT_BLOCK0.990.990.990.99
CRF trained on manually annotated (no newlines)
Confusion Matrix
Predicted
NRSECTION_TITLETEXT_BLOCK
NR
Actual
160300
SECTION_TITLE046944
TEXT_BLOCK0475388
F-scores
TypePrecisionRecallF1-scoreF0.5-score
NR1.001.001.001.00
SECTION_TITLE0.910.910.910.91
TEXT_BLOCK0.990.990.990.99
Fig 9.Confusion matrices for the three test conditions.

Discussion

Taking a closer look at faulty labels, we observe that most errors are snippets of text that contain only a noun phrase. Because of the sometimes very staccato paragraphs in case law, it is easy to imagine how the CRF might confuse text blocks and titles. it can be hard even for humans to distinguish section titles and running text. Still, the CRF is not currently tuned to target problematic cases, and doing so is likely to be a fruitful way to improve classifier performance.

Inferring a Section Hierarchy

Introduction

After we have labeled a sequence of text elements, we wish to infer the section hierarchy. That is: we need to invent some procedure of creating a tree structure in which these tagged text elements are the leaf nodes, and may be children of 'section' nodes. This problem is very much akin to constituency parsing for natural languages, and that is why we approach the problem as parsing a token sequence with a Probabilistic Context-Free Grammar (PCFG).

In this chapter, we introduce PCFGs and the Cocke–Younger–Kasami algorithm (CYK), a deterministic algorithm for finding the best parse tree in quadratic space and time. We conclude with an evaluation of the results.

Methods

Probabilistic Context-Free Grammars

Context-Free Grammars (CFGs) are grammars where each rule is of the form

AαA \rightarrow \alphaEq. 4.

where AA is a single non-terminal symbol and α\alpha is any string of terminals and non-terminals, including the empty string ϵ\epsilon.

A Probabilistic Context-Free Grammar (PCFG) is then a Context-Free Grammar in which each rule has a probability assigned to it. A derivation of a sequence with a PCFG has a probability score attached to it, which is the product of the probabilities of all of the applied rules.

In our discussions, we assume probability scores to be real numbers between 00 and 11, with the common operations of multiplication and addition, but in implementation we use the Log semiring to avoid arithmetic underflow.

CFGs are said to be in Chomsky Normal Form (CNF) if all rules are of the following form:

ABCA\rightarrow B CEq. 4.AtA\rightarrow tEq. 4.

Where AA, BB and CC are non-terminal types, and tt is a terminal type. In the following, we use an extension of CNF with unary rules. In this extension, tt is either a terminal or non-terminal type.

A lot of work has been done in parsing (P)CFGs in applications of natural language processing and parsing programming languages. More recently, PCFGs have been used for other applications such as modeling RNA structures, as in Sakakibara et al. (, pp. 5112‑5120).

Listing 1 shows a simplified version of the grammar that we use to create the section hierarchy.

Terminal rules
Texttext\text{Text} \rightarrow \text{text}1.01.0
Textnewline\text{Text} \rightarrow \text{newline}1.01.0
Numberingnumbering\text{Numbering} \rightarrow \text{numbering}1.01.0
TitleTextsection-title\text{TitleText} \rightarrow \text{section-title}1.01.0
Non-terminal rules
DocumentHeader DocumentContent\text{Document} \rightarrow \text{Header DocumentContent}1.01.0
DocumentDocumentContent\text{Document} \rightarrow \text{DocumentContent}1.01.0
DocumentContentSections\text{DocumentContent} \rightarrow \text{Sections}1.01.0
DocumentContentText Sections\text{DocumentContent} \rightarrow \text{Text Sections}0.80.8
DocumentContentSections Text\text{DocumentContent} \rightarrow \text{Sections Text}0.80.8
DocumentContentText Sections Text\text{DocumentContent} \rightarrow \text{Text Sections Text}0.80.8
TextText Text\text{Text} \rightarrow \text{Text Text}1.01.0
SectionsSections Sections\text{Sections} \rightarrow \text{Sections Sections}0.4+{0.6if numberings in sequence0otherwise0.4 + \begin{cases}0.6&\text{if numberings in sequence}\\0&\text{otherwise}\end{cases}
SectionsSection\text{Sections} \rightarrow \text{Section}1.01.0
SectionsSection Text\text{Sections} \rightarrow \text{Section Text}0.90.9
SectionsText Section\text{Sections} \rightarrow \text{Text Section}0.80.8
SectionSectionTitle SectionContent\text{Section} \rightarrow \text{SectionTitle SectionContent}1.01.0
SectionTitleNumbering\text{SectionTitle} \rightarrow \text{Numbering}1.01.0
SectionTitleTitleText\text{SectionTitle} \rightarrow \text{TitleText}1.01.0
SectionTitleNumbering TitleText\text{SectionTitle} \rightarrow \text{Numbering TitleText}1.01.0
SectionContentText\text{SectionContent} \rightarrow \text{Text}1.01.0
SectionContentSections\text{SectionContent} \rightarrow \text{Sections}1.01.0
SectionContentSectionContent SectionContent\text{SectionContent} \rightarrow \text{SectionContent SectionContent}1.01.0
Listing 1. Simplified grammar for creating section hierarchy in CNF with unary rules.

CYK Algorithm

The Cocke–Younger–Kasami (CYK) algorithm is an algorithm for parsing Context-Free Grammars that was separately discovered by Kasami (), Younger (, pp. 189‑208) and Cocke (). The algorithm has time complexity of Θ(n3G)\Theta (n^3\cdot \left | G \right |), where nn is the length of the input string and G\left | G \right | is the size of the grammar.

The standard version of the CYK algorithm is defined for ordinary context free grammars that are given in Chomsky normal form (CNF), but is easy to extend to include support for probabilistic and unary rules as well, as we do in this section. Note that any CFG may be transformed into an equivalent grammar in Chomsky normal form, and this also holds for probabilistic CFGs (Huang & Fu (, pp. 201‑224)). Also note that converting a grammar to CNF is not without cost: the increase in grammar size is O(G2)\mathrm O (\left | G \right |^2) for the best algorithm. The increase is linear if we use a variation of the CYK algorithm that works on grammars in binary normal form (2NF): see Lange and Leiß (, pp. 2008‑2010).

The CYK algorithm is a bottom-up parsing algorithm. The standard algorithm considers every substring from length 11 to nn, and keeps a list of all possible types for those substrings, along with their probabilities.

For substrings of length 11 (individual words), we use the terminal rules in the grammar. For substrings of length l>1l>1 (word sequences), we apply the production rules to every possible combination of two substrings of length l1l-1. This works, because CNF mandates that all production rules have 2 non-terminals. Every time we apply a rule, we multiply the probability attached to that rule and the probabilities of the constituent substrings.

In addition to binary production rules, we also allow unary rules in our grammar of the form AB\text A \rightarrow \text B, where A\text A and B\text B are both non-terminals. Extension of the algorithm is simple: after ordinary type assignment for substrings, we add those types to the list that result from applicable unary rules, if they produce a non-terminal that does not yet exist in the table with at least as much probability. We repeat until the cell does not change anymore.

A visual example of the result table can be found in Figure 10.

  1. N (20%)
  2. V (60%)
  3. NP (14%)
  4. VP (6%)
  5. S (0.6%)
fish
  1. NP (0.49%)
  2. VP (10.5%)
  3. S (1.05%)
  1. NP (0.0069%)
  2. VP (0.147%)
  3. S (0.09%)
  1. VP (0.002%)
  2. NP (0.00001%)
  3. S (0.019%)
  1. N (50%)
  2. V (10%)
  3. NP (35%)
  4. VP (1%)
  5. S (0.1%)
people
  1. NP (0.49%)
  2. VP (0.7%)
  3. S (1.89%)
  1. NP (0.007%)
  2. VP (0.010%)
  3. S (1.323%)
  1. N (20%)
  2. V (60%)
  3. NP (14%)
  4. VP (6%)
  5. S (0.6%)
fish
  1. NP (0.196%)
  2. VP (4.2%)
  3. S (0.42%)
  1. N (20%)
  2. V (30%)
  3. NP (14%)
  4. VP (3%)
  5. S (0.3%)
tanks
Fig 10. An example parse chart for the sentence "fish people fish tanks", based on the grammar in Listing 2. The constituents that make up the resulting parse to S are underlined. The top of the triangle represents the substring 11 to 44, i.e. the entire sentence. We can derive S by combining the substring from 11 to 22 (fish people) and the substring from 33 to 44 (fish tanks) using the rule S → NP VP.
SNP VP\text{S} \rightarrow \text{NP VP}0.90.9
SVP\text{S} \rightarrow \text{VP}0.10.1
VPV NP\text{VP} \rightarrow \text{V NP}0.50.5
VPV\text{VP} \rightarrow \text{V}0.10.1
NPNP NP\text{NP} \rightarrow \text{NP NP}0.10.1
NPN\text{NP} \rightarrow \text{N}0.70.7
Nfish\text{N} \rightarrow \text{fish}0.20.2
Npeople\text{N} \rightarrow \text{people}0.50.5
Ntanks\text{N} \rightarrow \text{tanks}0.20.2
Vpeople\text{V} \rightarrow \text{people}0.10.1
Vfish\text{V} \rightarrow \text{fish}0.60.6
Vtanks\text{V} \rightarrow \text{tanks}0.30.3
Listing 2. Simple natural language grammar for putting noun phrases (NP\text{NP}) and verb phrases (VP\text{VP}) together to create a sentence (S\text S).

Results

PARSEVAL

Evaluating performance on a parse tree is not as straightforward as it is for classification. Like in the previous chapter, we evaluate our grammar using an F-score, but notions of precision and recall are harder to define for constituency trees. To evaluate the parser, we use a metric known as PARSEVAL (due to Abney et al. (, pp. 306‑311)) with labeled precision and labeled recall as in Collins (, pp. 16‑23).

In this metric, precision and recall are defined as follows:

  • Precision is the fraction of correct constituents out of the total number of constituents in the candidate parse
  • Recall is the fraction of correct constituents out of the total number of constituents in the correct parse

Where 'correct constituent' means that each non-terminal node has the same label and the same yield, and yield is the ordered list of leaf nodes of a parse tree.

Results

Over a set of 10 random documents, we report an average F1-score of 0.92 and F1-score of 0.93 (precision 0.93; recall 0.92).

Delving deeper into problematic parses, we see that there are a number of recurring types of errors that our parsing grammar makes. Firstly, it often occurs that subsections are not preceded by a full numbering. For example, consider a section numbering sequence such as the following:

1.
2.
3.1
3.2

Our grammar assumes that section 3.1 is a subsection of section 2, since section 2 is the first preceding supersection to 3.1. However, this not the desired result. The desired result would be to wrap the 3.X subsections in a section that represents section 3, even though there is no explicit numbering for section 3. This could be achieved with an extension to the section grammar.

Another issue is that the grammar has difficulty in deciding whether non-numbered sections should be subsections or not. Indeed, this can be difficult to determine based purely on typography.

Discussion

Although we report promising results, there is room for improvement of the parser.

One way to improve parse quality is to incorporate more domain-specific knowledge in the grammar. For example, sections with titles like 'OVERWEGINGEN' (considerations) and 'CONCLUSIE' (conclusion) almost always appear as the first level of sectioning.

Another possibility to improve the grammar is for the grammar to recognize different 'modes': section siblings often share a typography that is internally consistent within a document, but not among documents. For example: in one document all sections are bold and capitalized, sub-sections are italic and sub-sub-sections are underlined, and another document might have no formatting at all.

Owing to the brittleness of the current grammar, we might benefit from implementing a Conditional Probabilistic Context-Free Grammar (Conditional PCFG), as introduced in McCallum & Sutton (). Conditional PCFGs are similar to Conditional Random Fields in that we describe a conditional model instead of a generative one (so the probability distribution P(yx)P(\mathbf y|\mathbf x) instead of P(x,y)P(\mathbf x,\mathbf y)), and this allows us to use a large feature set.

Another possibility is to implement a probabilistic version of the Earley parsing algorithm. The Earley algorithm is a more top-down parser which easily allows to intervene during parsing when some unexpected input is encountered. The Earley parser has a worst-case complexity of O(n3)O(n^3), but parses unambiguous grammars in O(n2)O(n^2) and left-recursive grammars in O(n)O(n), and so can be faster than CYK. In our experiments, CYK starts to become noticeably slow for documents with more than 500 tokens, even after optimizing the algorithm for resource re-use and parallellizing calculation of the table cells.

Conclusion

We have successfully demonstrated a method to assign a section hierarchy to documents of Dutch court judgments.

We have described a procedure to assign types to document elements of either title, nr, newline or text block using Conditional Random Fields, reporting an F1 score of 0.91 and F0.5 score of 0.91.

We have also reviewed a procedure to organize those elements into a section hierarchy using Probabilistic Context-Free Grammars, reporting an F1 score of 0.92.

Whether these results are good enough to be used in practice depends on one's tolerance to inaccuracies. As discussed, we rather miss opportunities to enrich data rather than to produce false information, so a low recall is preferable to low precision. The scores obtained for the classifier and parser are promising, but the procedures are not optimized extensively to the corpus, and may be improved to perform within a 5% error margin. In any case, mislabelings do not distort the text in such a way to render it illegible, so we can be somewhat forgiving of errors.

Dissemination

We present an enriched set of XML documents in a CouchDB database, available at http://rechtspraak.cloudant.com/docs/. We also provide the enriched data set as a collection of HTML pages, indexed for full-text search.

The main source code for this project is published as two separate Java libraries:

  • One library for importing and enriching documents from Rechtspraak.nl, on GitHub
  • One library for mirroring the Rechtspraak.nl corpus to a CouchDB database, on GitHub

The above Java projects make use of a number of general purpose libraries that have been created during the course of writing this thesis:

  • A Java library for converting XML to JSON, on GitHub
  • A Probabilistic Earley Parser for Java, on GitHub