Geschiedenis Amazon-Casus

Ferdinand de Saussure In 1928 schreven de twee onderwijzers Rijpma en Schuringa "de Nederlandse Spraakkunst", een schoolgrammatica voor het Nederlands die gebaseerd was op het structuralisme van Ferdinand de Saussure. Deze grammatica was erg populair in de eerste helft van de 20e eeuw.

Jan van Bakel In 1968 bewerkte de taalkundige Jan van Bakel de grammatica Rijpma & Schuringa volgens modernere inzichten. Daarbij rees de vraag, in hoeverre de strakke structuralistische modellering van Rijpma en Schuringa het standaardnederlands kon beschrijven. Als een van de eerste computerlinguïsten in Nederland vatte Van Bakel het plan op om deze onderzoeksvraag te beantwoorden door te proberen de Rijpma & Schuringa-grammatica te automatiseren. Daartoe schreef hij een interactief computerprogramma dat Nederlandse zinnen of delen daaruit kon ontleden tot een Rijpma & Schuringa-analyse. Dit programma heette Amazon, dat staat voor AutoMAtische ZinsONtleding. Het was geschreven in Spitbol (een dialect van de programmeertaal Snobol4) en het draaide op de mainframe computer van de KU Nijmegen, onder het operating system MVS/TSO.

In de loop van de jaren 70 werd Amazon verder ontwikkeld door Van Bakel en studenten Computerlinguïstiek (zie Van Bakel 1975 voor een uitgebreide bespreking van de eerste Amazon-versie). Eind jaren 70 kwam Van Bakel tot de conclusie dat de onderzoeksvraag positief beantwoord kon worden. Amazon was in principe in staat om vrijwel elke Nederlandse zin te analyseren. Daarmee was het onderzoek aan Amazon niet afgelopen. Door de interactieve behandeling van ambiguïteit en de mindere prestaties op het gebied van de analysesnelheid was het programma niet geschikt voor de analyse van grote hoeveelheden tekst. Bovendien leverde Amazon slechts de woordgroepen, zonder een verdere specificatie over betekenis of functie (zoals onderwerp of lijdend voorwerp). Vandaar dat eind jaren 70 twee nieuwe initiatieven ontstonden.

systeem 1980
Rond 1980 werd een programma toegevoegd aan Amazon dat de constituentenstructuur, die de uitvoer van Amazon was, om kon zetten naar een dependentiestructuur. Dit is het programma Casus. Zie de figuur rechts. Het programma was gebaseerd op de ideeën van Charles Fillmore's 'The Case for Case'. Het analyseerde de zin als een structuur van semantische kernen met dependente Casusfuncties in termen van Agens, Object, Instrument, etc. Ook het programma Casus was een Spitbolprogramma, maar het was niet interactief. Op basis van een externe specificatie van Casusfuncties en volgorde transformeerde het de Amazonstructuur naar één of meer dependentiestructuren. Ambiguïteit werd niet langer interactief behandeld, maar volledig uitgesplitst.

Een tweede initiatief in aansluiting op het Amazononderzoek ontstond in 1983, toen doctoraalstudente Jenny Cals in een doctoraalscriptie een poging ondernam om de Amazongrammatica uit te drukken in een formele grammatica. De gedachte was dat de formele grammatica automatisch kon worden omgezet in een efficiënte parser. Daarvoor werd contact gezocht met de afdeling Informatica van de KU, waar men onderzoek deed naar parser-generatoren voor twee-niveaugrammatica's. Helaas waren parsergeneratoren voor dergelijke grammatica's nog niet ontwikkeld, maar wel hadden de informatici de beschikking over parsergeneratoren voor contextvrije grammatica's. Deze omstandigheid gaf aanleiding voor een volgende onderzoeksvraag: was de Amazonparser uit te drukken in een contextvrije grammatica? Het doctoraalonderzoek van Jenny Cals beantwoordde die vraag positief. In 1983 zag de eerste contextvrije Amazongrammatica het licht. Een parsergenerator geschreven door dr. Hans Meijer van de afdeling Informatica converteerde de grammatica naar een parser die van een gegeven zin alle analyses volgens de Amazongrammatica kon opleveren.

Nog was daarmee de Amazonontwikkeling niet beëindigd. De parser leverde in sommige gevallen wel erg veel analyses op, en de analysetijden maakten het instrument nog steeds ongeschikt om grote hoeveelheden ruwe tekst te parseren. In de loop van de volgende twintig jaar werden er diverse aanpassingen aan het systeem toegevoegd, en werd de grammatica zelfs een aantal malen from scratch herschreven. De belangrijkste Amazonontwikkelingen zijn de volgende:

  1. In 1982 werd Amazon opgesplitst in twee afzonderlijke delen: een lexicaal gedeelte Amamorph en een grammaticaal gedeelte Amazon. Amamorph deed een morfologische analyse om woordsoorten toe te kennen. Later werd Amamorph vervangen door een lexicon met alle woordvormen erin. Dat lexicon werd uiteindelijk geïntegreerd in de grammatica.
  2. In 1985 werd Amazon geschreven als een twee-niveaugrammatica, met een eindige metagrammatica voor het tweede niveau. Deze twee-niveaugrammatica kon daardoor automatisch geëxpandeerd ("opgeblazen") worden tot een contextvrije grammatica. Dit gebeurde door een Spitbolprogramma, BLOWUP geheten.
  3. In 1987 werd de grammatica van de werkwoordelijke groep, een van de kern-subgrammatica's in Amazon, ingrijpend gewijzigd.
  4. In 1994 herschreef doctoraalstudent Erik Oltmans de Amazongrammatica tot een AGFL (Affix-) grammatica, met als speciale doel de behandeling van alle structurele ambiguïteiten (zoals de aanhechting van PP's, de nevenschikking, etc.). Al deze structurele ambiguïteiten werden verwijderd door Amazon te dwingen steeds één alternatief te kiezen. De gedachte was dat latere modules deze bronnen van ambiguïteit structureel konden herkennen en eventueel alsnog konden herstellen.
  5. In 1997 herschreef Assistent in Opleiding Simon van Dreumel andermaal de Amazongrammatica tot een netwerk van subgrammatica's met geïntegreerde documentatie. Deze grammatica vormt nog steeds de basis voor de huidige versie.

Ook het Casusprogramma onderging een aantal ontwikkelingen:

  1. In 1987 werd Casus herschreven tot een transformationele grammatica (TG). Deze werd geïnterpreteerd en uitgevoerd door een vertaler-interpreter, GRAMTSY geheten (later vervangen door zijn opvolger TREMA). De Casus-TG, samen met de interpreter, verving het oude Spitbolprogramma. Zie de figuur beneden.

  2. huidig systeem
  3. In 1988 werd de Casus-TG vervangen door een grammatica die niet langer de Amazonstructuur transformeerde tot een dependentiestructuur, maar juist de Amazonstructuur intact liet, en deze alleen verrijkte (met functionele labels, lege knopen, spoor-antecedentrelaties).
  4. In 1997 werd de Casus-TG herschreven tot een netwerk van subgrammatica's met geïntegreerde documentatie. Deze grammatica vormt de basis voor de huidige versie.