Onderzoekers van MIT CSAIL hebben PDDL-INSTRUCT ontwikkeld, een raamwerk voor het afstemmen van instructies dat is ontworpen om de meerstapsplanningsmogelijkheden van grote taalmodellen (LLM’s) te verbeteren. De methode combineert een logische gedachtegang met een externe planvalidator om het genereren van logisch geldige plannen op basis van plausibele maar onjuiste resultaten te vergroten.
Het raamwerk traint modellen om te herkennen en uit te leggen waarom een kandidaatplan heeft gefaald. Deze mislukkingen kunnen bestaan uit ontevreden randvoorwaarden, onjuiste effecten, schendingen van het kader of een onvervuld doel. Dit proces gaat gepaard met logische gedachtegangen die de LLM begeleiden om stapsgewijze gevolgtrekkingen uit te voeren over status- en actie-overgangen. Dit levert traceerbare reeksen van staat → actie → staat op, geschreven als ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.
Voor externe validatie integreert PDDL-INSTRUCT de VAL-planvalidator, die elke stap van het gegenereerde plan controleert. De validator geeft feedback die binair (geldig/ongeldig) of gedetailleerd is, waarbij de gedetailleerde feedback resulteert in superieure prestaties. Het systeem maakt gebruik van een optimalisatieproces in twee fasen. De eerste fase bestraft fouten in de redeneerketens, en de tweede fase optimaliseert de uiteindelijke nauwkeurigheid van de planning.
Het systeem werd geëvalueerd met behulp van de PlanBench-benchmark, die planningsdomeinen omvat waarvan bekend is dat ze LLM’s uitdagen, zoals Blocksworld, Mystery Blocksworld en Logistics. In het Blocksworld-domein behaalde een afgestemd Llama-3-8B-model een percentage van 94% bij het genereren van geldige plannen. Eerdere modellen hadden bijna geen geldigheid op Mystery Blocksworld, een domein waar predicaatnamen onduidelijk zijn om patroonmatching te voorkomen. PDDL-INSTRUCT bereikte een tot 64-voudige verbetering op dit gebied.
Ook in het domein Logistiek werden aanzienlijke prestatiewinsten geboekt. In alle testdomeinen leverde het raamwerk een absolute verbetering van 66% op vergeleken met niet-afgestemde basismodellen. Onderzoekers merkten ook op dat de prestaties verbeterden met langere feedbackbudgetten en meer gedetailleerde output van de validator.
De huidige implementatie van PDDL-INSTRUCT is van toepassing op klassieke PDDL-domeinen en is afhankelijk van de VAL-validator als extern orakel. De resultaten laten een methode zien om LLM-redenering te baseren op formele semantiek voor gebruik in agentsystemen die tijdens de planning een verificateur kunnen bevatten. Het uitbreiden van het raamwerk om planningstaken met een lange horizon, temporele, numerieke en kostengevoelige planningstaken uit te voeren blijft een gebied voor verder werk.








