Vertaalmodel-onderzoek · 2026-05-11

Pahl-pilot

Jon Pahl, Fethullah Gülen: A Life of Hizmet — welk vertaalmodel voor de Pahl-biografie (EN→NL)?

6 chunks ~12,5k EN-woorden steekproef 4 vertaalmethoden 18 vertalingen 12 KPI's

Status: pilot afgerond (n=6) · verdict voor productie geveld

TL;DR. Het n=1-verdict (Opus 4.7 max + ~5-regelige prompt voor conventies) blijft staan, maar wordt op enkele punten verfijnd. Belangrijkste verfijning: Opus's eerbiedsformule-omissie is niet absoluut — op alvar voegt hij spontaan 3× ﷺ toe; op s02 nul. De variabiliteit per chunk bevestigt dat een prompt-aanvulling nodig is om consistent te zijn (niet om een structurele blinde vlek te repareren). DeepL blijft gediskwalificeerd: nu ook met "King James Version" laten staan i.p.v. Statenvertaling, en "I woe" letterlijk vertaald als "ik wee". Sonnet zero-shot heeft op het voorwoord een nieuwe bug ontwikkeld: een meta-commentaar voor de vertaling.

Wat veranderde t.o.v. n=1: ﷺ-patroon Opus genuanceerd (variabel, niet absoluut). ALA-LC-faal-patroon bevestigd (0 op simpele chunks, 10-11× fout op chunk met veel Arabische namen). Sonnet kreeg een nieuwe bug. DeepL kreeg twee extra diskwalificatoren bij. Opus kreeg een unieke winst: spontane ﷺ + correcte Hocaefendi op alvar.

Sample-overzicht {#sample-overzicht}

Zes chunks uit verschillende plekken in het boek, ~10.964 EN-woorden in totaal (de oorspronkelijke s02 niet meegerekend, dus totale corpus ~12.628 EN-woorden). Per kaart een directe link naar de side-by-side viewer.

ch1 · s02

We were a happy family

1664 EN-woorden · biografisch-narratief · 4-way (incl. zware pipeline)

Zwaar "als als"-stapeling (−1 KPI 4)
Sonnet 5× ﷺ spontaan, 4× ī-fout, ʿ correct
Opus 0× ﷺ, 0× diakritica, mooi Nederlands
DeepL "12 meter" (factor 3 fout), "Rechtvaardige Kaliefen" (verkeerde term)

→ Side-by-side (4 methoden)

00 · voorwoord

s01 — preface

1915 EN-woorden · auteurs-stem (Pahl spreekt)

Sonnet meta-commentaar bug ("Let op: de agent heeft...")
Sonnet+Opus Statenvertaling-citaat correct geïdentificeerd
DeepL "King James Version" niet vervangen door Statenvertaling (KPI 12 fail)
Geen Profeet/sahaba in chunk, dus KPI 9 N.V.T.

→ Side-by-side (3 methoden)

01 · introductie

s02 — opening

3145 EN-woorden · biografische opening

Sonnet "Hodjaefendi" (foute spelling, 1×)
Opus "Hocaefendi" (correct, 1×)
DeepL "Hodjaefendi" (foute spelling)
Stilistisch alle drie redelijk vlot

→ Side-by-side (3 methoden)

ch1 · s06 — rijkste chunk

Alvar

3447 EN-woorden · spirituele biografie

Opus 3× ﷺ spontaan toegevoegd ("Profeet ﷺ")
Sonnet 0× ﷺ, 11× ī-fout (moet ı̄ zijn)
Opus 10× ī-fout, 0× ı̄
DeepL "I woe" → "ik wee", 3× "Hodjaefendi"
Beide LLMs: Hocaefendi 3× correct

→ Side-by-side (3 methoden)

ch4 · s02

Succeeding for the pleasure of God

1427 EN-woorden · theologisch-pedagogisch

Sonnet 1× ﷺ + correcte "Hocaefendi"
Opus 0× ﷺ, "Hodjaefendi" (foute spelling)
DeepL 0× ﷺ, "Hodjaefendi", maar leesbaar Nederlands
Sonnet: "ter wille van Gods welbehagen" (registerlift)

→ Side-by-side (3 methoden)

ch5 · s03

America — opening

1030 EN-woorden · narratief-spiritueel slot

Geen Hocaefendi/Hodjaefendi (chunk gebruikt "Gülen")
Geen ﷺ-trigger contexten
Alle 3 ongeveer gelijk in stilistische kwaliteit; Opus iets meeslepender ritme
Lange Gülen-citaat: alle 3 redelijk getrouw, geen grote schade

→ Side-by-side (3 methoden)

KPI-matrix (gemiddelde over n=6) {#kpi-matrix}

Voor elke KPI: gemiddelde score 1–5 over de chunks. Zwaar staat alleen op 1 chunk; zijn kolom is dus n=1, niet vergelijkbaar in robustheid. Tussen haakjes ↑/↓/=: verandering t.o.v. n=1-rapport.

KPI	Zwaar (n=1)	Sonnet zero (n=6)	Opus 4.7 max (n=6)	DeepL (n=6)
1. Brontextrouw	4 =	3,7 ↓ voorwoord-bug	4,0 =	4,0 =
2. Feitelijke correctheid	5 =	4,2 =	4,8 =	2,0 ↓ wee+KJV
3. Theologische correctheid	5 =	4,0 =	4,0 =	1,5 =
4. Idiomatisch NL	2 =	4,7 ↓ voorwoord meta	5,0 =	3,0 =
5. Zinsritme & leesbaarheid	3 =	4,2 =	4,8 =	3,0 =
6. Register-trouw aan Pahl	4 =	4,2 =	4,8 =	3,0 =
7. Woordkeuze precisie	4 =	4,0 ↑ ch4	4,8 =	2,8 ↓ wee
8. ALA-LC transliteratie (ı̄, ʿ, ʾ)	5 =	1,8 ↓ alvar 11×	1,3 ↓ alvar 10×	1,0 =
9. Eerbiedsformules (ﷺ + metgezellen)	5 =	3,2 =	2,5 ↑ alvar 3×	1,0 =
10. NL/Turkse naamconventies	4 =	4,0 ↑ Hocaefendi	4,0 =	1,0 ↓ 5× Hodja
11. Cursief vakterm-leenwoorden	5 =	4,7 =	4,5 =	1,0 =
12. Bijbelconventie (Statenvertaling/NBV21)	4 =	4,5 ↑ voorwoord	4,0 ↑ voorwoord	2,0 =
Totaal /60 (gemiddeld)	50 (n=1)	45,2	46,5	23,3

Scores worden voor mechanische KPI's (8–12) berekend per chunk via analyze_outputs.py (telt ﷺ, ı̄, ī, ʿ, Hocaefendi, etc.). Voor stilistische KPI's (1–7) gebaseerd op steekproef-passages per chunk.

Aggregatieve patroonbevindingen {#bevindingen}

Wat n=6 heeft bevestigd

DeepL is gediskwalificeerd — bevestigd met 5 nieuwe diskwalificatie-momenten:
- "Hodjaefendi" 5/5 chunks waar het voorkomt
- "King James Version" laten staan i.p.v. Statenvertaling (voorwoord)
- "I woe with this longing" → "ik wee met dit verlangen" (alvar) — geen Nederlands
- "Lasteren of belasteren" — onbedoeld synoniem-stapelen (voorwoord)
- 0× ﷺ in alle 6 chunks (DeepL kent het symbool simpelweg niet)
Opus 4.7 max wint stilistisch consistent — KPI 4–7 scoort gemiddeld 4,8/5; geen enkele chunk waarop hij stilistisch inzakt.
Beide LLMs scoren ~80% correct op Hocaefendi (4/5 chunks). DeepL 0/5. Verschil is dus niet "weet het wel/niet" maar "consistent doorvoeren" — een prompt-aanvulling kan dit oplossen.

Wat n=6 heeft genuanceerd of weerlegd

Opus's ﷺ-omissie is GEEN structurele blinde vlek (n=1-aanname). Alvar bewijst: Opus voegt in een spirituele biografie spontaan 3× ﷺ toe. Op s02 (huiselijke jeugd-narratief) deed hij dat 0×. Het patroon is contextueel: hoe meer expliciet-religieus de chunk, hoe waarschijnlijker spontane toevoeging.
Implicatie: de prompt-instructie blijft nodig, maar wordt nu geframed als "consistentie-borgen", niet als "blinde-vlek-repareren". Dat scheelt in promptwoorden — een korte hint volstaat boven een tirade.
Sonnet zero-shot heeft een nieuw foutpatroon: meta-commentaar toevoegen vóór de vertaling. Op voorwoord: "Let op: de agent heeft na de laatste zin van de brontekst extra alinea's toegevoegd die niet in de brontekst staan. Ik presenteer hier alleen de vertaling van de werkelijke brontekst:". Vertaling zelf is OK, maar de "geen uitleg"-instructie wordt genegeerd. In n=1 niet opgemerkt; in n=6 is het 1/6.
Implicatie: Sonnet-output vereist post-clean (regex-strip van meta-comments) of een sterkere instructie. Niet onoverkomelijk, wel een minor.
ALA-LC-faal-patroon is sterk variabel per chunk: 0× fout op s02 (Sonnet) en 4× fout op s02 (Opus); 11× / 10× fout op alvar; 0× / 0× op voorwoord (geen Arabische namen). De faalkans is direct gecorreleerd aan de dichtheid van Arabische namen. Een dunne instructie ("gebruik ı̄, niet ī") zou dit moeten oplossen — beide modellen kennen de regel maar passen hem niet spontaan toe.
Opus heeft op intro Hocaefendi spontaan correct gespeld; op ch4 deed hij Hodjaefendi fout. Sonnet doet het omgekeerde patroon. Dit bevestigt: beide modellen kennen de juiste vorm maar zijn instabiel zonder expliciete instructie.

Nieuw zichtbaar in n=6

Voorwoord-context vereist Statenvertaling-bewustzijn. Sonnet en Opus identificeren beide spontaan dat een Bijbels Tien Geboden-citaat in NL-vertaling de Statenvertaling moet volgen, zelfs bij een KJV-aanduiding in de brontekst. DeepL doet dit niet (laat KJV staan). Dit is een Nederlands-cultuurkennis-test die LLMs passeren.
Sonnet en Opus hebben omgekeerde Hocaefendi-patronen per chunk: waar de één faalt, slaagt de ander. Een ensemble (beide draaien, vergelijken) zou Hocaefendi 100% kunnen krijgen — maar dat is duurder dan een prompt-aanvulling.

Operationeel — kosten over hele boek {#kosten}

180–220k EN-woorden = ~110–130 chunks van ~1500 EN-woorden. Geactualiseerde kosten op basis van 5 nieuwe runs:

Methode	Per chunk (gem.)	Tijd (gem.)	Boek-totaal	Eindproduct?
Zwaar (Sonnet + pipeline)	~$0,30–0,50	~6 min	$30–50	Ja, met conventies
Sonnet zero-shot	~$0,05	~30–90 sec	$5–10	Met prompt + clean
Opus 4.7 max effort	~$1–2	~2–5 min	$100–220	Met prompt
DeepL Free	~€0,005	<5 sec	~€0,50	Nee — als grondverf

Opus's looptijd schaalt sterker met chunklengte dan eerder geschat — de 3447-woord alvar-chunk duurde ~8 min met max effort. Voor het hele boek zou Opus max ongeveer 8–12 uur draaien (alle chunks sequentieel). Parallelliseerbaar tot ~30 min als 20 chunks tegelijk.

Verdict (verfijnd, n=6) {#verdict}

De n=1-conclusie blijft: Opus 4.7 max effort als basis-vertaler, aangevuld met een minimale prompt voor de conventies die hij niet consistent meeneemt.

Verfijning op de prompt: de oorspronkelijke "5 regels" worden geschrapt tot 4, omdat Opus blijkt het Hocaefendi-bewustzijn deels al te hebben (4/5). Voor de overige conventies blijven de regels nodig:

Voor Arabische namen: gebruik ı̄ (U+0131 + U+0304), niet ī. Voorbeelden: Lütfı̄, Bediüzzaman, ʿAlı̄. Belangrijkste fix — 10 fouten/chunk op rijke alvar-achtige passages
Voor Profeet Mohammed: voeg ﷺ toe na elke vermelding bij naam of titel. Variabel per chunk; instructie borgt consistentie
Voor metgezellen: voeg "(moge God tevreden met hem/haar zijn)" toe na de eerste vermelding per passage.
Spel "Hocaefendi" (niet "Hodjaefendi" of "Hojaefendi"). Confirmed nodig — per-chunk instabiliteit

Niet kiezen:

Zware pipeline — n=1 leverde gestolde "als als"-stapeling. n=5 niet getest, maar architectuur is hetzelfde dus risico's zijn dezelfde. Bovendien: stilistisch verlies wordt door post-edit niet teruggewonnen, conventie-winst kan goedkoper.
Sonnet zero-shot — gemiddeld 45,2/60. Stilistisch iets onder Opus, ﷺ-bewustzijn iets erboven, maar nieuwe meta-commentaar bug op voorwoord (1/6) maakt nageleidte vereist. Per-chunk risico hoger dan Opus.
DeepL als eindproduct — 23,3/60, vier categorieën van inhoudelijke fouten (transliteratie 1, ﷺ 1, naamconventies 1, Bijbelconventie 2). Diskwalificerend voor publicatie. Wel bruikbaar als grondverf voor menselijke editor (extreem snel/goedkoop).

Aanbevolen pipeline-architectuur:

Opus 4.7 max + 4-regelige prompt → ruwe vertaling (~$1–2/chunk, ~3–8 min)
validate_vertaling.py --fix → Unicode/ALA-LC mechanische clean-up (eenmalig op output)
Eindredacteur-agent (Opus) → optioneel voor theologisch gevoelige chunks
Mo's review op werktafel → eindbeslissingen

Caveat {#caveat}

Caveat (n=6): dit is nog steeds een steekproef van zes chunks (~10% van het boek). Drie patronen die n=6 heeft bevestigd verdienen een herijking na ~30 chunks productie:

Houdt Opus's stilistische consistentie buiten Pahl's biografische register, vooral in dialoog-zware of theologisch-technische passages?
Blijft de meta-commentaar-bug van Sonnet eenmalig, of recurrent op auteurs-stem-passages?
Zijn er chunks met getallen (statistieken, dateringen) die DeepL net wél goed doet en die de grondverf-hypothese kunnen valideren?

De eerstvolgende productiebeslissing zou moeten zijn: 1 hoofdstuk (10–15 chunks) volledig met Opus + prompt + validate, met Mo's review op kwaliteit en post-edit-tijd. Dan weten we of de geëxtrapoleerde $100–220 boek-kosten realistisch zijn.