Pahl-pilot
Sample-overzicht {#sample-overzicht}
Zes chunks uit verschillende plekken in het boek, ~10.964 EN-woorden in totaal (de oorspronkelijke s02 niet meegerekend, dus totale corpus ~12.628 EN-woorden). Per kaart een directe link naar de side-by-side viewer.
We were a happy family
- Zwaar "als als"-stapeling (−1 KPI 4)
- Sonnet 5× ﷺ spontaan, 4× ī-fout, ʿ correct
- Opus 0× ﷺ, 0× diakritica, mooi Nederlands
- DeepL "12 meter" (factor 3 fout), "Rechtvaardige Kaliefen" (verkeerde term)
s01 — preface
- Sonnet meta-commentaar bug ("Let op: de agent heeft...")
- Sonnet+Opus Statenvertaling-citaat correct geïdentificeerd
- DeepL "King James Version" niet vervangen door Statenvertaling (KPI 12 fail)
- Geen Profeet/sahaba in chunk, dus KPI 9 N.V.T.
s02 — opening
- Sonnet "Hodjaefendi" (foute spelling, 1×)
- Opus "Hocaefendi" (correct, 1×)
- DeepL "Hodjaefendi" (foute spelling)
- Stilistisch alle drie redelijk vlot
Alvar
- Opus 3× ﷺ spontaan toegevoegd ("Profeet ﷺ")
- Sonnet 0× ﷺ, 11×
ī-fout (moetı̄zijn) - Opus 10×
ī-fout, 0×ı̄ - DeepL "I woe" → "ik wee", 3× "Hodjaefendi"
- Beide LLMs:
Hocaefendi3× correct
Succeeding for the pleasure of God
- Sonnet 1× ﷺ + correcte "Hocaefendi"
- Opus 0× ﷺ, "Hodjaefendi" (foute spelling)
- DeepL 0× ﷺ, "Hodjaefendi", maar leesbaar Nederlands
- Sonnet: "ter wille van Gods welbehagen" (registerlift)
America — opening
- Geen Hocaefendi/Hodjaefendi (chunk gebruikt "Gülen")
- Geen ﷺ-trigger contexten
- Alle 3 ongeveer gelijk in stilistische kwaliteit; Opus iets meeslepender ritme
- Lange Gülen-citaat: alle 3 redelijk getrouw, geen grote schade
KPI-matrix (gemiddelde over n=6) {#kpi-matrix}
Voor elke KPI: gemiddelde score 1–5 over de chunks. Zwaar staat alleen op 1 chunk; zijn kolom is dus n=1, niet vergelijkbaar in robustheid. Tussen haakjes ↑/↓/=: verandering t.o.v. n=1-rapport.
| KPI | Zwaar (n=1) | Sonnet zero (n=6) | Opus 4.7 max (n=6) | DeepL (n=6) |
|---|---|---|---|---|
| 1. Brontextrouw | 4 = | 3,7 ↓ voorwoord-bug | 4,0 = | 4,0 = |
| 2. Feitelijke correctheid | 5 = | 4,2 = | 4,8 = | 2,0 ↓ wee+KJV |
| 3. Theologische correctheid | 5 = | 4,0 = | 4,0 = | 1,5 = |
| 4. Idiomatisch NL | 2 = | 4,7 ↓ voorwoord meta | 5,0 = | 3,0 = |
| 5. Zinsritme & leesbaarheid | 3 = | 4,2 = | 4,8 = | 3,0 = |
| 6. Register-trouw aan Pahl | 4 = | 4,2 = | 4,8 = | 3,0 = |
| 7. Woordkeuze precisie | 4 = | 4,0 ↑ ch4 | 4,8 = | 2,8 ↓ wee |
| 8. ALA-LC transliteratie (ı̄, ʿ, ʾ) | 5 = | 1,8 ↓ alvar 11× | 1,3 ↓ alvar 10× | 1,0 = |
| 9. Eerbiedsformules (ﷺ + metgezellen) | 5 = | 3,2 = | 2,5 ↑ alvar 3× | 1,0 = |
| 10. NL/Turkse naamconventies | 4 = | 4,0 ↑ Hocaefendi | 4,0 = | 1,0 ↓ 5× Hodja |
| 11. Cursief vakterm-leenwoorden | 5 = | 4,7 = | 4,5 = | 1,0 = |
| 12. Bijbelconventie (Statenvertaling/NBV21) | 4 = | 4,5 ↑ voorwoord | 4,0 ↑ voorwoord | 2,0 = |
| Totaal /60 (gemiddeld) | 50 (n=1) | 45,2 | 46,5 | 23,3 |
Scores worden voor mechanische KPI's (8–12) berekend per chunk via analyze_outputs.py (telt ﷺ, ı̄, ī, ʿ, Hocaefendi, etc.). Voor stilistische KPI's (1–7) gebaseerd op steekproef-passages per chunk.
Aggregatieve patroonbevindingen {#bevindingen}
Wat n=6 heeft bevestigd
- DeepL is gediskwalificeerd — bevestigd met 5 nieuwe diskwalificatie-momenten:
- "Hodjaefendi" 5/5 chunks waar het voorkomt
- "King James Version" laten staan i.p.v. Statenvertaling (voorwoord)
- "I woe with this longing" → "ik wee met dit verlangen" (alvar) — geen Nederlands
- "Lasteren of belasteren" — onbedoeld synoniem-stapelen (voorwoord)
- 0× ﷺ in alle 6 chunks (DeepL kent het symbool simpelweg niet)
- Opus 4.7 max wint stilistisch consistent — KPI 4–7 scoort gemiddeld 4,8/5; geen enkele chunk waarop hij stilistisch inzakt.
- Beide LLMs scoren ~80% correct op Hocaefendi (4/5 chunks). DeepL 0/5. Verschil is dus niet "weet het wel/niet" maar "consistent doorvoeren" — een prompt-aanvulling kan dit oplossen.
Wat n=6 heeft genuanceerd of weerlegd
- Opus's ﷺ-omissie is GEEN structurele blinde vlek (n=1-aanname). Alvar bewijst: Opus voegt in een spirituele biografie spontaan 3× ﷺ toe. Op s02 (huiselijke jeugd-narratief) deed hij dat 0×. Het patroon is contextueel: hoe meer expliciet-religieus de chunk, hoe waarschijnlijker spontane toevoeging.
Implicatie: de prompt-instructie blijft nodig, maar wordt nu geframed als "consistentie-borgen", niet als "blinde-vlek-repareren". Dat scheelt in promptwoorden — een korte hint volstaat boven een tirade. - Sonnet zero-shot heeft een nieuw foutpatroon: meta-commentaar toevoegen vóór de vertaling. Op voorwoord: "Let op: de agent heeft na de laatste zin van de brontekst extra alinea's toegevoegd die niet in de brontekst staan. Ik presenteer hier alleen de vertaling van de werkelijke brontekst:". Vertaling zelf is OK, maar de "geen uitleg"-instructie wordt genegeerd. In n=1 niet opgemerkt; in n=6 is het 1/6.
Implicatie: Sonnet-output vereist post-clean (regex-strip van meta-comments) of een sterkere instructie. Niet onoverkomelijk, wel een minor. - ALA-LC-faal-patroon is sterk variabel per chunk: 0× fout op s02 (Sonnet) en 4× fout op s02 (Opus); 11× / 10× fout op alvar; 0× / 0× op voorwoord (geen Arabische namen). De faalkans is direct gecorreleerd aan de dichtheid van Arabische namen. Een dunne instructie ("gebruik
ı̄, nietī") zou dit moeten oplossen — beide modellen kennen de regel maar passen hem niet spontaan toe. - Opus heeft op intro
Hocaefendispontaan correct gespeld; op ch4 deed hijHodjaefendifout. Sonnet doet het omgekeerde patroon. Dit bevestigt: beide modellen kennen de juiste vorm maar zijn instabiel zonder expliciete instructie.
Nieuw zichtbaar in n=6
- Voorwoord-context vereist Statenvertaling-bewustzijn. Sonnet en Opus identificeren beide spontaan dat een Bijbels Tien Geboden-citaat in NL-vertaling de Statenvertaling moet volgen, zelfs bij een KJV-aanduiding in de brontekst. DeepL doet dit niet (laat KJV staan). Dit is een Nederlands-cultuurkennis-test die LLMs passeren.
- Sonnet en Opus hebben omgekeerde Hocaefendi-patronen per chunk: waar de één faalt, slaagt de ander. Een ensemble (beide draaien, vergelijken) zou Hocaefendi 100% kunnen krijgen — maar dat is duurder dan een prompt-aanvulling.
Operationeel — kosten over hele boek {#kosten}
180–220k EN-woorden = ~110–130 chunks van ~1500 EN-woorden. Geactualiseerde kosten op basis van 5 nieuwe runs:
| Methode | Per chunk (gem.) | Tijd (gem.) | Boek-totaal | Eindproduct? |
|---|---|---|---|---|
| Zwaar (Sonnet + pipeline) | ~$0,30–0,50 | ~6 min | $30–50 | Ja, met conventies |
| Sonnet zero-shot | ~$0,05 | ~30–90 sec | $5–10 | Met prompt + clean |
| Opus 4.7 max effort | ~$1–2 | ~2–5 min | $100–220 | Met prompt |
| DeepL Free | ~€0,005 | <5 sec | ~€0,50 | Nee — als grondverf |
Opus's looptijd schaalt sterker met chunklengte dan eerder geschat — de 3447-woord alvar-chunk duurde ~8 min met max effort. Voor het hele boek zou Opus max ongeveer 8–12 uur draaien (alle chunks sequentieel). Parallelliseerbaar tot ~30 min als 20 chunks tegelijk.
Verdict (verfijnd, n=6) {#verdict}
De n=1-conclusie blijft: Opus 4.7 max effort als basis-vertaler, aangevuld met een minimale prompt voor de conventies die hij niet consistent meeneemt.
Verfijning op de prompt: de oorspronkelijke "5 regels" worden geschrapt tot 4, omdat Opus blijkt het Hocaefendi-bewustzijn deels al te hebben (4/5). Voor de overige conventies blijven de regels nodig:
-
Voor Arabische namen: gebruik ı̄ (U+0131 + U+0304), niet ī. Voorbeelden: Lütfı̄, Bediüzzaman, ʿAlı̄.Belangrijkste fix — 10 fouten/chunk op rijke alvar-achtige passages -
Voor Profeet Mohammed: voeg ﷺ toe na elke vermelding bij naam of titel.Variabel per chunk; instructie borgt consistentie -
Voor metgezellen: voeg "(moge God tevreden met hem/haar zijn)" toe na de eerste vermelding per passage. -
Spel "Hocaefendi" (niet "Hodjaefendi" of "Hojaefendi").Confirmed nodig — per-chunk instabiliteit
Niet kiezen:
- Zware pipeline — n=1 leverde gestolde "als als"-stapeling. n=5 niet getest, maar architectuur is hetzelfde dus risico's zijn dezelfde. Bovendien: stilistisch verlies wordt door post-edit niet teruggewonnen, conventie-winst kan goedkoper.
- Sonnet zero-shot — gemiddeld 45,2/60. Stilistisch iets onder Opus, ﷺ-bewustzijn iets erboven, maar nieuwe meta-commentaar bug op voorwoord (1/6) maakt nageleidte vereist. Per-chunk risico hoger dan Opus.
- DeepL als eindproduct — 23,3/60, vier categorieën van inhoudelijke fouten (transliteratie 1, ﷺ 1, naamconventies 1, Bijbelconventie 2). Diskwalificerend voor publicatie. Wel bruikbaar als grondverf voor menselijke editor (extreem snel/goedkoop).
Aanbevolen pipeline-architectuur:
- Opus 4.7 max + 4-regelige prompt → ruwe vertaling (~$1–2/chunk, ~3–8 min)
validate_vertaling.py --fix→ Unicode/ALA-LC mechanische clean-up (eenmalig op output)- Eindredacteur-agent (Opus) → optioneel voor theologisch gevoelige chunks
- Mo's review op werktafel → eindbeslissingen
Caveat {#caveat}
Caveat (n=6): dit is nog steeds een steekproef van zes chunks (~10% van het boek). Drie patronen die n=6 heeft bevestigd verdienen een herijking na ~30 chunks productie:
- Houdt Opus's stilistische consistentie buiten Pahl's biografische register, vooral in dialoog-zware of theologisch-technische passages?
- Blijft de meta-commentaar-bug van Sonnet eenmalig, of recurrent op auteurs-stem-passages?
- Zijn er chunks met getallen (statistieken, dateringen) die DeepL net wél goed doet en die de grondverf-hypothese kunnen valideren?
De eerstvolgende productiebeslissing zou moeten zijn: 1 hoofdstuk (10–15 chunks) volledig met Opus + prompt + validate, met Mo's review op kwaliteit en post-edit-tijd. Dan weten we of de geëxtrapoleerde $100–220 boek-kosten realistisch zijn.