🟦 FeedForward Layer

🧩 Wat doet de FeedForward-laag?

In de Transformer-encoder zit na de attention-laag een klein MLP-blok:

$$ FFN(x) = \max(0, xW_1 + b_1)\,W_2 + b_2 $$

Belangrijke punten:

Wordt per tijdstap toegepast. Dus elke tokenvector gaat door dezelfde MLP.
Uitgangsdimensie = ingangsdimensie.
“Binnenste” laag is 4× breder (standaard in Transformers).

🏗️ Hoe we dit bouwen

We maken een eigen Keras-laag:

subclass van keras.layers.Layer
geen Dense-layers gebruiken
pure keras.ops.matmul, optellen, ReLU
gewichten toevoegen via add_weight

🧱 Implementatie

✅ Volledige code van de FeedForward-laag