🟦 FeedForward Layer
🧩 Wat doet de FeedForward-laag?
In de Transformer-encoder zit na de attention-laag een klein MLP-blok:
$$
FFN(x) = \max(0, xW_1 + b_1)\,W_2 + b_2
$$
Belangrijke punten:
- Wordt per tijdstap toegepast. Dus elke tokenvector gaat door dezelfde MLP.
- Uitgangsdimensie = ingangsdimensie.
- “Binnenste” laag is 4× breder (standaard in Transformers).
🏗️ Hoe we dit bouwen
We maken een eigen Keras-laag:
- subclass van keras.layers.Layer
- geen Dense-layers gebruiken
- pure keras.ops.matmul, optellen, ReLU
- gewichten toevoegen via add_weight
🧱 Implementatie
✅ Volledige code van de FeedForward-laag