Data Laden en Voorbewerken met TensorFlow

⚡ Executive Summary

Deze paper geeft een overzicht van data laden en voorbewerken in TensorFlow.

De twee belangrijkste methoden zijn:

tf.data API – voor efficiënte en schaalbare data pipelines
Keras Preprocessing Layers – voor preprocessing binnen het model

Daarnaast behandelt het ook TensorFlow Datasets (TFDS), een eenvoudige manier om publieke datasets te laden.

🧠 1. De tf.data API

De tf.data API is ontworpen voor grote datasets die niet volledig in het geheugen passen.

Ze gebruikt het object tf.data.Dataset, dat een reeks items vertegenwoordigt (bijv. afbeeldingen of rijen uit een CSV-bestand).

🔹 Kernidee: tf.data.Dataset

Je kunt een dataset maken uit geheugen met:

dataset = tf.data.Dataset.from_tensor_slices(X)

Elke “slice” van X wordt dan één element van de dataset.

Voorbeeld A:

X = tf.range(10) # any data tensor

dataset = tf.data.Dataset.from_tensor_slices(X)

for item in dataset:
	print(item)
	
# Output
# tf.Tensor(0, shape=(), dtype=int32)
# tf.Tensor(1, shape=(), dtype=int32)
# [...]
# tf.Tensor(9, shape=(), dtype=int32)