⚡ Executive Summary

Deze paper geeft een overzicht van data laden en voorbewerken in TensorFlow.

De twee belangrijkste methoden zijn:

Daarnaast behandelt het ook TensorFlow Datasets (TFDS), een eenvoudige manier om publieke datasets te laden.


🧠 1. De tf.data API

De tf.data API is ontworpen voor grote datasets die niet volledig in het geheugen passen.

Ze gebruikt het object tf.data.Dataset, dat een reeks items vertegenwoordigt (bijv. afbeeldingen of rijen uit een CSV-bestand).


🔹 Kernidee: tf.data.Dataset

Je kunt een dataset maken uit geheugen met:

dataset = tf.data.Dataset.from_tensor_slices(X)

Elke “slice” van X wordt dan één element van de dataset.

Voorbeeld A:

X = tf.range(10) # any data tensor

dataset = tf.data.Dataset.from_tensor_slices(X)

for item in dataset:
	print(item)
	
# Output
# tf.Tensor(0, shape=(), dtype=int32)
# tf.Tensor(1, shape=(), dtype=int32)
# [...]
# tf.Tensor(9, shape=(), dtype=int32)