Andmetoru (data pipeline) on süsteem või protsess, mis liigutab andmeid ühest kohast teise, et need jõuaksid analüüsi, aruandlusesse või andmelattu.

Võrdlus toruga ongi pädev. Andmetoru kannab andmeid nende allikast vajalikku sihtkohta, kus neid töödeldakse ja kasutatakse või hoitakse.

Peamised sammud andmetorus

1. Andmete kogumine (ingest). Andmeid võetakse eri allikatest: andmebaasid, veebiserverid, sensorid, failid.

2. Andmete puhastamine ja töötlemine (transform). Dubleerimised eemaldatakse, valeandmed parandatakse, andmed viiakse sobivale kujule.

3. Andmete laadimine (load). Töödeldud andmed laetakse sihtkohta: andmebaasi, andmelattu, andmehoidlasse, analüüsiplatvormile.

Ülal toodud andmetoru kasutas ETL-mudelit (Extract, Transform, Load). Näitena kasutame ettevõtet, mis kasutab veebimüügi andmeid:

Miks on andmetoru oluline?

Kirjutamisel on kasutatud tehisaru abi.