waar ben je naar op zoek?

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt

Vijf slimme keuzes voor jouw Azure Data Platform

Azure Data Platform | Azure Datawarehouse (DWH) framework

De knoop is doorgehakt: jouw organisatie gaat voor een Azure datawarehouse.

En dus is het tijd om al je data in Azure te integreren. Maar voordat je begint, zijn er nog een paar belangrijke keuzes te maken die impact hebben op de kosten en doorlooptijd. Ik heb de vijf belangrijkste voor je op een rijtje gezet.

1) Kies voor veiligheid

De eerste keuze gaat over het inrichten van de security. Vooral als je (bijzondere) persoonsgegevens verwerkt, raad ik je aan om alle Azure services af te schermen van het openbare internet. Dit doe je door gebruik te maken van VNETS (virtuele netwerken) waarmee veel typen Azure-resources veilig met elkaar, internet en on-premises netwerken kunnen communiceren. Ook private end-points helpen hierbij doordat deze netwerkinterfaces gebruikmaken van een privƩ-IP-adres van het virtuele netwerk. Op deze manier zijn de services alleen nog bereikbaar via het eigen bedrijfsnetwerk. Dit is nodig, omdat Azure veel services biedt om data op te slaan en te verwerken. Ook moeten vaak verschillende ontwikkelaars, beheerders en gebruikers toegang krijgen tot deze data en services. Je kunt er natuurlijk voor kiezen om bij elke service een lijst bij te houden zodat je weet vanaf waar er toegang mogelijk is, bijvoorbeeld via whitelisting van ip-adressen. Maar dit is bewerkelijk en de kans op fouten is groot.

2) Automatiseer het releaseproces

Bij het ontwikkelen van een datawarehouse (DWH), zijn er meerdere stappen te zetten om de ontwikkelde code uiteindelijk in productie te krijgen: Ontwikkeling, Test, Acceptatie en Productie (OTAP). Na het testen, kan de nieuwe of gewijzigde functionaliteit worden doorgevoerd op de productieomgeving.Ā  Het overzetten van de ontwikkelde code wordt vaak handmatig uitgevoerd. Dit kost veel tijd en is foutgevoelig. Hoe vervelend is het als je een productieverstoring hebt, omdat je een script bent vergeten te draaien? Erg prettig dus als je dit kunt automatiseren.

3) Bespaar kosten

Binnen Azure kun je geld besparen door te letten op wanneer en hoe vaak je de services gebruikt. Bepaalde services, zoals een SQL database, kun je instellen op een capaciteitsniveau. Gebruik je een hogere capaciteit, dan heb je een hogere verwerkerscapaciteit maar daardoor ook hogere kosten. Het op- en afschalen kun je ook datagedreven doen. Dit kan op basis van vaste momenten maar ook op basis van bijvoorbeeld de laadtijden van de afgelopen periode. Op deze manier kun je het slim automatiseren en heb je er geen omkijken meer naar. Zo weet je zeker dat je alleen betaalt voor de Azure-capaciteit die je daadwerkelijk gebruikt.

4) Elimineer handwerk

Niets is vervelender dan eentonig en repetitief handwerk. Toch ligt dit wel op de loer wanneer je veel verschillende databronnen naar je Azure DWH ontsluit. Voor elke tabel of elk bestand uit een bronsysteem is een nieuw laadproces nodig. Alles bij elkaar is dit heel veel klikwerk en je kunt je voorstellen dat een foutje zo gemaakt is. Helemaal als je tientallen of zelfs honderden tabellen en bestanden wilt ontsluiten. Gelukkig kan de cloud het werk voor je doen. Via Azure Synapse Pipelines (de ETL-tool (Extract Transform Load) van Azure) leg je informatie over de bronnen, de metadata, vast. Op basis hiervan worden alle laadprocessen gegenereerd. Met een paar drukken op de knop ontsluit je automatisch de benodigde bronnen. En vervolgens kun jij je bezighouden met het meer uitdagende werk: van ruwe data inzichten maken.

5) Denk groot en start klein

De keuze in Azure is enorm: er zijn meer dan 200 services beschikbaar, waarvan ruim 50 geschikt zijn voor het laden, opslaan, transformeren en visualiseren van data. Elke service heeft zijn eigen specialiteit, prijskaartje en gebruikershandleiding. Om je datawarehouse slim en klaar voor de toekomst op te bouwen, is het handig om goed in kaart te brengen aan welke services jouw organisatie behoefte heeft. Vele zijn nog niet bezig met grote hoeveelheden semi- of ongestructureerde data. Ze willen vooral hun gestructureerde data verwerken en visualiseren in een BI-tool als Power BI. Ook is near-realtime beschikbaarheid vaak nog niet nodig. Een schaalbare Azure SQL Database, Azure Data Lake en Azure Data Factory zijn dan voldoende. Maar wil je (parallel) grote hoeveelheden data verwerken en daar voorspellingen mee doen? Dan loont het om Azure Synapse Analytics in te zetten. In de keuze voor de te gebruiken services geldt met name: denk groot en start klein.

Als laatste, gouden tip wil ik je adviseren om het vooral niet (helemaal) zelf te doen. Schakel mensen met expertise in die dit vaker hebben gedaan. Zo voorkom je dat je onnodig in valkuilen stapt. We helpen je graag verder.

Link gekopieërd