Pratique pour l'examen | Ingénierie des données Azure DP-203

Rating 3.5 out of 5 (2 ratings in Udemy)

What you'll learn

Examen DP-203 : Ingénierie des données sur Microsoft Azure
Concevoir et mettre en œuvre le stockage de données
Concevoir une stratégie de partition
Concevoir la couche de service
Mettre en œuvre des structures physiques de stockage de données
Implémenter des structures de données logiques
Implémenter la couche de service
Ingérer et transformer des données
Concevoir et développer une solution de traitement par lots
Concevoir …

Rating 3.5 out of 5 (2 ratings in Udemy)

What you'll learn

Examen DP-203 : Ingénierie des données sur Microsoft Azure
Concevoir et mettre en œuvre le stockage de données
Concevoir une stratégie de partition
Concevoir la couche de service
Mettre en œuvre des structures physiques de stockage de données
Implémenter des structures de données logiques
Implémenter la couche de service
Ingérer et transformer des données
Concevoir et développer une solution de traitement par lots
Concevoir et développer une solution de traitement de flux
Gérer les lots et les pipelines
Conception de la sécurité pour les politiques et les normes de données
Mettre en œuvre la sécurité des données
Surveiller le stockage et le traitement des données
Optimiser et dépanner le stockage et le traitement des données

Description

Afin de définir des attentes réalistes, veuillez noter : Ces questions ne sont PAS des questions officielles que vous trouverez sur l'examen officiel. Ces questions couvrent tout le matériel décrit dans les sections de connaissances ci-dessous. Beaucoup de questions sont basées sur des scénarios fictifs qui contiennent des questions posées.

Les exigences de connaissances officielles pour l'examen sont revues régulièrement pour s'assurer que le contenu a les dernières exigences incorporées dans les questions pratiques. Les mises à jour du contenu sont souvent effectuées sans notification préalable et peuvent être modifiées à tout moment.

Beaucoup de questions ont à la fois le terme anglais et la traduction française car plusieurs termes et fonctions de Microsoft sont en anglais. De cette façon, vous serez en mesure de reconnaître les composants que vous rencontrerez dans Microsoft.

Chaque question a une explication détaillée et des liens vers des documents de référence pour soutenir les réponses qui garantissent l'exactitude des solutions aux problèmes.

L'ordre des questions sera changé chaque fois que vous répéterez les tests. Vous aurez donc besoin de savoir pourquoi une réponse est correcte, et pas seulement que la réponse correcte était l'item "B" la dernière fois que vous avez passé le test.

Les candidats à cet examen doivent avoir une expertise en la matière en matière d'intégration, de transformation et de consolidation des données de divers systèmes de données structurés et non structurés dans une structure adaptée à la création de solutions d'analyse.

Les ingénieurs de données Azure aident les parties prenantes à comprendre les données grâce à l'exploration, et ils créent et maintiennent des pipelines de traitement de données sécurisés et conformes à l'aide de différents outils et techniques. Ces professionnels utilisent divers services et langages de données Azure pour stocker et produire des ensembles de données nettoyés et améliorés à des fins d'analyse.

Les ingénieurs de données Azure contribuent également à garantir que les pipelines de données et les magasins de données sont performants, efficaces, organisés et fiables, compte tenu d'un ensemble d'exigences et de contraintes commerciales. Ils traitent rapidement les problèmes imprévus et minimisent les pertes de données. Ils conçoivent, implémentent, surveillent et optimisent également les plates-formes de données pour répondre aux besoins des pipelines de données.

Un candidat à cet examen doit avoir une solide connaissance des langages de traitement de données tels que SQL, Python ou Scala, et doit comprendre les modèles de traitement parallèle et d'architecture de données.

Compétences mesurées à l'examen Microsoft Azure DP-203

Concevoir et mettre en œuvre le stockage de données (40-45%)

concevoir une structure de stockage de données
concevoir une solution Azure Data Lake
recommander des types de fichiers pour le stockage
recommander des types de fichiers pour les requêtes analytiques
conception pour des requêtes efficaces
conception pour l'élagage des données
concevoir une structure de dossiers qui représente les niveaux de transformation des données
concevoir une stratégie de distribution
concevoir une solution d'archivage de données

Concevoir une stratégie de partition

concevoir une stratégie de partition pour les fichiers
concevoir une stratégie de partition pour les charges de travail analytiques
concevoir une stratégie de partitionnement pour l'efficacité/les performances
concevoir une stratégie de partition pour Azure Synapse Analytics
identifier quand le partitionnement est nécessaire dans Azure Data Lake Storage Gen2

Concevoir la couche de service

concevoir des schémas en étoile
conception qui change lentement de dimensions
concevoir une hiérarchie dimensionnelle
concevoir une solution pour les données temporelles
conception pour chargement incrémentiel
concevoir des magasins analytiques
concevoir des métastores dans Azure Synapse Analytics et Azure Databricks

Mettre en œuvre des structures physiques de stockage de données

mettre en œuvre la compression
mettre en œuvre le partitionnement
mettre en œuvre le partitionnement
implémenter différentes géométries de table avec les pools Azure Synapse Analytics
mettre en œuvre la redondance des données
mettre en œuvre des distributions
mettre en œuvre l'archivage des données

Implémenter des structures de données logiques

construire une solution de données temporelles
construire une dimension qui change lentement
construire une structure de dossiers logique
construire des tables externes
mettre en œuvre des structures de fichiers et de dossiers pour des requêtes et un élagage efficaces des données

Implémenter la couche de service

fournir des données dans un schéma en étoile relationnel
fournir des données dans des fichiers Parquet
maintenir les métadonnées
implémenter une hiérarchie dimensionnelle

Concevoir et développer le traitement des données (25-30%)

Ingérer et transformer des données

transformer des données à l'aide d'Apache Spark
transformer des données à l'aide de Transact-SQL
transformer des données à l'aide de Data Factory
transformer des données à l'aide d'Azure Synapse Pipelines
transformer les données à l'aide de Stream Analytics
nettoyer les données
fractionner les données
déchiqueter JSON
encoder et décoder les données
configurer la gestion des erreurs pour la transformation
normaliser et dénormaliser les valeurs
transformer des données à l'aide de Scala
effectuer une analyse exploratoire des données

Concevoir et développer une solution de traitement par lots

développer des solutions de traitement par lots en utilisant Data Factory, Data Lake, Spark, Azure Synapse Pipelines, PolyBase et Azure Databricks
créer des pipelines de données
concevoir et mettre en œuvre des charges de données incrémentielles
concevoir et développer des dimensions à évolution lente
gérer les exigences de sécurité et de conformité
mettre à l'échelle les ressources
configurer la taille du lot
concevoir et créer des tests pour les pipelines de données
intégrer les blocs-notes Jupyter/IPython dans un pipeline de données
gérer les données en double
gérer les données manquantes
gérer les données arrivant en retard
renverser les données
revenir à un état antérieur
concevoir et configurer la gestion des exceptions
configurer la rétention par lots
concevoir une solution de traitement par lots
déboguer les tâches Spark à l'aide de l'interface utilisateur Spark

Concevoir et développer une solution de traitement de flux

développer une solution de traitement de flux en utilisant Stream Analytics, Azure Databricks et Azure Event Hubs
traiter les données à l'aide du streaming structuré Spark
surveiller les performances et les régressions fonctionnelles
concevoir et créer des agrégats fenêtrés
gérer la dérive du schéma
traiter les données de séries chronologiques
processus à travers les partitions
processus au sein d'une partition
configurer les points de contrôle/le filigrane pendant le traitement
mettre à l'échelle les ressources
concevoir et créer des tests pour les pipelines de données
optimiser les pipelines à des fins analytiques ou transactionnelles
gérer les interruptions
concevoir et configurer la gestion des exceptions
renverser les données
rejouer les données de flux archivées
concevoir une solution de traitement de flux

Gérer les lots et les pipelines

déclencher des lots
gérer les échecs de chargement par lots
valider les chargements par lots
gérer les pipelines de données dans Data Factory/Synapse Pipelines
planifier des pipelines de données dans Data Factory/Synapse Pipelines
implémenter le contrôle de version pour les artefacts de pipeline
gérer les tâches Spark dans un pipeline

Concevoir et mettre en œuvre la sécurité des données (10-15%)

Conception de la sécurité pour les politiques et les normes de données

chiffrement des données de conception pour les données au repos et en transit
concevoir une stratégie d'audit des données
concevoir une stratégie de masquage des données
conception pour la confidentialité des données
concevoir une politique de conservation des données
conception pour purger les données en fonction des besoins de l'entreprise
concevoir un contrôle d'accès basé sur les rôles Azure (Azure RBAC) et une liste de contrôle d'accès de type POSIX (ACL) pour Data Lake Storage Gen2
conception de la sécurité au niveau des lignes et des colonnes

Mettre en œuvre la sécurité des données

implémenter le masquage des données
chiffrer les données au repos et en mouvement
implémenter la sécurité au niveau des lignes et des colonnes
implémenter Azure RBAC
implémenter des ACL de type POSIX pour Data Lake Storage Gen2
mettre en place une politique de conservation des données
mettre en œuvre une stratégie d'audit des données
gérer les identités, les clés et les secrets sur différentes technologies de plate-forme de données
mettre en œuvre des points de terminaison sécurisés (privés et publics)
implémenter des jetons de ressource dans Azure Databricks
charger un DataFrame avec des informations sensibles
écrire des données cryptées dans des tables ou des fichiers Parquet
gérer les informations sensibles

Surveiller et optimiser le stockage et le traitement des données (10-15%)

Surveiller le stockage et le traitement des données

implémenter la journalisation utilisée par Azure Monitor
configurer les services de surveillance
mesurer les performances du mouvement des données
surveiller et mettre à jour les statistiques sur les données d'un système
surveiller les performances du pipeline de données
mesurer les performances des requêtes
surveiller les performances du cluster
comprendre les options de journalisation personnalisées
planifier et surveiller les tests de pipeline
interpréter les métriques et les journaux Azure Monitor
interpréter un graphe acyclique dirigé Spark (DAG)

Optimiser et dépanner le stockage et le traitement des données

petits fichiers compacts
réécrire les fonctions définies par l'utilisateur (UDF)
gérer l'asymétrie des données
gérer le déversement de données
régler les partitions aléatoires
trouver le brassage dans un pipeline
optimiser la gestion des ressources
régler les requêtes à l'aide d'indexeurs
régler les requêtes en utilisant le cache
optimiser les pipelines à des fins analytiques ou transactionnelles
optimiser le pipeline pour les charges de travail descriptives et analytiques
dépanner un travail d'étincelle échoué
dépanner une exécution de pipeline ayant échoué

L'examen est disponible dans les langues suivantes : anglais

Duration 0 Hours 58 Minutes

Paid

Self paced

All Levels

French (France)

Rating 3.5 out of 5 (2 ratings in Udemy)

Go to the Course
We have partnered with providers to bring you collection of courses, When you buy through links on our site, we may earn an affiliate commission from provider.