عن هذه الدورة
هندسة البيانات على مايكروسوفت أزير
منهج الدورة
1
: أساسيات هندسة البيانات وتخزينها (Azure Data Lake Storage)
: مقدمة في هندسة البيانات: المفاهيم الأساسية، دور مهندس البيانات، والخدمات المتاحة في بيئة Azure.
بحيرة البيانات (Data Lake Gen2): التخزين السحابي عالي الأداء، الفرق بينه وبين Blob Storage، ومراحل معالجة البيانات الضخمة (Big Data).
2
استعلام وتحويل البيانات باستخدام Azure Synapse (Serverless)
أساسيات Synapse Analytics: متى وكيف نستخدمه، والتعامل مع مجموعات SQL بلا خوادم (Serverless SQL pools).
الاستعلام والتحويل: معالجة الملفات في بحيرة البيانات، إنشاء الكائنات الخارجية، واستخدام إجراءات التخزين (Stored Procedures) لتحويل البيانات.
إدارة المستخدمين، الصلاحيات، والتشفير، وإخفاء البيانات الحساسة (Data Masking).
3
معالجة البيانات الضخمة باستخدام Apache Spark
تحليل البيانات باستخدام Spark: العمل مع Spark Notebooks، تحليل البيانات وتصورها (Visualization)
تحويل البيانات المتقدم: تعديل الـ Dataframes، تقسيم ملفات البيانات (Partitioning)، واستخدام SQL داخل Spark.
ضمان سلامة البيانات (ACID)، جداول الكتالوج، والتعامل مع البيانات المتدفقة (Streaming).
4
مستودعات البيانات وتحليل البيانات العلاجية (Data Warehousing)
تصميم مستودع البيانات: تصميم المخططات (Schemas)، إنشاء الجداول، وتحميل البيانات
: تحميل الأبعاد والحقائق: التعامل مع الأبعاد متغيرة البطء (SCD) وجداول الحقائق (Fact Tables)
الإدارة والمراقبة: توسيع موارد الحوسبة، تحسين الأداء (Performance Tuning)، واستخدام طرق العرض الديناميكية (DMVs).
5
بناء خطوط أنابيب البيانات والاتصال الهجين (Data Pipelines & Link)
هندسة خطوط الأنابيب (Pipelines): إنشاء الأنابيب في Synapse Studio، وتحديد تدفقات البيانات (Data Flows).
دمج Spark في الأنابيب: استخدام Notebooks كأنشطة داخل خط الأنابيب وتمرير المعايير (Parameters).
الاتصال الهجين (Synapse Link): الربط اللحظي مع Cosmos DB و SQL Server للتحليل الفوري دون الحاجة لعمليات ETL معقدة.
6
معالجة البيانات اللحظية واستخدام Azure Databricks
تحليل البيانات المتدفقة (Stream Analytics): معالجة الأحداث اللحظية، وظائف النوافذ (Window Functions)، والتكامل مع Power BI.
منصة Azure Databricks: استكشاف بيئة العمل، إدارة الحوكمة (Unity Catalog)، وبناء خطوط الأنابيب باستخدام (Delta Live Tables).
أتمتة مهام العمل (Workflows): نشر وإدارة أعباء العمل المؤتمتة داخل Databricks لضمان استمرارية المعالجة.