- تاریخ برگزاری: 1403/09/29
- مدت زمان دوره: 40 ساعت
- روزهای برگزاری: پنجشنبه
- ساعات برگزاری: 16 الی 20
- نام استاد:
- قیمت: تومان
- هزینه دوره مجازی:
دوره Apache Spark
دوره پردازش داده با اسپارک و کلان داده
• آشنایی با مفاهیم پایه اسپارک (کار با RDD و انواع تبدیلها و اکشنهای رایج در پردازش داده )
• نصب و راه اندازی یک کلاستر لوکال(یک عدد نود مستر و دو عدد ورکر ) بر روی WSL
• آشنایی با پردازش داده به کمک RDDها
• کار با دیتافریمها و Spark SQL به کمک انجام مثالهای مختلف
• کار باکتابخانه های یادگیری ماشین و پردازش گراف
• آشنایی مقدماتی با داکر و کافکا به عنوان پیش نیاز پردازش جریان
• آشنایی با مفاهیم پایه پردازش جریان در اسپارک
• راه اندازی یک کلاستر کافکا به کمک داکر و اجرای چند مثال پایه برای دریافت و پردازش جریان
• پردازش توئیتهای فارسی بورس به کمک اسپارک استریمینگ و کافکا (یک مثال عملی و کامل
• ساخت یک دریاچه داده به کمک Deltalakeو Minio و اسپارک
• بررسی روشهای خطایابی، مدیریت حافظه و بهینه سازی کلاستر اسپارک و سایر رقبای اسپارک مانند Ray و Trino
با توجه به اینکه در این دوره برای پردازش جریان داده ها نیاز به کافکا و برای کار با کلاستر اسپارک نیاز به داکر خواهیم داشت، یک جلسه به این موضوعات اختصاص یافته است