خرید دوره
خانه / دوره ها / بیگ دیتا / مدیریت کلاستر هدوپ – Apache Hadoop
مدرس دوره:
وحید امیری
مدیریت کلاستر هدوپ – Apache Hadoop
**درحال آماده سازی**
هدوپ، سکویی متنباز برای پردازش و ذخیره دادههای بزرگ، به منظور مقابله با حجم عظیم دادهها و اجرای پردازشهای پیچیده ایجاد شد. میتوان گفت ظهور این پروژه، یکی از پیشرانهای اصلی پروژههای کلان داده در بسیار از شرکتها میباشد. در دوره مدیریت کلاستر هدوپ، شما با مفاهیم اساسی و پیشرفته…
سطح دوره
مبتدی
تعداد جلسات
60
زبان:
فارسی
طول هر جلسه:
حدود 30 دقیقه
زمان کلی دوره:
30 ساعت
سبک ارائه دوره:
آفلاین از طریق Spotplayer
موراد قابل دانلود:
پاورپوینت، تمرین¬ها و کد¬های کلاس
مدرک دوره:
مدرک کتبی پس از پایان دوره
درباره این دوره
شرکتهای بزرگ امروزی با تولید و جمعآوری دادههای عظیمی مواجه هستند. این حجم عظیم دادهها از منابع گوناگون نظیر تراکنشهای مالی، ارتباطات مشتریان، حسگرها، و اطلاعات لاگها به دست میآید. به عنوان مثال:
- تراکنشهای مالی:
- شرکتهای بانکی میلیاردها تراکنش مالی را در سطح جهان انجام میدهند. به عنوان مثال، یک بانک بزرگ ممکن است روزانه میلیاردها تراکنش مالی داشته باشد.
- ارتباطات مشتریان:
- شرکتهای فناوری، ارتباطات، و خدمات اینترنتی میلیاردها داده از تعاملات مشتریان خود را دریافت میکنند. این شامل اطلاعات از تاریخچه خرید، ترجیحات مشتری، و تعاملات آنلاین است.
- حسگرها:
- شرکتهای مرتبط با اینترنت اشیاء (IoT) از حسگرها مانند دستگاههای پوشیدنی، سنسورها در خودروها، و سایر دستگاهها به میلیاردها داده دست پیدا میکنند.
برخی از چالشهایی که این شرکتهای با آن مواجه هستند عبارتند از:
- پردازشهای سنگین:
- حجم بالای دادهها نیازمند زیرساختهای قوی برای پردازش و تحلیل سریع آنهاست. الگوریتمهای بهینه و سیستمهای پردازش موازی مهم است.
- منابع محدود:
- اکثر سازمانها با محدودیتهای منابع مانند فضای ذخیرهسازی، توان پردازشی، و پهنای باند مواجه هستند. بهینهسازی استفاده از این منابع چالشی است.
- تنوع داده:
- دادهها از منابع مختلف و با فرمتهای گوناگون آمده و تنوع در تحلیل آنها چالشهای خود را به همراه دارد.
- دادههای بیساختار:
- بخشی از دادهها به صورت بیساختار است که نیازمند ابزارها و تکنیکهای خاص برای تحلیل و استخراج اطلاعات مفید هستند.
برای مواجه با این چالشها، شرکتها هم به استراتژیها، معماریها و مفاهیم جدید و هم به ابزارهای مدرن مدیریت داده در مقیاس بالا نیاز دارند. مفاهیمی نظیر پردازشهای موازی، معماریهای توزیعشده، ایجاد خطلولهها به جهت پردازش دادهها بصورت جریانی، ذخیرهسازی دادههای تجمیع شده و ابزارهایی نظیر آپاچی هدوپ، پایگاه دادههای غیررابطهایی، سیستمفایلها و ذخیرهسازهای اشیا از جمله مواردی هستند که میتوانند به در این زمینه کمک کنند.
از سکوی هدوپ میتوان به عنوان یک راهحل جامع برای مدیریت دادهها بصورت توزیعشده و مقیاسپذیر نام برد. برخی از خصوصیات این سکوی پردازشی عبارتند از:
- پردازش موازی:
- هدوپ این امکان را میدهد که دادههای خود را به صورت موازی و از طریق چندین سرور پردازش کنید، که این کار به بهبود سرعت پردازش و تحلیل بسیار کمک میکند.
- مقیاسپذیری:
- با توانایی افزودن سرورهای جدید به کلاستر، هدوپ به شما این امکان را میدهد که با افزایش حجم دادهها، به راحتی سیستم خود را مقیاسپذیر کنید.
- پشتیبانی از تنوع داده:
- هدوپ میتواند با استفاده از فریمورکهای مختلف مانند Apache Hadoop MapReduce، Apache Spark، و Hive، با تنوع دادهها مواجه شود و این امکان را فراهم کند تا دادههایی با فرمتهای گوناگون را براحتی تجزیه و تحلیل کنید.
چرا این دوره
شرکت در دوره مدیریت کلاستر هدوپ دارای فواید متعددی است و میتواند به شما کمک کند تا مهارتها و دانش لازم برای مدیریت بهینه مولفههای پردازشی هدوپ را کسب کنید. در زیر چند دلیل برای شرکت در چنین دورههایی ذکر شده است:
- فهم عمیقتر از معماری هدوپ:
- دوره مدیریت کلاستر هدوپ به شما کمک میکند تا به طور عمیقتر با معماری هدوپ و اجزای آن آشنا شوید. این شامل نصب و پیکربندی، مدیریت منابع، و تعامل با ابزارهای مختلف هدوپ میشود.
- پیکربندی و مدیریت کلاستر:
- آموزشهای مرتبط با مدیریت کلاستر هدوپ به شما این امکان را میدهد تا بتوانید یک کلاستر هدوپ را پیکربندی کنید و مدیریت منابع و وظایف مختلف آن را انجام دهید.
- تجربه عملی:
- این دوره تجربه عملی و پروژههای عملی را در ارتباط با مدیریت کلاستر هدوپ ارائه میدهد. که این به شما کمک میکند تا مهارتهای عملی خود را تقویت کنید.
- بهبود عملکرد و بهرهوری:
- با دانستن بهینهسازی منابع کلاستر هدوپ، میتوانید عملکرد و بهرهوری سیستم را افزایش دهید. این موضوع در محیطهای کسب و کاری با حجم داده بزرگ بسیار حائز اهمیت است.
- مدیریت دادههای بزرگ:
- هدوپ برای مدیریت و پردازش دادههای بزرگ طراحی شده است. با شرکت در دوره مربوط، شما قابلیت مدیریت دادههای بزرگ را به طور موثرتر و با بهرهوری بیشتری خواهید داشت.
- استفاده از ابزارهای هدوپ:
- دوره مدیریت کلاستر هدوپ به شما این امکان را میدهد تا با ابزارهای پردازش و تحلیل داده مختلف هدوپ مانند MapReduce، Apache Spark، و Hive آشنا شوید و از آنها بهرهمند شوید.
- پیشگیری از مشکلات عملیاتی:
- با یادگیری مفاهیم مدیریت کلاستر و پیکربندی صحیح، میتوانید مشکلات عملیاتی را پیشگیری کرده و در صورت وقوع، به راحتی آنها را رفع کنید.
با شرکت در دوره مدیریت کلاستر هدوپ، شما میتوانید تسلط خود را بر روی مفاهیم اساسی و پیشرفته این فناوری بالا ببرید و در محیطهایی با حجم داده بزرگ به بهترین نحو ممکن عمل کنید.
مخاطبان دوره
دوره برای چه کسانی مناسب است؟
- مهندسین داده: در بسیاری از پروژههای کلان داده، هدوپ به عنوان یک زیرساخت نگهداری و پردازش داده مورد استفاده قرار میگیرد. این دوره برای مهندسین داده که علاقمند به ورود به دنیای کلان داده هستند میتواند بسیار کمک کننده باشد.
- مدیران سیستم و متخصصین DevOps: مدیران سیستم و متخصصین DevOps میتوانند با یادگیری مدیریت کلاستر آپاچی هدوپ توانایی پیکربندی، راهاندازی و مدیریت کلاسترهای هدوپ با هر مقیاسی را فرا بگیرند و میتواند نقطه ورود مناسبی به حوزه مهندسی داده باشد.
- افرادی که قصد ورود به دنیای مهندسی داده دارند: این دوره برای افرادی که به دنبال یادگیری پرکاربردترین اکوسیستم در حوزه ایجاد پروژه های کلان داده هستند، بسیار مناسب است.
- افرادی که با عنوان مهندس داده قصد مهاجرت شغلی دارند:همانطور که اشاره شد، اکوسیستم هدوپ پرکاربردترین ابزار در مهندسی داده میباشد و یادگیری آن برای افرادی که قصد مهاجرت شغلی با عنوان مهندس داده دارند، بسیار کمککننده و الزامی میباشد.
اگر به یکی از این دستهها تعلق دارید، این دوره آموزشی به شما اطلاعات و مهارتهای لازم برای شروع یک مسیر حرفهای در این حوزه را ارائه خواهد داد.
(با جستحو در قسمت جستجو شغلهای مهندس داده در در لینکدین میتوان به اهمیت یادگیری این ابزار پی برد)
برای چه کسانی مناسب نیست؟
این دوره ممکن است برای افرادی که تازه وارد دنیای فناوری و برنامهنویسی میشوند و تجربه محدودی در این حوزه دارند، چالشبرانگیز باشد. همچنین، اگر شما به دنبال آموزشهای سطح مقدماتی هستید، این دوره ممکن است برای شما مناسب نباشد چراکه در این دوره از مسائل مقدماتی شروع و در ادامه به مسائل کاملا پیشرفته در هدوپ میپردازیم. برای آنهایی که به دنبال مفاهیم بسیار پایه و ابزارهای سادهتر هستند نیز این دوره مناسب نیست.
پیش نیاز ها
آشنایی با مفاهیم پردازش داده: آشنایی با مفاهیم اصولی دادهها و پردازش آنها میتواند پیشنیاز مفیدی برای این دوره باشد. اگرچه تمام مباحث از ابتدا توضیح داده خواهد شد. خلاصه کتاب مبانی مهندسی داده در قسمت خلاصه های کتاب بسیار کمک کننده است.
آشنایی مقدماتی با دستورات لینوکس: نصب هدوپ در کلاس بروی لینوکس انجام میشود و آشنایی مقدماتی با دستورات و مفاهیم لینوکس در این زمینه به شما کمک میکند.
سیستم کامپیوتری با حداقل 12 گیگ رم: برای اجرای تمرینات عملی و راهاندازی کلاستر ، نیاز به دسترسی به یک کامپیوتر و امکان نصب نرمافزارهای مورد نیاز میباشد. میزان رم موردنیاز برای کلاس حداقل 12 گیگ میباشد. مابقی منابع سیستم اهمیتی چندانی ندارند.
مطمئن شوید که پیشنیازهای فوق را به دقت مد نظر داشته باشید تا بتوانید بهترین بهره را از دوره ببرید و مفاهیم آموزش داده شده را به راحتی درک کنید.
جلسات
Section 1 - Introduction
1.1.Challenges of Traditional Systems for Data Processing
1.2.Why Hadoop?
1.3.Fundamental Concepts
1.4.Core Hadoop Components
1.5.History Of Hadoop
1.6.Commercial Hadoop Distributions
Section 2 - Hadoop Cluster Installation
2.1.Deployment Layout
2.2.Anatomy Of A Hadoop Cluster
2.3.Software Packages
2.4.Hostname, DNS
2.5.Users, Groups, Privileges
2.6.JDK Installation
2.7.Tarball Installation
2.8.XML Configuration
2.9.Environment Variables
2.10.Logging Configuration
Section 3 - The Hadoop Distributed File System (HDFS)
3.1.HDFS Features
3.2.HDFS Daemon Processes
3.3.Writing and Reading Files
3.4.NameNode Memory Considerations
3.5.Overview of HDFS Security
3.6.Web UIs for HDFS
3.7.Using the Hadoop File Shell
3.8.Data Replication
3.9.Replica Placement
3.10.Replication Policy
3.11.Hadoop Rack Awareness
3.12.Anatomy of a File Read
3.13.Anatomy of a File Write
Section 4 - MapReduce and Spark on YARN
4.1.The Role of Computational Frameworks
4.2.YARN: The Cluster Resource Manager
4.3.MapReduce Concepts
4.4.Apache Spark Concepts
4.5.Running Computational Frameworks on YARN
4.6.Exploring YARN Applications Through the Web UIs, and the Shell
4.7.YARN Application Logs
Section 5 - Hadoop Configuration and Daemon Logs
5.1.Manager Constructs for Managing Configurations
5.2.Locating Configurations and Applying Configuration Changes
5.3.Managing Role Instances and Adding Services
5.4.Configuring the HDFS Service
5.5.Configuring Hadoop Daemon Logs
5.6.Configuring the YARN Service
Section 6 - Getting Data Into HDFS
6.1.Ingesting Data From External Sources With Flume
6.2.Ingesting Data From Relational Databases With Sqoop
6.3.REST Interfaces
6.4.Best Practices for Importing Data
Section 7 - Planning Your Hadoop Cluster
7.1.HOW TO PLAN A CLUSTER
7.2.General Planning Considerations
7.3.Choosing the Right Hardware
7.4.Virtualization Options
7.5.Network Considerations
7.6.Configuring Nodes
7.7.DISK CONFIGURATION
7.8.Choose a FileSystem
7.9.Mount options
Section 8 - Hadoop Clients Including Hue
8.1.What Are Hadoop Clients?
8.2.Installing and Configuring Hadoop Clients
8.3.Installing and Configuring Hue
8.4.Hue Authentication and Authorization
Section 9 - Advanced Cluster Configuration
9.1.Advanced Configuration Parameters
9.2.Configuring Hadoop Ports
9.3.Configuring HDFS for Rack Awareness
9.4.Configuring HDFS High Availability
Section 10 - Hadoop Security
10.1.Hadoop’s Security System Concepts
10.2.Securing a Hadoop Cluster
10.3.Other Security Concepts
Section 11 - Managing Resources
11.1.Configuring cgroups with Static Service Pools
11.2.The Fair Scheduler
11.3.Configuring Dynamic Resource Pools
11.4.YARN Memory and CPU Settings
Section 12 - Cluster Maintenance
12.1.Checking HDFS Status
12.2.MANAGING HADOOP PROCESS
12.3.Starting and stopping processes manually
12.4.Starting and stopping processes with systemd
12.5.Copying Data Between Clusters
12.6.Adding and Removing Cluster Nodes
12.7.Rebalancing the Cluster
12.8.Directory Snapshots
12.9.Cluster Upgrading
Section 13 - Cluster Monitoring and Troubleshooting
13.1.Manager Monitoring Features
13.2.Monitoring Hadoop Clusters
13.3.Troubleshooting Hadoop Clusters
13.4.Common Misconfigurations