خانه / دوره ها / بیگ دیتا / مدیریت کلاستر هدوپ – Apache Hadoop

مدرس دوره:

وحید امیری

مدیریت کلاستر هدوپ – Apache Hadoop

**درحال آماده سازی**

هدوپ، سکویی متن‌باز برای پردازش و ذخیره داده‌های بزرگ، به منظور مقابله با حجم عظیم داده‌ها و اجرای پردازش‌های پیچیده ایجاد شد. میتوان گفت ظهور این پروژه، یکی از پیشرانهای اصلی پروژههای کلان داده در بسیار از شرکتها میباشد. در دوره مدیریت کلاستر هدوپ، شما با مفاهیم اساسی و پیشرفته…

سطح دوره

مبتدی

تعداد جلسات

60 زبان:

فارسی

طول هر جلسه:

حدود 30 دقیقه

زمان کلی دوره:

30 ساعت

سبک ارائه دوره:

آفلاین از طریق Spotplayer

موراد قابل دانلود:

پاورپوینت، تمرین¬ها و کد¬های کلاس

مدرک دوره:

مدرک کتبی پس از پایان دوره

ورود به دوره

درباره این دوره

شرکت‌های بزرگ امروزی با تولید و جمع‌آوری داده‌های عظیمی مواجه هستند. این حجم عظیم داده‌ها از منابع گوناگون نظیر تراکنش‌های مالی، ارتباطات مشتریان، حسگرها، و اطلاعات لاگ‌ها به دست می‌آید. به عنوان مثال:

تراکنش‌های مالی:
- شرکت‌های بانکی میلیاردها تراکنش مالی را در سطح جهان انجام می‌دهند. به عنوان مثال، یک بانک بزرگ ممکن است روزانه میلیارد‌ها تراکنش مالی داشته باشد.
ارتباطات مشتریان:
- شرکت‌های فناوری، ارتباطات، و خدمات اینترنتی میلیاردها داده از تعاملات مشتریان خود را دریافت می‌کنند. این شامل اطلاعات از تاریخچه خرید، ترجیحات مشتری، و تعاملات آنلاین است.
حسگرها:
- شرکت‌های مرتبط با اینترنت اشیاء (IoT) از حسگرها مانند دستگاه‌های پوشیدنی، سنسورها در خودروها، و سایر دستگاه‌ها به میلیاردها داده دست پیدا می‌کنند.

برخی از چالشهایی که این شرکتهای با آن مواجه هستند عبارتند از:

پردازشهای سنگین:
- حجم بالای داده‌ها نیازمند زیرساخت‌های قوی برای پردازش و تحلیل سریع آنهاست. الگوریتم‌های بهینه و سیستم‌های پردازش موازی مهم است.
منابع محدود:
- اکثر سازمان‌ها با محدودیت‌های منابع مانند فضای ذخیره‌سازی، توان پردازشی، و پهنای باند مواجه هستند. بهینه‌سازی استفاده از این منابع چالشی است.
تنوع داده:
- داده‌ها از منابع مختلف و با فرمت‌های گوناگون آمده و تنوع در تحلیل آنها چالش‌های خود را به همراه دارد.
داده‌های بی‌ساختار:
- بخشی از داده‌ها به صورت بی‌ساختار است که نیازمند ابزارها و تکنیک‌های خاص برای تحلیل و استخراج اطلاعات مفید هستند.

برای مواجه با این چالشها، شرکتها هم به استراتژیها، معماریها و مفاهیم جدید و هم به ابزارهای مدرن مدیریت داده در مقیاس بالا نیاز دارند. مفاهیمی نظیر پردازشهای موازی، معماریهای توزیعشده، ایجاد خطلولهها به جهت پردازش دادهها بصورت جریانی، ذخیرهسازی دادههای تجمیع شده و ابزارهایی نظیر آپاچی هدوپ، پایگاه دادههای غیررابطهایی، سیستمفایلها و ذخیرهسازهای اشیا از جمله مواردی هستند که میتوانند به در این زمینه کمک کنند.

از سکوی هدوپ میتوان به عنوان یک راهحل جامع برای مدیریت دادهها بصورت توزیعشده و مقیاسپذیر نام برد. برخی از خصوصیات این سکوی پردازشی عبارتند از:

پردازش موازی:
- هدوپ این امکان را می‌دهد که داده‌های خود را به صورت موازی و از طریق چندین سرور پردازش کنید، که این کار به بهبود سرعت پردازش و تحلیل بسیار کمک می‌کند.
مقیاس‌پذیری:
- با توانایی افزودن سرورهای جدید به کلاستر، هدوپ به شما این امکان را می‌دهد که با افزایش حجم داده‌ها، به راحتی سیستم خود را مقیاس‌پذیر کنید.
پشتیبانی از تنوع داده:
- هدوپ می‌تواند با استفاده از فریم‌ورک‌های مختلف مانند Apache Hadoop MapReduce، Apache Spark، و Hive، با تنوع داده‌ها مواجه شود و این امکان را فراهم کند تا دادههایی با فرمتهای گوناگون را براحتی تجزیه و تحلیل کنید.

چرا این دوره

شرکت در دوره مدیریت کلاستر هدوپ دارای فواید متعددی است و می‌تواند به شما کمک کند تا مهارت‌ها و دانش لازم برای مدیریت بهینه مولفههای پردازشی هدوپ را کسب کنید. در زیر چند دلیل برای شرکت در چنین دوره‌هایی ذکر شده است:

فهم عمیقتر از معماری هدوپ:
- دوره مدیریت کلاستر هدوپ به شما کمک می‌کند تا به طور عمیقتر با معماری هدوپ و اجزای آن آشنا شوید. این شامل نصب و پیکربندی، مدیریت منابع، و تعامل با ابزارهای مختلف هدوپ می‌شود.
پیکربندی و مدیریت کلاستر:
- آموزش‌های مرتبط با مدیریت کلاستر هدوپ به شما این امکان را می‌دهد تا بتوانید یک کلاستر هدوپ را پیکربندی کنید و مدیریت منابع و وظایف مختلف آن را انجام دهید.
تجربه عملی:
- این دوره تجربه عملی و پروژه‌های عملی را در ارتباط با مدیریت کلاستر هدوپ ارائه می‌دهد. که این به شما کمک می‌کند تا مهارت‌های عملی خود را تقویت کنید.
بهبود عملکرد و بهره‌وری:
- با دانستن بهینه‌سازی منابع کلاستر هدوپ، می‌توانید عملکرد و بهره‌وری سیستم را افزایش دهید. این موضوع در محیط‌های کسب و کاری با حجم داده بزرگ بسیار حائز اهمیت است.
مدیریت داده‌های بزرگ:
- هدوپ برای مدیریت و پردازش داده‌های بزرگ طراحی شده است. با شرکت در دوره مربوط، شما قابلیت مدیریت داده‌های بزرگ را به طور موثرتر و با بهره‌وری بیشتری خواهید داشت.
استفاده از ابزارهای هدوپ:
- دوره مدیریت کلاستر هدوپ به شما این امکان را می‌دهد تا با ابزارهای پردازش و تحلیل داده مختلف هدوپ مانند MapReduce، Apache Spark، و Hive آشنا شوید و از آنها بهره‌مند شوید.
پیشگیری از مشکلات عملیاتی:
- با یادگیری مفاهیم مدیریت کلاستر و پیکربندی صحیح، می‌توانید مشکلات عملیاتی را پیشگیری کرده و در صورت وقوع، به راحتی آنها را رفع کنید.

با شرکت در دوره مدیریت کلاستر هدوپ، شما می‌توانید تسلط خود را بر روی مفاهیم اساسی و پیشرفته این فناوری بالا ببرید و در محیط‌هایی با حجم داده بزرگ به بهترین نحو ممکن عمل کنید.

مخاطبان دوره

دوره برای چه کسانی مناسب است؟

مهندسین داده: در بسیاری از پروژههای کلان داده، هدوپ به عنوان یک زیرساخت نگهداری و پردازش داده مورد استفاده قرار میگیرد. این دوره برای مهندسین داده که علاقمند به ورود به دنیای کلان داده هستند میتواند بسیار کمک کننده باشد.
مدیران سیستم و متخصصین DevOps: مدیران سیستم و متخصصین DevOps می‌توانند با یادگیری مدیریت کلاستر آپاچی هدوپ توانایی پیکربندی، راه‌اندازی و مدیریت کلاستر‌های هدوپ با هر مقیاسی را فرا بگیرند و میتواند نقطه ورود مناسبی به حوزه مهندسی داده باشد.
افرادی که قصد ورود به دنیای مهندسی داده دارند: این دوره برای افرادی که به دنبال یادگیری پرکاربردترین اکوسیستم در حوزه ایجاد پروژه های کلان داده هستند، بسیار مناسب است.
افرادی که با عنوان مهندس داده قصد مهاجرت شغلی دارند:همانطور که اشاره شد، اکوسیستم هدوپ پرکاربردترین ابزار در مهندسی داده می‌باشد و یادگیری آن برای افرادی که قصد مهاجرت شغلی با عنوان مهندس داده‌ دارند، بسیار کمک‌کننده و الزامی می‌باشد.

اگر به یکی از این دسته‌ها تعلق دارید، این دوره آموزشی به شما اطلاعات و مهارت‌های لازم برای شروع یک مسیر حرفه‌ای در این حوزه را ارائه خواهد داد.

(با جستحو در قسمت جستجو شغلهای مهندس داده در در لینکدین میتوان به اهمیت یادگیری این ابزار پی برد)

برای چه کسانی مناسب نیست؟

این دوره ممکن است برای افرادی که تازه وارد دنیای فناوری و برنامه‌نویسی می‌شوند و تجربه محدودی در این حوزه دارند، چالش‌برانگیز باشد. همچنین، اگر شما به دنبال آموزش‌های سطح مقدماتی هستید، این دوره ممکن است برای شما مناسب نباشد چراکه در این دوره از مسائل مقدماتی شروع و در ادامه به مسائل کاملا پیشرفته در هدوپ می‌پردازیم. برای آنهایی که به دنبال مفاهیم بسیار پایه و ابزارهای ساده‌تر هستند نیز این دوره مناسب نیست.

پیش نیاز ها

آشنایی با مفاهیم پردازش داده: آشنایی با مفاهیم اصولی داده‌ها و پردازش آنها می‌تواند پیشنیاز مفیدی برای این دوره باشد. اگرچه تمام مباحث از ابتدا توضیح داده خواهد شد. خلاصه کتاب مبانی مهندسی داده در قسمت خلاصه های کتاب بسیار کمک کننده است.

آشنایی مقدماتی با دستورات لینوکس: نصب هدوپ در کلاس بروی لینوکس انجام می‌شود و آشنایی مقدماتی با دستورات و مفاهیم لینوکس در این زمینه به شما کمک می‌کند.

سیستم کامپیوتری با حداقل 12 گیگ رم: برای اجرای تمرینات عملی و راهاندازی کلاستر ، نیاز به دسترسی به یک کامپیوتر و امکان نصب نرم‌افزارهای مورد نیاز می‌باشد. میزان رم موردنیاز برای کلاس حداقل 12 گیگ می‌باشد. مابقی منابع سیستم اهمیتی چندانی ندارند.

مطمئن شوید که پیش‌نیازهای فوق را به دقت مد نظر داشته باشید تا بتوانید بهترین بهره را از دوره ببرید و مفاهیم آموزش داده شده را به راحتی درک کنید.

جلسات

Section 1 - Introduction

1.1.Challenges of Traditional Systems for Data Processing
1.2.Why Hadoop?
1.3.Fundamental Concepts
1.4.Core Hadoop Components
1.5.History Of Hadoop
1.6.Commercial Hadoop Distributions

Section 2 - Hadoop Cluster Installation

2.1.Deployment Layout
2.2.Anatomy Of A Hadoop Cluster
2.3.Software Packages
2.4.Hostname, DNS
2.5.Users, Groups, Privileges
2.6.JDK Installation
2.7.Tarball Installation
2.8.XML Configuration
2.9.Environment Variables
2.10.Logging Configuration

Section 3 - The Hadoop Distributed File System (HDFS)

3.1.HDFS Features
3.2.HDFS Daemon Processes
3.3.Writing and Reading Files
3.4.NameNode Memory Considerations
3.5.Overview of HDFS Security
3.6.Web UIs for HDFS
3.7.Using the Hadoop File Shell
3.8.Data Replication
3.9.Replica Placement
3.10.Replication Policy
3.11.Hadoop Rack Awareness
3.12.Anatomy of a File Read
3.13.Anatomy of a File Write

Section 4 - MapReduce and Spark on YARN

4.1.The Role of Computational Frameworks
4.2.YARN: The Cluster Resource Manager
4.3.MapReduce Concepts
4.4.Apache Spark Concepts
4.5.Running Computational Frameworks on YARN
4.6.Exploring YARN Applications Through the Web UIs, and the Shell
4.7.YARN Application Logs

Section 5 - Hadoop Configuration and Daemon Logs

5.1.Manager Constructs for Managing Configurations
5.2.Locating Configurations and Applying Configuration Changes
5.3.Managing Role Instances and Adding Services
5.4.Configuring the HDFS Service
5.5.Configuring Hadoop Daemon Logs
5.6.Configuring the YARN Service

Section 6 - Getting Data Into HDFS

6.1.Ingesting Data From External Sources With Flume
6.2.Ingesting Data From Relational Databases With Sqoop
6.3.REST Interfaces
6.4.Best Practices for Importing Data

Section 7 - Planning Your Hadoop Cluster

7.1.HOW TO PLAN A CLUSTER
7.2.General Planning Considerations
7.3.Choosing the Right Hardware
7.4.Virtualization Options
7.5.Network Considerations
7.6.Configuring Nodes
7.7.DISK CONFIGURATION
7.8.Choose a FileSystem
7.9.Mount options

Section 8 - Hadoop Clients Including Hue

8.1.What Are Hadoop Clients?
8.2.Installing and Configuring Hadoop Clients
8.3.Installing and Configuring Hue
8.4.Hue Authentication and Authorization

Section 9 - Advanced Cluster Configuration

9.1.Advanced Configuration Parameters
9.2.Configuring Hadoop Ports
9.3.Configuring HDFS for Rack Awareness
9.4.Configuring HDFS High Availability

Section 10 - Hadoop Security

10.1.Hadoop’s Security System Concepts
10.2.Securing a Hadoop Cluster
10.3.Other Security Concepts

Section 11 - Managing Resources

11.1.Configuring cgroups with Static Service Pools
11.2.The Fair Scheduler
11.3.Configuring Dynamic Resource Pools
11.4.YARN Memory and CPU Settings

Section 12 - Cluster Maintenance

12.1.Checking HDFS Status
12.2.MANAGING HADOOP PROCESS
12.3.Starting and stopping processes manually
12.4.Starting and stopping processes with systemd
12.5.Copying Data Between Clusters
12.6.Adding and Removing Cluster Nodes
12.7.Rebalancing the Cluster
12.8.Directory Snapshots
12.9.Cluster Upgrading

Section 13 - Cluster Monitoring and Troubleshooting

13.1.Manager Monitoring Features
13.2.Monitoring Hadoop Clusters
13.3.Troubleshooting Hadoop Clusters
13.4.Common Misconfigurations

مشاهده تمام کامنت ها