Hadoop Distributed File System (HDFS) – распределённая файловая система, позволяющая хранить информацию практически неограниченного объёма. HDFS является неотъемлемой частью экосистемы Hadoop, куда входят фреймворки Spark, Hive, HBase и другие. Hadoop Distributed File System активно используют и другие направления Big Data, включая подготовку и анализ данных, а также аналитические системы на базе алгоритмов машинного обучения (Machine Learning).
Кому будет полезен интенсив:
- Тем, кто начинает погружаться в сферу BigData
- Тем, кто хочет глубже узнать внутреннее устройство распределенной файловой системы HDFS
После интенсива вы будете:
- понимать, зачем нужны большие данные (Big Data)
- разбираться, как устроена HDFS, ее составляющие
- знать преимущества и недостатки HDFS
- уметь записывать и читать данные в/из HDFS
- исследовать файловую систему HDFS с точки зрения системного администратора
Программа курса:
- Зачем нужны большие данные
- Распределённые файловые системы. Файловые системы HDFS. Их составляющие. Их достоинства, недостатки и сфера применения
- Чтение и запись в HDFS
- HDFS APIs: Web API, shell, Python API.
- Форма закрепления знаний – тестирование и выполнение домашней работы.
Преподаватель Олег Ивченко
Разработчик системы HJudge – системы автоматизированного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space. Организатор Hadoop Admins RU Meetup.