Большие данные 2022 осень

Материал из Wiki
(Различия между версиями)
Перейти к: навигация, поиск
 
(не показаны 19 промежуточных версий 10 участников)
Строка 1: Строка 1:
09.09.2022 Лекция 1.  
+
Список вопросов:
 +
 
 +
1. Понятия и области применения Big Data (Большие Данные),  Machine Learning (Машинное обучение), Artificial Intelligence (Искуственный Интеллект, ИИ), Deep Learning (глубокое обучение), Data Mining,  Text Mining. Место Больших Данных в современных информационных и интеллектуальных системах.
 +
 
 +
2. Основные характеристики Больших Данных - разнообразие, высокая скорость поступления и большой объем. Требования к системам обработки БД -  надёжность и отказоустойчивость (как от аппаратных проблем, так и от человеческого фактора); малые задержки чтения и записи данных; масштабируемость; обобщение; расширяемость; поддержка произвольного доступа; минимальное сопровождение; отлаживаемость. Недостатки инкрементных архитектур. Лямбда-архитектура.
 +
 
 +
3. Системы параллельной обработки (MapReduce).  Эластичные облака (IaaS). Системы пакетных вычислений (Hadoop – HDFS + MapReduce). Каркасы сериализации (Apachy Thrift).  NoSQL (MongoDB, Cassandra). Системы обмена сообщениями и диспетчера очередей (Apachy Kafka). Системы вычислений в реальном времени (Apachy Storm).
 +
 
 +
4. Существующие на рынке сервисы и платформы: Yandex DataSphere, Microsoft Azure, AWS. Интеграция Big Data и  Machine Learning.
 +
 
 +
5. Архитектура и возможности сервиса Yandex DataSphere
 +
6. Архитектура и возможности облачной платформы Microsoft Azure
 +
7. Архитектура и возможности облачной платформы AWS
 +
8. Сравнение возможностей платформ для работы с Большими Данными
 +
9. Архитектура и возможности облачной платформы Nubes
 +
 
 +
10. Фильтрация экспериментальных данных. Алгоритм плавающего среднего, экспоненциальный фильтр. Рекуррентные алгоритмы. Оценка качества фильтрации. Выбор между качеством фильтрации и скоростью.<br>
 +
 
 +
12. Регрессионный анализ, основные допущения. Проверка значимости параметров и адекватности уравнения.<br>
 +
13. Проверка адекватности математической модели.<br>
 +
14. Структурная идентификация модели. Метод группового учёта аргументов. <br>
 +
15. Определение параметров линейного уравнения регрессии методом наименьших квадратов.
 +
16. Определение параметров линейного уравнения регрессии (простой и множественной) с использованием статистических характеристик.
 +
17. Понятие о законах распределения "Хи-квадрат", Стьюдента и Фишера. Примеры их использования. Понятие о статистических гипотезах и методах их проверки. Р- значение.
 +
18. Определение параметров линейного уравнения регрессии в матричной форме.
 +
19. Понятие о полном факторном эксперименте (ПФЭ). Построение планов ПФЭ, его свойства. Достоинства и недостатки. Определение параметров модели по данным полного факторного эксперимента, проверка их значимости, проверка адекватности модели.
 +
20. Таблица дисперсионного анализа. Определение наличия регрессионной зависимости с использованием F - отношения. Множественный коэффициент корреляции.
 +
21. Понятие о частном коэффициенте корреляции. Определение его значимости. Пример использования.
 +
22. Методы последовательного уточнения структуры регрессионного уравнения: метод включений, метод исключений, метод пошаговой регрессии.
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
09.09.2022 Лекция 1. [https://disk.yandex.ru/i/zUDZ2oQZefComw Презентация Лекции 1]
  
 
Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО
 
Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО
Строка 9: Строка 44:
 
Задание 3: сделать любой пример по аналогии с документацией на DataLens
 
Задание 3: сделать любой пример по аналогии с документацией на DataLens
  
 +
Пичугин [https://datalens.yandex.ru/ntwjrs1b638ke-dash Дашборд Карта продаж]
  
 
Шишко: [https://datalens.yandex/qwygw4qqkwlqh Погода]
 
Шишко: [https://datalens.yandex/qwygw4qqkwlqh Погода]
Строка 14: Строка 50:
 
Марьин: [https://datalens.yandex/gmo66ijn3bhu7 Дашборд]
 
Марьин: [https://datalens.yandex/gmo66ijn3bhu7 Дашборд]
  
 +
Макляев: [https://datalens.yandex/17auxi2qlrp0s]
 +
 +
Сидоров: [https://datalens.yandex/gmp7couprt4e7 Коронавирус]
 +
 +
Поляков: [https://datalens.yandex/8eh0bvvcx6d2z Выручка]
 +
 +
Фицева: [https://datalens.yandex/lruczq77o0a8c?state=c557b68b135 Дашбор погода]
 +
 +
Егоров: [https://datalens.yandex/flo6zksjtirw6]
 +
 +
Ноль: [https://datalens.yandex/4aj41cawtwzmv Погода]
 +
 +
Чернова: [https://datalens.yandex/x36syivsb2vgo Dashboard]
 +
 +
Оралов: [https://datalens.yandex/z58w91c7cyb8q Дашборд]
 +
 +
 +
Басистый: [https://datalens.yandex/39cunfqjta0ou]
  
 
[https://datalens.yandex.ru/gmp7l0z7w7vi7-koronavirus-dashbord Пример]
 
[https://datalens.yandex.ru/gmp7l0z7w7vi7-koronavirus-dashbord Пример]
 +
 +
16.09.2022:
 +
 +
Azure:
 +
 +
[https://www.youtube.com/watch?v=uWIT6kDq7s4 Machine Learning in Azure 1 часть 1]
 +
 +
[https://www.youtube.com/watch?v=O86mibwJpXU Machine Learning in Azure 1 часть 2]
 +
 +
[https://www.youtube.com/watch?v=lwWk64lqKbk Machine Learning in Azure 2]
 +
 +
 +
[https://www.youtube.com/watch?v=0nnC8MCHInk Machine Learning in Azure 3]
 +
 +
 +
 +
7.10.2022
 +
 +
[https://docs.sbercloud.ru/dli/ug/index.html Data Lake Insight]
 +
 +
[https://www.bigdataschool.ru/wiki/data-lake Data Lake]
 +
 +
 +
[https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f The Key Feature Behind Lakehouse Data Architecture]
 +
 +
 +
[https://www.bigdataschool.ru/wiki/hdfs HDFS]
 +
 +
[https://www.bigdataschool.ru/wiki/cassandra Cassandra]
 +
 +
[https://ru.m.wikipedia.org/wiki/OLAP OLAP]
 +
 +
[https://clickhouse.com/docs/ru/ Clickhouse]
 +
 +
14.10.2022
 +
 +
[https://youtu.be/MPZL01oc0Xg Искусственный интеллект]
 +
 +
[https://youtu.be/ZGLXMKPSi6A Искусственный интеллект]
 +
 +
[https://youtu.be/owsTK6luW8o DevOps]
 +
 +
[https://youtu.be/kMzOADSy5BI]
 +
 +
 +
 +
 +
 +
 +
 +
 +
  
 
Старые материалы:  
 
Старые материалы:  
Строка 27: Строка 133:
 
[https://docs.sbercloud.ru/platform-v-kafka-sber-edition/ug/index.html Kafka]
 
[https://docs.sbercloud.ru/platform-v-kafka-sber-edition/ug/index.html Kafka]
  
[https://docs.sbercloud.ru/dli/ug/index.html Data Lake Insight]
+
 
  
 
[https://docs.sbercloud.ru/mrs/ug/index.html MapReduce Service]
 
[https://docs.sbercloud.ru/mrs/ug/index.html MapReduce Service]
Строка 42: Строка 148:
 
[https://engineering.grab.com/real-time-data-ingestion Real-time data ingestion in Grab]
 
[https://engineering.grab.com/real-time-data-ingestion Real-time data ingestion in Grab]
  
[https://www.bigdataschool.ru/wiki/data-lake Data Lake]
 
  
[https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f The Key Feature Behind Lakehouse Data Architecture]
+
 
  
  
Строка 54: Строка 159:
  
  
[https://www.bigdataschool.ru/wiki/hdfs HDFS]
 
  
[https://www.bigdataschool.ru/wiki/cassandra Cassandra]
 
  
 
[https://www.bigdataschool.ru/wiki/kafka Kafka]
 
[https://www.bigdataschool.ru/wiki/kafka Kafka]
Строка 67: Строка 170:
  
  
Azure:
 
 
[https://www.youtube.com/watch?v=uWIT6kDq7s4 Machine Learning in Azure 1 часть 1]
 
 
[https://www.youtube.com/watch?v=O86mibwJpXU Machine Learning in Azure 1 часть 2]
 
 
[https://www.youtube.com/watch?v=lwWk64lqKbk Machine Learning in Azure 2]
 
 
 
[https://www.youtube.com/watch?v=0nnC8MCHInk Machine Learning in Azure 3]
 
  
  

Текущая версия на 14:48, 9 декабря 2022

Список вопросов:

1. Понятия и области применения Big Data (Большие Данные), Machine Learning (Машинное обучение), Artificial Intelligence (Искуственный Интеллект, ИИ), Deep Learning (глубокое обучение), Data Mining, Text Mining. Место Больших Данных в современных информационных и интеллектуальных системах.

2. Основные характеристики Больших Данных - разнообразие, высокая скорость поступления и большой объем. Требования к системам обработки БД - надёжность и отказоустойчивость (как от аппаратных проблем, так и от человеческого фактора); малые задержки чтения и записи данных; масштабируемость; обобщение; расширяемость; поддержка произвольного доступа; минимальное сопровождение; отлаживаемость. Недостатки инкрементных архитектур. Лямбда-архитектура.

3. Системы параллельной обработки (MapReduce). Эластичные облака (IaaS). Системы пакетных вычислений (Hadoop – HDFS + MapReduce). Каркасы сериализации (Apachy Thrift). NoSQL (MongoDB, Cassandra). Системы обмена сообщениями и диспетчера очередей (Apachy Kafka). Системы вычислений в реальном времени (Apachy Storm).

4. Существующие на рынке сервисы и платформы: Yandex DataSphere, Microsoft Azure, AWS. Интеграция Big Data и Machine Learning.

5. Архитектура и возможности сервиса Yandex DataSphere 6. Архитектура и возможности облачной платформы Microsoft Azure 7. Архитектура и возможности облачной платформы AWS 8. Сравнение возможностей платформ для работы с Большими Данными 9. Архитектура и возможности облачной платформы Nubes

10. Фильтрация экспериментальных данных. Алгоритм плавающего среднего, экспоненциальный фильтр. Рекуррентные алгоритмы. Оценка качества фильтрации. Выбор между качеством фильтрации и скоростью.

12. Регрессионный анализ, основные допущения. Проверка значимости параметров и адекватности уравнения.
13. Проверка адекватности математической модели.
14. Структурная идентификация модели. Метод группового учёта аргументов.
15. Определение параметров линейного уравнения регрессии методом наименьших квадратов. 16. Определение параметров линейного уравнения регрессии (простой и множественной) с использованием статистических характеристик. 17. Понятие о законах распределения "Хи-квадрат", Стьюдента и Фишера. Примеры их использования. Понятие о статистических гипотезах и методах их проверки. Р- значение. 18. Определение параметров линейного уравнения регрессии в матричной форме. 19. Понятие о полном факторном эксперименте (ПФЭ). Построение планов ПФЭ, его свойства. Достоинства и недостатки. Определение параметров модели по данным полного факторного эксперимента, проверка их значимости, проверка адекватности модели. 20. Таблица дисперсионного анализа. Определение наличия регрессионной зависимости с использованием F - отношения. Множественный коэффициент корреляции. 21. Понятие о частном коэффициенте корреляции. Определение его значимости. Пример использования. 22. Методы последовательного уточнения структуры регрессионного уравнения: метод включений, метод исключений, метод пошаговой регрессии.




09.09.2022 Лекция 1. Презентация Лекции 1

Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО

Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere

Yandex.Cloud

Задание 3: сделать любой пример по аналогии с документацией на DataLens

Пичугин Дашборд Карта продаж

Шишко: Погода

Марьин: Дашборд

Макляев: [1]

Сидоров: Коронавирус

Поляков: Выручка

Фицева: Дашбор погода

Егоров: [2]

Ноль: Погода

Чернова: Dashboard

Оралов: Дашборд


Басистый: [3]

Пример

16.09.2022:

Azure:

Machine Learning in Azure 1 часть 1

Machine Learning in Azure 1 часть 2

Machine Learning in Azure 2


Machine Learning in Azure 3


7.10.2022

Data Lake Insight

Data Lake


The Key Feature Behind Lakehouse Data Architecture


HDFS

Cassandra

OLAP

Clickhouse

14.10.2022

Искусственный интеллект

Искусственный интеллект

DevOps

[4]






Старые материалы:

8.04.2022

Ml Sbercloud

S3

Kafka


MapReduce Service


Для проработки 04.04.2022:

Change Data Capture (CDC): What it is and How it Works

ETL и ELT: 5 основных отличий

Building a Modern Data Stack at Whatnot

Real-time data ingestion in Grab



Для проработки 28.03.2022:

Spark

YARN



Kafka

Ролик Spark

Hadoop





Лекции и общие задания

07.02.2022 Лекция 1.

Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО

Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere

Yandex.Cloud

14.02.2022 Занятие по YandexCloud

Команда: Корсаков, Демин, Тодорич, Глянцев, Луцикова

Получилось сделать перевод введенного текста на python. Скрипт соединяется с сервисом yandex'а и, пользуясь своими ресурсами, переводит текст возвращая json строку, из которой достается переведенный текст. Были использованы документации для успешной работы, а именно:

Для получения IAM-Токена: https://cloud.yandex.ru/docs/iam/operations/iam-token/create

Соединением с сервисом яндекса: https://cloud.yandex.ru/docs/translate/operations/translate

Получив IAM-Токен и идентификатор каталога не составило труда дописать скрипт.


Команда: Алешин, Жижин, Кузнецов, Кузьминых, Гакиев, Сафин, Салимов, Иванов

При работе через сайт не принимает файл .wav (ошибка 400)

С помощью команды yc iam create-token в cmd получили IAM-Токен. Из каталога скопировали его идентификатор. С помощью примера использования API получилось достать из файла расширения .pcm текст(https://cloud.yandex.ru/docs/speechkit/stt/api/streaming-examples). С файлами другого расширения результата получить не удалось.


Команда: Битарова, Перминова, Суржикова, Счастливая

Работали с Yandex Translate. Перевод текста осуществлялся на python.

Во-первых, мы нашли OAuth-токен, который впоследствии обменяли на нужный нам IAM-токен. Обмен осуществлялся с помощью Windows PowerShell. Далее нужный программный код, для перевода текста, мы загрузили в онлайн-компилятор. Было проведено 2 запроса: с английского языка на русский, и наоборот - с русского на английский. Оба запроса выполнились успешно: показывался перевод слова и с какого языка было переведено.

Ссылка на скрины с кодом и результатом его выполнения:https: https://disk.yandex.ru/d/83ljw6TT0IhNgA


Команда: Магеррамов, Киселева, Колесников, Лапина

Работа с Yandex Speechkit. Cоздан платежный аккаунт, с помощью Windows PowerShell получен IAM-токен для дальнейшей работы с сервисом. На языке программирования python написана программа, позволяющая переводить полученный на вход текст в аудиофайл формата .raw. Планировалось внутри программы конвертировать формат .raw в .wav с помощью утилиты sox, рекомендуемой YandexCloud. По какой-то причине конвертация не работает, но для проверки результата была скачана сторонняя программа, позволяющая изменить формат и прослушать аудиозапись.

Код программы и рабочая аудиозапись по ссылке на диске: https://drive.google.com/drive/folders/1tMqvjJgG_8OG9VOKjp1BEZBrQ9CSR3eR?usp=sharing

Azure: проработаны обучающие видео по курсу машинного обучения в среде Azure

Проработаны большие данные (базы данных), такие как: Spark, Yarn, Cassandra и другие. Выявлены ряды плюсов и минусов каждой из баз данных (архитектурные особенности, компонентность, клиентоориентированность и, непосредственно, функционал)

Объектное хранилище: познакомились с облаком Sber Cloud. В S3 можно хранить данные в любом формате, будь то аудио или видео файлы, документы, электронные письма, персональные данные, резервные копии, образы виртуальных машин, данные для работы приложений, BigData и так далее. При этом данные хранятся в исходном формате, без каких-либо преобразований.

Стоит отметить, что данные в хранилище размещаются в виде объектов в плоском адресном пространстве (без иерархии) — это позволяет приложениям быстрее получать доступ к объектам и работать с хранилищем по протоколу HTTP/HTTPS, - несомненный плюс данной структуры.

Познакомились и проработали информацию о программном продукте Platform V Kafka, который предназначен для автоматизации развертывания, масштабирования контейнеризированных приложений и управления ими с использованием платформы Kubernetes путем предоставления REST API (то есть программный интерфейс приложений, описание способов для обмена данными между приложениями).

Об архитектурной организации сбербанка подробнее рассказал работник из данной организации. Глубже посвятил в структуру базы данных, рассказал подробнее о сервисах обработки и анализа больших данных, работающих на базе системы Apache Spark (Data Lake Insight (DLI)). Также был затронут MapReduce Service (MRS) — надежная, безопасная и простая в использовании платформа корпоративного уровня для хранения, обработки и анализа больших данных.


Успехи выполнения:


Правила тарификации для DataSphere

Настройки прав доступа

вебинары

Руководства

Понятия и конфигурации

Персональные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты