Большие данные 2022 осень
09.09.2022 Лекция 1.
Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО
Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere
Задание 3: сделать любой пример по аналогии с документацией на DataLens
Шишко: Погода
Сидоров: Коронавирус
Старые материалы:
8.04.2022
Для проработки 04.04.2022:
Change Data Capture (CDC): What it is and How it Works
Building a Modern Data Stack at Whatnot
Real-time data ingestion in Grab
The Key Feature Behind Lakehouse Data Architecture
Для проработки 28.03.2022:
Azure:
Machine Learning in Azure 1 часть 1
Machine Learning in Azure 1 часть 2
Лекции и общие задания
07.02.2022 Лекция 1.
Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО
Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere
14.02.2022 Занятие по YandexCloud
Команда: Корсаков, Демин, Тодорич, Глянцев, Луцикова
Получилось сделать перевод введенного текста на python. Скрипт соединяется с сервисом yandex'а и, пользуясь своими ресурсами, переводит текст возвращая json строку, из которой достается переведенный текст. Были использованы документации для успешной работы, а именно:
Для получения IAM-Токена: https://cloud.yandex.ru/docs/iam/operations/iam-token/create
Соединением с сервисом яндекса: https://cloud.yandex.ru/docs/translate/operations/translate
Получив IAM-Токен и идентификатор каталога не составило труда дописать скрипт.
Команда: Алешин, Жижин, Кузнецов, Кузьминых, Гакиев, Сафин, Салимов, Иванов
При работе через сайт не принимает файл .wav (ошибка 400)
С помощью команды yc iam create-token в cmd получили IAM-Токен. Из каталога скопировали его идентификатор. С помощью примера использования API получилось достать из файла расширения .pcm текст(https://cloud.yandex.ru/docs/speechkit/stt/api/streaming-examples). С файлами другого расширения результата получить не удалось.
Команда: Битарова, Перминова, Суржикова, Счастливая
Работали с Yandex Translate. Перевод текста осуществлялся на python.
Во-первых, мы нашли OAuth-токен, который впоследствии обменяли на нужный нам IAM-токен. Обмен осуществлялся с помощью Windows PowerShell. Далее нужный программный код, для перевода текста, мы загрузили в онлайн-компилятор. Было проведено 2 запроса: с английского языка на русский, и наоборот - с русского на английский. Оба запроса выполнились успешно: показывался перевод слова и с какого языка было переведено.
Ссылка на скрины с кодом и результатом его выполнения:https: https://disk.yandex.ru/d/83ljw6TT0IhNgA
Команда: Магеррамов, Киселева, Колесников, Лапина
Работа с Yandex Speechkit. Cоздан платежный аккаунт, с помощью Windows PowerShell получен IAM-токен для дальнейшей работы с сервисом. На языке программирования python написана программа, позволяющая переводить полученный на вход текст в аудиофайл формата .raw. Планировалось внутри программы конвертировать формат .raw в .wav с помощью утилиты sox, рекомендуемой YandexCloud. По какой-то причине конвертация не работает, но для проверки результата была скачана сторонняя программа, позволяющая изменить формат и прослушать аудиозапись.
Код программы и рабочая аудиозапись по ссылке на диске: https://drive.google.com/drive/folders/1tMqvjJgG_8OG9VOKjp1BEZBrQ9CSR3eR?usp=sharing
Azure: проработаны обучающие видео по курсу машинного обучения в среде Azure
Проработаны большие данные (базы данных), такие как: Spark, Yarn, Cassandra и другие. Выявлены ряды плюсов и минусов каждой из баз данных (архитектурные особенности, компонентность, клиентоориентированность и, непосредственно, функционал)
Объектное хранилище: познакомились с облаком Sber Cloud. В S3 можно хранить данные в любом формате, будь то аудио или видео файлы, документы, электронные письма, персональные данные, резервные копии, образы виртуальных машин, данные для работы приложений, BigData и так далее. При этом данные хранятся в исходном формате, без каких-либо преобразований.
Стоит отметить, что данные в хранилище размещаются в виде объектов в плоском адресном пространстве (без иерархии) — это позволяет приложениям быстрее получать доступ к объектам и работать с хранилищем по протоколу HTTP/HTTPS, - несомненный плюс данной структуры.
Познакомились и проработали информацию о программном продукте Platform V Kafka, который предназначен для автоматизации развертывания, масштабирования контейнеризированных приложений и управления ими с использованием платформы Kubernetes путем предоставления REST API (то есть программный интерфейс приложений, описание способов для обмена данными между приложениями).
Об архитектурной организации сбербанка подробнее рассказал работник из данной организации. Глубже посвятил в структуру базы данных, рассказал подробнее о сервисах обработки и анализа больших данных, работающих на базе системы Apache Spark (Data Lake Insight (DLI)). Также был затронут MapReduce Service (MRS) — надежная, безопасная и простая в использовании платформа корпоративного уровня для хранения, обработки и анализа больших данных.
Успехи выполнения: