Uploaded by athurtiad

Рабочая тетрадь Дизайн исследования раздел 1

advertisement
КУРС «АНАЛИТИК ДАННЫХ»
Раздел 1. Проектирование дизайна исследования в Big Data
Вы научитесь составлять план исследования, включающий:







выбор методологии Data Mining
определение бизнес-цели
определение цели анализа данных
формулировку требований к результату исследования
определение типов, источников и способов получения данных
выбор методов и инструментов анализа
оценку рисков и условий реализации проекта
Кейс
В Центр прикладного анализа больших данных обратился Клиент N. Он занимается
строительством частных домов в городе Т. более 10 лет. В год он строит в среднем 30
частных домов. Под частными дома подразумеваются, как дачные дома в формате «все
включено», так и небольшие коттеджи, рассчитанные на круглогодичное проживание.
Заказчик начинает работу от фундамента до готового решения, включая внутреннюю
отделку. Средний срок сдачи проекта от 6 до 12 месяцев. Заказчик занимается
строительством на участках своих клиентов, а не продает дома вместе с участком. Среди
продуктовой линейки преобладают 1-2 этажные дома в среднем ценовом сегменте. Дома
являются типовыми, клиенты выбирают из нескольких готовых решений и вносят
индивидуальные корректировки.
Текущая целевая аудитория — мужчины и женщины старше 35 лет, средний уровень
дохода относительно города присутствия. Семейный статус — женаты, обычно 1-2 ребенка.
Есть автомобиль среднего класса. Ключевые ценности — семья и здоровье. Один из частых
сценариев переезда за город - лучшая экологическая обстановка для здоровья детей. Для
клиентов важно относительно небольшая удаленность от города для того, чтобы было
удобно возить детей в школу или детский сад. Сами клиенты также работают в городе.
Наш Заказчик делает ставку на качественные материалы, соблюдение сроков и прозрачную
систему оплаты. Также имеется возможность получения рассрочки, Заказчик сотрудничает
с банками города, которые предоставляют низкую % ставку для его клиентов. У заказчика
есть 5 основных конкурентов с точки зрения схожей продуктовой линейки (ассортимент) и
ценового сегмента. Заказчик знает своих конкурентов и отдел маркетинга ежемесячно
проводит конкурентный анализ их предложений.
В структуре компании есть финансовый отдел, отдел маркетинга, отдел продаж,
производственный (строительный), инженерный и управленческий отделы. Основной
канал коммуникации с аудиторией (маркетинг) на данный момент — это Интернет
(социальные сети, контекстная реклама, сайт). Отдел маркетинга заточен именно под
работу в цифровом пространстве для привлечения новых клиентов.
Наш Клиент уверен в своем опыте работы, его команда готова работать с дорогостоящими
материалами. Кроме того, в город T стало переезжать больше состоятельных людей по
КУРС «АНАЛИТИК ДАННЫХ»
сравнению с 5 годами раннее и его партнёр по бизнесу начал продажу земель в
привлекательном месте. В связи с развитием города T и ростом уровня благополучия его
горожан, наш клиент собирается развивать новую нишу бизнеса — строительство домов
премиум-сегмента, цена которых в разы превосходит его имеющийся ассортимент.
Заказчик знает, как работать с товарами среднего класса, однако совершенно не понимает
потребности покупателей, которые могли бы заинтересоваться товаром в новой нише.
КУРС «АНАЛИТИК ДАННЫХ»
Тема 1. Методологии Data Mining
1. Зачем нужны стандарты изучения данных?

Единообразие: Стандарты позволяют обеспечить единообразие в сборе, обработке,
анализе и представлении данных. Это обеспечивает согласованность и унификацию
данных, что упрощает их сравнение и обмен между разными системами и
организациями.

Качество данных: Стандарты помогают обнаруживать и исправлять ошибки и
несоответствия в данных, что способствует повышению их качества. Это важно для
принятия точных решений на основе данных.

Совместимость: Использование стандартов обеспечивает совместимость данных
между разными системами и платформами. Это позволяет интегрировать данные
из разных источников и использовать их в различных приложениях без проблем.

Безопасность: Стандарты могут включать в себя меры безопасности для защиты
данных от несанкционированного доступа, изменения или утраты. Это особенно
важно для конфиденциальных и чувствительных данных.

Эффективность: Стандарты определяют процессы и процедуры для обработки
данных, что помогает сделать этот процесс более эффективным и эффективным в
организации.

Устойчивость к изменениям: Стандарты могут быть обновлены и адаптированы к
новым требованиям и технологиям, что обеспечивает устойчивость и актуальность
данных.

Соблюдение законодательства: В некоторых областях, таких как здравоохранение и
финансы, существуют строгие законодательные требования к обработке и хранению
данных. Стандарты помогают обеспечить соблюдение этих норм и предостерегают
от возможных юридических проблем.
2. Какие эффективные методологии (стандарты) изучения данных существуют на
сегодняшний день?
А. SEMMA
Б. KDD
В. Crips-DM
3. В чем заключаются их основные отличия:
1. SEMMA (Sample, Explore, Modify, Model, Assess):
КУРС «АНАЛИТИК ДАННЫХ»

SEMMA является методологией, разработанной компанией SAS для анализа
данных.

Процесс SEMMA включает в себя этапы выборки (Sample), исследования
данных (Explore), модификации данных (Modify), построения моделей
(Model) и оценки результатов (Assess).

SEMMA акцентирует внимание на предварительной обработке данных и
подготовке данных перед построением моделей.
2. KDD (Knowledge Discovery in Databases):

KDD охватывает широкий процесс открытия знаний в базах данных.

KDD включает в себя такие этапы, как сбор данных, предварительная
обработка, преобразование данных, построение моделей, интерпретация
результатов и использование полученных знаний.

KDD более общая методология и не связана с конкретными инструментами
или компаниями.
3. CRISP-DM (Cross-Industry Standard Process for Data Mining):

CRISP-DM является открытым и широко применяемым стандартом для
процесса добычи знаний из данных.

CRISP-DM включает в себя шесть основных этапов: понимание бизнеспроблемы, понимание данных, подготовка данных, моделирование, оценка
и внедрение.

CRISP-DM акцентирует внимание на взаимодействии с бизнес-процессом и
управлении проектом анализа данных.
4. Как выглядит общий алгоритм анализа данных:
1. Понимание бизнес-целей: Определение бизнес-целей и вопросов, на которые
анализ данных должен ответить. Четкое понимание целей поможет определить,
какие данные собирать и какие результаты ожидать.
2. Сбор данных: Сбор необходимых данных из различных источников, таких как базы
данных, файлы, API и т.д. Этот этап включает в себя извлечение, трансформацию и
загрузку данных (ETL).
3. Предварительная обработка данных: Очистка данных от ошибок, пропусков,
выбросов и дубликатов. Преобразование данных в удобный формат и их
структурирование.
4. Исследование данных: Исследование данных, чтобы понять их особенности и
распределение. Визуализация данных с использованием графиков и диаграмм.
5. Подготовка данных: Подготовка данных для моделирования, включая выбор
признаков (факторов) и целевых переменных, кодирование категориальных
данных, масштабирование и т.д.
КУРС «АНАЛИТИК ДАННЫХ»
6. Моделирование: Построение моделей для анализа данных. Это может включать в
себя применение статистических методов, машинного обучения или других
алгоритмов анализа данных.
7. Оценка моделей: Оценка производительности моделей с использованием метрик
и тестов. Идентификация лучшей модели для решения поставленных задач.
8. Интерпретация результатов: Интерпретация результатов
выявление закономерностей и паттернов. Выводы.
анализа
данных,
9. Внедрение результатов: Внедрение полученных знаний в бизнес-процессы и
применение их для принятия решений.
10. Мониторинг и обновление: Мониторинг
обновление в случае необходимости.
производительности
модели
и
5. На что нужно ориентироваться аналитику данных при выборе подходящей для
конкретного исследования методологии?
1. Цели и задачи исследования: Важно определить, чего именно мы хотим достичь с
помощью анализа данных. Разные методологии могут быть более или менее
подходящими для конкретных целей, таких как предсказание, классификация,
кластеризация, выявление паттернов и другие.
2. Специфика данных: Исходя из характеристик данных (например, объем, структура,
типы данных), выбирать методологию, которая наиболее соответствует этим
характеристикам. Например, данные с высокой размерностью могут потребовать
методологии, способной справляться с большим количеством признаков.
3. Этапы жизненного цикла проекта: Рассмотреть, в какой фазе жизненного цикла
проекта находится анализ данных. Например, методология CRISP-DM акцентирует
внимание на управлении проектом и интеграции анализа данных в бизнеспроцессы.
4. Доступные ресурсы: Учесть ресурсы, доступные для проекта, включая инструменты
и персонал. Некоторые методологии могут потребовать специфических
инструментов или экспертов.
5. Специфика отрасли: Различные отрасли могут иметь свои особенности, требования
и стандарты в области анализа данных. Учесть специфику отрасли при выборе
методологии.
6. Правовые и этические соображения: Если анализ данных связан с личной
информацией или другими юридическими ограничениями, убедиться, что
выбранная методология соответствует соответствующим нормативам и
законодательству.
7. Опыт и знания команды: Учитывать опыт и знания команды в области анализа
данных. Некоторые методологии могут быть более сложными и требовать
определенных навыков.
КУРС «АНАЛИТИК ДАННЫХ»
8. Бюджет и сроки: Оценить бюджет и временные рамки для проекта анализа данных.
Некоторые методологии могут быть более затратными и времязатратными, чем
другие.
6. Топ-5 выводов:
1. Data Mining - это процесс выявления скрытых шаблонов, трендов и информации в
больших объемах данных с использованием различных методов и алгоритмов.
2. Основные методологии Data Mining включают CRISP-DM, SEMMA, KDD и другие,
каждая из которых предоставляет рамки для организации и управления процессом
анализа данных.
3. CRISP-DM (Cross-Industry Standard Process for Data Mining) - одна из самых
распространенных методологий, включающая шаги от определения бизнес-целей
до развертывания результатов.
4. SEMMA (Sample, Explore, Modify, Model, Assess) - методология, разработанная SAS,
которая выделяет этапы от выборки данных до оценки их моделей.
5. KDD (Knowledge Discovery in Databases) - это общий процесс извлечения знаний из
данных, включая стадии от выборки данных до интерпретации результатов,
охватывающий более широкий спектр методов и техник.
КУРС «АНАЛИТИК ДАННЫХ»
Тема 2. Определение бизнес-цели
1. Почему этап определения бизнес-цели заказчика так важен для планирования
дизайна исследования?
1. Ориентация на результат: Бизнес-цели определяют, что именно заказчик хочет
достичь через проведение исследования. Это помогает сделать исследование
ориентированным на конкретные результаты и позволяет избежать бесцельных
усилий и ресурсов.
2. Подбор методологии: Бизнес-цели определяют методы и инструменты, которые
будут использоваться в исследовании. Например, если целью является определение
потребностей рынка, это может потребовать различные методы, чем если целью
является оценка эффективности рекламной кампании.
3. Уточнение вопросов и гипотез: Цели заказчика помогают сформулировать
конкретные вопросы и гипотезы, которые должны быть исследованы. Это упрощает
процесс планирования и дает четкое направление для исследования.
4. Бюджет и ресурсы: Определение бизнес-целей позволяет оценить необходимые
бюджетные и ресурсные затраты. Это важно для планирования и управления
ресурсами и расходами на проведение исследования.
5. Измерение успеха: Бизнес-цели служат мерилом успеха проводимого
исследования. По достижении целей можно оценить, насколько исследование было
эффективным и полезным для заказчика.
6. Адаптация к изменениям: Четко определенные бизнес-цели облегчают адаптацию
исследования в случае изменения обстоятельств или появления новых вопросов
заказчика. Это делает планирование более гибким.
2. Какую информацию — от заказчика или о заказчике — необходимо получить?
1. Бизнес-цели заказчика: Необходимо понять, что именно заказчик хочет достичь с
помощью проводимого исследования. Это могут быть конкретные цели, такие как
увеличение
продаж,
оптимизация
бизнес-процессов,
повышение
удовлетворенности клиентов и др. Чем более конкретно определены цели, тем
легче будет разработать план исследования.
2. Область исследования: Узнайте, какая область бизнеса заказчика подлежит
исследованию. Это может быть рынок, продуктовая линия, клиентская база,
маркетинговые кампании и другие аспекты бизнеса.
3. Ожидания и ограничения: Спросите заказчика о его ожиданиях от исследования и
ограничениях, которые могут влиять на проведение исследования. Например,
бюджет, сроки, доступ к данным или особенности отрасли.
4. Информация о целевой аудитории: Если исследование связано с анализом
клиентской базы, узнайте, какие характеристики целевой аудитории заказчика
считаются важными. Это может включать в себя демографические данные,
поведенческие паттерны и интересы клиентов.
КУРС «АНАЛИТИК ДАННЫХ»
5. Доступные ресурсы: Уточните, какие ресурсы (люди, инструменты, бюджет)
доступны для проведения исследования. Это поможет определить, какие методы и
инструменты можно использовать.
6. Исторические данные: Если заказчик уже имеет исторические данные, которые
могут быть полезны для исследования, запросите доступ к этой информации. Эти
данные могут предоставить ценный контекст и основу для анализа.
7. Конкурентная среда: Понимание конкурентной среды и действий конкурентов
может быть важным аспектом для достижения бизнес-целей заказчика. Узнайте,
какие данные о конкурентах доступны или какие аспекты конкурентной среды
заказчик считает важными.
3. Как правильно сформулировать бизнес-цель?
Некоторые ключевые принципы и шаги для правильной формулировки бизнес-цели:
1. Конкретика: Цель должна быть конкретной и четко сформулированной. Избегайте
общих фраз, таких как "улучшить бизнес", и уточните, что именно вы хотите достичь.
Например, "увеличить продажи на 20% в течение следующих шести месяцев."
2. Измеримость: Цель должна быть измеримой, чтобы можно было определить,
достигли вы её или нет. Используйте количественные метрики, которые позволят
оценить успех. Например, "увеличить конверсию на веб-сайте с 3% до 5%."
3. Достижимость: Цель должна быть реалистичной и достижимой в рамках
имеющихся ресурсов и ограничений. Убедитесь, что цель реалистична для вашей
компании и отрасли.
4. Актуальность: Цель должна быть актуальной и соответствовать текущим
потребностям и стратегии вашей компании. Учтите изменения в бизнес-среде.
5. Ограниченность по времени: Укажите временные рамки для достижения цели. Это
поможет создать четкий график и следить за прогрессом. Например, "достичь цели
в течение следующих 12 месяцев."
4. Топ-5 выводов:
1. Определение цели анализа данных - ключевой шаг, который помогает перейти от
бизнес-целей к конкретным задачам анализа данных.
2. Цель анализа данных должна быть четко сформулирована и конкретизирована,
чтобы обеспечить ясное направление для всего процесса анализа.
3. Цель анализа данных определяет, что именно нужно изучить и какие
характеристики объекта исследования будут анализироваться.
4. Цель также указывает, где искать необходимые данные и почему это важно для
бизнес-процесса или принятия решений.
5. Четко сформулированная цель анализа данных облегчает процесс планирования,
выполнения и оценки проекта анализа данных, обеспечивая его успешное
завершение.
КУРС «АНАЛИТИК ДАННЫХ»
КУРС «АНАЛИТИК ДАННЫХ»
Тема 3. Определение цели анализа данных
1. Как перейти от бизнес-цели к цели анализа данных?
Ключевые шаги:
1. Понимание бизнес-цели: Важно полностью понять бизнес-цель заказчика.
Обсудите с заказчиком цель, уточните её, задайте дополнительные вопросы, если
необходимо, и убедитесь, что вы полностью поняли, что он хочет достичь.
2. Определение метрик и ключевых показателей успеха: Разработать метрики и
ключевые показатели, которые будут использоваться для измерения успеха в
достижении бизнес-цели. Например, если цель - увеличение продаж, ключевым
показателем может быть увеличение выручки на определенный процент.
3. Идентификация данных, необходимых для анализа: Определить, какие данные
понадобятся для анализа с целью достижения бизнес-цели. Это может включать в
себя внутренние данные компании, данные о клиентах, данные о продуктах, данные
о конкурентах и другие.
4. Выбор методов анализа данных: Решить, какие методы и техники анализа данных
будут наиболее подходящими для достижения цели. Например, если цель предсказание клиентского поведения, может потребоваться использование
методов машинного обучения.
5. Разработка плана анализа данных: Создать детальный план, который включает в
себя шаги, методы, исходные данные и ожидаемые результаты анализа данных.
План должен быть логичным и соответствовать цели анализа.
6. Оценка доступности данных и ресурсов: Убедиться, что есть доступ к необходимым
данным и ресурсам для проведения анализа данных. Это включает в себя проверку
доступности данных, оценку необходимых инструментов и экспертов.
7. Установление временных рамок: Указать сроки для выполнения анализа данных,
чтобы иметь возможность следить за прогрессом и держаться в рамках сроков
достижения бизнес-цели.
8. Согласование с заказчиком: Представить план анализа данных заказчику и
убедиться, что он согласен с выбранными методами и временными рамками. Важно
обсудить ожидания заказчика и уточнить любые дополнительные детали.
2. Как сформулировать цель анализа данных?
1. Специфицируйте, что вы хотите достичь: Начните с определения конкретной цели
анализа данных. Чем более детально и четко вы определите цель, тем легче будет
вам и вашей команде понять, что требуется сделать.
2. Используйте измеримые метрики: Укажите метрики или ключевые показатели,
которые будут использоваться для измерения успеха. Это может включать в себя
проценты, суммы, количественные значения и другие измеримые показатели.
КУРС «АНАЛИТИК ДАННЫХ»
3. Укажите временные рамки: Определите сроки, в которые вы планируете достичь
цели. Это может быть определенное количество дней, недель, месяцев или лет.
Указание временных рамок поможет вам создать график и следить за прогрессом.
4. Сделайте цель реалистичной: Учтите ресурсы, данные и ограничения, с которыми
вы работаете. Убедитесь, что цель является достижимой в данном контексте.
5. Связь с бизнес-целью: Обязательно укажите, как достижение этой цели связано с
бизнес-целью заказчика. Это поможет удостовериться, что анализ данных
действительно будет способствовать достижению бизнес-цели.
3. На какие вопросы необходимо ответить для постановки цели исследования?
1. Что мы изучаем? - Определите объект анализа, то, что будет исследоваться. Это
может быть конкретная тема, явление, группа объектов или процессы.
2. Что хотим найти или достичь? - Уточните, какие именно свойства, характеристики
или результаты исследования вы надеетесь получить. Какие конкретные вопросы вы
хотите ответить с помощью исследования?
3. Где будем искать данные? - Определите, какие источники данных вы будете
использовать для исследования. Это могут быть внутренние данные компании,
открытые данные, опросы, экспертные оценки и другие источники.
4. Почему это важно? - Обоснуйте, почему данное исследование важно для вашей
компании или организации. Какие проблемы или возможности оно поможет
выявить или решить?
5. Какая цель? - Сформулируйте цель исследования так, чтобы она была конкретной,
измеримой, достижимой, актуальной и ограниченной по времени (SMART-цель).
SMART означает Specific (конкретная), Measurable (измеримая), Achievable
(достижимая), Relevant (актуальная), Time-bound (ограниченная по времени).
6. Какие ожидаемые результаты? - Опишите ожидаемые результаты исследования.
Что вы надеетесь получить в результате проведения исследования?
7. Как связано с бизнес-целью? - Уточните, как достижение цели исследования
связано с бизнес-целями вашей компании или заказчика. Почему это важно для
бизнеса?
4. Топ-5 выводов:
1. Определение цели анализа данных - важный этап, определяющий направление
всего исследования.
2. Цель анализа данных должна быть конкретной и четко сформулированной, чтобы
обеспечить ясное понимание того, что нужно достичь.
3. Эффективная формулировка цели позволяет определить объект анализа, его
характеристики и ценность для бизнеса.
КУРС «АНАЛИТИК ДАННЫХ»
4. Цель анализа данных определяет "что" и "почему" исследовать, а также
ориентирует на выбор методов и инструментов анализа.
5. Четко сформулированная цель является основой для успешного проведения
проекта анализа данных и достижения ожидаемых результатов.
КУРС «АНАЛИТИК ДАННЫХ»
Тема 4. Требования к результату исследования
1. Почему в процессе разработки дизайна исследования необходимо утвердить
требования к результату аналитического исследования?
1. Ясное понимание ожиданий: Утверждение требований помогает создать ясное и
общее понимание ожиданий заказчика и всех участников проекта. Это
предотвращает недоразумения и неоднозначности в отношении того, какие
результаты исследования считаются успешными.
2. Ориентированность на бизнес-цели: Требования к результату аналитического
исследования обычно связаны с бизнес-целями заказчика. Это гарантирует, что
исследование будет ориентировано на достижение конкретных бизнес-целей и
принесет пользу заказчику.
3. Измеримость успеха: Требования к результату должны быть измеримыми, что
позволяет оценить, были ли цели достигнуты. Они помогают определить ключевые
метрики и показатели успеха, которые будут использоваться для оценки
результатов.
4. Планирование и ресурсы: Утверждение требований к результату позволяет более
точно спланировать ресурсы, необходимые для исследования. Это включает в себя
определение необходимых данных, инструментов, экспертов и сроков выполнения.
5. Обратная связь и участие заказчика: Утвержденные требования предоставляют
возможность заказчику давать обратную связь на ранних этапах проектирования
исследования. Это способствует более тесному взаимодействию между аналитиком
и заказчиком и повышает удовлетворенность заказчика результатами.
6. Прозрачность и отчетность: Требования к результату служат основой для создания
прозрачных отчетов и презентаций о результатах исследования. Они помогают
сфокусироваться на ключевых выводах и рекомендациях.
2. Какие типы взаимодействия с заказчиком и предоставления результата можно
выделить?
1. Консультации и совещания: Регулярные встречи с заказчиком для обсуждения
текущего прогресса, уточнения требований, предоставления обновлений и
получения обратной связи. Это помогает удовлетворить потребности заказчика и
уточнить цель анализа.
2. Предоставление отчетов: Составление и предоставление подробных отчетов о
результатах анализа данных. Эти отчеты могут содержать аналитические выводы,
графику, графики, статистику и рекомендации. Отчеты могут быть в электронном
или печатном формате.
3. Презентации: Проведение презентаций перед заказчиком и другими
заинтересованными сторонами. Презентации обычно включают в себя обзор
КУРС «АНАЛИТИК ДАННЫХ»
результатов, графическое представление данных и интерпретацию результатов.
Презентации могут быть устными или визуальными.
4. Обучение заказчика: Помощь заказчику в понимании и интерпретации результатов
анализа данных. Это может включать в себя обучение заказчика использованию
инструментов анализа данных, чтение отчетов и принятие решений на основе
данных.
5. Доступ к интерактивным дашбордам: Создание интерактивных дашбордов,
которые позволяют заказчику самостоятельно исследовать данные и получать
актуальную информацию в реальном времени. Это обеспечивает более гибкий
доступ к данным.
6. Электронная почта и обмен сообщениями: Регулярное общение с заказчиком через
электронную почту или сообщения для уточнения деталей, предоставления
обновлений и ответов на вопросы.
7. Интеграция в бизнес-процессы: Помощь заказчику в интеграции результатов
анализа данных в бизнес-процессы и принятие решений. Это может включать в себя
автоматизацию решений на основе данных.
8. Поддержка после завершения проекта: Предоставление долгосрочной поддержки
и консультаций заказчику после завершения проекта. Это может включать в себя
обслуживание моделей и аналитических инструментов.
3. Какие вопросы необходимо обсудить, когда договариваешься о формате
предоставления результатов исследования?
1. Формат отчетности: Какой формат отчетности предпочитает заказчик? Это может
быть электронный документ (PDF, Excel), презентация, интерактивный дашборд,
печатный отчет или другой формат. Определите, какая форма наилучшим образом
соответствует потребностям заказчика.
2. Глубина анализа: Какие детали и глубину анализа ожидает заказчик? Определите,
насколько подробно нужно представить результаты: общий обзор, подробные
данные, статистические показатели и т.д.
3. Визуализация данных: Обсудите, какие типы визуализации данных заказчик
предпочитает. Это могут быть графики, диаграммы, схемы, карты, дашборды и
другие средства визуализации.
4. Сроки предоставления: Уточните, в какие сроки заказчик ожидает получить
результаты исследования. Это позволит согласовать график работы и планирование
проекта.
5. Интерактивность: Необходимо ли заказчику взаимодействовать с данными в
реальном времени? Если да, то рассмотрите возможность создания интерактивных
дашбордов или онлайн-платформ для доступа к данным.
КУРС «АНАЛИТИК ДАННЫХ»
6. Язык и структура отчета: Какой язык и структуру отчета предпочитает заказчик?
Уделяйте внимание форматированию, использованию терминов и структуре отчета,
чтобы он соответствовал ожиданиям заказчика.
7. Поддержка и обучение: Если заказчик не знаком с анализом данных, обсудите
необходимость обучения и поддержки в интерпретации результатов.
8. Ключевые выводы и рекомендации: Согласуйте, какие ключевые выводы и
рекомендации заказчик ожидает получить из отчета.
9. Частота обновлений: Если результаты анализа данных требуют регулярных
обновлений, уточните, как часто заказчик хотел бы получать обновленные данные.
10. Секретность данных: Обсудите вопросы безопасности и секретности данных,
особенно если исследование содержит конфиденциальную информацию.
11. Формат обратной связи: Определите, как заказчик предпочитает обратную связь и
коммуникацию на протяжении проекта.
4. Топ-5 выводов:
1. Определение требований к результату исследования является критическим
этапом, который помогает сфокусировать проект анализа данных на конечных
целях и ожидаемых результатах.
2. Требования к результату определяют конкретные цели проекта и спецификации
для аналитических решений, которые необходимо достичь.
3. Четкое формулирование требований к результату упрощает процесс планирования
и выполнения проекта, а также помогает избежать недоразумений и
несоответствий.
4. Требования могут включать в себя ожидаемые метрики успеха, форматы отчетов,
сроки выполнения и другие ключевые характеристики проекта.
5. Учет требований к результату исследования является важным фактором для
обеспечения удовлетворения заказчика и успешного завершения проекта.
КУРС «АНАЛИТИК ДАННЫХ»
Тема 5. Типы данных
1. Какие основные требования к данным мы должны сформулировать в начале
проекта?
1. Качество данных: Определите стандарты и критерии качества данных, которые
должны быть соблюдены. Это включает в себя проверку на достоверность,
актуальность, целостность, точность и своевременность данных.
2. Источники данных: Укажите источники данных, которые будут использоваться в
проекте. Это могут быть базы данных, системы учета, внешние источники данных и
другие источники.
3. Формат данных: Определите форматы данных, включая структуру, типы данных
(текст, числа, даты и др.), кодировку, разделители и другие особенности формата.
4. Объем данных: Оцените предполагаемый объем данных, с которым нужно
работать в проекте. Это поможет выбрать соответствующие технологии и ресурсы
для обработки и анализа данных.
5. Доступность данных: Уточните, какие данные доступны и насколько они доступны
для проекта. Это может включать в себя вопросы о правах доступа, разрешениях,
безопасности и ограничениях.
6. Интеграция данных: Если проект требует интеграции данных из разных источников,
убедитесь, что требования к интеграции данных четко сформулированы. Это
включает в себя стандарты для сопоставления данных и преобразования.
7. Временные ограничения: Определите временные рамки для доступа к данным.
Например, если данные обновляются каждый день, это может повлиять на
актуальность результатов анализа.
8. Согласованность и согласование данных: Уточните, как данные будут согласованы
и согласованы с другими данными в проекте. Это важно для обеспечения
согласованности и точности результатов анализа.
9. Соответствие законодательству и нормативам: Убедитесь, что сбор, хранение и
использование данных соответствуют законодательству и нормативам, включая
вопросы конфиденциальности и безопасности данных.
10. Целевые данные: Определите, какие конкретные данные и переменные являются
ключевыми для достижения целей проекта. Это поможет сосредоточить усилия на
наиболее важных данных.
11. Обработка и очистка данных: Определите процессы обработки и очистки данных,
которые могут потребоваться для подготовки данных к анализу.
12. Документация данных: Создайте документацию о данных, включая описания и
схемы данных, чтобы обеспечить понимание их структуры и содержания.
КУРС «АНАЛИТИК ДАННЫХ»
2. Что такое данные и чем они отличаются от информации?
1. Данные (Data): Данные представляют собой сырые факты, значения или наборы
символов, которые не имеют смысла без интерпретации. Данные могут быть
числами, текстом, изображениями, звуком и т.д. Примеры данных включают в себя
числа 123, 3.14, буквы а, б, в, а также пиксели на фотографии или аудиосемплы в
музыкальном файле. Данные не обязательно имеют информационную ценность до
их анализа и интерпретации.
2. Информация (Information): Информация - это данные, которые были обработаны и
интерпретированы таким образом, что они приобретают смысл и становятся
полезными для принятия решений, понимания событий или передачи знаний.
Информация представляет собой результат обработки данных, который обладает
структурой, контекстом и значением. Например, если у нас есть данные о
температуре воздуха в градусах Цельсия (например, 25°C, 30°C), то информация
может заключаться в том, что сегодня очень жарко, и это может повлиять на спрос
на мороженое.
3. Какие бывают типы данных?
1. Числовые данные (Numeric Data): Это числа, которые могут быть целыми
(например, 5) или с плавающей запятой (например, 3.14). Они используются для
выполнения математических операций и вычислений.
2. Текстовые данные (Text Data): Это символьные данные, такие как буквы, слова,
фразы и текстовые документы. Текстовые данные используются для хранения и
обработки текстовой информации.
3. Даты и времена (Date and Time): Это данные, которые представляют даты и
времена, такие как дни недели, месяцы, годы, часы и минуты. Они используются для
организации и анализа временных событий.
4. Логические данные (Boolean Data): Это данные, которые принимают одно из двух
значений: "истина" (true) или "ложь" (false). Они используются для выражения
логических условий.
5. Изображения и мультимедиа (Image and Multimedia Data): Это данные,
представляющие изображения, фотографии, аудио и видео. Они используются для
хранения и обработки мультимедийного контента.
6. Геопространственные данные (Geospatial Data): Это данные, которые связаны с
географическими координатами и местоположением. Они используются для
картографии, навигации и географического анализа.
7. Символьные данные (Symbolic Data): Это данные, которые представляют символы,
знаки и символику. Они используются в символических системах и обозначениях.
8. Звуковые данные (Audio Data): Это данные, представляющие звуковые сигналы и
аудиозаписи. Они используются для обработки звуковой информации.
КУРС «АНАЛИТИК ДАННЫХ»
9. Другие специфические типы данных: В зависимости от конкретных потребностей и
задач, могут существовать иные специализированные типы данных, такие как
генетические данные, финансовые данные, медицинские данные и многие другие.
4. Чем отличаются типы данных?
1. Природа данных: Типы данных могут отражать различные аспекты окружающего
мира, такие как числа, текст, время, изображения, звук и др. Каждый тип данных
описывает определенный аспект информации.
2. Представление данных: Каждый тип данных имеет свой способ представления.
Например, числовые данные представляются числами, текстовые данные
представляются символами и строками, а геопространственные данные
представляются географическими координатами.
3. Операции и методы обработки: Разные типы данных могут подвергаться
различным операциям и методам обработки. Например, числовые данные могут
быть использованы для математических вычислений, а текстовые данные для
поиска и анализа текста.
4. Интерпретация и смысл: Данные имеют смысл только после их интерпретации.
Например, числа могут интерпретироваться как количество, текст как информация,
а геопространственные данные как местоположение.
5. Применение: Разные типы данных применяются в различных областях и задачах.
Например, геопространственные данные широко используются в картографии и
географической информационной системе (ГИС), а аудио данные применяются в
музыкальной индустрии и обработке речи.
6. Точность и уровень детализации: Разные типы данных могут иметь разную точность
и уровень детализации. Например, числа с плавающей запятой могут иметь
ограниченную точность, а изображения могут содержать множество деталей.
7. Возможность комбинирования: В некоторых случаях разные типы данных могут
быть комбинированы для выполнения более сложных анализов. Например,
числовые и геопространственные данные могут быть объединены для
геоинформационного анализа.
8. Зависимость от контекста: Точное понимание и использование типов данных часто
зависит от контекста задачи и предметной области. Разные отрасли и области
знаний могут использовать различные типы данных для решения своих задач.
5. Что такое большие данные?
"Большие данные" (Big Data) - это термин, который описывает объем, скорость и
разнообразие данных, которые превышают способность традиционных методов и
инструментов обработки данных для их анализа, хранения и управления. Основные
характеристики больших данных включают:
КУРС «АНАЛИТИК ДАННЫХ»
1. Объем (Volume): Большие данные характеризуются огромными объемами
информации. Это могут быть терабайты, петабайты или даже экзабайты данных.
Примерами могут служить массовые собрания данных о клиентах, журналы
серверов, данные социальных сетей и многие другие.
2. Скорость (Velocity): Большие данные могут генерироваться и поступать в систему с
высокой скоростью. Это означает, что данные могут появляться очень быстро и
требуют немедленной обработки. Примеры включают в себя потоковые данные из
сенсоров IoT (Интернета вещей) и транзакций в реальном времени.
3. Разнообразие (Variety): Большие данные могут быть разнообразными по своей
природе. Это включает в себя числовые данные, текстовые данные, изображения,
аудио, видео и многое другое. Данные могут иметь разные форматы и структуры.
4. Источники (Sources): Большие данные могут происходить из разных источников,
включая внутренние и внешние источники данных. Это могут быть данные от
клиентов, социальных сетей, датчиков, мобильных устройств и других.
5. Сложность (Complexity): Обработка больших данных может потребовать
использования сложных методов и инструментов, таких как машинное обучение,
искусственный интеллект и аналитика больших данных.
6. Ценность (Value): Несмотря на объем и разнообразие, большие данные имеют
потенциальную ценность для организаций. Анализ больших данных может помочь
выявить паттерны, тенденции и информацию, которая помогает в принятии
решений и улучшении бизнес-процессов.
6. Топ-5 выводов:
1. Типы данных разнообразны и включают числа, текст, изображения, звуки и многое
другое, представленные в различных форматах.
2. Понимание различных типов данных важно для эффективного анализа данных, так
как обработка и интерпретация данных зависит от их типа.
3. Категории данных включают структурированные, полуструктурированные и
неструктурированные данные, каждая из которых требует особого подхода при
обработке.
4. Большие данные (Big Data) представляют собой объемные, быстро растущие и
сложные данные, требующие специальных методов обработки и анализа.
5. Точное определение типов данных и их характеристик существенно для выбора
подходящих методов анализа и инструментов, что влияет на успешное проведение
проектов анализа данных.
Тема 5.1. Форматы данных
1. В каких основных форматах могут быть представлены данные?
КУРС «АНАЛИТИК ДАННЫХ»
Данные могут быть представлены в различных форматах в зависимости от их природы и
спецификаций хранения. Ниже приведены основные форматы данных:
1. Текстовый формат (Text Format): Это один из самых распространенных форматов
данных, в котором данные представлены в виде текста, символов и строк. Примеры
включают текстовые документы (например, .txt, .csv), код программ (например,
.java, .py) и файлы разметки (например, .html, .xml).
2. Числовой формат (Numeric Format): Числовые данные представляются как числа и
используются для хранения числовой информации. Примеры включают целые
числа, числа с плавающей запятой и дробные числа.
3. Изображения и видео (Image and Video): Изображения и видео могут быть
представлены в графических форматах, таких как JPEG, PNG, GIF, а также
видеоформатах, таких как AVI, MP4.
4. Звук и аудио (Audio Format): Звуковые данные представлены в аудиоформатах,
таких как MP3, WAV, FLAC.
5. Геопространственный формат (Geospatial Format): Геопространственные данные
используются для представления информации о географических координатах и
местоположении. Примеры включают форматы для карт и ГИС, такие как Shapefile и
GeoJSON.
6. Двоичный формат (Binary Format): Двоичные данные представлены в бинарной
форме и используются для хранения информации, которая не читается в виде
текста. Примеры включают бинарные файлы, байтовые потоки и форматы для
хранения изображений и звука.
7. JSON (JavaScript Object Notation): JSON - это формат данных, который используется
для обмена структурированной информацией между приложениями. Он
представляет собой текстовый формат и хорошо подходит для представления и
передачи данных в человекочитаемой форме.
8. XML (eXtensible Markup Language): XML - это формат данных, который также
используется для представления структурированной информации. Он может быть
использован для разметки данных с использованием тегов и атрибутов.
9. Базы данных (Database Formats): Данные могут храниться в специальных форматах
баз данных, таких как SQL для реляционных баз данных, NoSQL для нереляционных
баз данных, и других.
10. Специализированные форматы: В разных областях и задачах могут использоваться
специализированные форматы данных. Например, форматы для обмена
медицинской информацией (HL7), форматы для генетических данных (FASTA), и
другие.
КУРС «АНАЛИТИК ДАННЫХ»
Тема 6. Способы получения и источники данных
1. Какие бывают данные с точки зрения их получения?
С точки зрения получения, данные могут быть разделены на несколько основных
категорий:
1. Внутренние данные (Internal Data): Эти данные генерируются и собираются внутри
организации или компании. Они могут включать в себя данные о продажах,
финансовой отчетности, клиентах, сотрудниках, процессах и других внутренних
аспектах бизнеса. Внутренние данные часто хранятся в системах управления базами
данных (СУБД) и могут быть доступны через внутренние информационные системы.
2. Внешние данные (External Data): Эти данные происходят из внешних источников и
не принадлежат организации. Внешние данные могут включать в себя данные о
рынке, экономические показатели, погодные данные, социальные медиа, новости
и многие другие источники. Они часто доступны публично и могут быть собраны с
использованием внешних API, скрапинга данных и других методов.
3. Сгенерированные данные (Generated Data): Эти данные создаются специально для
исследования или экспериментов. Это могут быть данные, полученные в результате
опросов, экспериментов в лаборатории, компьютерных моделей, симуляций и
других процессов. Сгенерированные данные могут быть полезными для научных
исследований и анализа данных.
4. Публичные данные (Public Data): Эти данные являются общедоступными и могут
быть получены из различных источников, таких как правительственные
организации, научные институты, открытые источники и многое другое. Публичные
данные часто используются для общественных исследований, аналитики и
статистики.
5. Сенсорные данные (Sensor Data): Эти данные получаются с помощью сенсоров,
таких как GPS-датчики, датчики температуры, устройства IoT (Интернет вещей) и
другие. Сенсорные данные широко используются в области мониторинга и
управления процессами.
6. Внутренние логи (Internal Logs): Многие информационные системы и веб-серверы
генерируют логи, которые содержат информацию о действиях пользователей,
событиях и производительности системы. Эти логи могут быть анализированы для
выявления паттернов и аномалий.
7. Биг Дата (Big Data): Это категория данных, которая характеризуется огромным
объемом, высокой скоростью поступления и разнообразием источников. Данные
больших данных могут включать в себя информацию о веб-трафике, социальных
медиа, сенсорных устройствах и многие другие. Для их обработки используются
специальные технологии и инструменты.
8. Партнерские источники данных (Data Partners): Организации могут сотрудничать с
партнерами или сторонними поставщиками данных, чтобы получить доступ к
дополнительным данным, которые могут быть полезны для анализа.
КУРС «АНАЛИТИК ДАННЫХ»
2. Какие существуют способы получения данных?
Существует несколько способов получения данных:
1. Сбор данных вручную (Manual Data Entry): Этот способ включает в себя ручной ввод
данных в компьютер или информационную систему. Это может быть полезным,
когда данные не автоматически генерируются, и включает в себя ввод текста, чисел,
форм и другой информации. Однако этот метод может быть медленным и
подвержен ошибкам.
2. Автоматический сбор данных (Automated Data Collection): Этот метод включает в
себя использование автоматизированных средств для сбора данных. Это может
быть сенсоры, датчики, сканеры, баркоды, RFID (Radio-Frequency Identification) и
другие устройства. Эти средства автоматически собирают данные и передают их в
информационную систему.
3. Импорт данных (Data Import): Данные могут быть импортированы из других
источников или форматов. Это может включать в себя импорт данных из баз данных,
электронных таблиц, текстовых файлов и других источников. Программное
обеспечение и инструменты для импорта данных могут облегчить этот процесс.
4. API (Application Programming Interface): Множество веб-сервисов и платформ
предоставляют API, которые позволяют получать данные напрямую из их систем.
Разработчики могут использовать API для извлечения информации из социальных
сетей, онлайн-сервисов, облачных хранилищ и других платформ.
5. Скрапинг веб-сайтов (Web Scraping): Этот метод включает в себя
автоматизированный процесс извлечения данных с веб-сайтов. С помощью
специализированных инструментов и скриптов можно извлекать информацию с
веб-страниц, чтобы использовать ее в анализе данных.
6. Опросы и анкеты (Surveys and Questionnaires): Данные могут быть собраны путем
проведения опросов и анкетирования. Это может включать в себя опросы
сотрудников, клиентов или респондентов для сбора структурированных ответов.
7. Интернет вещей (IoT): Устройства Интернета вещей (IoT) могут автоматически
собирать данные о физических параметрах и событиях в реальном времени. Эти
данные могут включать в себя информацию о температуре, влажности, движении,
звуке и многом другом.
8. Сотрудничество с партнерами и сторонними поставщиками данных: Организации
могут сотрудничать с внешними партнерами или поставщиками данных, чтобы
получить доступ к дополнительным данным, которые могут быть полезны для
анализа.
3. Какие популярные источники данных существуют?
1. Базы данных организации: Внутренние базы данных компании, содержащие
информацию о клиентах, продуктах, продажах, складах и других аспектах бизнеса.
КУРС «АНАЛИТИК ДАННЫХ»
2. Сайты и онлайн-платформы: Данные, доступные через веб-сайты и онлайнплатформы, включая данные о пользователях, продуктах, услугах, транзакциях и
многое другое.
3. Социальные сети: Данные из социальных сетей, включая посты, комментарии,
лайки, друзей и связи между пользователями.
4. Датчики и IoT-устройства: Данные, собираемые с помощью сенсоров и устройств
Интернета вещей (IoT), включая данные о температуре, влажности, движении, GPS
и других параметрах.
5. Публичные и открытые данные: Открытые данные, предоставляемые
государственными органами, научными институтами и другими организациями,
включая статистические данные, географические карты, погодные данные и многое
другое.
6. Медиа и новости: Данные из новостных и медийных источников, включая тексты
статей, фотографии, видео и аудиозаписи.
7. Финансовые данные: Данные о финансовых рынках, акциях, валютах, ценах и
других финансовых показателях.
8. Маркетинговые данные: Данные о маркетинговых кампаниях, рекламе, конверсии,
аналитике веб-трафика и поведении пользователей на сайтах.
9. Биологические и медицинские данные: Данные из области медицины и биологии,
включая информацию о пациентах, исследованиях, генетике и медицинских
записях.
10. Аудио и видео данные: Аудиозаписи, видеозаписи и потоковые медиаданные,
включая контент на YouTube, платформах для видеоконференций и медицинских
устройствах.
11. Текстовые данные: Текстовая информация из различных источников, включая
электронные книги, веб-сайты, чаты и социальные медиа.
12. Геопространственные данные: Географические данные,
геопозицию, местоположение объектов и маршруты.
включая
карты,
4. Что такое открытые данные?
Открытые данные (Open Data) представляют собой информацию или наборы данных,
которые доступны для свободного использования, переработки и распространения без
ограничений на доступ, использование или распространение. Эти данные обычно
предоставляются организациями, государственными учреждениями, научными
исследователями и другими поставщиками в открытом и машиночитаемом формате.
Основные характеристики открытых данных включают:
КУРС «АНАЛИТИК ДАННЫХ»
1. Свободный доступ: Открытые данные должны быть доступны для любого
пользователя без каких-либо ограничений, регистрации или оплаты. Это позволяет
широкому кругу пользователей свободно использовать данные.
2. Свобода использования: Пользователи могут свободно использовать, копировать,
изменять и распространять открытые данные в соответствии с условиями лицензии.
3. Машиночитаемый формат: Открытые данные обычно предоставляются в формате,
который легко читается и обрабатывается компьютерами, таком как CSV, JSON, XML
или другие структурированные форматы.
4. Отсутствие дискриминации: Данные не должны дискриминировать пользователей
по происхождению, цели использования или другим факторам.
5. Отсутствие ограничений на повторное распространение: Пользователи могут
распространять открытые данные дальше без ограничений.
5. Что необходимо учитывать при использовании открытых данных?
При использовании открытых данных следует учитывать следующие аспекты:
1. Лицензии и права доступа: Проверьте условия лицензии, по которой
предоставлены открытые данные. Некоторые данные могут иметь ограничения на
коммерческое использование, атрибуцию (необходимость указания источника
данных) или другие ограничения. Убедитесь, что вы следуете условиям лицензии.
2. Качество данных: Открытые данные могут содержать ошибки, неточности или
неполные сведения. Проведите оценку качества данных и учтите возможные
проблемы при анализе и использовании.
3. Актуальность данных: Проверьте, насколько актуальны данные. Некоторые
открытые данные могут устаревать или не соответствовать текущей ситуации.
4. Комбинация данных: Вы можете объединять открытые данные из разных
источников, но при этом убедитесь, что это не приведет к нарушению прав и
лицензий.
5. Конфиденциальность и приватность: Если вы работаете с данными, содержащими
персональную информацию, обязательно соблюдайте нормативы и законы о
защите данных и приватности. Не допускайте незаконного доступа к чувствительной
информации.
6. Анализ данных: Используйте современные методы анализа данных для извлечения
полезной информации. Обработка и интерпретация данных могут потребовать
специализированных навыков и инструментов.
7. Документация данных: Оцените наличие документации к данным, которая
описывает их структуру, содержание и источники. Это поможет вам понимать
данные и работать с ними более эффективно.
КУРС «АНАЛИТИК ДАННЫХ»
8. Отчетность и атрибуция: Если вы используете открытые данные в публичных
проектах или публикациях, убедитесь, что вы атрибутируете (указываете источник)
и предоставляете ссылку на источник данных в соответствии с лицензией.
9. Безопасность: Защитите данные и информацию о своих проектах от утечек и
несанкционированного доступа. Поддерживайте хорошие практики в области
информационной безопасности.
6. Топ-5 выводов:
1. Существует разнообразные способы получения данных, включая собственные
источники, сторонние поставщики, открытые и закрытые источники.
2. Открытые данные представляют собой ценный источник информации, доступный
для общественности, и могут использоваться в различных проектах анализа данных.
3. Важно учитывать правовые и этические аспекты при сборе и использовании данных,
особенно в случаях, касающихся конфиденциальности и личной информации.
4. Выбор источников данных должен основываться на целях
характеристиках данных, таких как объем, качество и актуальность.
проекта
и
5. Эффективное сбор и управление данными с помощью разнообразных источников
является важной частью процесса анализа данных и может существенно влиять на
качество и достоверность результатов.
КУРС «АНАЛИТИК ДАННЫХ»
Тема 7. Выбор методов и инструментов анализа
1. Какие методы анализа данных существуют и для решения каких задач они
подходят?
1.1. Описательные статистики: применяются для количественного описания данных с
использованием статистических показателей, графических методов и мер центральной
тенденции и изменчивости.
1.2. Статистические критерии сравнения групп: применяются для сравнения значений
статистических показателей между двумя или более группами.
1.3. Корреляционный анализ: используется для измерения взаимосвязи между
признаками.
1.4. Регрессионный анализ: позволяет построить математическую модель для
предсказания значения целевой переменной на основе других переменных.
1.5. Классификация: применяется для разделения объектов на группы на основе
характерных признаков.
1.6. Кластеризация: используется для обнаружения групп схожих объектов в данных, где
объекты внутри кластера похожи, а между кластерами отличаются.
1.7. Социально-сетевой анализ: применяется для изучения социальных отношений и
структуры в сетях.
2. На какие две группы можно условно разделить инструменты, применяемые для
анализа данных?
1. Традиционные статистические инструменты: В эту группу входят инструменты,
основанные на классической статистике и математике. К ним относятся методы,
такие как регрессионный анализ, анализ дисперсии, корреляция, тесты гипотез и др.
Эти методы позволяют проводить статистический анализ данных, выявлять
зависимости, предсказывать результаты и проверять гипотезы.
2. Инструменты машинного обучения и искусственного интеллекта: Эта группа
включает в себя методы и алгоритмы, которые используются для
автоматизированного анализа данных и обучения на данных. К ним относятся
методы классификации, кластеризации, регрессии, нейронные сети, ансамбли
моделей и др. Инструменты машинного обучения и искусственного интеллекта
позволяют работать с большими объемами данных, автоматизировать процессы
анализа и строить прогностические модели.
3. Какие инструменты относятся к первой группе?
Инструменты, относящиеся к первой
инструментам), включают в себя следующие:
группе
(традиционным
статистическим
КУРС «АНАЛИТИК ДАННЫХ»
• SPSS (Statistical Package for the Social Sciences): Это программное обеспечение,
используемое для статистического анализа и исследования данных, включая тесты гипотез,
анализ дисперсии и корреляции.
• Microsoft Excel: Хотя Excel преимущественно является инструментом для работы с
таблицами, он также предоставляет набор статистических функций и инструментов для
анализа данных.
• Tableau: Платформа для создания интерактивных и визуальных отчетов, позволяющая
анализировать данные с использованием разнообразных графических элементов.
• Yandex DataLens: Инструмент для визуализации и анализа данных, предоставляющий
возможность создания информативных дашбордов.
• Визуальные конструкторы: Платформы, такие как Sber Data Platform, Orange, Knime,
предоставляют гибкие средства для визуализации и анализа данных, а также создания
собственных моделей и алгоритмов обработки данных.
4. Какие инструменты можно отнести ко второй группе?
Инструменты, которые можно отнести ко второй группе (инструменты машинного
обучения и искусственного интеллекта), включают в себя:

R: Это язык программирования и окружение для статистического анализа и
визуализации данных. R имеет богатое сообщество пакетов для различных
статистических методов.

Python с библиотеками: Python может использоваться для статистического анализа
данных с помощью библиотек, таких как NumPy, pandas, и статистические пакеты,
такие как statsmodels.

Scikit-Learn: Это библиотека для машинного обучения, предоставляющая
множество алгоритмов для классификации, регрессии, кластеризации и многих
других задач.

TensorFlow: Это библиотека для глубокого обучения и разработки нейронных сетей.

Keras: Это высокоуровневый API для создания нейронных сетей, который может
работать поверх библиотеки TensorFlow.

PyTorch: Это фреймворк машинного обучения и глубокого обучения, который
активно используется исследователями и инженерами.

Weka: Это программное обеспечение с открытым исходным кодом для анализа
данных и машинного обучения.

Microsoft Azure Machine Learning: Это облачная платформа для разработки,
обучения и развертывания моделей машинного обучения.

IBM Watson: Это платформа и набор инструментов для искусственного интеллекта и
анализа данных.
КУРС «АНАЛИТИК ДАННЫХ»

Google Cloud AI: Это набор инструментов и услуг для машинного обучения и
искусственного интеллекта в облаке Google Cloud.
КУРС «АНАЛИТИК ДАННЫХ»
Тема 8. Оценка рисков и условий реализации проекта
1. Как оценить текущую ситуацию проекта?
1. Персонал: Оцените квалификацию и опыт членов вашей команды. Убедитесь, что у
вас есть специалисты с необходимыми навыками для выполнения проекта. Если
необходимо, определите, требуется ли дополнительная подготовка или найм новых
сотрудников.
2. Техника: Проанализируйте доступные технические ресурсы, включая
оборудование, программное обеспечение и инфраструктуру. Убедитесь, что они
соответствуют потребностям проекта. Если необходимо, планируйте обновления
или приобретение нового оборудования.
3. Данные: Оцените доступность и качество данных, необходимых для проекта.
Убедитесь, что данные собраны, организованы и хранятся в соответствии с
требованиями проекта. Если данные отсутствуют или требуют очистки, установите
план для их подготовки.
4. Ресурсы: Проведите анализ бюджета и доступных финансовых ресурсов. Убедитесь,
что у вас есть достаточные средства для завершения проекта, и при необходимости
разработайте стратегию для привлечения дополнительных финансовых ресурсов.
5. Риски: Идентифицируйте потенциальные риски, которые могут повлиять на проект.
Оцените их вероятность и воздействие на проект, и разработайте планы для
снижения рисков.
3. Как оценить риски?
Риски в проекте анализа данных представляют собой потенциальные
неблагоприятные события или обстоятельства, которые могут возникнуть и
повлиять на успешное выполнение проекта, включая задержки, недостаток данных,
изменения в требованиях, технические проблемы и другие факторы, которые могут
создать угрозу для целей и результатов анализа данных. Управление и мониторинг
рисков являются важными частями процесса проектного управления, чтобы
минимизировать негативное воздействие и обеспечить успешное завершение
проекта.
1. Выявление рисков:

Идентификация потенциальных рисков — определите, какие события или
обстоятельства могут повлиять на ваш проект. Это могут быть технические
проблемы, изменения в требованиях, финансовые ограничения, изменения
в команде и другие факторы.

Создание списка рисков — составьте подробный список и описание каждого
риска. Убедитесь, что вы охватили все сферы, где могут возникнуть
проблемы.
КУРС «АНАЛИТИК ДАННЫХ»
2. Оценка рисков:

Оценка вероятности — определите вероятность возникновения каждого
риска на основе исторических данных, экспертных оценок или анализа.

Оценка воздействия — оцените, какой ущерб может нанести проекту каждый
риск, если он проявится. Используйте количественные или качественные
показатели для измерения воздействия.
3. Управление рисками:

Разработка стратегий управления рисками — определите, как будете
управлять каждым риском. Это может включать в себя снижение
вероятности, уменьшение воздействия или разработку планов митигации.

Мониторинг и контроль рисков — установите систему мониторинга и
контроля рисков в течение всего проекта. Периодически оценивайте статус
рисков и принимайте меры, если какие-либо риски начинают проявляться.
3. Почему важна единая терминология проекта?
Единая терминология проекта играет важную роль в обеспечении понимания и
коммуникации в рамках проектной команды и с заказчиком. Вот почему её важно иметь:
1. Понимание: Единая терминология позволяет всем участникам проекта иметь общее
понимание ключевых понятий, терминов и процессов. Это устраняет возможность
недоразумений и уточнений, связанных с разнообразием интерпретаций.
2. Эффективная коммуникация: Использование общего словаря упрощает обмен
информацией и обсуждение вопросов внутри команды и с заказчиком. Все члены
команды понимают друг друга и могут выражать свои идеи и вопросы ясно и точно.
3. Минимизация ошибок: Единая терминология помогает избежать ошибок,
связанных с неправильным пониманием терминов или теряющимися в переводе
коммуникациями. Это способствует качеству и точности работ.
4. Улучшение управления проектом: Согласованный словарь позволяет эффективно
управлять проектом, планировать задачи и ресурсы, и более точно оценивать
прогресс и результаты.
5. Снижение конфликтов: Единая терминология уменьшает вероятность
возникновения конфликтов и разногласий, связанных с недопониманием или
неправильным использованием терминов.
4. Топ-5 выводов:
1. Оценка рисков является важной частью процесса управления проектом анализа
данных и помогает выявить потенциальные проблемы и угрозы.
КУРС «АНАЛИТИК ДАННЫХ»
2. Идентификация рисков включает в себя выявление возможных негативных событий
или обстоятельств, которые могут повлиять на успешность проекта.
3. Оценка рисков включает оценку вероятности возникновения каждого риска и
оценку воздействия на проект.
4. Управление рисками включает в себя разработку стратегий для снижения
вероятности рисков, уменьшения их воздействия и создания планов митигации.
5. Эффективное управление и мониторинг рисков способствует минимизации
негативного воздействия на проект и обеспечивает его успешное завершение.
КУРС «АНАЛИТИК ДАННЫХ»
Поздравляем! Вы закончили изучение первого раздела модуля :)
Теперь Вы можете приступить к выполнению заданий:
1. Определите бизнес — цель заказчика и сформулируйте цель анализа данных.
К вам на встречу пришел клиент — молодой мужчина 30-ти лет, бывший спортсмен.
Последние 2 года он занимается организацией спортивных мероприятий для детей в
возрасте от 3 до 5 лет. Помимо непосредственной организации мероприятий, он как
управленец заинтересован в развитии своего бизнеса. С одной стороны, ему важно
привлекать к сотрудничеству спортивные детские учреждения региона для развития
компания; с другой - спонсоров и партнеров для рекламных интеграций.
На данном этапе своей работы он уже достаточно успешно заявил о себе на рынке регионаприсутствия. Однако клиент понимает, что для эффективного развития компании ему не
хватает новых инструментов. Он считает, что одним из таких инструментов может стать
аналитика, учитывая «истории успеха» других предпринимателей, которые внедрили
аналитику в свои бизнес-процессы и увеличили тем самым свой доход. За 2 года у него не
было цели собирать данные, однако что-то да накопилось за время работы.
Он обратился к вам, чтобы вы помогли сделать ему из имеющихся разрозненных данных,
аналитическое решение. При этом клиент сам не понимает, какой результат ему нужен,
предоставляя право на творчество вам.
Бизнес-цель заказчика: Развитие и увеличение эффективности его компании,
занимающейся организацией спортивных мероприятий для детей в возрасте от 3 до 5 лет,
путем оптимизации бизнес-процессов, привлечения новых сотрудничеств и спонсоров, а
также увеличения дохода.
Цель анализа данных: Создание аналитической системы, которая позволит заказчику:
1. Понимать и оптимизировать бизнес-процессы компании, включая планирование и
проведение спортивных мероприятий, управление ресурсами и персоналом.
2. Оценить и улучшить эффективность сотрудничества с существующими спортивными
детскими учреждениями в регионе и привлечь новых партнеров.
3. Выявить и анализировать ключевые метрики, которые влияют на прибыльность и
рост компании, такие как уровень участия детей, рост прибыли, оценку
удовлетворенности клиентов и другие.
4. Предоставить заказчику инсайты и рекомендации на основе данных, которые
позволят принимать информированные стратегические и тактические решения для
развития компании.
5. Создать возможность мониторинга и отслеживания результатов в реальном
времени, чтобы реагировать на изменения и корректировать действия в
соответствии с поставленными целями.
Основной итоговой целью анализа данных для заказчика является повышение
эффективности и доходности его бизнеса, а также обеспечение долгосрочного роста и
успешного развития компании в сфере спортивных мероприятий для детей.
КУРС «АНАЛИТИК ДАННЫХ»
2. Определите цель анализа данных в следующей ситуации, ответив на следующие
вопросы.




Что мы изучаем? (объект анализа)
Какие свойства и | или характеристики объекта исследования мы хотим изучить? Что
хотим найти? (предмет анализа)
Где мы хотим найти?
Почему? Зачем нам это нужно?
К вам обратился управляющей крупной сити фитнес-центров региона. В течение последних
5-ти лет в компании активно собирают данные о функционировании бизнес-процессов
организации: посетители фитнес-центра, маркетинговые показатели, оценка
эффективности работников и удовлетворённости клиентов и др. Однако, управляющий
заметил проблему, что в течение последних 6 месяцев снизились выручки, учитывая, что
данные по всем остальным показателям остались прежними. Учитывая сложившуюся
ситуацию, клиент преследует цель выйти на предыдущий уровень прибыли за 3 месяца.
1. Что мы изучаем? (Объект анализа): Мы изучаем функционирование и бизнеспроцессы сети фитнес-центров в течение последних 6 месяцев.
2. Какие свойства и/или характеристики объекта исследования мы хотим изучить?
Что хотим найти? (Предмет анализа):

Идентификация конкретных факторов, которые привели к снижению
выручки.

Оценка эффективности маркетинговых кампаний за последние 6 месяцев.

Анализ изменений в посещаемости фитнес-центров.

Исследование уровня удовлетворенности клиентов и оценка эффективности
работы сотрудников.
3. Где мы хотим найти? Мы хотим найти конкретные причины и факторы, которые
привели к снижению выручки в фитнес-центрах. Это включает в себя анализ данных
о посещаемости, маркетинговых активностях, оценке удовлетворенности клиентов
и работе персонала.
4. Почему? Зачем нам это нужно? Данный анализ имеет следующие цели:

Выявить конкретные факторы и причины, которые привели к снижению
выручки в последние 6 месяцев.

Предоставить управляющему фитнес-центров информацию, которая
позволит разработать стратегию для возврата к предыдущему уровню
прибыли в течение 3 месяцев.

Оптимизировать маркетинговые кампании, пересмотреть стратегию по
привлечению клиентов и удержанию существующих, а также улучшить
работу персонала для увеличения удовлетворенности клиентов и повышения
лояльности.
КУРС «АНАЛИТИК ДАННЫХ»

Обеспечить долгосрочное успешное функционирование сети фитнесцентров путем преодоления текущих финансовых трудностей.
3. Определите необходимые источники данных.
Перед вами стоит задача провести репутационный анализ компании, которая занимается
производством региональной фермерской молочной продукции. Определите
необходимые источники данных:
1. Внутренние данные компании:

Финансовые отчеты и бухгалтерская документация компании, включая
доходы и расходы.

Данные о производственных
производственных стандартах.

Данные о качестве и составе молочной продукции.
процессах,
объемах
производства,
и
2. Отзывы и обратная связь клиентов:

Отзывы клиентов на сайтах, в социальных сетях, и на онлайн-платформах.

Запросы и жалобы клиентов.

Оценки и рейтинги компании на различных интернет-ресурсах и платформах.
3. Медиа и публикации:

Статьи, новости и публикации в местных и национальных СМИ о компании и
ее продукции.

Репортажи и теле- и радиопередачи о фермерском производстве и молочных
продуктах.
4. Данные о конкурентах:

Информация о репутации и деятельности конкурирующих фермерских
молочных производителей в регионе.
5. Социальные медиа:

Мониторинг публикаций и обсуждений о компании в социальных сетях,
включая Instagram и др.
6. Отзывы и мнения экспертов:

Мнения и аналитические отчеты от экспертов в области сельского хозяйства,
пищевой промышленности и потребительского рынка.
7. Данные о событиях и акциях:

Информация о событиях и мероприятиях, связанных с фермерским
производством и молочными продуктами в регионе.
КУРС «АНАЛИТИК ДАННЫХ»
8. Оценка исследовательских организаций:

Данные и отчеты исследовательских организаций и ассоциаций, которые
могут предоставить независимую оценку компании и ее продукции.
4. Определите необходимые методы для реализации поставленной задачи.
Ваш заказчик — начальник маркетингового отдела, который попросил вас помочь в
анализе клиентов, разделив их на группы. У него есть информация о клиентах — пол,
возраст, социальный статус, уровень покупательской активности.
1. Кластерный анализ: Этот метод позволяет группировать клиентов на основе схожих
характеристик. Кластеризация может проводиться на основе всех четырех
переменных: пол, возраст, социальный статус и уровень покупательской активности.
Это поможет выявить различные сегменты клиентов в вашей базе данных.
2. Анализ компонентных переменных (PCA): Позволяет уменьшить размерность
данных и выделить наиболее важные факторы, которые объясняют вариацию в
поведении клиентов. Вы можете использовать PCA, чтобы определить, какие
факторы наиболее сильно влияют на поведение клиентов.
3. Деревья принятия решений: Этот метод помогает создать модель, которая может
автоматически классифицировать клиентов на основе заданных характеристик.
Например, можно построить дерево решений для определения, кто из клиентов
является "активным покупателем" и кто - "неактивным".
4. Анализ множественной регрессии: Этот метод может использоваться для
выявления связей между различными переменными и покупательской
активностью. Вы можете определить, какие из факторов (пол, возраст, социальный
статус) оказывают наибольшее влияние на уровень активности клиентов.
5. Методы визуализации данных: Используйте графику, такие как диаграммы
рассеяния, гистограммы и диаграммы разброса, для визуализации данных и
выявления паттернов в поведении клиентов.
Download