Анализ данных: Конспект лекций. Что такое анализ данных – определение

Анализ данных: Конспект лекций. Что такое анализ данных – определение

03.06.2019

Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» ___________________________________________________ Кафедра информационных систем и технологий КОНСПЕКТ ЛЕКЦИЙ ПО УЧЕБНОЙ ДИСЦИПЛИНЕ «АНАЛИЗ ДАННЫХ» по специальности (направлению подготовки): Информационные системы и технологии, Бизнес-информатика Самара 2013 УДК 004.02:004.6 Салмин А.А. Анализ данных. Конспект лекций. – Самара.: ФГОБУ ВПО «ПГУТИ», 2013. - 111 с. Рассматриваются вопросы анализа данных. Приводятся некоторые из основополагающих методик анализа данных, такие как: регрессионный анализ, корреляция, дисперсионный анализ и др. Отражены вопросы интеллектуального анализа данных, с помощью которого можно выявить ранее неизвестные, нетривиальные закономерности в данных. Рецензент: Тарасов В.Н. – д.т.н., профессор, зав. кафедрой «Программного обеспечения и управления в технических системах» ПГУТИ Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» © Салмин А.А., 2013 2 Содержание конспекта лекций ВВЕДЕНИЕ 5 1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» 7 1.1. Работа с данными 7 1.2. Этапы решения задачи анализа данных и их взаимосвязи 9 2. РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ 18 2.1.Вероятность 18 2.2.Распределения вероятностей 20 2.3.Случайные переменные и случайные выборки данных 23 2.4.Нормальное распределение 24 2.5.Формула Байеса 25 3. СТАТИСТИКА ВЫВОДОВ 30 3.1.Доверительные интервалы 30 3.2.Проверка гипотез 32 3.2.1. Типы ошибок 33 3.2.2. Области принятия и непринятия 34 3.2.3. t-распределение 35 3.3. Применение непараметрического теста для парных данных 39 4. АНАЛИЗ ТАБЛИЧНЫХ ДАННЫХ 43 4.1. Сводные таблицы 43 4.2. Вычисление ожидаемого количества наблюдений 46 4.3. Статистика хи-квадрат Пирсона 48 5. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА 51 5.1. Понятие «регрессия» 51 5.2. Простая линейная взаимосвязь 52 5.2.1. Уравнение регрессии 52 5.2.2. Подгонка линии регрессии 54 5.2.3. Интерпретация параметров регрессии 57 5.3. Проверка модели регрессии 59 3 6. КОРРЕЛЯЦИЯ 63 6.1. Понятие «корреляции» 63 6.2. Матрица корреляции 65 6.3. Матрица точечных диаграмм корреляций 66 7. АППАРАТ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 69 7.1. Уравнение множественной регрессии 69 7.2. Проверка допущений регрессии 73 7.3. Пошаговая регрессия 75 7.4. Логистическая регрессия 76 7.5. Нелинейная регрессия 77 8. ДИСПЕРСИОННЫЙ АНАЛИЗ 78 8.1. Однофакторный дисперсионный анализ 78 8.2. Однофакторный дисперсионный анализ и анализ регрессии 84 8.2. Двухфакторный дисперсионный анализ 86 9. КОГНИТИВНЫЙ АНАЛИЗ. ГРАФЫ 92 9.1. Когнитивный анализ 92 9.2. Методика когнитивного анализа сложных ситуаций 93 9.3. Регрессионно - когнитивный анализ 96 10. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ 99 10.1. Системы аналитической обработки данных 99 10.1.1. CRM – технология 99 10.1.2. ERP – системы 102 10.1.3. OLAP – технология 103 10.2. Интеллектуальный анализ данных (Data Mining) 105 10.2.1. Этапы исследования данных с помощью методов Data Mining 105 10.2.2. Типы закономерностей 106 10.2.3. Методы Data Mining 107 4 ВВЕДЕНИЕ Предлагаемый конспект лекций по дисциплине «Анализ данных» обеспечивает подготовку студентов к эффективному использованию современных компьютерных средств анализа данных. Предлагаются основные темы, посвященные формированию теоретических и практических навыков работы с пакетами прикладных программ для решения задач анализа и интерпретации данных для создания прогнозов ситуации и принятия управленческих решений. В рамках конспекта лекций по дисциплине рассматриваются различные способы создания, форматирования, описания базовых принципов работы с таблицами данных с целью их последующего анализа при помощи статистических и математических методов. Таким образом, у будущих специалистов осуществляется формирование основ теоретических знаний и практических навыков работы в области анализа данных и принятия управленческих решений. Следует также отметить тот факт, что в качестве программного обеспечения для усвоения курса предлагается использовать продукт MS Excel, который располагает достаточными средствами анализа данных, такими как: пакет анализа, общими статистическими функциями мастера функций и т.д. Кроме тог, предлагается дополнительно использовать подключаемый модуль StatPlus. Дисциплина «Анализ данных» базируется на знании предметов «Информационные технологии», «Электронные 5 таблицы», «Вероятность и статистика», изучаемых в образовательных учреждениях высшего образования. Элементы курса «Анализ данных» используются при изучении курсов «Моделирование систем», «Проектирование информационных систем», «Надежность информационных систем». Задача материала данного конспекта лекций в том, чтобы: - предоставить студентам общие сведения о принципах обработки и анализа данных с целью получения из них новых сведений; - показать методы, средства и технологии анализа данных; - показать на примере регрессионного анализа принцип получения новых знаний из данных. Знания и навыки, полученные в результате изучения данной дисциплины, могут быть применены: 1. при проведении анализа данных с целью получения статистической информации или прогноза ситуации; 2. для интерпретации полученных результатов в ходе анализа; 3. при формулировании технического задания при создании ИС силами профессиональных разработчиков. 6 1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» 1.1. Работа с данными Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы. Специфика данных в том, что они, с одной стороны, существуют независимо от наблюдателя, а с другой – становятся собственно «данными» лишь тогда, когда существует целенаправленно собирающий их субъект. В итоге: данные должны быть тем основанием, на котором возводятся все заключения, выводы и решения. Они вторичны по отношению к цели исследования и предметной области, но первичны по отношению к методам их обработки и анализа, извлекающим из данных только ту информацию, которая потенциально доступна в рамках отобранного материала. Данные получаются в результате измерений. Под измерением понимается присвоение символов образцам в соответствии с некоторым правилом. Эти символы могут быть буквенными или числовыми. Числовые символы также могут представлять категории или быть числовыми. Различают 4 типа шкал измерений: 1) Шкала наименований. Эта шкала используется только для классификации. Каждому классу данных присваивается свое обозначение так, чтобы обозначения различных классов не совпадали. Например, классификация людей по полу М и Ж (1 и 2, 10 и 100) или категория да/нет. Причем арифметические операции не имеют смысла для шкал наименований. Для данной шкалы 7 центром измерения является мода (часто повторяющийся элемент). 2) Порядковая шкала. Данная шкала позволяет не только разбивать данные на классы, но и упорядочить сами классы. Каждому классу присваивается различные обозначения так, чтобы порядок обозначений соответствовал порядку классов. Если мы нумеруем классы, то классы находятся в числовом порядке; если обозначаем классы по средствам букв, то классы находятся в алфавитном порядке. Например, необходимо идентифицировать индивидуумы по трем социально- экономическим категориям – низкий, средний, высокий: 1 – низкий, 2- средний, 3 – высокий; или X – низкий, Y – средний, Z – высокий. Применяются любые обозначения цифр или букв. Арифметические операции для этой шкалы также не имеют смысла. 3) Интервальная шкала. Эта шкала позволяет не только классифицировать и упорядочивать данные, но и количественно оценивать различие между классами. Для проведения таких сравнений необходимо ввести единицу измерения и произвольное начало отсчета (нуль- пункт). Например, температура в градусах Фаренгейту принадлежит интервальной шкале, где 0F является началом, 1F - единицей измерения. 4) Шкала отношений. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета. Т.е. в данной шкале можно определить, во сколько раз одно измерение превосходит другое. Например: рост человека в дюймах принадлежит шкале отношений, в которой в которой 0 дюймов есть фиксированное начало отсчета, а 1 дюйм – единица измерения. 8 Кроме того, наблюдения делятся на: дискретные и непрерывные. Именованные и порядковые данные всегда дискретны, а интервальные и относительные могут быть как дискретными, так и непрерывными. Например, непрерывные: стрельба по мишени (любой исход), температура (интервальная шкала); дискретные: игральная кость (1, 2, 3 …6), монета (орел/решка), число телефонных вызовов за один час (шкала отношений) (рис. 1.1). Рис. 1.1. Дискретные и непрерывные данные 1.2. Этапы решения задачи анализа данных и их взаимосвязи Анализ данных – это совокупность методов и средств извлечения из организованных данных информации для принятия решений. Основные этапы решения задачи анализа данных показаны в левой части рис. 1.2. В правой части каждый из них разбит на более мелкие стадии. 9 Этап 1 1.1. Определение цели Постанов- исследования ка задачи 1.2. Определение состава данных 1.3. Сбор данных 1.4. Выбор средств анализа данных 1.5. Формализация данных Этап 2 2.1. Ввод данных в память Ввод ЭВМ данных в 2.2. Работа с архивом данных обработку 2.3. Формирование задания обработки Этап 3 3.1. Определение Качествен- простейших характеристик ный данных анализ 3.2. Визуализация данных 3.3. Анализ структуры данных Этап 4 4.1. Выбор модели данных Количест- 4.2. Выполнение обработки венное описание данных Этап 5 5.1. Анализ результатов Интерпрет 5.2. Принятие решений ация резуль- татов Рис. 1.2. Этапы анализа данных Постановка задачи (является определяющим этапом, от которого зависит весь ход анализа) начинается со стадии формулировки цели всего 10

Понимание данных (DataInsight - DI):

DI - Область data science, в которой ключеаую роль по обработке данных играют эксперты. Мы рассматриваем это направление как узконаправленное, в интересах конкретной цели заказчика. Эксперты ищут информацию, источники данных, открытые ресурсы и основываясь на экспертной оценке, интуиции обобщают материалы, формируют новое знание. 80% всей информации разведками мира добываются именно таким образом - извлечение знаний экспертами из открытых источников. Это актуально, когда данные неформализованы, смысл скрыт. Например: сбор сведений о предмете интереса с неявными идентифицирующими признаками, косвенными связями. Результатом иссдедования становится аналитическая записка с указанием источников данных, принципов идентификации и причинно-следственными связями.

Анализ данных (Data Analysis):

DA - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.
Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.
Анализ данных является наукой изучения исходных данных с целью сделать выводы об этой информации. Анализ данных используется во многих отраслях промышленности, сфере услуг, чтобы позволить компаниям и организациям принимать лучшие бизнес-решения и в науке, чтобы подтвердить или опровергнуть существующие модели или теории.

Анализ данных отличается от интеллектуального анализа данных (data minig) по сфере применения, цели и направленности анализа. Интеллектуальный анализ данных оперирует огромными наборами данных, используя сложное программное обеспечение для выявления скрытых шаблонов и установления неявных связей. Анализ данных фокусируется на умозаключениях, процессе получения выводов, основанных исключительно на том, что уже известно исследователю.

Анализ данных, как правило, делится на поисковый анализ данных (EDA), поиск возможностей в данных, и подтверждающий анализ данных (CDA), для подтверждения или опровержения гипотез.
Анализ качественных данных (QDA) используется в социальных науках, чтобы сделать выводы из нечисловых данных, таких как слова, фотографии или видео.
Термин "аналитика" используется многими поставщиками продуктов бизнес-аналитики (BI), как умное слово для описания совершенно разных функций. Анализ данных используется для описания всего: от оперативной аналитической обработки данных (OLAP) до аналитики CRM в центрах обработки вызовов.
Не стоит обосабливать анализ "больших данных" (BigData Analysis) так как по сути в большинстве случаев используются те же методики и методы, что для анализа обычных данных, отличие начинается в технологиях, механизмах распараллеливания.
Особняком стоит DataInsight (Понимание данных) - в этом исследовании акцент делается не на математической обработке данных, а экспертной оценке. Выделении связей, оценка последствий.
Интеллектуальный анализ данных - это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании.

Интеллектуальный анализ данных (Data Mining):

Избыток данных и недостаток хороших методов их анализа приводил к ситуации богатства данными, но бедности информацией. Быстро растущие объемы накопленных данных быстро превысили способности человека в их обработке. В результате большие базы данных стали «могилами» данных – архивами, которые редко посещаются. Как следствие, важные решения принимаются не на основе информационно- насыщенных баз данных, а на основе интуиции человека, принимающего решения, так как он не имеет подходящих инструментов для извлечения полезных знаний из огромных объемов данных. Технология Интеллектуального Анализа Данных позволяет извлечь полезные знания, важные паттерны, способствуя совершенствованию бизнес- стратегий, баз знаний, научных и медицинских исследований. Интеллектуальным анализом данных мы будем называть процесс определения новых, корректных и потенциально полезных знаний на основе больших массивов данных. Извлеченное знание в результате интеллектуального анализа называется термином паттерн.

Паттерном может быть, например, некоторое нетривиальное утверждение о структуре данных, об имеющихся закономерностях, о зависимости между атрибутами и т.д. Таким образом, задачей интеллектуального анализа данных является эффективное извлечение осмысленных паттернов из имеющегося массива данных большого размера.
Для отсева большого количества возможных малополезных паттернов может вводится функция полезности. В реальности оценка полезности знания имеет субъективный характер, то есть зависит от конкретного пользователя. Можно выделить две главные характеристики «интересного» знания:
Неожиданность. Знание «удивительно» для пользователя и потенциально несет новую информацию.
Применимость. Пользователь может использовать новое знание для достижения своих целей.

Интересные знания, закономерности, высокоуровневая информация, полученные в результате анализа данных, могут быть использованы для принятия решений, контроля за процессами, управления информацией и обработки запросов. Поэтому технология интеллектуального анализа данных рассматривается как одна из самых важных и многообещающих тем для исследований и применения в отрасли информационных технологий.

Этапы в процессе интеллектуального анализа данных:
  1. 1. Изучение предметной области, в результате которого формулируются основные цели анализа.
  2. 2. Сбор данных.
  3. 3. Предварительная обработка данных: (a) Очистка данных – исключение противоречий и случайных "шумов"из исходных данных (b) Интеграция данных – объединение данных из нескольких возможных источников в одном хранилище (c) Преобразование данных. На данном этапе данные преобразуются к форме, подходящей для анализа. Часто применяется агрегация данных, дискретизация атрибутов, сжатие данных и сокращение размерности.

  4. 4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.
  5. 5. Интерпретация найденных паттернов. Данный этап может включать визуализацию извлеченных паттернов, определение действительно полезных паттернов на основе некоторой функции полезности.
  6. 6. Использование новых знаний.
Data Mining (DM) - это процесс обнаружения в сы­рых данных (row data) раннее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой дея­тель­ности (Г.Пятецкий-Шапиро).

Большие объемы накопленных данных постоянно приходится модифицировать из-за быстрой смены аппаратного и программного обеспечения БД, при этом неизбежны потери и искажение информации. Одним из средств для преодоления подобных трудностей является создание информационных хранилищ данных, доступ к которым не будет сильно зависеть от изменения данных во времени и от используемого программного обеспечения. Другой подход ориентирован на сжатие больших объемов данных путем нахождения некоторых общих закономерностей (знаний) в накопленной информации. Оба направления актуальны с практической точки зрения.

Наличие информационного хранилища данных - необходимое условие для успешного проведения всего процесса DataMining. Информационным хранилищем данных называют предметно-ориентированное, интегрированное, привязанное ко времени, неизменяемое собрание данных, используемых для поддержки процесса принятия управленческих решений. Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают, а не в соответствии с приложениями, которые их используют. Такой принцип хранения гарантирует, что отчеты, сгенерированные различными аналитиками, будут опираться на одну и ту же совокупность данных. Привязанность ко времени означает, что хранилище можно рассматривать как собрание исторических данных, т.е. конкретные значения данных однозначно связаны с определенными моментами времени. Атрибут времени всегда явно присутствует в структурах хранилищ данных. Данные, занесенные в хранилище, уже не изменяются в отличие от оперативных систем, где присутствуют только последние, постоянно изменяемые версии данных.

В технологиях DM используются различные математические методы и алгоритмы: классификация, кластеризация, регрессия, прогнозирование временных рядов, ассоциация, последовательность.

Классификация - инструмент обобщения. Она позволяет перейти от рассмотрения единичных объектов к обобщенным понятиям, которые характеризуют некоторые совокупности объектов и являются достаточными для распознавания объектов, принадлежащих этим совокупностям (классам). Суть процесса формирования понятий заключается в нахождении закономерностей, свойственных классам. Для описания объектов используются множества различных признаков (атрибутов), Проблема формирования понятий по признаковым описаниям была сформулирована М. М. Бонгартом. Ее решение базируется на применении двух основных процедур: обучения и проверки. В процедурах обучения строится классифицирующее правило на основе обработки обучающего множества объектов. Процедура проверки (экзамена) состоит в использовании полученного классифицирующего правила для распознавания объектов из новой (экзаменационной) выборки. Если результаты проверки признаны удовлетворительными, то процесс обучения заканчивается, в противном случае классифицирующее правило уточняется в процессе повторного обучения.

Кластеризация - это распределение информации (записей) из БД по группам (кластерам) или сегментам с одновременным определением этих групп. В отличие от классификации здесь для проведения анализа не требуется предварительного задания классов.
Регрессионный анализ используется в том случае, если отношения между атрибутами объектов в БД выражены количественными оценками. Построенные уравнения регрессии позволяют вычислять значения зависимых атрибутов по заданным значениям независимых признаков.
Прогнозирование временных рядов является инструментом для определения тенденций изменения атрибутов рассматриваемых объектов с течением времени. Анализ поведения временных рядов позволяет прогнозировать значения исследуемых характеристик.
Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота появления отдельного предмета или группы предметов, выраженная в процентах, называется распространенностью. Низкий уровень распространенности (менее одной тысячной процента) говорит о том, что такая ассоциация не существенна.

Типичным примером применения ассоциации является анализ структуры покупок. Например, при проведении исследования в супермаркете можно установить, что 65 % купивших картофельные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85 % случаев. Подобные результаты представляют ценность при формировании маркетинговых стратегий.

Последовательность - это метод выявления ассоциаций во времени. В данном случае определяются правила, которые описывают последовательное появление определенных групп событий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирования типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.

К интеллектуальным средствам DM относятся нейронные сети, деревья решений, индуктивные выводы, методы рассуждения по аналогии, нечеткие логические выводы, генетические алгоритмы, алгоритмы определения ассоциаций и последовательностей, анализ с избирательным действием, логическая регрессия, эволюционное программирование, визуализация данных. Иногда перечисленные методы применяются в различных комбинациях.

Нейронные сети относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Математическая модель нейрона представляет собой некий универсальный нелинейный элемент, допускающий возможность изменения и настройки его характеристик. Нейронные сети широко применяются для решения задач классификации. Построенную сеть сначала нужно «обучить» на примерах, для которых известны значения исходных данных и результаты. Процесс «обучения» сети заключается в подборе весов межнейронных связей и модификации внутренних параметров активационной функции нейронов. «Обученная» сеть способна классифицировать новые объекты (или решать другие примеры), однако правила классификации остаются не известными пользователю.

Деревья решений - метод структурирования задачи в виде древовидного графа, вершины которого соответствуют продукционным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений. Этот метод дает наглядное представление о системе классифицирующих правил, если их не очень много. Простые задачи решаются с помощью этого метода гораздо быстрее, чем с использованием нейронных сетей. Для сложных проблем и для некоторых типов данных деревья решений могут оказаться неприемлемыми. Кроме того, для этого метода характерна проблема значимости. Одним из последствий иерархической кластеризации данных является то, что для многих частных случаев отсутствует достаточное число обучающих примеров, в связи с чем классификацию нельзя считать надежной.

Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД. В процессе индуктивного обучения может участвовать специалист, поставляющий гипотезы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматической генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез используются статистические методы.

Рассуждения на основе аналогичных случаев (Case-based reasoning - CBR) основаны на поиске в БД ситуаций, описания которых сходны по ряду признаков с заданной ситуацией. Принцип аналогии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой. Недостаток этого подхода заключается в том, что здесь не создается каких-либо моделей или правил, обобщающих предыдущий опыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций, как и в процессах индуктивного вывода.

Нечеткая логика применяется для обработки данных с размытыми значениями истинности, которые могут быть представлены разнообразными лингвистическими переменными. Нечеткое представление знаний широко применяется в системах с логическими выводами (дедуктивными, индуктивными, абдуктивными) для решения задач классификации и прогнозирования.

Генетические алгоритмы входят в инструментарий DM как мощное средство решения комбинаторных и оптимизационных задач. Они часто применяются в сочетании с нейронными сетями. В задачах извлечения знаний применение генетических алгоритмов сопряжено со сложностью оценки статистической значимости полученных решений и с трудностями построения критериев отбора удачных решений.

Логическая (логистическая) регрессия используется для предсказания вероятности появления того или иного значения дискретной целевой переменной. Дискретная зависимая (целевая) переменная не может быть смоделирована методами обычной многофакторной линейной регрессии. Тем не менее вероятность результата может быть представлена как функция входных переменных, что позволяет получить количественные оценки влияния этих параметров на зависимую переменную. Полученные вероятности могут использоваться и для оценки шансов. Логическая регрессия - это, с одной стороны, инструмент классификации, который используется для предсказания значений категориальных переменных, с другой стороны - регрессионный инструмент, позволяющий оценить степень влияния входных факторов на результат.

Эволюционное программирование - самая новая и наиболее перспективная ветвь DM. Суть метода заключается в том, что гипотезы о форме зависимости целевой переменной от других переменных формулируются компьютерной системой в виде программ на определенном внутреннем языке программирования. Если это универсальный язык, то теоретически он способен выразить зависимости произвольной формы. Процесс построения таких программ организован как эволюция в мире программ. Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые являются наиболее точными. Затем найденные зависимости переводятся с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и т.п.). При этом активно используются средства визуализации.

англ. analysis, data; нем. Datenanalyse. Этап эмпирического социол. исследования, в ходе к-рого при помощи содержательных соображений и мате-матико-статист. методов на основе первичной информации раскрываются связи исследуемых переменных.

Отличное определение

Неполное определение ↓

АНАЛИЗ ДАННЫХ

1. Совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными. В процессе А.д. исследователь чаще всего пытается сократить их количество, стремясь потерять при этом как можно меньше полезной информации, потенциально в них заложенной. Делается это обычно с помощью математич. методов. При использовании математич. статистики, напр., сокращение количества данных достигается за счет двух взаимно дополняющих друг друга принципов: выборочного метода и свертки информации. Первый из них декларирует отказ от всей совокупности данных в пользу специально организованной их части - выборки (см.), а второй заменяет всю выборку несколькими числами - ее характеристиками Таковыми могут быть, напр., среднее арифметич. и дисперсия, уравнение регрессии, рез-ты применения факторного анализа, методов классификации и т. д. Для получения подобных характеристик данные подвергаются нек-рым воздействиям: они или обрабатываются, или исследуются, или анализируются. Поэтому процесс "свертки" данных называется не только их анализом, но и их обработкой, исследованием. 2. Процесс изучения статистич. данных (т. е. анализ этих данных в смысле п. 1) с помощью математич. методов, не предполагающих вероятностной модели интересующего исследователя явления (в частности, не опирающихся на допущения о вероятностной природе исходных данных, о статистич. модели порождения данных). Развитие теории и практики статистич. обработки данных идет в двух параллельных направлениях. Одно из них представлено методами, предусматривающими возможность вероятностной интерпретации данных и полученных в рез-те обработки статистич. выводов, использования вероятностных моделей для построения и выбора наилучших методов статистич. обработки. Эти методы обычно называют вероятностно-статистическими. Они предполагают адекватную реальности определенную вероятностную модель изучаемого с их помощью явления. В предположении этой адекватности получаемые с помощью таких методов выводы будут основываться на строго доказанных математич. рез-тах, дающих возможность помимо всего прочего устанавливать точность упомянутых выводов (см. Оценивание статистическое, Проверка статистических гипотез). Др. направление представлено методами А.д., не предполагающими вероятностных моделей изучаемых явлений. Строгих же математич. методов обработки статистич. данных с помощью такого рода методов пока не существует. Они не основываются на строго доказанных математич. рез-тах и, как следствие, не дают возможности устанавливать точность получаемых с их помощью выводов. Применение методов А.д. чаще всего основывается на следующей схеме. Подлежащие статистич. обработке исходные данные не могут интерпретироваться как выборка из генеральной совокупности и, следовательно, использование вероятностных моделей при построении и выборе наилучших методов статистич. обработки и последующая вероятностная интерпретация статистич. выводов оказываются неправомерными. Из множества методов, реализующих поставленную цель статистич. обработки данных, в качестве к-рой может выступать классификация объектов, нахождение латентных факторов и т. д. (см. Статистика математич. и Анализ многомерный статистич.), наилучший метод обычно выбирается с помощью оптимизации нек-рого задаваемого из эвристич., содержательных соображений критерия (функционала) качества метода. Естественно, что при этом проблема обоснованности получаемых с помощью методов А.д. выводов требует особого внимания. Здесь особенно острой является необходимость выделения "точек соприкосновения содержания задачи и математич. формализма (см. Адекватность математич. метода, п. 1). К методам А.д. следует отнести и вероятностно-статистич. метод, если у исследователя не имеется возможности проверить адекватность реальности предполагаемой методом вероятностной модели изучаемого явления; тем более, если в подобной ситуации социолог имеет основания сомневаться в такой адекватности. Правомерность использования вероятностно-статистич. метода в таком случае также должна опираться на содержательные соображения. Поскольку методы А.д. с т.зр. ортодоксальной математики не являются достаточно обоснованными, то имеет смысл использовать эти методы лишь на предварительном этапе анализа для уточнения представлений исследователя об изучаемом явлении, корректировки понятийного аппарата, формулировки гипотез и т. д. Однако с этим положением, выдвигаемым рядом авторов как неоспоримое, во многих ситуациях трудно согласиться. Методы А.д. могут служить и средством получения фундаментального знания, выявления неизвестных ранее закономерностей, если перейти на новый уровень понимания самого математич. формализма: считать, что адекватным решаемой задаче является не к.-л. отдельный метод (при этом не играет роли, имеется в виду вероятностно-статистич. метод или метод А.д.), а целая совокупность таких методов, применяемых в соответствии с определенными методологич. принципами (см. п. 4). Выделение класса методов анализа данных в рассматриваемом смысле обусловлено потребностями целого ряда наук, в т. ч. и социологии. В этих науках, с одной стороны, велика потребность анализа статистич. данных, а с другой - традиционные предположения, лежащие в основе вероятностно-статистич. методов, разработанных специально для решения такого рода задач, часто не выполняются. Однако невыполнение вероятностно-статистич. посылок не является единственной причиной отсутствия "законной" возможности использования вероятностно-статистич. аппарата в социологии. Др. не менее распространенной причиной непригодности тех или иных методов является их неадекватность относительно типа используемых шкал (см. Адекватность математич. метода, п. 2). Так, неадекватным является применение традиционных математико-статистич. методов к данным, полученным по порядковым шкалам, что часто делается на практике. Метод, используемый для шкал, относительно типа к-рых он не адекватен, также может быть отнесен к области А.д. 3. А.д. - прикладная статистика, понимаемая как науч. дисциплина, разрабатывающая и систематизирующая понятия, приемы, математич. методы и модели, предназначенные для организации сбора (имеется в виду лишь определение способа отбора подлежащих статистич. обследованию единиц из всей исследуемой совокупности), стандартной записи, систематизации и обработки (в т. ч. с помощью ЭВМ) статистич. данных с целью их удобного представления, интерпретации и получения науч. и практич. выводов. 4. Такие процедуры получения "свертки" информации (см. п.1), к-рые не допускают формального алгоритмич. подхода. Такое понимание термина "А.д." отвечает новому направлению исследований, оказавшемуся в центре внимания многих статистиков и специалистов по переработке данных. Применение любого математич. метода для изучения любого явления означает использование формальной модели этого явления - определенной системы предпосылок и постулатов. Специфика социологич. (и не только социологич.) задач проявляется, в частности, в том, что для большинства известных математико-статистич. методов проверка адекватности этих предпосылок и постулатов, состоятельности соответствующей модели является весьма проблематичным делом. А.д. предлагает "затеять игру" с предпосылками: варьировать их и рассматривать последствия такого варьирования. Так, можно сначала смотреть на данные как на числа (детерминированная модель), а потом - как на случайные величины (стохастическая модель) и выбирать такой ответ, к-рый лучше гармонируют с требованиями конкретной задачи. Такое отношение к предпосылкам в А.д., возведенное в принцип, назовем первым. Второй принцип А.д. - системный подход. А.д. изыскивает различ. приемы для наиболее полного использования эндогенной информации (т. е. данных, описывающих изучаемый объект), но вместе с тем он постоянно нацелен на максимальное использование экзогенной информации (т. е. данных, описывающих "среду обитания" объекта). Системный подход предъявляет исследователям повышенные требования, поскольку он носит принципиально междисциплинарный характер. Третьим принципом А.д. можно считать отказ от той т.зр., что любое исследование имеет начало и конец. Анализ - способ существования данных. Готовность к постоянному возврату к одним и тем же данным - важная новая особенность процесса применения математики для получения нового знания. В непрерывном процессе анализа предусматриваются разрывы, позволяющие извлекать накопленную информацию и принимать решения, связанные с управлением обработкой данных и с их дальнейшим анализом. Формальные операции перемежаются с неформальными процедурами принятия решения. С появлением новых экспериментальных данных возникают новые идеи, подходы, методы, уточняется понимание происходящих процессов и т. д. А.д. сводит воедино изначально как бы не связанные друг с другом элементы, подчинив их единому механизму решения задачи, открыв тем самым дорогу новому взгляду на возможности сбора, анализа и интерпретации данных различ. природы. В социологии насущная необходимость использования А.д. обусловливается отнюдь не только трудностью проверки предпосылок, заложенных в представляющихся подходящими (для решения соответствующих задач) методах. Напротив, известно много таких пригодных для социологии методов, к-рым отвечают сравнительно слабые предпосылки. Таковыми являются, напр., многие методы поиска взаимодействий (см.), в т. ч. такой, как анализ детерминационный (см.), к-рые вообще практически не предполагают никакой модели реальности, не опираются ни на какие предпосылки. Тем не менее потребность в А.д. остается, поскольку у социолога очень часто отсутствует та априорная социологич. модель изучаемого явления (см. Адекватность математич. метода, п.1), формирование к-рой является необходимой для однозначного выбора математич. формализма (да и вообще для проведения исследования, начиная с формулировки гипотез и разработки анкеты). Творческая реализация принципов А.д. позволяет восполнить этот недостаток. (См. также: Комплексное использование математич. методов.). В качестве одной из главных целей разработки алгоритмов А.д. в смысле п. 2 и принципов комплексного использования серии алгоритмов в смысле п. 4 нек-рые авторы (Дж.У.Тьюки) выдвигают такой "охват" содержания исходных данных значительного объема, к-рый позволяет прийти к представлениям (предпочтительно визуальным), легко доступным для понимания пользователя (см. Интерпретация рез-тов применения математич. метода). Лит.: Тьюки Дж.У. Анализ данных, вычисления на ЭВМ и математика// Современные проблемы математики. М., 1977; Миркин Б.Г. Анализ качественных признаков и структур. М., 1980; Тьюки Дж.У. Анализ результатов наблюдений: разведочный анализ. М., 1981; Мостеллер Ф., Тьюки Дж.У. Анализ данных и регрессия. М., 1982; Елисеева И.И., Рукавишников В.О. Логика прикладного статистического анализа. М., 1982; Айвазян С.А., Енюков И.С., Мешалкин Н.Д. Прикладная статистика. М., 1983; Дидэ Э. и др. Методы анализа данных. М., 1985; Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Т.2. М., 1987; Толстова Ю.Н. Логика математического анализа социологических данных. М., 1991; Benzecri J.P. Lanalyse des donnees. Vol. 1. La taxonomie. Vol. 2. Lanalyse des correspon-dances. Dunod, 1973; Statistical data analysis. Providence, Rhode Island: American Mathematical Society, 1983; Фелингер А.Ф. Статистические алгоритмы социологических исследований. Новосибирск, 1985; Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М., 1995. Андре-енков В.Г. Анализ и интерпретация эмпирических данных/ /Социология. Основы общей теории (под ред. Осипова Г.В., Москвичева Л.Н.). М., 1996; см. также лит. к ст. Комплексное использование математич. методов. Ю.Н. Толстова

Анализ данных - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Интеллектуальный анализ данных - это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании.

Не следует путать с Извлечением информации. Извлечение информации (англ. information extraction ) - это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов - формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита), - из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования - возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных. Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает - из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка , направленные лишь на очень ограниченный набор тем (вопросов, проблем) - часто только на одну тему.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных ) - собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.



Английское словосочетание «Data Mining » пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: просев информации , добыча данных , извлечение данных , а, также, интеллектуальный анализ данных . Более полным и точным является словосочетание «обнаружение знаний в базах данных » (англ. knowledge discovering in databases , KDD).

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Бизнес-аналитика охватывает анализ данных, который полагается на агрегацию.

Business intelligence или сокращенно BI - бизнес-анализ, бизнес-аналитика. Под этим понятием чаще всего подразумевают программное обеспечение, созданное для помощи менеджеру в анализе информации о своей компании и её окружении. Существует несколько вариантов понимания этого термина.

  • Бизнес-аналитика - это методы и инструменты для построения информативных отчётов о текущей ситуации. В таком случае цель бизнес-аналитики - предоставить нужную информацию тому человеку, которому она необходима в нужное время. Эта информация может оказаться жизненно необходимой для принятия управленческих решений.
  • Бизнес-аналитика - это инструменты, используемые для преобразования, хранения, анализа, моделирования, доставки и трассировки информации в ходе работы над задачами, связанными с принятием решений на основе фактических данных. При этом с помощью этих средств лица, принимающие решения, должны при использовании подходящих технологий получать нужные сведения и в нужное время.

Таким образом, BI в первом понимании является лишь одним из секторов бизнес-аналитики в более широком втором понимании. Помимо отчётности туда входят инструменты интеграции и очистки данных (ETL), аналитические хранилища данных и средства Data Mining.

BI-технологии позволяют анализировать большие объёмы информации, заостряя внимание пользователей лишь на ключевых факторах эффективности, моделируя исход различных вариантов действий, отслеживая результаты принятия тех или иных решений.

Термин впервые появился в 1958 году в статье исследователя из IBM Ханса Питера Луна (англ. Hans Peter Luhn ). Он определил этот термин как: «Возможность понимания связей между представленными фактами.»

BI в сегодняшнем понимании эволюционировал из систем для принятия решений, которые появились в начале 1960-х и разрабатывались в середине 1980-х.

В 1989 году Говард Дреснер (позже аналитик Gartner) определил Business intelligence как общий термин, описывающий «концепции и методы для улучшения принятия бизнес-решений с использованием систем на основе бизнес-данных».

В статистическом смысле некоторые разделяют анализ данных на описательную статистику, исследовательский анализ данных и проверку статистических гипотез.

Цель описательной (дескриптивной) статистики - обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей.

В отличие от индуктивной статистики дескриптивная статистика не делает выводов о генеральной совокупности на основании результатов исследования частных случаев. Индуктивная же статистика напротив предполагает, что свойства и закономерности, выявленные при исследовании объектов выборки, также присущи генеральной совокупности.

Исследовательский анализ данных это подход к анализу данных с целью формулировки гипотез стоящих тестирования, дополняющий инструментами стандартной статистики для тестирования гипотез. Названо Джоном Тьюки для отличия от проверки статистических гипотез, термином используемым для набора идей о тестировании гипотез, достигаемом уровне значимости, доверительном интервале и прочих, которые формируют ключевые инструменты в арсенале практикующих статистиков.

Исследовательский анализ данных занимается открытием новых характеристик данных, а проверка статистических гипотез на подтверждении или опровержении существующих гипотез.

Проверки статистических гипотез - один из классов задач в математической статистике.

Пусть в (статистическом) эксперименте доступна наблюдению случайная величина, распределение которой известно полностью или частично. Тогда любое утверждение, касающееся называется статистической гипотезой . Гипотезы различают по виду предположений, содержащихся в них:

  • Статистическая гипотеза, однозначно определяющая распределение, то есть, где какой-то конкретный закон, называется простой .
  • Статистическая гипотеза, утверждающая принадлежность распределения к некоторому семейству распределений, то есть вида, где - семейство распределений, называется сложной .

На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу. Такую гипотезу принято называть нулевой . При этом параллельно рассматривается противоречащая ей гипотеза, называемая конкурирующей или альтернативной .

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.

В большинстве случаев статистические критерии основаны на случайной выборке фиксированного объема из распределения. В последовательном анализе выборка формируется в ходе самого эксперимента и потому её объем является случайной величиной (см. Последовательный статистический критерий).

При анализе информации вы часто будете сталкиваться с тем, что теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают?

Дело в том, что безупречные с точки зрения теории методы имеют мало общего с действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать какие-либо четкие предположения относительно исследуемой задачи. Модель не известна, и единственным источником сведений для ее построения является таблица экспериментальных данных типа "вход – выход", каждая строка которой содержит значения входных характеристик объекта и соответствующие им значения выходных характеристик.

В результате они вынуждены использовать всякого рода эвристические или экспертные предположения и о выборе информативных признаков, и о классе моделей, и о параметрах выбранной модели. Эти предположения аналитика основываются на его опыте, интуиции, понимании смысла анализируемого процесса. Выводы, получаемые при таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности пространства решений, которую можно выразить так: "Похожие входные ситуации приводят к похожим выходным реакциям системы". Идея на интуитивном уровне достаточно понятная, и этого обычно достаточно для получения практически приемлемых решений в каждом конкретном случае.

В результате применения такого метода решений академическая строгость приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового. Если какие – то подходы к решению задачи вступают в противоречие с реальностью, то обычно их изменяют. Возвращаясь к анализу данных, или, вернее, к тому, что сейчас называют Data Mining, следует обратить внимание еще на один момент: процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой – то степени приближение. Вообще, всякая система рассуждений о реальном мире предполагает разного рода приближения. Фактически термин Data Mining – это попытка узаконить физический подход в отличие от математического к решению задач анализа данных. Что же мы вкладываем в понятие "физический подход"?

Это такой подход, при котором аналитик готов к тому, что анализируемый процесс может оказаться слишком запутанным и не поддающимся точному анализу с помощью строгих аналитических методов. Но можно все же получить хорошее представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы. При этом мы движемся от грубой модели ко все более точным представлениям об анализируемом процессе. Слегка перефразировав Р. Фейнмана, скажем так: можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью.

Общая схема работы при этом выглядит следующим образом:

Таким образом, данный подход подразумевает, что:

  1. При анализе нужно отталкиваться от опыта эксперта.
  2. Необходимо рассматривать проблему под разными углами и комбинировать подходы.
  3. Не стоит стремиться сразу к высокой точности. Двигаться к решению нужно от более простых и грубых моделей ко все более сложным и точным.
  4. Стоит останавливаться как только получим приемлемый результат, не стремясь получить идеальную модель.
  5. По прошествии времени и накоплению новых сведений нужно повторять цикл – процесс познания бесконечен.

Пример работы

В качестве примера можно в общих чертах рассмотреть процесс анализа рынка недвижимости в г. Москве. Цель – оценка инвестиционной привлекательности проектов. Одна из задач, решаемых при этом, – построение модели ценообразования для жилья в новостройках, другими словами, количественную зависимость цены жилья от ценообразующих факторов. Для типового жилья таковыми, в частности, являются:

  • Местоположение дома (престижность района; инфраструктура района; массовая или точечная застройка; окружение дома (напр. нежелательное соседство с промышленными предприятиями, "хрущевками", рынками и т.д.); экология района (близость к лесопарковым массивам))
  • Местоположение квартиры (этаж – первые и последние этажи дешевле; секция – квартиры в торцевых секциях дешевле; ориентация квартиры по сторонам света – северная сторона дешевле; вид из окон).
  • Тип дома (самая популярная серия П-44Т).
  • Площадь квартиры.
  • Наличие лоджий (балконов)
  • Стадия строительства (чем ближе к сдаче дома, тем выше цена за кв.м).
  • Наличие отделки ("черновая" отделка, частичная отделка, под ключ. Большинство новостроек сдаются с черновой отделкой).
  • Телефонизация дома.
  • Транспортное сообщение (близость к метро, удаленность от крупных магистралей, удобный подъезд, наличие автостоянки около дома (наличие парковочных мест)).
  • Кто продает квартиру ("из первых рук" (инвестор, застройщик) или посредники (риэлтеры). Риэлтеры, как правило, берут за свои услуги – 3-6%).

Это далеко неполный перечень, но и он повергает в уныние. Вот тут-то очень кстати приходится высказывание Р. Фейнмана ("можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью"). Для начала из имеющейся истории продаж мы ограничились данными для одного района Москвы. В качестве входных факторов взяли ограниченный набор характеристик с точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома, отделка, этаж (первый, последний, средний), готовность объекта, количество комнат, секция (угловая, обычная), метраж. Выходным значением являлась цена за квадратный метр, по которой продавались квартиры. Получилась вполне обозримая таблица с разумным количеством входных факторов.

На этих данных обучили нейросеть, то есть построили довольно грубую модель. При всей своей приблизительности у нее было одно существенное достоинство: она правильно отражала зависимость цены от учитываемых факторов. Например, при прочих равных условиях квартира в угловой секции стоила дешевле, чем в обычной, а стоимость квартир по мере готовности объекта возрастала. Теперь оставалось ее лишь совершенствовать, делать более полной и точной.

На следующем этапе в обучающее множество были добавлены записи о продажах в других районах Москвы. Соответственно, в качестве входных факторов стали учитываться такие характеристики, как престижность района, экология района, удаленность от метро. Так же в обучающую выборку была добавлена цена за аналогичное жилье на вторичном рынке. Специалисты, имеющие опыт работы на рынке недвижимости, имели возможность в процессе совершенствования модели безболезненно экспериментировать, добавляя или исключая факторы, т. к., напомню, процесс поиска более совершенной модели сводился к обучению нейросети на разных наборах данных. Главное здесь вовремя понять, что процесс этот бесконечен.

Это пример, как нам кажется, довольно эффективного подхода к анализу данных: использование опыта и интуиции специалиста в своей области для последовательного приближения ко все более точной модели анализируемого процесса. Основное требование при этом – наличие качественной информации достаточного объема, что невозможно без системы автоматизации сбора и хранения информации, о чем всегда надо помнить тем, кто серьезно занимается информационным обеспечением бизнеса. Но данная тема выходит за рамки статьи.

Вывод

Описанный подход позволяет решать реальные задачи с приемлемым качеством. Конечно, можно найти у данной методики множество недостатков, но в действительности реальной альтернативы ей нет, разве что отказаться от анализа вообще. Хотя если физики с успехом используют такие методы анализа уже много веков, почему бы не взять его на вооружение и в других областях?



© 2024 beasthackerz.ru - Браузеры. Аудио. Жесткий диск. Программы. Локальная сеть. Windows