вторник, 6 декабря 2016 г.

Оценка распределения по выборке

Урок: Оценка распределения по выборке

Транскрибация урока: [БЕЗ_ЗВУКА] Привет, это снова Евгений! Добро пожаловать на урок по статистике! Мы будем говорить о том, как по конечным выборкам оцениваются законы распределения случайных величин, из которых они взяты. Основной инструмент статистики — это статистики. Пусть у нас есть выборка из случайной величины X объема n. Будем обознать ее за X с верхним индексом n. X1, X2, ..., Xn можно считать независимыми одинаковыми копиями исходной случайной величины X. Поэтому часто говорят, что выборка представляет собой совокупность независимых одинаково распределенных случайных величин. В англоязычной литературе это длинное словосочетание часто заменяется аббревиатурой i.i.d. Так вот статистикой называется любая функция от этой выборки. Вообще говоря, вместо «любая» нужно говорить «измеримая», но мы договорились в этом курсе не упоминать о теории меры. Всё! У нас есть все инструменты для того, чтобы начинать что-то оценивать. Давайте посмотрим, какие статистики используются для оценок по выборкам законов распределения случайных величин различных классов. Если мы имеем дело с дискретной случайной величиной, все довольно просто. У нас есть множество ее значений, и распределение задается функцией вероятности, то есть вероятностями, с которыми дискретная случайная величина принимает все свои значения. Если у нас есть выборка из этой случайной величины, лучшие оценки для вероятностей из функции вероятности — это частоты соответствующих событий на выборке. Спасибо закону больших чисел — нам не нужно придумывать ничего очень сложного. С непрерывными случайными величинами все немного сложнее. Если случайная величина задается с помощью функции распределения, оценить ее можно с помощью эмпирической функции распределения, которая представляет собой среднее значение по всем элементам выборки индикаторов того, что элемент выборки не превосходит аргумента функции x маленькое. Эмпирическая функция распределения достаточно хорошо оценивает теоретическую функцию распределения, особенно если выборка большая. Естественно, чем больше выборка, тем лучше ваша оценка. Вот так выглядит теоретическая функция стандартного нормального распределения — красная линия. Стандартным называется нормальное распределение со средним 0 и дисперсией 1. А синяя ступенчатая линия — это эмпирическая функция распределения, построенная по выборке объема 100. Как вы видите, эти две линии достаточно похожи. А еще непрерывные случайные величины могут задаваться своими плотностями. Плотности — это, если помните, такие функции, что интеграл от них по любому отрезку от a до b равен вероятности попадания случайной величины в этот интервал. Чтобы оценить плотность, разобъем область определения случайной величины на интервалы одинакового размера. Тогда число объектов выборки в каждом интервале будет пропорционально среднему значению плотности на этом интервале. Именно так устроена гистограмма. Перед вами живая гистограмма, составленная из студенток университета Висконсин. Они выставлены по росту, который измерен с точностью до дюйма. Рост написан на листочке у девушки, стоящей в первом ряду. Как видите, в этой выборке больше всего девушек ростом 5 футов 4 дюйма (это примерно 165 см) и гораздо меньше девушек, рост которых намного больше среднего или намного меньше среднего. Это неудивительно, поскольку рост — это типичный пример нормально распределенной случайной величины. Рост определяется большим количеством случайных факторов, которые действуют независимо, и именно такие случайные величины хорошо описываются нормальным распределением. А вот так выглядит гистограмма обычная. Признак, который на ней показан, — это продолжительность жизни крыс на строгой диете в днях. По гистограмме прекрасно видны все особенности распределения данных. Это распределение бимодальное. Основной его пик приходится примерно на 1000 дней. Но есть крысы, которые живут существенно меньше — около 400 дней. Важный аспект работы с гистограммами — это правильный выбор числа интервалов. Если вы возьмете интервалов слишком мало, они будут слишком большие и гистограмма получится грубой. По ней вы не сможете понять, что происходит в данных. То же самое может произойти и в обратном случае. Если вы возьмете слишком много интервалов, в большую часть из них не попадет ни одного объекта выборки, и гистограмма получится разреженной и тоже не очень информативной. Этого недостатка лишены гладкие оценки плотности. Это другой способ оценки плотности распределения. Для их построения используется ядерное сглаживание. Для того чтобы сделать такую оценку, вы должны взять окно ширины h и, двигая это окно по числовой оси, вычислять в нем значение функции, которая называется ядром. Если вы не поняли ни слова из того, что я сказал, не расстраивайтесь. В следующем курсе мы будем очень подробно говорить про ядерное сглаживание. Пока вам нужно только знать, как выглядят ядерные оценки для плотности распределения. Перед вами оценка, построенная на тех же самых данных продолжительности жизни крыс. Все особенности распределения на этой оценке также отражены. Мы видим, что она бимодальная. Соотношение пиков такое же, как и на гистограмме. А вот все виды оценок распределения для нашей выборки из стандартного нормального распределения. На верхнем графике мы видим теоретическую плотность (это красная линия) и гладкую оценку плотности, построенную по выборке объема 100 (это синяя линия), а на нижнем графике — гистограмма. Вообще говоря, гладкие оценки плотности и гистограммы несовершенны. Никакой из этих инструментов не идеален, поэтому я рекомендую вам, когда вы визуализируете данные, использовать и тот и другой способ. Итак, в этом видео мы дали определение статистике и узнали, какие статистики используются для оценок функции вероятности, функции распределения и плотности распределения. Далее вы получите ноутбук, в котором будут функции, используемые для построения статистик, о которых мы говорили в этом видео. А после этого мы поговорим о важных параметрах распределения и о том, как их оценивать по выборкам.

Часть: Статистики

Модуль: Случайность

Описание модуля:  На этой неделе мы освоим базовые концепции теории вероятностей и статистики, которые необходимы для понимания механизма работы практически всех методов анализа данных. Мы разберёмся с самыми популярными распределениями, узнаем, какие явления ими описываются и какими статистиками оцениваются их параметры, а также научимся строить доверительные интервалы.

Курс: Математика и Python для анализа данных

Описание курса: Анализ данных и машинное обучение существенно опираются на результаты из математического анализа, линейной алгебры, методов оптимизации, теории вероятностей. Без фундаментальных знаний по этим наукам невозможно понимать, как устроены методы анализа данных. Данный курс направлен на то, чтобы сформировать этот фундамент. Мы обойдёмся без сложных формул и доказательств и сделаем упор на интерпретации и понимании смысла математических понятий и объектов.

Для успешного применения методов анализа данных нужно уметь программировать. Фактическим стандартом для этого в наши дни является язык Python. В данном курсе мы предлагаем познакомиться с его синтаксисом, а также научиться работать с его основными библиотеками, полезными для анализа данных.

В этом курсе вы познакомитесь с фундаментальными математическими понятиями, необходимыми для анализа данных, и получите начальный навык программирования на Python. Курс состоит из двух больших частей. Первая часть курса – практическая, она посвящена языку программирования Python. Вы познакомитесь с синтаксисом и идеологией языка, научитесь писать простые программы. Также вы узнаете о библиотеках, которые часто применяются на практике для анализе данных, например, NumPy, SciPy, Matplotlib и Pandas. Вторая часть курса посвящена таким разделам математики как линейная алгебра, математический анализ, методы оптимизации и теория вероятностей. При этом, упор делается на разъяснение математических понятий и их применение на практике, а не на вывод сложных формул и доказательство теорем.

Программа:
  • Введение
  • Знакомство с курсом
  • Python, уровень 0
  • Знакомство с синтаксисом Python
  • Производная и её применения
  • Немного обсуждений
  • Библиотеки Python и линейная алгебра
  • Библиотеки NumPy, Matplotlib, SciPy, Pandas
  • Линейная алгебра. Векторы
  • Линейная алгебра. Матрицы
  • Оптимизация и матричные разложения
  • Градиент и оптимизация гладких функций
  • Оптимизация негладких функций
  • Матричные разложения
  • Случайность
  • Вероятность и случайные величины
  • Статистики
  • Бонусный урок
Описание преподавателя:
  • Евгений Рябенко — кандидат физико-математических наук, доцент кафедры "Интеллектуальные системы" ФУПМ МФТИ, Data Scientist Фабрики данных Яндекса. Соавтор и преподаватель курса "Прикладной статистический анализ данных", который читается в МФТИ, МГУ и ВШЭ. Занимается анализом данных, био- и нейроинформатикой, кормит синиц.
  • Евгений Соколов — руководитель группы анализа неструктурированных данных в Yandex Data Factory. Окончил факультет ВМК МГУ в 2013 году, сейчас пишет диссертацию про матричные разложения в аспирантуре там же. Ведет практические занятия по машинному обучению на ВМК МГУ и читает лекции на ФКН ВШЭ. Преподаватель Школы Анализа Данных Яндекса.
  • Виктор Кантор – старший преподаватель кафедры “Алгоритмы и технологии программирования” ФИВТ МФТИ, руководитель исследовательской группы Yandex Data Factory. Ведет лекции и семинары в МФТИ на кафедрах “Алгоритмы и технологии программирования”, “Анализ данных”, “Банковские информационные технологии”, “Компьютерная лингвистика” и “Распознавание изображений и обработка текстов”.
  • Эмели Драль – преподаватель ШАД и руководитель исследовательской группы Yandex Data Factory. Окончила РУДН, факультет физико-математических и естественных наук, кафедра “Информационные технологии”. Разрабатывала учебные материалы и вела такие курсы как “Технологии разработки программных систем”, “Объектно-ориентированный подход к разработке программных систем”, “Методы интеллектуального поиска”. В МФТИ ведет семинары курса "Машинное обучение" на ФИВТ, кафедра “Алгоритмы и технологии программирования”.
Категория: Наука о данных

Описание категории: На специализациях и курсах по науке о данных преподаются основы интерпретации данных, проведения различных видов анализа, понимания и представления практических выводов. Начинающие и продолжающие учащиеся освоят такие темы, как качественный и количественный анализ данных, инструменты и методы манипулирования данными, а также алгоритмы машинного обучения.

Тематика: Анализ данных

Материал:



Список литературы

Линейная алгебра
Виктор Кантор:
  • Ильин, Ким. Линейная алгебра и аналитическая геометрия (1998) — МГУ.
  • Умнов. Аналитическая геометрия и линейная алгебра (2011) — МФТИ.
Евгений Рябенко:
  • Деммель. Вычислительная линейная алгебра. Теория и приложения (2001) — понятный кусок про матричные разложения.
Математический анализ
Виктор Кантор:
  • Ильин, Позняк, Основы математического анализа (2005) — МГУ.
  • Тер-Крикоров, Шабунин. Курс математического анализа (2001) — МФТИ, много примеров.
  • Иванов. Лекции по математическому анализу (2000) — МФТИ, очень короткое, но полное изложение.
Методы оптимизации
Евгений Рябенко:
  • Нестеров. Методы выпуклой оптимизации (2010) — математически строгое введение в оптимизацию от живого классика.
  • Boyd, Vandenberghe. Convex Optimization (2004) — идеальная книга по классической оптимизации, много интересных постановок задач.
  • Schneider, Kirkpatrick. Stochastic Optimization (2006) — стохастическая оптимизация во всём многообразии.
Теория вероятностей и статистика
Евгений Соколов:
  • Dekking, Kraaikamp, Lopuhaa, Meester. A Modern Introduction to Probability and Statistics, Understanding Why and How (2005) — доступная книга, описывающая базовые понятия, теоремы и методы; разбирается очень много примеров, тесно связанных с задачами машинного обучения и анализа данных.
Виктор Кантор:
  • Лагутин. Наглядная математическая статистика (2007) — в основном статистика, но есть и небольшое введение в теорию вероятностей. Стоит читать, кроме глав про классификацию и анализ данных, там изложение не слишком современно.
  • Чжун, АитСахлиа. Элементарный курс теории вероятностей. Стохастические процессы и финансовая математика (2007) — очень простое изложение.
  • Отличные лекции с мехмата Новосибирского Государственного Университета: http://www.nsu.ru/mmf/tvims/chernova/tv/tv_nsu07.pdf — теория вероятностей, http://www.nsu.ru/mmf/tvims/chernova/ms/ms_nsu07.pdf — математическая статистика.
Евгений Рябенко:
  • Diez, Barr, Çetinkaya-Rundel, Dorazio. Advanced High School Statistics (2015) — вводная книга, программа соответствует типичному курсу Statistics 101 хорошего западного университета.
  • DasGupta. Probability for Statistics and Machine Learning: Fundamentals and Advanced Topics (2011) — для смелого читателя, рассматриваются в том числе достаточно высокоуровневые методы.
Python
Эмели Драль:
  • Классические руководства по Python: https://docs.python.org/2/tutorial/ (2.7), https://docs.python.org/3/tutorial/(3.5)
  • Reitz. The Hitchhiker’s Guide to Python http://docs.python-guide.org/en/latest/ — довольно полное руководство, в котором рассматриваются вопросы от установки, работы с виртуальным окружением и работы в различных IDE до основных структур языка с примерами кода.
  • Google python class https://developers.google.com/edu/python/ — небольшой бесплатный онлайн-курс по Python для слушателей с минимальным опытом программирования.
Книги, для тех, кому захочется основательно изучить Python:
  • Lutz. Learning Python (2013) — с этой книги можно начинать изучение, она покрывает все основные структуры языка.
  • Lutz. Python Pocket Reference (2015) — подробный справочник.
Конспекты
https://drive.google.com/open?id=0B4sIH7qjgc24cVh0aTNnMEM0eXc

Интересные ресурсы
Ресурсы по материалам 1 недели:
Здесь http://bit.ly/29hALFk вы можете узнать, какие языки программирования сегодня являются самыми востребованным. Интересно, какое место в рейтинге занимает python?

Многие часто спрашивают, почему мы выбрали для специализации python, а не R? Мы подошли к выбору со всей ответственностью, рассмотрели плюсы и минусы обоих вариантов и остановились на python, в первую очередь, из-за простоты изучения, читаемости кода и универсальности языка. Здесь вы можете почитать статью о сравнении языков python и R http://bit.ly/29lkL5z

Ресурсы по материалам 2 недели:
На второй неделе курса Вам предстоит знакомство с библиотекой Pandas для работы с данными в виде таблиц, SciPy и NumPy для работы со статистикой, линейной алгеброй, оптимизационными задачами, а также Matplotlib для визуализации данных. Эти библиотеки очень функциональны, просты для изучения и популярны в мире анализа данных. Они настолько широко распространены, что часто можно встретить их использование для вот таких необычных задач: Python и красивые ножки http://bit.ly/2an3FTt

Занятное дополнение к материалам второй недели:
  • Знакомство с Python, Numpy, Scipy, Matplotlib http://bit.ly/2a4yd06
  • Курс Делфтского Технического Университета про Python и его использование в научных вычислениях http://bit.ly/29GCt4J
Ресурсы по материалам 4 недели:
Статистика — важный инструмент познания, дающий нам механизм порождения новых знаний из наблюдений за окружающим миром. Научиться им пользоваться может быть непросто; если материал лекций покажется Вам сложным, посмотрите, как понятия статистики объясняются на котиках http://bit.ly/29T53jd или в танце http://bit.ly/29PH9l5