Формы представления статистических данных. Графическое представление статистической информации




УО ФПБ МИТСО

Кафедра логистики

СУРС №1

по дисциплине Статистика на тему: «Методы и формы представления статистической информации»

Выполнила

Студентка 2 курса

Ф-та МЭОиМ д/о

группы 916

Верина Е. А.

Проверил преподаватель

Бондарь С.В.

Минск, 2010

Трактовка графического метода представления статистических данных как особой знаковой системы - искусственного знакового языка - связана с развитием семиотики, науки о знаках и знаковых системах.

Статистический график - это чертеж, на котором статистические совокупности, характеризуемые определенными показателями, описываются с помощью условных геометрических образов или знаков. Представление данных таблицы в виде графика производит более сильное впечатление, чем цифры, позволяет лучше осмыслить результаты статистического наблюдения, правильно их истолковать, значительно облегчает понимание статистического материала, делает его наглядным и доступным. Это, однако, вовсе не означает, что графики имеют лишь иллюстративное значение. Они дают новое знание о предмете исследования, являясь методом обобщения исходной информации.

При построении графического изображения следует соблюдать ряд требований. Прежде всего график должен быть достаточно наглядным, так как весь смысл графического изображения как метода анализа в том и состоит, чтобы наглядно изобразить статистические показатели. Кроме того, график должен быть выразительным, доходчивым и понятным.

График состоит из графического образа и вспомогательных элементов. Графический образ - это совокупность линий, фигур, точек, которыми изображены статистические данные. Диаметрические знаки, рисунки или образы, применяемые в статистических графиках, многообразны. Это точки, отрезки прямых линий, знаки в виде фигур различной формы, штриховки или окраски (круги, квадраты, прямоугольники и др.). Эти знаки применяются для сравнения статистических величин, изображающих абсолютные и относительные размеры сравниваемых совокупностей. Сравнение на графике производится по некоторым измерениям: площади или длине одной из сторон фигуры, местонахождению точек, их густоте, густоте штриховке, интенсивности или цвету окраски.

Вспомогательные элементы включают общий заголовок, условные обозначения, оси координат, шкалы с масштабами и числовую сетку.

Словесные пояснения (экспликация графика) помещенных на графике геометрических образов, различных по их конфигурации, штриховке или цвету, позволяют мысленно перейти от геометриче­ских образов к явлениям и процессам, изображенным на графике.

В статистических графиках чаще всего применяется система прямоугольных координат, но есть и графики, построенные по принципу полярных координат (круговые графики).

Когда график строится в прямоугольных координатах, на горизонтальной оси абсцисс и вертикальной оси ординат в определенном порядке располагаются характеристики статистических признаков изображаемых явлений или процессов, а в поле графика размещаются геометрические знаки, составляющие сам график. Поле графика - это пространство, в котором располагаются геометрические знаки, образующие график.

Признаки, располагаемые на осях координат, могут быть качественными и количественными.

Одна из важных задач статистического графика - это его композиция: отбор статистического материала, выбор способа изображения, т.е. формата графика. Размер графика должен соответствовать его назначению.

В заголовке (названий) графика определяется задача, которая решается при помощи графика, дается характеристика места и времени, к которому относится график.

Надписи вдоль масштабных шкал указывают, в каких единицах измеряются признаки. Цифры значений каждого параметра проставляются у пограничных отметок масштабных шкал.

Масштабная шкала - линия (на статистическом графике обычно прямая) , несущая на себе масштабные отметки с их числовыми обозначениями. Лучше делать эти обозначения только на отметках, соответствующих круглым числам: в таком случае промежуточные отметки читают путем отсчета от ближайшего числа, обозначенного на масштабной шкале. Согласно масштабным отметкам на диаграммном поле откладывают размеры изображаемых явлений или процесс. Масштабные отметки располагаются на шкале равномерно (шкала равномерная, арифметическая) или неравномерная (шкала функциональная, шкала логарифмическая).

Шкала функциональная - масштабная шкала, где числовые значения помеченных точек выражают значения аргумента, а расположение этих точек соответствует равномерно распределенным значениям некоторой функции того же аргумента. Из шкал функциональных в статистических графиках применяют главным образом шкалу логарифмическую. При этом, если рассматриваются две величины, то такая шкала может быть применима к обеим или только к одной из них (“полулогарифмический” график или масштаб). Расстояния между точками, нанесенными по числовым отметкам логарифмической шкалы, отвечают разности логарифмов соответствующих чисел и, следовательно, характеризуют соотношения между числами.

Классификация видов графиков.

Существует множество видов графических изображений. Их классификация основана на ряде признаков:

а) способ построения графического образа;

б) геометрические знаки, изображающие статистические показатели и отношения;

в) задачи, решаемые с помощью графического изображения.

Статистические графики по форме графического образа:

1. Линейные: статистические кривые.

2. Плоскостные: столбиковые, полосовые, квадратные, круговые, секторные, фигурные, точечные, фоновые.

3. Объемные: поверхности распределения.

Статистические графики по способу построения и задачам изображения:

1. Диаграммы: диаграммы сравнения, диаграммы динамики, структурные диаграммы.

2. Статистические карты: картограммы, картодиаграммы.

По способу построения статистические графики делятся на диаграммы и статистические карты. Диаграммы - наиболее распространенный способ графических изображений. Это графики количественных отношений. Виды и способы их построения разнообразны. Диаграммы применяются для наглядного сопоставления в различных аспектах (пространственном, временном и др.) независимых друг от друга величин: территорий, населения и т. д. При этом сравнение исследуемых совокупностей производится по какому-либо существенному варьирующему признаку. Статистические карты - графики количественного распределения по поверхности. По своей основной цели они близко примыкают к диаграммам и специфичны лишь в том отношении, что представляют собой условные изображения статистических данных на контурной географической карте, т. е. показывают пространственное размещение или пространственную распространенность статистических данных. Геометрические знаки, как было сказано выше, - это либо точки, либо линии или плоскости, либо геометрические тела. В соответствии с этим различают графики точечные, линейные, плоскостные и пространственные (объемные).

При построении точечных диаграмм в качестве графических образов применяются совокупности точек; при построении линейных - линии. Основной принцип построения всех плоскостных диаграмм сводится к тому, что статистические величины изображаются в виде геометрических фигур и, в свою очередь, подразделяются на столбиковые, полосовые, круговые, квадратные и фигурные.

Статистические карты по графическому образу делятся на картограммы и картодиаграммы.

В зависимости от круга решаемых задач выделяются диаграммы сравнения, структурные диаграммы и диаграммы динамики.

Наиболее употребительными графиками для изображения вариационных рядов, т. е. соотношений между значениями признака и соответствующими частотами или относительными частотами, являются полигон, гистограмма и кумулята.

Полигон чаще всего используют для изображения дискретных рядов. Для построения полигона в прямоугольной системе координат на оси абсцисс в произвольно выбранном масштабе откладывают значения аргумента, т. е. варианты, а на оси ординат также в произвольно выбранном масштабе - значения частот или относительных частот. Масштаб выбирают такой, чтобы была обеспечена необходимая наглядность, и чтобы рисунок имел желательный размер. Далее в этой системе координат строят точки, координатами которых являются пары соответствующих чисел из вариационного ряда. Полученные точки последовательно соединяют отрезками прямой. Крайнюю "левую" точку соединяют с точкой оси абсцисс, абсцисса которой находится слева от рассматриваемой точки на таком же расстоянии, как абсцисса ближайшей справа точки. Аналогично крайнюю "правую" точку также соединяют с точкой оси абсцисс.

Учебные достижения учащихся некоторого класса по математике характеризуются данными, представленными в таблице.

Построить полигон частот.

ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ СТАТИСТИЧЕСКИХ ДАННЫХ, метод наглядного изображения и обобщения данных о социально-экономических явлениях посредством геометрических образов, рисунков или схематических географических карт и пояснительных надписей к ним. Графическое представление статистических данных отчётливо и наглядно отображает взаимосвязь между явлениями и процессами общественной жизни, основные тенденции их развития, степень их распространения в пространстве; позволяет увидеть как всю совокупность явлений в целом, так и отдельные его части.

Для графического представления статистических данных используются разнообразные виды статистических графиков. Каждый график состоит из графического образа и вспомогательных элементов. К ним относятся: экспликация графика, пространственные ориентиры, масштабные ориентиры, поле графика. Вспомогательные элементы делают возможным чтение графика, его понимание и использование. Графики можно классифицировать по ряду признаков: в зависимости от формы графического образа они могут быть точечными, линейными, плоскостными, пространственными и фигурными. По способу построения графики делятся на диаграммы и статистические карты.

Наиболее распространённый способ графических изображений - диаграмма. Это чертёж, на котором статистические данные представлены как геометрические фигуры или знаки, а территория, к которой относятся эти данные, указана только словесно. Если диаграмма наложена на географическую карту или на план территории, к которой относятся статистические данные, то график называется картодиаграммой. Если же статистические данные изображены путём штриховки или раскраски соответствующей территории на географической карте или плане, то график называется картограммой.

Для сравнения одноимённых статистических данных, характеризующих разные объекты или территории, могут быть использованы различные виды диаграмм. Наиболее наглядны столбиковые диаграммы, на которых статистические данные изображаются в виде вытянутых по вертикали прямоугольников. Их наглядность достигается сравнением высоты столбиков (рис. 1).

Если базовая линия расположена вертикально, а столбики горизонтально, то диаграмма называется полосовой (ленточной). На рисунке 2 приведена полосовая диаграмма сравнения, характеризующая территорию земного шара.

Диаграммы, предназначенные для популяризации, иногда строятся в виде стандартных фигур - рисунков, характерных для изображаемых статистических данных, что делает диаграмму более выразительной, привлекает к ней внимание. Такие диаграммы называются фигурными или изобразительными (рис. 3).

Большую группу показательных графиков составляют структурные диаграммы. Метод графического изображения структуры статистических данных заключается в составлении структурных круговых или секторных диаграмм (рис. 4).

Для изображения и анализа развития явлений во времени строятся диаграммы динамики: столбиковые, ленточные, квадратные, круговые, линейные, радиальные и др. Выбор вида диаграммы зависит от особенностей исходных данных, цели исследования. Например, если имеется ряд динамики с несколько неравноотстоящими уровнями во времени (1913, 1940, 1950, 1980, 2000, 2005), то используют столбиковые, квадратные или круговые диаграммы. Они зрительно впечатляют, хорошо запоминаются, но не пригодны для изображения большого числа уровней. Если число уровней в ряду динамики велико, то применяются линейные диаграммы, которые воспроизводят процесс развития в виде непрерывной ломаной линии (рис. 5).

Нередко на одном линейном графике приводится несколько кривых, дающих сравнительную характеристику динамики различных показателей или одного и того же показателя в разных странах (рис. 6).

Для отображения зависимости одного показателя от другого строится диаграмма взаимосвязи. Один показатель принимается за Х, а другой за Y (т. е. функцию от Х). Строится прямоугольная система координат с масштабами для показателей, и в ней вычерчивается график (рис. 7).

Развитие вычислительной техники и прикладного программного обеспечения сделало возможным создание географических информационных систем (ГИС), представляющих качественно новый этап в графическом представлении информации. ГИС обеспечивают сбор, хранение, обработку, доступ, отображение и распространение пространственно-координированных данных; включают большое количество графических и тематических баз данных в соединении с модельными и расчётными функциями, позволяющими представлять информацию в пространственном (картографическом) виде, получать в различном масштабе многослойные электронные карты региона. По территориальному охвату различают глобальные, субконтинентальные, государственные, региональные и локальные виды ГИС. Предметная ориентация ГИС определяется решаемыми с её помощью задачами, среди которых могут быть инвентаризация ресурсов, анализ, оценка, мониторинг, управление и планирование.

Лит.: Герчук Я. П. Графические методы в статистике. М., 1968; Теория статистики / Под редакцией Р. А. Шмойловой. 4-е изд. М., 2005. С. 150-83.

Значение графического метода в анализе и обобщении данных велико. Графическое изображение, прежде всего, позволяет осуществить контроль достоверности статистических показателей, так как, представленные на графике, они более ярко показывают имеющиеся неточности, связанные либо с наличием ошибок наблюдения, либо с сущностью изучаемого явления. С помощью графического изображения возможны изучение закономерностей развития явления, установление существующих взаимосвязей. Простое сопоставление данных не всегда дает возможность уловить наличие причинных зависимостей, в то же время их графическое изображение способствует выявлению причинных связей, в особенности в случае установления первоначальных гипотез, подлежащих затем дальнейшей разработке.

Статистический график – это чертеж, на котором статистические совокупности, характеризуемые определенными показателями, описываются с помощью условных геометрических образов или знаков. Графический образ – это совокупность точек, линий и фигур, с помощью которых изображаются статистические данные. Вспомогательными элементами графика являются:

    Поле графика – это часть плоскости, где расположены графические образы. Поле графика имеет определенные размеры, которые зависят от его назначения.

    Пространственные ориентиры графика задаются в виде системы координатных сеток. Система координат необходима для размещения геометрических знаков в поле графика. Используются как прямоугольные, так и полярные системы координат.

    Масштабные ориентиры используются для сопоставления графического отображения объекта и его реальных размеров. Задаются масштабные ориентиры системой масштабных шкал или масштабными знаками.

    Экспликация графика состоит из объяснения предмета, изображаемого графиком (название), и смыслового значения каждого знака, применяемого на графике.

Статистические графики классифицируют по назначению (содержанию), способу построения и характеру графического образа (рис.1).

Рис.1. Классификация статистических графиков

По способу построения графических образов выделяют:

    Диаграммы – графическое изображение статистических данных, наглядно показывающее соотношение между сравниваемыми величинами.

    Статистические карты

Различают следующие основные виды диаграмм: линейные, столбиковые, полосовые, секторные, квадратные, круговые, фигурные.

Линейные диаграммы применяются для характеристики динамики, т.е. оценки изменения явлений во времени. По оси абсцисс откладываются периоды времени или даты, а по оси ординат – уровни ряда динамики. На одном графике может быть размещено несколько диаграмм, что позволяет сравнивать динамику различных показателей, либо одного показателя по разным регионам или странам.

Рис.2. Динамика объема импорта легковых автомобилей в РФ

за 2006-1кв. 2010г.г.

Столбиковые диаграммы могут быть использованы:

    для анализа динамики социально-экономических явлений;

    оценки выполнения плана;

    характеристики вариации в рядах распределений;

    для пространственных сопоставлений (сравнения по территориям, странам, фирмам);

    для изучения структуры явлений.

Столбики располагаются вплотную или раздельно на одинаковом расстоянии. Высота столбиков должна быть пропорциональна числовым значениям уровней признака.

Рис.3. Динамика удельного веса Белоруссии в товарообороте РФ со странами СНГ

Для характеристики структуры социально-экономических явлений широко используются секторные диаграммы . Для ее построения круг следует разделить на секторы пропорционально удельному весу частей в общем объеме. Сумма удельных весов равна 100%, что соответствует общему объему изучаемого явления.

Рис.4. Географическое распределение товарооборота РФ со странами СНГ

Полосовые диаграммы состоят из прямоугольников, расположенных горизонтально (полосами).

Иногда для сравнительного анализа по регионам, странам используют диаграммы фигур-знаков (диаграммы геометрических фигур). Данные диаграммы отражают размер изучаемого объекта в соответствии с размером своей площади.

Статистические карты применяются для оценки географического размещения явлений и сравнительного анализа по территориям.

Статистические карты включают картограммы и картодиаграммы. Различие между ними состоит в способах отображения статистических данных на картах.

Картограмма показывает территориальное распределение изучаемого признака по отдельным районам и используется для выявления закономерностей этого распределения. Картограммы делятся на фоновые и точечные. Фоновые картограммы разной густотой цветовой окраски характеризуют интенсивность какого-либо показателя в пределах территориальной единицы. На точечной картограмме уровень выбранного явления изображается с помощью точек.

Картодиаграмма – это сочетание географической карты или ее схемы с диаграммой. Она позволяет отразить специфику каждого района в распределении изучаемого явления, его структурные особенности.

В настоящее время разработаны различные пакеты прикладных программ компьютерной графики, например, Excel, Statgraf, Statistica.

Статистические данные должны быть представлены так, чтобы ими можно было пользоваться. Существует 3 основных формы представления статистических данных:

    текстовая – включение данных в текст;

    табличная – представление данных в таблицах;

    графическая – выражение данных в виде графиков.

Текстовая форма применяется при малом количестве цифровых данных.

Табличная форма применяется чаще всего, так как является более эффективной формой представления статистических данных. В отличие от математических таблиц, которые по начальным условиям позволяют получить тот или иной результат, статистические таблицы рассказывают языком цифр об изучаемых объектах.

Статистическая таблица – это система строк и столбцов, в которых в определенной последовательности и связи излагается статистическая информация о социально-экономических явлениях.

Таблица 2. Внешняя торговля РФ за 2000 – 2006 годы, млрд.долл.

Показатель

Внешнеторговый оборот

Сальдо торгового баланса

в том числе:

со странами дальнего зарубежья

сальдо торгового баланса

Например, в табл. 2 представлена информация о внешней торговле России, выражать которую в текстовой форме было бы неэффективным.

Различают подлежащее исказуемое статистической таблицы. В подлежащем указывается характеризуемый объект – либо единицы совокупности, либо группы единиц, либо совокупность в целом. В сказуемом дается характеристика подлежащего, обычно в числовой форме. Обязателензаголовок таблицы, в котором указывается к какой категории и к какому времени относятся данные таблицы.

По характеру подлежащего статистические таблицы подразделяются на простые ,групповые икомбинационные . В подлежащем простой таблицы объект изучения не подразделяется на группы, а дается либо перечень всех единиц совокупности, либо указывается совокупность в целом (например, табл. 11). В подлежащем групповой таблицы объект изучения подразделяется на группы по одному признаку, а в сказуемом указываются число единиц в группах (абсолютное или в процентах) и сводные показатели по группам (например, табл. 4). В подлежащем комбинационной таблицы совокупность подразделяется на группы не по одному, а по нескольким признакам (например, табл. 2).

При построении таблиц необходимо руководствоваться следующими общими правилами .

    Подлежащее таблицы располагается в левой (реже – верхней) части, а сказуемое – в правой (реже – нижней).

    Заголовки столбцов содержат названия показателей и их единицы измерения.

    Итоговая строка завершает таблицу и располагается в ее конце, но иногда бывает первой: в этом случае во второй строке делается запись «в том числе», и последующие строки содержат составляющие итоговой строки.

    Цифровые данные записываются с одной и той же степенью точности в пределах каждого столбца, при этом разряды чисел располагаются под разрядами, а целая часть отделяется от дробной запятой.

    В таблице не должно быть пустых клеток: если данные равны нулю, то ставится знак «–» (прочерк); если данные не известны, то делается запись «сведений нет» или ставится знак «…» (троеточие). Если значение показателя не равно нулю, но первая значащая цифра появляется после принятой степени точности, то делается запись 0,0 (если, скажем, была принята степень точности 0,1).

Иногда статистические таблицы дополняются графиками, когда ставится цель подчеркнуть какую-то особенность данных, провести их сравнение. Графическая форма является самой эффективной формой представления данных с точки зрения их восприятия. С помощью графиков достигается наглядность характеристики структуры, динамики, взаимосвязи явлений, их сравнения.

Статистические графики – это условные изображения числовых величин и их соотношений посредством линий, геометрических фигур, рисунков или географических карт-схем. Графическая форма облегчает рассмотрение статистических данных, делает их наглядными, выразительными, обозримыми. Однако графики имеют определенные ограничения: прежде всего, график не может включить столько данных, сколько может войти в таблицу; кроме того, на графике показываются всегда округленные данные – не точные, а приблизительные. Таким образом, график используется только для изображения общей ситуации, а не деталей. Последний недостаток – трудоемкость построения графиков. Он может быть преодолен использованием персонального компьютера (например, «Мастером диаграмм» из пакетаMicrosoft Office Excel ).

По способу построения графики делятся на диаграммы ,картограммы икартодиаграммы .

Наиболее распространенным способом графического изображения данных являются диаграммы, которые бывают следующих видов: линейные, радиальные, точечные, плоскостные, объемные, фигурные. Вид диаграмм зависит от вида представляемых данных и задачи построения. В любом случае график обязательно сопровождается заголовком – над или под полем графика. В заголовке указывается, какой показатель изображен, по какой территории и за какое время.

Линейные графики используются для представления количественных переменных: характеристики вариации их значений, динамики, взаимосвязи между переменными. Вариация данных анализируется с помощью полигона распределения ,кумуляты (кривой «меньше, чем») иогивы (кривой «больше, чем»). Полигон распределения рассматривается в теме 4 (напр., рис. 5.). Для построения кумуляты значения варьирующего признака откладываются по оси абсцисс, а на оси ординат помещаются накопленные итоги частот или частостей (отf 1 до ∑f ). Для построения огивы на оси ординат помещаются накопленные итоги частот в обратном порядке (от ∑f доf 1 ). Кумуляту и огиву по данным табл. 4. изобразим на рис. 1.

Рис. 1. Кумулята и огива распределения товаров по величине таможенной стоимости

Применение линейных графиков в анализе динамики рассматривается в теме 5 (напр., рис. 13), а использование их для анализа связей – в теме 6 (напр., рис.21). В теме 6 также рассмотрено использование точечных диаграмм (напр., рис. 20).

Линейные графики подразделяются на одномерные , используемые для представления данных по одной переменной, идвумерные – по двум переменным. Примером одномерного линейного графика является полигон распределения, а двумерного – линия регрессии (напр., рис. 21).

Иногда при больших изменениях показателя прибегают к логарифмической шкале. Например, если значения показателя изменяются от 1 до 1000, то это может вызвать затруднения при построении графика. В таких случаях переходят к логарифмам значений показателя, которые не будут столь сильно различаться: lg 1 = 0,lg 1000 = 3.

Среди плоскостных диаграмм по частоте использования выделяются столбиковые диаграммы (гистограммы), на которых показатель представляется в виде столбика, высота которого соответствует значению показателя (напр., рис. 4).

Пропорциональность площади той или иной геометрической фигуры величине показателя лежит в основе других видов плоскостных диаграмм: треугольных ,квадратных ,прямоугольных . Можно использовать и сравнение площадей круга – в этом случае задается радиус окружности.

Ленточная диаграмма представляет показатели в виде горизонтально вытянутых прямоугольников, а в остальном не отличается от столбиковой диаграммы.

Из плоскостных диаграмм часто используется секторная диаграмма , которая применяется для иллюстрации структуры изучаемой совокупности. Вся совокупность принимается за 100%, ей соответствует общая площадь круга, площади секторов соответствуют частям совокупности. Построим секторную диаграмму структуры внешней торговли РФ в 2006 году по данным табл. 2 (см. рис. 2). При использовании компьютерных программ секторные диаграммы строятся в объемном виде, то есть не в двух, а в трех плоскостях (см. рис. 3).

Рис. 2. Простая секторная диаграмма Рис. 3. Объемная секторная диаграмма

Фигурные (картинные) диаграммы усиливают наглядность изображения, так как включают рисунок изображаемого показателя, размер которого соответствует размеру показателя.

При построении графика одинаково важно все – правильный выбор графического изображения, пропорций, соблюдение правил оформления графиков. Подробнее эти вопросы освещаются в и .

Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений. Они показывают размещение изучаемого явления, его интенсивность на определенной территории – в республике, области, экономическом или административном округе и т.д.. Построение картограмм и картодиаграмм рассматривается в специальной литературе, например .

:

Текстовая форма

Табличная форма

Статистическая таблица

Статистические графики – это условные изображения числовых величин и их соотношений посредством линий, геометрических фигур, рисунков или географических карт-схем. Графическая форма облегчает рассмотрение статистических данных, делает их наглядными, выразительными, обозримыми. Однако графики имеют определенные ограничения: прежде всего, график не может включить столько данных, сколько может войти в таблицу; кроме того, на графике показываются всегда округленные данные – не точные, а приблизительные. Таким образом, график используется только для изображения общей ситуации, а не деталей. Последний недостаток – трудоемкость построения графиков. Он может быть преодолен использованием персонального компьютера (например, «Мастером диаграмм» из пакета Microsoft Office Excel).

Определение эмпирической функции распределения.

Выборочная (эмпири́ческая) фу́нкция распределе́ния в математической статистике - это приближение теоретической функции распределения, построенное с помощью выборки из него.

Определение

Пусть - выборка из распределения случайной величины , задаваемого функцией распределения . Будем считать, что , где , - независимые случайные величины, определённые на некотором пространстве элементарных исходов . Пусть . Определим случайную величину следующим образом:

где - индикатор события , - функция Хевисайда. Таким образом, выборочная функция распределения в точке равна относительной частоте элементов выборки, не превосходящих значение . Случайная величина называется выборочной функцией распределения случайной величины и является аппроксимацией для функции . Существует результат, показывающий, что при функция равномерно сходится к , и указывающий скорость сходимости.

Гистограмма

Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников, как показано на рис. 2.1. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Если ряд безинтервальный, то ширина всех столбцов выбирается произвольной, но одинаковые. Таким образом, высоты прямоугольников должны быть пропорциональны величинам

где n i - частота i -го интервала группировки; h i - ширина i -го интервала группировки.

На графике гистограммы основание прямоугольников откладывается по оси абсцисс (x ), а высота - по оси ординат (у ) прямоугольной системы координат.

Однако в тех случаях, когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины р i , а частоты интервалов n i .

Рис. 2.1. Гистограмма распределения результатов в предыдущем примере (когда ширина некоторых интервалов группировки неодинакова).

В этом случае чтобы не нарушить принцип построения гистограммы (площади прямоугольников пропорциональны частотам интервалов), по оси ординат уже нельзя откладывать частоты, а надо – высоты прямоугольников (которые должны быть пропорциональны отношениям ).

Полигон частот

Другим распространенным способом графического представления является полигон частот.

Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов, срединные значения откладываются по оси х , а частоты – по оси у .

Из сравнения двух рассмотренных способов графического представления эмпирических распределений следует, что для получения полигона частот из построенной гистограммы нужно середины вершин прямоугольников, образующих гистограмму, соединить отрезками прямых. Пример полигона частот представлен на рис. 2.2.

Рис. 2.2. Полигон частот

Полигон частот используется для представления распределений как непрерывных, так и дискретных признаков. В случае непрерывного распределения полигон частот является более предпочтительным способом графического представления, чем гистограмма, если график эмпирического распределения описывается плавной зависимостью.

21.Гипо́теза (др.-греч. ὑπόθεσις - предположение; от ὑπό - снизу, под + θέσις - тезис) - предположение или догадка; утверждение, предполагающее доказательство, в отличие отаксиом

Постулатов, не требующих доказательств. Гипотеза считается научной, если она удовлетворяет критерию Поппера, т.е. потенциально может быть проверена критическим экспериментом, а так же если она соответствует другим критериям, отличающим науку от не науки.

Статистическая гипотеза – это предположение о свойствах случайных величин или событий, которое мы хотим проверить по имеющимся данным. Примеры статистических гипотез в педагогических исследованиях :

Гипотеза 1. Успеваемость класса стохастически (вероятностно) зависит от уровня обучаемости учащихся.

Гипотеза 2. Усвоение начального курса математики не имеет существенных различий у учащихся, начавших обучение с 6 или 7 лет.

Гипотеза 3. Проблемное обучение в первом классе эффективнее по сравнению с традиционной методикой обучения в отношении общего развития учащихся.

Пример 1. Процесс производства некоторого медицинского препарата весьма сложен. Несущественные на первый взгляд отклонения от технологии вызывают появление высокотоксичной побочной примеси. Токсичность этой примеси может оказаться столь высокой, что даже такое ее количество, которое не может быть обнаружено при обычном химическом анализе, может оказаться опасным для человека, принимающего это лекарство. В результате, прежде чем выпускать в продажу вновь произведенную партию, ее подвергают исследованию на токсичность биологическими методами. Малые дозы лекарства вводятся некоторому количеству подопытных животных, например, мышей, и результат регистрируют. Если лекарство токсично, то все или почти все животные гибнут. В противном случае норма выживших велика.

Исследование лекарства может привести к одному из возможных способов действия: выпустить партию в продажу (а 1), вернуть партию поставщику для доработки или, может быть, для уничтожения (а 2).

Ошибки двух видов, связанные с действиями а 1 и а 2 совершенно различны, различна и важность избежания их. Сначала рассмотрим случай, когда применяется действие а 1 , в то время когда предпочтительнее а 2 . Лекарство опасно для пациента, в то время как оно признано безопасным. Ошибка этого вида может вызвать смерть пациентов, употребляющих этот препарат. Это ошибка первого рода, так как нам важнее ее избежать.

Рассмотрим случай когда предпринимается действие а 2 , в то время когда а 1 является более предпочтительным. Это означает, что вследствие неточностей в проведении эксперимента партия нетоксичного лекарства классифицировалась как опасная. Последствия ошибки могут выражаться в финансовом убытке и в увеличении стоимости лекарства. Однако случайное отвержение совершенно безопасного лекарства, очевидно, менее нежелательно, чем, пусть даже изредка происходящие гибели пациентов. Отвержение нетоксичной партии лекарства – ошибка второго рода.

Допустимая вероятность ошибки первого рода (Ркр) может быть равна 5% или 1% (0.05 или 0.01).

22. Проверка статистической гипотезы (testing statistical hypotheses) - это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Статистический тест или статистический критерий - строгое математическое правило, по которому принимается или отвергается статистическая гипотеза .

· 23.классификация гипотез

· простая – указано одно обстоятельство, при наличии или отсутствии которого действует юридическая норма;

· сложная – наличие в гипотезе одновременно двух или более обстоятельств, в совокупности обусловливающих действие нормы;

· альтернативная – указано несколько вариантов обстоятельств (альтернативных), при которых возможно действие нормы. В этом случае при наступлении одного из них норма является действующей;

Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений. Примером параметрической статистической гипотезы является гипотеза оравенстве математических ожиданий двух нормальных совокупностей.

Непараметрическими гипотезами называются гипотезы о виде распределенияслучайной величины.

Нулевой, основной или проверяемой гипотезой называется первоначально выдвинутая гипотеза, которая обозначается Н0 .

Статистическая гипотеза представляет собой некоторое предположение о законе распределения случайной величины или о параметрах этого закона, формулируемое на основе выборки . Примерами статистических гипотез являются предположения: генеральная совокупность распределена по экспоненциальному закону; математические ожидания двух экспоненциально распределенных выборок равны друг другу. В первой из них высказано предположение о виде закона распределения, а во второй – о параметрах двух распределений. Гипотезы, в основе которых нет никаких допущений о конкретном виде закона распределения, называют непараметрическими , в противном случае – параметрическими .

Гипотезу, утверждающую, что различие между сравниваемыми характеристиками отсутствует, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, на основании которых производится сравнение, называют нулевой (основной) гипотезой и обозначают Н 0 . Наряду с основной гипотезой рассматривают и альтернативную (конкурирующую, противоречащую) ей гипотезу Н 1 . И если нулевая гипотеза будет отвергнута, то будет иметь место альтернативная гипотеза.

Различают простые и сложные гипотезы. Гипотезуназывают простой , если она однозначно характеризует параметр распределения случайной величины. Например, если  является параметром экспоненциального распределения, то гипотеза Н 0 о равенстве  = 10–простая гипотеза. Сложной называют гипотезу, которая состоит из конечного или бесконечного множества простых гипотез. Сложная гипотеза Н 0 о неравенстве  > 10 состоит из бесконечного множества простых гипотез Н 0 о равенстве  =b i , где b i – любое число, большее 10. Гипотеза Н 0 о том, что математическое ожидание нормального распределения равно двум при неизвестной дисперсии, тоже является сложной. Сложной гипотезой будет предположение о распределении случайной величины Х по нормальному закону, если не фиксируются конкретные значения математического ожидания и дисперсии.

Проверка гипотезы основывается на вычислении некоторой случайной величины – критерия, точное или приближенное распределение которого известно. Обозначим эту величину через z , ее значение является функцией от элементов выборки z =z (x 1 , x 2 , …, x n ). Процедура проверки гипотезы предписывает каждому значению критерия одно из двух решений – принять или отвергнуть гипотезу. Тем самым все выборочное пространство и соответственно множество значений критерия делятся на два непересекающихся подмножества S 0 и S 1 . Если значение критерия z попадает в область S 0 , то гипотеза принимается, а если в область S 1 , – гипотеза отклоняется. Множество S 0 называется областью принятия гипотезы или областью допустимых значений , а множество S 1 – областью отклонения гипотезы или критической областью . Выбор одной области однозначно определяет и другую область.

Принятие или отклонение гипотезы Н 0 по случайной выборке соответствует истине с некоторой вероятностью и, соответственно, возможны два рода ошибок. Ошибка первого рода возникает с вероятностью  тогда, когда отвергается верная гипотеза Н 0 и принимается конкурирующая гипотеза Н 1 . Ошибка второго рода возникает с вероятностью  в том случае, когда принимается неверная гипотеза Н 0 , в то время как справедлива конкурирующая гипотеза Н 1 . Доверительная вероятность – это вероятность не совершить ошибку первого рода и принять верную гипотезу Н 0 . Вероятность отвергнуть ложную гипотезу Н 0 называется мощностью критерия . Следовательно, при проверке гипотезы возможны четыре варианта исходов, табл. 3.1.

Таблица 3.1.

Например, рассмотрим случай, когда некоторая несмещенная оценка параметра  вычислена по выборке объема n , и эта оценка имеет плотность распределения f (), рис. 3.1.

Рис. 3.1. Области и отклонения гипотезы

Предположим, что истинное значение оцениваемого параметра равно Т . Если рассматривать гипотезу Н 0 о равенстве  =Т , то насколько велико должно быть различие между  и Т , чтобы эту гипотезу отвергнуть. Ответить на данный вопрос можно в статистическом смысле, рассматривая вероятность достижения некоторой заданной разности между  и Т на основе выборочного распределения параметра  .

Целесообразно полагать одинаковыми значения вероятности выхода параметра  за нижний и верхний пределы интервала. Такое допущение во многих случаях позволяет минимизировать доверительный интервал, т.е. повысить мощность критерия проверки. Суммарная вероятность того, что параметр  выйдет за пределы интервала с границами  1– /2 и   /2 , составляет величину  . Эту величину следует выбрать настолько малой, чтобы выход за пределы интервала был маловероятен. Если оценка параметра попала в заданный интервал, то в таком случае нет оснований подвергать сомнению проверяемую гипотезу, следовательно, гипотезу равенства  =Т можно принять. Но если после получения выборки окажется, что оценка выходит за установленные пределы, то в этом случае есть серьезные основания отвергнуть гипотезу Н 0 . Отсюда следует, что вероятность допустить ошибку первого рода равна  (равна уровню значимости критерия).

Если предположить, например, что истинное значение параметра в действительности равно Т +d , то согласно гипотезе Н 0 о равенстве  =Т – вероятность того, что оценка параметра  попадет в область принятия гипотезы, составит  , рис. 3.2.

При заданном объеме выборки вероятность совершения ошибки первого рода можно уменьшить, снижая уровень значимости  . Однако при этом увеличивается вероятность ошибки второго рода  (снижается мощность критерия). Аналогичные рассуждения можно провести для случая, когда истинное значение параметра равно Т d .

Единственный способ уменьшить обе вероятности состоит в увеличении объема выборки (плотность распределения оценки параметра при этом становится более "узкой"). При выборе критической области руководствуются правилом Неймана – Пирсона: следует так выбирать критическую область, чтобы вероятность  была мала, если гипотеза верна, и велика в противном случае. Однако выбор конкретного значения  относительно произволен. Употребительные значения лежат в пределах от 0,001 до 0,2. В целях упрощения ручных расчетов составлены таблицы интервалов с границами  1– /2 и   /2 для типовых значений  и различных способов построения критерия.

При выборе уровня значимости необходимо учитывать мощность критерия при альтернативной гипотезе. Иногда большая мощность критерия оказывается существеннее малого уровня значимости, и его значение выбирают относительно большим, например 0,2. Такой выбор оправдан, если последствия ошибок второго рода более существенны, чем ошибок первого рода. Например, если отвергнуто правильное решение "продолжить работу пользователей с текущими паролями", то ошибка первого рода приведет к некоторой задержке в нормальном функционировании системы, связанной со сменой паролей. Если же принято решения не менять пароли, несмотря на опасность несанкционированного доступа посторонних лиц к информации, то эта ошибка повлечет более серьезные последствия.

В зависимости от сущности проверяемой гипотезы и используемых мер расхождения оценки характеристики от ее теоретического значения применяют различные критерии. К числу наиболее часто применяемых критериев для проверки гипотез о законах распределения относят критерии хи-квадрат Пирсона, Колмогорова, Мизеса, Вилкоксона, о значениях параметров – критерии Фишера, Стьюдента.

25. КРИТИЧЕСКАЯ ОБЛАСТЬ - часть выборочного пространства такая, что попадание в нее наблюденного значения случайной величины, с распределением к-рой связана проверяемая гипотеза, влечет отказ от этой гипотезы

Критическими точками (границами) k кр называют точки, отделяющие критическую область от области принятия гипотезы.
Различают одностороннюю (правостороннюю или левостороннюю) и двустороннюю критические области.

Случайная погрешность измерения образуется под влиянием большого числа факторов , сопутствующих процессу измерения. В каждой конкретной ситуации работает свой механизм образования погрешности. Поэтому естественно предположить, что каждой ситуации должен соответствовать свой тип распределения погрешности. Однако во многих случаях имеются возможности еще до проведения измерений сделать некоторые предположения о форме функции распределения, так что после проведения измерений остается только определить значения некоторых параметров, входящих в выражение для предполагаемой функции распределения.

Случайная погрешность характеризует неопределенность наших знаний об истинном значении измеряемой величины, полученных в результате проведенных наблюдений. Согласно К. Шеннону мерой неопределенности ситуации, описываемой случайной величиной X, является энтропия

Являющаяся функционалом дифференциальной функции распределения . Можно предположить, что любой процесс измерения формируется таким образом, что неопределенность результата наблюдений оказывается наибольшей в некоторых пределах, определяемых допускаемыми значениями погрешности. Поэтому наиболее вероятными должны быть такие распределения , при которых энтропия обращается в максимум.

Для выявления вида наиболее вероятных распределений рассмотрим несколько наиболее типичных случаев .

1. В классе распределений результатов наблюдений , обладающих определенной зоной рассеивания между значениями х = b и х = а шириной b-а =, найдем такое, которое обращает в максимум энтропию при наличии ограничивающих условий:
, , ,
где - математическое ожидание результатов наблюдений. Решение поставленной задачи находится методом множителей Лагранжа.

Искомая плотность распределения результатов наблюдений описывается выражением

Определим числовые характеристики равномерного распределения. Математическое ожидание случайной погрешности находим по формуле (10):

Дисперсию случайной равномерно распределенной погрешности можно найти по формуле (18):

В силу симметрии распределения относительно математического ожидания коэффициент асимметрии должен равняться нулю:

Для определения эксцесса найдем вначале четвертый момент случайной погрешности:

Поэтому

В заключение найдем веро-ятность попадания случайной погрешности в заданный интервал , равный заштрихованной площади на рис.7

2. В классе распределений результатов наблюдений , обладающих определенной дисперсией , найдем такое, которое обращает в максимум энтропию при наличии ограничений:

, , , .

Решение этой задачи также находится методом множителей Лагранжа. Искомая плотность распределения результатов наблюдений описывается выражением

Распределение, описываемое уравнениями (25) и (26), называется нормальным или распределением Гаусса .

На рис.8 изображены кривые нормального распределения случайных погрешностей для различных значений среднеквадратического отклонения .

Из рисунка видно, что по мере увеличения среднеквадратического отклонения распределение все более и более расплывается, вероятность появления больших значений погрешностей возрастает, а вероятность меньших погрешностей сокращается, т.е. увеличивается рассеивание результатов наблюдений.

Вычислим вероятность попадания результата наблюдения в некоторый заданный интервал :

Заменим переменные:

После чего получим следующее выражение для искомой вероятности:

Интегралы, стоящие в квадратных скобках, не выражаются в элементарных функциях, поэтому их вычисляют с помощью так называемого нормированного нормального распределения с дифференциальной функцией

С помощью функции Ф(z ) вероятность находят как

(29)

При использовании данной формулы следует иметь в виду тождество

Вытекающее непосредственно из определения функции Ф(z ).

Широкое распространение нормального распределения погрешностей в практике измерений объясняется центральной предельной теоремой теории вероятностей, являющейся одной из самых замечательных математических теорем, в разработке которой принимали участие многие крупнейшие математики - Муавр, Лаплас, Гаусс, Чебышев и Ляпунов. Центральная предельная теорема утверждает, что распределение случайных погрешностей будет близко в нормальному всякий раз, когда результаты наблюдения формируются под влиянием большого числа независимо действующих факторов, каждый из которых оказывает лишь незначительное действие по сравнению с суммарным действием всех остальных.

3. Предположим, что результаты наблюдений распределены нормально, но их среднеквадратическое отклонение является величиной случайной, изменяющейся от опыта к опыту. Такое предположение более осторожное, чем предположение о неизменности в течение всего времени измерений. В этом случае, рассуждая таким же образом, как и прежде, легко найти, что энтропия обращается в максимум, если результаты наблюдений имеют распределение Лапласа с плотностью

(30)

где - математическое ожидание, - среднеквадратическое отклонение результатов наблюдения. Распределением Лапласа следует пользоваться в тех случаях, когда точностные характеристики заранее неизвестны или нестабильны во времени.

Дифференциальная функция распределения случайных погрешностей получается подстановкой и в выражение (30):

Асимметрия распределения равна нулю, поскольку распределение симметрично относительно нуля, а эксцесс в соответствии с формулой (22) составляет

Таким образом, по сравнению с нормальным распределением (Ех = 0) равномерное распределение является более плосковершинным (Ех = -1.2), а распределение Лапласа - более островершинным (Ех = 3).

Формы представления статистических данных.

Статистические данные должны быть представлены так, чтобы ими можно было пользоваться. Существует 3 основных формы представления статистических данных :

Текстовая – включение данных в текст;

Табличная – представление данных в таблицах;

Графическая – выражение данных в виде графиков.

Текстовая форма применяется при малом количестве цифровых данных.

Табличная форма применяется чаще всего, так как является более эффективной формой представления статистических данных. В отличие от математических таблиц, которые по начальным условиям позволяют получить тот или иной результат, статистические таблицы рассказывают языком цифр об изучаемых объектах.

Статистическая таблица – это система строк и столбцов, в которых в определенной последовательности и связи излагается статистическая информация о социально-экономических явлениях.

Различают подлежащее и сказуемое статистической таблицы. В подлежащем указывается характеризуемый объект – либо единицы совокупности, либо группы единиц, либо совокупность в целом. В сказуемом дается характеристика подлежащего, обычно в числовой форме. Обязателен заголовок таблицы, в котором указывается к какой категории и к какому времени относятся данные таблицы.

По характеру подлежащего статистические таблицы подразделяются на простые, групповые и комбинационные. В подлежащем простой таблицы объект изучения не подразделяется на группы, а дается либо перечень всех единиц совокупности, либо указывается совокупность в целом. В подлежащем групповой таблицы объект изучения подразделяется на группы по одному признаку, а в сказуемом указываются число единиц в группах (абсолютное или в процентах) и сводные показатели по группам. В подлежащем комбинационной таблицы совокупность подразделяется на группы не по одному, а по нескольким признакам.

При построении таблиц необходимо руководствоваться следующими общими правилами.

Подлежащее таблицы располагается в левой (реже – верхней) части, а сказуемое – в правой (реже – нижней).

Заголовки столбцов содержат названия показателей и их единицы измерения.

Итоговая строка завершает таблицу и располагается в ее конце, но иногда бывает первой: в этом случае во второй строке делается запись «в том числе», и последующие строки содержат составляющие итоговой строки.

Цифровые данные записываются с одной и той же степенью точности в пределах каждого столбца, при этом разряды чисел располагаются под разрядами, а целая часть отделяется от дробной запятой.

В таблице не должно быть пустых клеток: если данные равны нулю, то ставится знак «–» (прочерк); если данные не известны, то делается запись «сведений нет» или ставится знак «…» (троеточие). Если значение показателя не равно нулю, но первая значащая цифра появляется после принятой степени точности, то делается запись 0,0 (если, скажем, была принята степень точности 0,1).

Иногда статистические таблицы дополняются графиками, когда ставится цель подчеркнуть какую-то особенность данных, провести их сравнение. Графическая форма является самой эффективной формой представления данных с точки зрения их восприятия. С помощью графиков достигается наглядность характеристики структуры, динамики, взаимосвязи явлений, их сравнения.