Существуют три вида лжи: ложь, наглая ложь и статистика. Три вида лжи




Марк ТВЕН

Законы теории вероятностей не являются абстрактными, а математически выражают реальные закономерности массовых случайных явлений природы.

Разработка методов регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений, составляет предмет МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ.

1

Определение закона распределения случайной величины по статистическим данным.

Так как на практике приходится иметь дело с ограниченным количеством экспериментальных данных, то результаты наблюдений всегда будут содержать элемент случайности.

Поэтому возникает задача сглаживания статистических данных и описания их с помощью простых аналитических зависимостей.

2

Проверка правдоподобия гипотез.

Эта задача связана с предыдущей. Например, она может отвечать на вопрос: согласуются ли результаты эксперимента с гипотезой о том, что случайная величина подчиняется данному закону распределения?

3

ждение неизвестных параметров распредел

Часто необходимо определить не сам закон распределения СВ на основе экспериментальных данных, а некоторые числовые характеристики ПриСВ.малом числе опытов определяются только «оценочные» значения этих параметров, т.е. такие приближенные значения, которые приводят в среднем к меньшим ошибкам, чем

Отдел маркетинга швейной фабрики прове анкетирование 100 покупателей. В числе вопросов анкеты были вопросы о мужских костюмах. Обработка анкет дала следующие результаты о предпочтении:

По месту изготовления: 40 % - отечественные, 60 % - импортные.

2. По стоимости в долларах США:

Чиновники правительства как могут работают над улучшением ситуации в стране и твердят: «Экономика набирает обороты», что непременно подтверждается цифрами.

Но возникает подозрение, что жить лучше и веселее нам становится лишь благодаря манипуляциям со статистикой. Корреспондент «МН» разбиралась, стоит ли полагаться на официальные данные и почему в последнее время доверять им все сложнее.

Росстат критикуют все кому не лень - от экспертов в области экономики и ученых до рядовых граждан, которые, слыша выкладки статведомства о размерах своих зарплат и инфляции, приходят в негодование: в первом случае - от высоких цифр, во втором - от низких.

Впрочем, как бы кто ни относился к статистике, «других писателей у нас для вас нет», а самому Росстату непросто собирать качественную информацию на фоне теневой экономики, приписок региональных чиновников-респондентов, секретных госрасходов, ухода предприятий и граждан от налогов, нелегального рынка труда и товаров.

Но даже с учетом объективных трудностей сбора данных определенные события, произошедшие вокруг Росстата за последнее время, наводят на нехорошие размышления - того и гляди статистика из инструмента оценки экономической реальности превратится в заурядного пропагандиста несуществующих успехов.

СНОВА-ЗДОРОВО

Подобные мысли начали возникать в апреле прошлого года, когда президент подписал указ о переводе главного статистического ведомства страны из структуры правительства РФ в ведение Минэкономразвития.

Случилось это после того, как Росстат резко раскритиковал глава этого министерства Максим Орешкин. По его словам, опубликованные в марте данные о динамике основных макропоказателей за февраль «нерепрезентативны» и требуют пересмотра.

Напомним, тогда Росстат сообщил об ухудшении положения дел в экономике. По данным статистиков, в феврале 2017 года промышленное производство в России по сравнению с тем же месяцем 2016 года снизилось на 2,7%, а в январе и феврале - на 0,3%. Росстат также отметил, что в феврале промпроизводство упало на 1,5% по отношению к январю, а реальные располагаемые денежные доходы населения снизились на 4,1% по сравнению с аналогичным периодом предыдущего года.

Почти сразу после этого появился проект постановления о передаче Росстата в ведение МЭР, а еще некоторое время спустя - соответствующий президентский указ. Эксперты тогда вынуждены были признать: с этого момента Росстат потерял независимый статус, ведь когда критика статистических выкладок исходит от ведомства, отвечающего за экономические прогнозы, дело вовсе не в качестве статистики.

МЭР и прежде было недовольно данными статслужбы. В январе 2002 года Аркадий Дворкович, отвечавший тогда в Минэкономразвития за макропрогнозирование, засомневался в правильности методики Росстата, по которой инфляция в «тарифный» месяц оказалась слишком высокой.

В 2004 году в ходе административной реформы Росстат перевели от правительства в подчинение к Минэкономразвития и торговли, однако после несогласия с таким решением тогдашнего главы Росстата Владимира Соколина через несколько месяцев снова вернули под управление кабмина. Еще через четыре года статистическое ведомство опять переподчинили Минэкономразвития, а в 2012-м, признав такой шаг неэффективным, вернули в подчинение правительства. И вот в апреле 2017-го у статслужбы снова сменился куратор.

Глава Федерации независимых профсоюзов России Михаил Шмаков предположил, что Росстат в новом статусе вынужден будет «лакировать истинное положение». С ним солидарен и экс-глава Федеральной службы госстатистики Владимир Соколин, на собственной шкуре испытавший все прелести подчинения МЭР:

«У министерства, которое является главным пользователем статистических данных, которое занимается составлением отчетов и прогнозов, появляется соблазн поруководить статистикой в нужном ему направлении. К сожалению, среди российских чиновников сегодня много фердыщенко, убежденных в том, что предназначение статистики - веселить начальниково сердце».

ИГРЫ В ЦИФРЫ

Как бы там ни было, сегодня мы имеем то, что имеем: МЭР, отвечающее за экономический рост, пользуется статистикой Росстата, а тот, в свою очередь, оценивает ведомство, которому же и подчиняется. Не потому ли данные о нашей экономике становятся все оптимистичнее?

18 июня Росстат опубликовал свежий пакет статистики по промышленности, в котором аннулировал данные, свидетельствовавшие о стагнации производства за последние 1,5 года. По новой оценке в прошлом году промышленность в России выросла не на 1%, а на 2,1% (в точном соответствии с прогнозом Минэкономразвития).

Данные по текущей ситуации были улучшены втрое: оценка роста за апрель поднялась с 1,3 до 3,9, а ускорение на май оценено в 3,7% - вдвое больше, чем в Евросоюзе, и на 0,3 процентного пункта выше, чем в США. Объемы выпуска в несырьевых отраслях - на фабриках и заводах обрабатывающего сектора - пересмотрены: вместо 0,2% - 2,5%. Разница - 12,5 раза.

Министр экономического развития Максим Орешкин объяснил такие метаморфозы получением годовых данных о малых и средних предприятиях и тем, что была уточнена статистика по крупному бизнесу.

Эксперты сразу засомневались в объективности новых данных. Изменение показателя роста вдвое без корректировок методик, а лишь в результате досчета они назвали перебором, попутно отметив, что либо вся методика расчета в промышленности, начиная от сбора первичной информации, никуда не годится, либо присутствуют манипуляции со статистикой.

КУДА КРИВАЯ ВЫВЕДЕТ

Что еще зафиксировал Росстат за последнее время? В мае этого года - рекордный за четыре года скачок уровня жизни!

Оказывается, реальные располагаемые доходы населения - сумма, которая остается на руках после вычета инфляции и всех обязательных платежей, - в апреле подскочили на 5,7%. В номинальном выражении россияне разбогатели на 8,2%, а реальный рост благосостояния с учетом инфляции стал рекордным с мая 2014 года.

За июнь текущего года резко выросли зарплаты. В среднем каждый работающий россиянин получил прибавку в 10,2% и зарабатывал в среднем 43 550 руб. в месяц. Согласно данным Росстата, оклады в больницах и поликлиниках подскочили на 30%, в школах и вузах - на 15%, в библиотеках, музеях и архивах - на 26%.

Как говорится, все чудесатее и чудесатее, при том, что большинство россиян никакого улучшения не заметило, а проведенный ВШЭ опрос показал: доля тех, кто ощутил улучшения, практически не растет - в марте таких было 13% против 10% год назад. Еще 27% и вовсе констатировали ухудшение материального положения, а РАНХиГС в своем майском мониторинге отметила, что почти все деньги люди тратят, а норма сбережений упала до минимума за 18 лет.

Статслужба продолжила радовать и своими прогнозами. Так, к концу первого этапа пенсионной реформы (к 2024 году) продолжительность жизни россиян возрастет на пять лет: у мужчин - до 73,3 года, у женщин - до 82,1. Примечательно, что по данным того же Росстата за 2017 год мужчины жили до 67,5 года, а женщины - до 77,6. Эти цифры усредненные, и, присмотревшись к ним внимательнее, окажется, что до 65 лет мужики доживали только в 37 субъектах Федерации из 85.

По данным Всемирного банка, в России самая высокая в мире смертность мужчин до 65 лет - 43%. Однако для готовящейся в России пенсионной реформы эти показатели не указ. Росстат сказал, что к 2024 году мужское население страны будет жить до 73 лет, значит, будет.

С демографией у нас тоже, к слову, все отлично. В прогнозе Росстата до 2035 года численность населения России определялась на уровне 2017 года (147 млн человек плюс-минус несколько процентов), а в июле 2018-го были обнародованы уже другие данные: к 2036 году ожидается увеличение численности населения до... 157 млн человек. За счет чего произойдет такой всплеск, не уточняется. Наверное, рожать начнем больше, а жить, как сказано выше, дольше.

Россияне уже давно оценивают жизнь своим мерилом и посмеиваются над официальной статистикой, но когда речь идет об управлении экономикой страны, то опора на официальные данные - совсем другое дело. Это все равно что вести корабль по неверным картам. Велик риск сесть на мель и разбить судно.

В российской статистике накопилось немало проблем. Чем дольше откладывается их решение, тем более искаженной будет картина окружающего нас мира.

Елена Хакимова.

Карикатура

А. Хорошевского.

.
Полный вариант этого афоризма: «Существуют три вида лжи: ложь, наглая ложь и статистика» (англ. There are three kinds of lies: lies, damned lies, and statistics). Его авторство приписывается разным людям, а известность оно получило благодаря М.Твену после публикации «Главы моей автобиографии» в журнале North American Review 5 июля 1907 г.: «Цифры обманчивы, — писал он, — я убедился в этом на собственном опыте; по этому поводу справедливо высказался Дизраэли: „Существует три вида лжи: ложь, наглая ложь и статистика“». Некоторые полагают, что оригинальная фраза звучала как «Есть старая шутка о том, что существует три вида лжецов: обычные обманщики, возмутительные лжецы и научные эксперты», и лишь позже стали говорить несколько иначе: «Есть три степени лжи: ложь, бессовестная (наглая) ложь и статистика».
Вряд ли столь важно, кто является автором этого афоризма, важно то, что он хорошо иллюстрирует ситуацию с тем, что говорят врачи-«эксперты» большинству людей, имеющих серьёзные (и не очень) заболевания.

****
В 1992 году известному американскому палеонтологу и биологу Стивену Гулду врачи поставили диагноз «рак» (мезотелиома брюшины) и сообщили, что с таким диагнозом в среднем живут 8 месяцев. Гулд привел в порядок свои дела, но не опустил руки, а стал лечиться - операция, химия и облучение. И умер. Через двадцать лет.
.
Через два года после оглашения диагноза в журнале Discover он опубликовал свою статью «Не верьте медиане» ("The Median Isn"t the Message"), в которой наглядно описал то, как соотносятся статистика и конкретные случаи из жизни. Оригинальный текст - по ссылке , ниже - почти полный перевод и далее мои комментарии.

.
Предисловие к статье - С.Данн (Steve Dunn, создатель сайта http://cancerguide.org , которому врачи поставили диагноз «рак почки 4 стадии», после чего удалили почку. После такого «лечения» он 17 лет вёл очень активный образ жизни, женился, завёл детей, занимался альпинизмом и горными лыжами. Умер в августе 2005 г. от совсем другой болезни (инфекционного менингита).

.
Стивен Джей Гулд был влиятельным биологом-эволюционистом, преподавателем в Гарвардском университете, автором не менее десятка популярных книг по различным областям науки.
Насколько я могу судить, эта статья является самой мудрой, самой гуманной из когда-либо написанных о раке и статистике. Это противоядие и для тех, кто говорит, что «статистика не имеет значения», и для тех, кто имеет привычку оглашать «смертные приговоры» пациентам, которые сталкиваются с тяжёлыми прогнозами. Тот, кто ищет ответы в официальной медицинской литературе, будет находить там «страшную статистику» для практически любых болезней. Тот, что прочитает эту статью, возьмёт на вооружение надежду.

Не верьте медиане "The Median Isn" t the Message"
.
В последнее время мою жизнь постоянно иллюстрируют две известные шутки Марка Твена. Одну я пока приберегу для конца этой статьи, а вторая (иногда приписываемая Дизраэли), говорит о трёх разновидностях лжи, причём каждая последующая хуже предыдущей - ложь, наглая ложь и статистика.
.
Рассмотрим стандартный пример «размазывания» правды в пространстве или во времени - что оказалось весьма актуальным для моей личной истории. Статистика признает различные способы определения «среднего значения» или «средней тенденции». Наша привычная концепция определения среднего значения достаточно проста - сложить значения всех элементов и полученную сумму разделить на количество элементов (100 конфет, собранные пятью детьми на Хэллоуин, даёт по 20 конфет каждому ребёнку в этом идеальном мире). - другая мера средней тенденции, является значением функции в середине графика. Например, если я расставлю пять детей по росту, то средний ребёнок будет ниже двух предыдущих и выше двух последующих (однако, у этих двух малорослых детей могут быть проблемы при делёжке конфет в группе с более высокими детьми…).
.
Можно ещё проиллюстрировать это так: политический лидер может с гордостью сделать заявление: «средний доход наших граждан составляет $15000 в год», на что лидер оппозиции может возразить: «Но половина наших граждан имеет реальных доход менее $10000 в год». И они оба будут правы, хотя никто из них не использует статистику с бесстрастной объективностью. Первый говорит о среднем арифметическом , второй - о медиане (среднее арифметическое больше, чем медиана в подобных случаях, потому что один миллионер может перевесить сотни бедных людей при вычислении среднего значения, но он может сбалансировать только одного нищего при расчёте медианы).
.
Чем важнее (глубже, опаснее, тяжелее и т.п.) вопрос, тем большее недоверие и презрение создаётся к статистике при его рассмотрении. Многие люди допускают трагичный и недопустимый разрыв между сердцем и умом, своими чувствами (ощущениями) и интеллектом. В некоторых современных традициях наоборот слишком много значения уделяется чувствам как основе для действий, в то время как интеллект отодвигается на задний план как «устаревший инструмент». Статистике в этой абсурдной дихотомии часто навешивается ярлык «врага».
.
Эта статья - описание личной истории дружбы с правильно интерпретированной статистикой, воодушевляющей и дающей надежду. Это небольшая история о полезности непредвзятого научного знания и о том, что голова и сердце - координаторы действий одного тела, единой личности.
.
В июле 1982 года я узнал, что у меня , редкая и серьёзная форма рака. Когда я отошёл от наркоза после операции, мой первый вопрос врачу и химиотерапевту был такой: «Что является лучшей литературой о мезотелиоме?», на что я получил ответ с явным дипломатическим оттенком, что в медицинской литературе не содержится ничего, что действительно стоит читать.
.
Ну разумеется, совет учёному держаться подальше от книг является таким же действенным, как совет хомо сапиенсу быть целомудренным и воздерживаться от секса. Как только я мог ходить, то направился прямиком в Гарвардскую медицинскую библиотеку и ввёл в компьютер запрос обо всём, . Через час, в окружении всей доступной литературы по брюшной мезотелиоме, я понял, почему мой врач дал мне такой гуманный совет. Во всей найденной мне литературе не могло быть более недвусмысленной информации: мезотелиомы неизлечимыми, медиана смертности - всего восемь месяцев после определения диагноза. примерно пятнадцати минут, затем улыбнулся и сказал себе: так вот почему они не дают мне ничего читать! Слава богу, тогда мой ум снова начал работать.
.
Я столкнулся с классическим примером того, когда ». И это имеет прямое отношение и к борьбе с раком. Возможно потому, что наше ментальное состояние «подкармливает» и иммунную систему, но люди, имеющие один и тот же вид рака, отличающиеся по возрасту, социальному классу, условий получения медицинской помощи, в общем - имеющие позитивное отношение к жизни, сильную волю и жизненные цели - и живут дольше, они обязательно будут бороться или хотя бы искать пути выхода из болезни, а не просто пассивно принимать что-либо, сказанное врачами. Несколько месяцев спустя я спросил сэра Медавара, моего личного научного гуру и лауреата Нобелевской премии в области иммунологии, каков может быть лучший рецепт для успеха против рака? «Личность сангвиника» - кратко ответил он. К счастью (поскольку нельзя поменять себя в короткие сроки и с какой-то одной определённой целью), я и так всегда был уравновешенным и уверенным в себе человеком именно с таким складом характера.
.
Отсюда возникает дилемма для врачей: ведь если личное отношение человека к тому, что с ним происходит, имеет такое важное значение, для чего делать столь мрачные заключения (предсказания?..), особенно когда лишь немногие люди имеют достаточно понимания принципов статистики, чтобы оценить то, что на самом деле означает то или иное утверждение? Лично у меня было такое понимание, и я убеждён, что именно это сыграло важную роль в сохранении моей жизни. Знание действительно сила !
.
Кратко первый (а может быть и самый главный) вопрос может звучать так: что именно значит фраза «медиана смертности - восемь месяцев»? Я подозреваю, что большинство людей, без особых знаний в области статистики, переведут эту фразу как «я, вероятно, буду мёртв через восемь месяцев» - именно этого скоропалительного вывода следует избегать, т.к. само отношение к ситуации и к прогнозам имеет огромное значение.
Конечно, я не был вне себя от радости, но я и не интерпретировал эти данные подобным образом. Моя техническая подготовка позволила мне иметь другой взгляд на «восемь месяцев медиальной смертности».
.
Мы по-прежнему несём исторический груз платоновского наследия, стремясь к объяснению всего, к чётким определениям и разграничениям, пытаясь, таким образом, например, найти однозначное «начало жизни» или точное определение смерти, хотя природа часто представляется нам как континуум с плавным переходом одного в другое. Это платоновское наследие, с его акцентом на чёткие различия и разделение неразделимого приводит нас к ложным оценкам статистических данных. Короче говоря, мы воспринимаем среднее значение и медиану как жёсткую «реальность», и напротив - мы не учитываем целый набор различных переменных и несовершенство измерений. Если просто взять медиану как данность и учитывать, что имеется вокруг неё для более глубокого анализа и расчёта, то интерпретация «я, вероятно, буду мёртв через восемь месяцев» может потерять свою актуальность. (кстати, обратная ситуация также возможна - Е.М.)
.
Но все эволюционные биологи, коим я тоже являюсь, знают, что именно вариабельность тех или иных параметров есть неизменная сущность всего живого. Именно изменения, варианты одного и того же есть суровая реальность. Среднее статистическое и медиана являются лишь абстракциями. Поэтому я посмотрел на статистику мезотелиомы совсем по-другому - и не только потому, что я оптимист, который стремится увидеть сам бублик вместо дырки, но в первую очередь потому, что я знаю, что только вариация есть реальность. И я должен был разместить себя среди этих разных вариаций.
.
Когда я узнал о восьмимесячной медиане, моя первая интеллектуальная реакция была: «прекрасно, половина людей живёт дольше этих восьми месяцев. Как насчёт моих шансов попасть в эту половину?» После часа нервных и бешеных расчётов я с облегчением пришёл к выводу: мои шансы чертовски велики. Я обладал каждой из характеристик, дающих вероятность большей продолжительности жизни: я был молод; моя болезнь была диагностирована в относительно ранней стадии; я могу получить лучшее медицинское лечение; я хочу жить; я знаю, как должным образом интерпретировать данные и я не отчаиваюсь.
.
Другой технический вопрос также добавил мне ещё больше утешения. Я сразу понял, что реальное распределение вариации при «восьмимесячной медиане» почти наверняка будет тем, что статистики называют «правый перекос» (при симметричном распределении профиль графика слева от медианы является зеркальным отражением профиля справа; при асимметрии распределение на одной половине более «вытянуто»).
.

.
Я рассуждал, что в случае моей мезотелиомы график должен был иметь именно правый перекос (позитивная асимметрия), ведь, в конце концов, часть графика слева от медианы описывает только те случаи, когда мезотелиома диагностируется либо посмертно, либо за небольшое время до смерти человека. Таким образом, существует не так много возможностей для попадания в этот диапазон, ведь он всего располагается между нулём и восемью месяцами. Но верхняя (или правая) половина может простираться на многие годы, даже если никто из диагностированных людей в конечном счёте не выживает. Распределение должно иметь именно этот, правый перекос, и мне нужно знать, как далеко расположен «хвост» графика - потому что я уже пришел к выводу, что мой благоприятный «профиль пациента» сделал меня хорошим кандидатом для этой половины графика.
.
Распределение действительно сильно искажено право, имеет длинный «хвост», пусть и не столь большой по амплитуде, но продлённый на несколько лет дальше медианы в восемь месяцев. Я больше не видел никаких причин, почему я не должен быть в этом «хвосте», и я сделал очень долгий вздох облегчения. Мои технические знания помогли мне и на этот раз. Я правильно прочитал график. Я задал правильный вопрос и нашёл ответы. Я получил, по всей вероятности, самый ценный из всех возможных подарков в имеющихся условиях - значительное время. Меня уже ничто не держало и ничто не могло заставить немедленно следовать словам Исаии к Езекии - «Приведи свой дом в порядок, потому что ты умрёшь, и не будешь жить!»
.
Ещё один момент о статистических распределениях: имеющийся "официальный" график применим только к вполне определённому набору обстоятельств и показывает выживаемость при мезотелиоме при обычных режимах лечения. Но если меняются обстоятельства, распределение также может измениться. Мне был прописан экспериментальный протокол лечения, и, если Фортуна улыбнётся, я попаду в первую группу уже нового распределения с высокой медианой и правым «хвостом» графика, длящегося до смерти от естественных причин в глубокой старости.
.
На мой взгляд, слишком модно стало считать принятие смерти равносильным внутреннему достоинству. Конечно, я согласен с проповедями Экклезиаста, что «есть время любить и время умирать», и когда мой источник жизни иссякнет, я надеюсь встретить свой конец спокойно и с достоинством. В большинстве случаев, однако, я предпочитаю быть иного мнения, а именно что за жизнь нужно бороться.
.
Выбор оружия в этой борьбе очень широк, но нет ничего более эффективного, чем юмор. Моя смерть была объявлена на заседании моих коллег в Шотландии, и я испытал большое удовольствие от чтения своего собственного некролога, сочиненного одним из моих лучших друзей (кстати, вряд ли следует считать случайностью то, что он является статистиком и что он поверил в мою неизбежную смерть, т.к. не ожидал найти меня так далеко в правом «хвосте» вышеуказанного графика). Тем не менее, этот инцидент был первым, который дал мне возможность посмеяться после того, как я услышал свой диагноз. Подумать только, я чуть не повторил ещё один известный афоризм М.Твена: «слухи о моей смерти сильно преувеличены».

Послесловие С.Данна
.
К сожалению, С.Гулд умер в мае 2002 года в возрасте 60 лет, но он прожил ещё двадцать очень продуктивных лет после постановки диагноза и, таким образом, превысил «статистическую» восьмимесячную медиану выживаемости в тридцать раз! Хотя он и умрер от рака, это была никак не та мезотелиома, а совсем другой вид.
В марте 2002 года доктор Гулд опубликовал свою 1342-страничную книгу «Opus Magnum» - Структуру Эволюционной Теории. И видится очень логичным, что доктор Гулд, один из самых плодовитых учёных и писателей мира, смог завершить окончательный отчёт о своей научной деятельности и рассказ о своей философии как раз вовремя. Эта книга является слишком длинной для обычного человека - но произведения С.Д.Гоулда будут жить. Особенно, как я надеюсь, статья «The Median Isn" t the Message».

***********
На самом деле комментариев моих к этой статье практически не будет - ни про "экспериментальные протоклы лечения", ни про "пророчества врачей" - про это уже много материалов в моём ЖЖ. Но про то, что статистика часто интерпретируется совершенно «криво» - будут отдельные посты.
.
Хочу лишь отметить, что не случайно в этой статье доктор Гоулд упомянул фразу «профиль пациента» - поскольку он также употребил слова «личность сангвиника», это имеет отношение к психологии, а не просто к финансовому состоянию человека или его социальному статусу. Ничего не бывает случайно в этом мире. Пару дней назад в ЖЖ увидел пост с названием «Роль личности в онкологии», где были даны ссылки на эксперименты (да, та самая статистика) и сделан в итоге вывод, что эта роль "слишком преувеличена". Но как бы ни хотели отдельные граждане отгородиться от своей психики (от своей личности), как бы ни хотели они верить в то, что болезнь - «спускается откуда-то сверху по независящим от меня причинам», комментируя всё это словами вроде «достали уже все эти верящие в психологическую природу рака» - из песни слов не выбросишь - от себя не убежишь.
.
Но про это - следующий пост.
.
Будьте здоровы. Живите с юмором.

Есть выражение: «Ложь бывает трех видов- просто ложь, наглая ложь и статистика»
Вообще-то, статистика не нуждается в защите. Статистические методы успешно и даже победоносно применяются во всех видах разумной деятельности человека- от организации коммунального хозяйства до ядерной физики. И все-таки именно эта выдающаяся эффективность статистики является огромным соблазном использовать ее в чисто демагогических целях.
Есть такое заболевание эпилепсия, характеризуется поражением мозга, выражающееся в частых (иногда не слишком) приступах, в тяжелой форме выражающееся в судорожных припадках. В более легких (и гораздо более часто встречающихся) формах – это потеря сознания на несколько секунд или минут, без судорог и даже без падений.
Во время одного из моих заключений в сумасшедший дом, я, за небольшую плату: несколько пачек сигарет, кажется, переводил для одного из врачей небольшую книжку с английского. Книжка фактически представляла собой данные статистических исследований у детей, страдающих эпилепсией. Это была самая великолепная научная работа, которую мне приходилась читать. Определялся индекс интеллекта у разных групп больных детей школьного возраста. Группы составлялись по самым разнообразным признакам- степень заболевания, финансовое обеспечение семьи и так далее. Наибольший интерес представляло сравнение детей, обучавшихся в специальных школах для эпилептиков и в обыкновенных общих школах. Как и ожидалось, индекс развития (интеллекта) у детей в спецшколах оказался значительно ниже, чем у здоровых детей. Неожиданность возникла, когда определяли индекс у детей в обычных школах. Он оказался намного выше не только индекса таких же больных в спецшколах, но и выше, чем у здоровых детей, обучавшихся в тех же школах! Эпилептики оказались в числе первых учеников и отличников в своих классах! Кстати, это отлично совпало с давно известным фактом непропорционально большого количества эпилептиков среди выдающихся людей. Возьмем хотя бы Петра Первого и Достоевского. Желающие могут привести и другие примеры.
Объяснение неожиданного результата объяснить просто. Возникал «барьерный эффект». Больные дети, ощущая некоторую неполноценность из-за своих приступов, из –за детского стремления к соперничеству, стремились компенсировать ее усиленной учебой и делали это так успешно, что выходили в первые ученики! В спецшколах этого не было- все вокруг были такие же как они и соперничать было не с кем. Разумеется, спецшколы остались необходимыми для тяжелых больных, нуждающихся в постоянной помощи и наблюдении, но для более легких случаев они оказались не только бесполезными, но даже вредными. И Америка постепенно стала сворачивать свою превосходную сеть спецшкол.
Но вот вопрос- а зачем она ее вообще создала? Представьте себе, тоже на основании статистических исследований. Проводились обширные и многочисленные опросы врачей-специалистов, родителей и даже учеников. Все они высказывались в пользу создания таких учреждений. Однако все это было опрокинуто всего лишь одним маленьким исследованием- что-то около 500 случаев.
Статистика не виновата, просто в маленьком исследовании она показала реальное положение дел, тогда как в предыдущих исследований- степень заблуждения, профессионального и других, степень любви родителей, в общем, все что угодно, кроме фактического положения дел.
Недавно я услышал как один уважаемый профессор доказывал необходимость запрета показывать по ТВ «сцены насилия и убийства», и даже просто сообщений с описанием реальных преступлений тем, что 80% статистических исследований доказывают необходимость такого запрета. Так вот, он просто вешал вам на уши лапшу, а его «доказательство» некорректно. Что касается отдельных случаев, когда преступление совершается по образу и подобию киношных сценариев, так это вообще не может быть доказательством- возможно, на одного потенциального преступника, отождествляющего себя с киногероем- преступником, приходится десять, представляющих себя в роли жертвы, что привило им отвращение к убийству, и еще десять, избавившихся от чрезмерной беспечности и постаравшихся усилить свою безопасность и защиту.
А ведь при опросе, именно эти 20, испытавших неприязнь, выскажутся,скорее всего, за запрет.
Но это не имеет значение.
Опросите школьников относительно того, как они отнесутся к возможности не ходить в школу. Боюсь, что они будут в восторге.
Но разве это довод в пользу прекращения образования?

Рецензии

Конечно не довод.Я вообще считаю,что статистика это своего рода замануха для не знающих людей.Например:35% людей в России уже имеют в доме сосудомойку,50%нет,остальные не знают, что это такое.Так вот эти 50% думают:"А мы чем хуже". И процент у кого есть это "чудо техники" увеличивается.Вот и вся статистика

Каков процент подтасовки статистических данных в научных работах по психологии, какие ошибки выявила программа проверки и чем она похожа на Т9, выяснил сайт.

Программы могут не только постмодернистские тексты песен, путь в Лондонском метро, моделировать процессы и в банке, но и искать ошибки в работах нечестных или невнимательных психологов. сайт рассказывает, как компьютер выявляет неточности в научных работах и к чему это может привести.

Блеск и нищета современной психологии

Балансируя между «житейскими мудростями» и философско-метафизическими категориями на тоненькой ниточке непротиворечивых данных, «наука о душе» постоянно подвергается опасности перегибов. Копаться во внутреннем мире людей (если не рассматривать анатомическую сторону вопроса) никогда не было просто, поэтому исследования психологов с трудом поддаются верификации. Имея очень субъективный предмет изучения, психология некоторыми своими отраслями и разделами пересекается с медициной и нейробиологией, а другими выходит за грань научного: даже доктор психологических наук и заместитель директора Института психологии РАН Андрей Юревич определил место психологии между наукой и паранаукой. Даже примененные по всем правилам научной методологии, подходы психологии порой не дают удовлетворительных результатов. Если в более тщательной и долгой работе с одним человеком можно предположить уникальность случая и заявить, что экстраполировать выводы на всех людей нельзя, то в большой группе трудно понять, какое в действительности значение имеют для каждого участника исследования унифицированные вопросы и ответы. К тому же, у испытуемых всегда могут быть внутренние причины скрывать какую-либо информацию и отвечать на вопросы не до конца честно. Поэтому рефлексию (обращение внимания человека внутрь себя) нельзя считать инструментом, позволяющим добыть абсолютно достоверную информацию. о компьютерном алгоритме, который выявил потенциальные ошибки в почти восьми тысячах психологических статей (и это только в период с 1985 по 2013 год и только в восьми научных психологических журналах) сработала как палка, разворошившая осиное гнездо, и без того неспокойное из-за постоянных споров. Под руководством Мишель Нюйтен было проанализировано 30 717 статей, из них 16 695 использовали статистические данные. В половине из этих работ была как минимум одна предполагаемая статистическая ошибка, на которую указала программа.

Когда исследование проводится на большой группе испытуемых, для обработки используются статистические методы. Популярное высказывание «существует три вида лжи: ложь, наглая ложь и статистика», авторство которого так туманно, что более ста лет назад Марк Твен приписал его Бенджамину Дизраэли (но уже не был уверен, откуда оно на самом деле пошло), не так уж далеко от истины. В области человеческого знания, где так сложно создавать теории, обладающие достоверной предсказательной силой (вспомните того же Зигмунда Фрейда или Альфреда Адлера), риск случайной ошибки и соблазн сознательной «подгонки» действительного результата под желаемый довольно высок.

Как компьютер «поймал с поличным» нечестных психологов

Программа, которая подтвердила справедливость этого ироничного наблюдения, называется Statcheck. Она анализирует P-значение (p-value) - величину, которую ученые используют для проверки статистических гипотез. Эта цифра показывает, насколько вероятен полученный результат, если нулевая гипотеза, лежащая в основе исследования, верна. В статье, которая была опубликована в журнале Behavior Research Methods, показано, что программа оценила достоверность более чем 258 000 p-значений (примерно 11 на каждую научную работу) за два часа, обнаружив, что 13% работ содержат ошибку, которая «переворачивает» полученные данные. В результате, например, P < 0,05 превращается в P = 0,05, или некоторые знаки после запятой просто отбрасываются, а не влияют на следующий знак по правилам округления чисел. Казалось бы, такое маленькое различие не должно серьезно влиять на результат, однако чаще всего P = 0,05 принимается как пограничное значение между статистически достоверным и недостоверным результатом. В итоге малейшее отклонение в одну или в другую сторону делает вывод в статье ложноположительным или ложноотрицательным.

Первоначально программа работала с литературой в целом, но один из соавторов исследования, Крис Хартгеринк, специалист по научной методологии из Тильбургского университета (Нидерланды), предложил сконцентрировать внимание на более специфических текстах - научных статьях. Он же позднее, в августе этого года, загрузил на проверку 50 000 статей и выложил результаты в Pub Peer (форум ученых, где они часто обсуждают вышедшие научные статьи), вызвав огромный резонанс в профессиональном сообществе. По мнению Хатгеринка, такие посты будут информировать авторов о возможных ошибках и «принесут науке гораздо больше пользы, чем просто свалка данных». С ним, как сообщает дискуссионная статья Монии Бейкер в Nature, согласны не все. Часть ученых, в том числе представители Немецкой психологической ассоциации, предупреждает, что ложноотрицательные результаты (здесь подразумевается исправление компьютером правильных данных на неправильные) могут скорее навредить репутации ученых, чем помочь развитию психологии как науки. Исполнительный директор Ассоциации психологических наук в Вашингтоне в ответ на публикацию заявил, что осуждает «повальное очернение» психологов в блогах и социальных медиа, явственно дав понять, что публикации результатов компьютерного анализа с указанием на возможные ошибки должны расцениваться как оскорбление.

Statcheck и P-value: кого в топку, кого в топ?

С другой стороны, подобные посты продвигают концепцию открытой науки (кстати, и Нюйтен, и Хартгеринк имеют награды от организаций, поощряющих развитие этого направления), которая позволит быстрее находить и корректировать статистические неточности. По мнению Ника Брауна, ученого-психолога из Университета Гронингема в Нидерландах, такие алгоритмы помогут только в том случае, если исследователи начнут читать их и оценивать с точки зрения специалистов, а не просто проникаться недоверием к журналу, опубликовавшему сомнительные статьи с ошибками.

На данный момент уже несколько тысяч человек, воодушевленных этой возможностью, бесплатно скачали эту программу, написанную на языке программирования R.

Однако Statcheck и сам может делать ошибки, как заявляет Томас Шмидт, критикуя программу . Например, она не всегда учитывает необходимые статистические погрешности и порой не может понять, что неверно в статье: P-значение или относительный параметр. Просканировав две статьи с большим количеством статистических данных, он обнаружил, что программа не смогла оценить 43 параметра, проверила 137 и определила 35 как «потенциально некорректные». Два из них оказались ошибками, не влияющими на результат, три были ошибками в других параметрах, не касающихся P-value, а остальные 30 оказались результатом «ложной тревоги».

Некоторые психологические журналы и вовсе начинают отказываться от p-value для проверки достоверности гипотез, считая этот параметр недостаточно надежным.

Сами создатели не отрицают, что их программа «никогда не будет столь же точна, как проверка вручную», но подчеркивают быстроту ее работы: если на проверку достоверности значения P-value одной средней психологической статьи уходит около десяти минут, то программа может справится с десятками тысяч в считанные часы, что незаменимо для проведения мета-анализа или первичной проверки присылаемых редакторам научных журналов статей. В этом качестве ее уже с июля этого года используют редакторы журнала Psychological Science. Они сравнивают эту программу с корректорами Word или T9, над нелепостью которых все смеются, но отказаться от них согласились бы немногие. Как и эти автокорректоры, Statcheck, по их мнению, можно считать «удобным инструментом, который иногда говорит глупости».