November 29, 2011
В русскоязычной википедии изложен довольно заковыристо и с минимум примеров:
Парадокс Симпсона — статистический парадокс, согласно которому фактор, больше проявляющийся при любых фоновых условиях, чем противоположный ему, проигрывает менее эффективному, но относительно часто встречающемуся фактору. Эффект этого парадокса на удивление часто проявляется в области социологических наук и медицинской статистике; это происходит, когда весовая переменная не учитывается для одной группы, но должна использоваться при расчётах общих оценок.
Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блит в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединений».
Суть тем не менее значительно проще. Парадокс Симпсона - это когда тенденции, наблюдаемые в группированных данных, оказываются прямо противоположными при объединении этих групп.
Чтобы было уж совсем понятно, переведу пример из англоязычной статьи на ту же тему:
Однажды проводилось медицинское исследование на тему о том, какое лечение лучше для камней в почках. Исследовалось 2 методики лечения - лечение А и лечение Б. Результаты были следующими:
| Методика А | Методика Б |
Маленькие Камни | Группа 1: 93% (81/87) | Группа 2: 87% (234/270) |
Большие Камни | Группа 3: 73% (192/263) | Группа 4 69% (55/80) |
Всего | 78% (273/350) | 83% (289/350) |
Процент показывает успешные случаи излечения. Что мы имеем по этим результатам? Что методика А была лучше чем методика Б как в случае маленьких камней, так и в случае больших камней, но тем не менее по суммарному результату методика А выглядит хуже, чем методика Б.
Казалось бы, это бред, противоречащий здравому смыслу. Почему так получилось? А потому, что группы были выбраны не независимо. Методика А считалась врачами более серьезной и потому ее больше использовали для ситуации с большими камнями, а пациенты с легкими случаями больше попадали в группу 2, для которой использовалась методика Б. Поскольку случаи были легкие, то и результаты лечения были более удачными, не смотря на использование менее эффективной методики, чем в группе 3, состоящей из более тяжелых случаев, но составляющей большую часть для методики А.
Парадокс Симпсона известен людям, занимающимся статистикой профессионально. Но он не известен большинству обычных людей и, к сожалению, многим горе-исследователям от социальных наук и прессы.
Для простых людей совет: Не следует бездумно доверять красивым статистическим данным заказных исследований. Кроме этого парадокса существует и множество других нюансов, из-за которых статистические данные можно извратить так, что результат будет выглядеть прямо противоположным реальности образом, но непрофессионал не заметит манипуляции.
Тема эта всплыла тут:
Когда новый губернатор Висконсина наехал на профсоюзы учителей, они кричали, что он подрывает образование. И объясняли, что в Техасе, где такого профсоюза нету - средний уровень учеников ниже, чем в Висконсине.
Утверждается, однако, что картина меняется, когда ученики группируются по демографии. То есть, черные школьники Техаса более продвинуты, чем черные школьники Висконсина. То же самое про Латино и белых.
Суть тут в том, что успеваемость в среднем среди черных ниже, чем среди латино, а среди латино, в свою очередь, успеваемость в среднем ниже, чем среди белых. Не будем вдаваться в подробности почему это так (это не обязательно генетические различия, они могут быть чисто культурными), но это статистический факт. А в Висконсине, видите ли, белых значительно больше, чем цветных. А в Техасе, расположенном рядом с Мексикой, цветных дохрена. Посему суммарная статистика показала, что в Висконсине уровень учеников выше, чем в Техасе и это то и предьявили губернатору. А при разбиении на расы оказалось, что для всех групп в Техасе уровень учеников выше, чем для таких же групп в Висконсине. Что как раз является истинным положением дел, искажаемым парадоксом Симпсона при суммировании.
Тэги: Разное Nov2011 Полезные сведенья
Комментировать:
Архив:
Jul2024 Jun2024 May2024 Apr2024 Mar2024 Feb2024 Jan2024 Dec2023 Nov2023 Oct2023 Sep2023 Aug2023 Jul2023 Jun2023 May2023 Apr2023 Mar2023 Feb2023 Jan2023 Dec2022 Nov2022 Oct2022 Sep2022 Aug2022 Jul2022 Jun2022 May2022 Apr2022 Mar2022 Feb2022 Jan2022 Dec2021 Nov2021 Oct2021 Sep2021 Aug2021 Jul2021 Jun2021 May2021 Apr2021 Mar2021 Feb2021 Jan2021 Dec2020 Nov2020 Oct2020 Sep2020 Aug2020 Jul2020 Jun2020 May2020 Apr2020 Mar2020 Feb2020 Jan2020 Dec2019 Nov2019 Oct2019 Sep2019 Aug2019 Jul2019 Jun2019 May2019 Apr2019 Mar2019 Feb2019 Jan2019 Dec2018 Nov2018 Oct2018 Sep2018 Aug2018 Jul2018 Jun2018 May2018 Apr2018 Mar2018 Feb2018 Jan2018 Dec2017 Nov2017 Oct2017 Sep2017 Aug2017 Jul2017 Jun2017 May2017 Apr2017 Mar2017 Feb2017 Jan2017 Dec2016 Nov2016 Oct2016 Sep2016 Aug2016 Jul2016 Jun2016 May2016 Apr2016 Mar2016 Feb2016 Jan2016 Dec2015 Nov2015 Oct2015 Sep2015 Aug2015 Jul2015 Jun2015 May2015 Apr2015 Mar2015 Feb2015 Jan2015 Dec2014 Nov2014 Oct2014 Sep2014 Aug2014 Jul2014 Jun2014 May2014 Apr2014 Mar2014 Feb2014 Jan2014 Dec2013 Nov2013 Oct2013 Sep2013 Aug2013 Jul2013 Jun2013 May2013 Apr2013 Mar2013 Feb2013 Jan2013 Dec2012 Nov2012 Oct2012 Sep2012 Aug2012 Jul2012 Jun2012 May2012 Apr2012 Mar2012 Feb2012 Jan2012 Dec2011 Nov2011 Oct2011 Sep2011 Aug2011 Jul2011 Jun2011 May2011 Apr2011 Mar2011 Feb2011 Jan2011 Dec2010 Nov2010 Oct2010 Sep2010 Aug2010 Jul2010 Jun2010 May2010 Apr2010 Mar2010 Feb2010 Jan2010 Dec2009 Nov2009 Oct2009 Sep2009 Aug2009 Jul2009 Jun2009 May2009 Apr2009 Mar2009 Feb2009 Jan2009 Dec2008 Nov2008 Oct2008 Sep2008 Aug2008 Jul2008 Jun2008 May2008 Apr2008 Mar2008 Feb2008 Jan2008 Dec2007 Nov2007 Oct2007 Sep2007 Aug2007 Jul2007 Jun2007 May2007 Apr2007 Mar2007 Feb2007 Jan2007 Dec2006 Nov2006 Oct2006 Sep2006 Aug2006 Jul2006 Jun2006 May2006 |
|
| |