График пуассона. Закон распределения пуассона
Во многих практически важных приложениях большую роль играет распределение Пуассона. Многие из числовых дискретных величин являются реализациями пуассоновского процесса, обладающего следующими свойствами:
- Нас интересует, сколько раз происходит некое событие в заданной области возможных исходов случайного эксперимента. Область возможных исходов может представлять собой интервал времени, отрезок, поверхность и т.п.
- Вероятность данного события одинакова для всех областей возможных исходов.
- Количество событий, происходящих в одной области возможных исходов, не зависит от количества событий, происходящих в других областях.
- Вероятность того, что в одной и той же области возможных исходов данное событие происходит больше одного раза, стремится к нулю по мере уменьшения области возможных исходов.
Чтобы глубже понять смысл пуассоновского процесса, предположим, что мы исследуем количество клиентов, посещающих отделение банка, расположенное в центральном деловом районе, во время ланча, т.е. с 12 до 13 часов. Предположим, требуется определить количество клиентов, приходящих за одну минуту. Обладает ли эта ситуация особенностями, перечисленными выше? Во-первых, событие, которое нас интересует, представляет собой приход клиента, а область возможных исходов - одноминутный интервал. Сколько клиентов придет в банк за минуту - ни одного, один, два или больше? Во-вторых, разумно предположить, что вероятность прихода клиента на протяжении минуты одинакова для всех одноминутных интервалов. В-третьих, приход одного клиента в течение любого одноминутного интервала не зависит от прихода любого другого клиента в течение любого другого одноминутного интервала. И, наконец, вероятность того, что в банк придет больше одного клиента стремится к нулю, если временной интервал стремится к нулю, например, становится меньше 0,1 с. Итак, количество клиентов, приходящих в банк во время ланча в течение одной минуты, описывается распределением Пуассона.
Распределение Пуассона имеет один параметр, обозначаемый символом λ (греческая буква «лямбда») – среднее количество успешных испытаний в заданной области возможных исходов. Дисперсия распределения Пуассона также равна λ, а его стандартное отклонение равно . Количество успешных испытаний Х пуассоновской случайной величины изменяется от 0 до бесконечности. Распределение Пуассона описывается формулой:
где Р(Х) - вероятность X успешных испытаний, λ - ожидаемое количество успехов, е - основание натурального логарифма, равное 2,71828, X - количество успехов в единицу времени.
Вернемся к нашему примеру. Допустим, что в течение обеденного перерыва в среднем в банк приходят три клиента в минуту. Какова вероятность того, что в данную минуту в банк придут два клиента? А чему равна вероятность того, что в банк придут более двух клиентов?
Применим формулу (1) с параметром λ = 3. Тогда вероятность того, что в течение данной минуты в банк придут два клиента, равна
Вероятность того, что в банк придут более двух клиентов, равна Р(Х > 2) = Р(Х = 3) + Р(Х = 4) + … + Р(Х = ∞) . Поскольку сумма всех вероятностей должна быть равной 1, члены ряда, стоящего в правой части формулы, представляют собой вероятность дополнения к событию Х≤ 2. Иначе говоря, сумма этого ряда равна 1 – Р(Х ≤ 2). Таким образом, Р(Х> 2) = 1 – Р(Х≤2) = 1 – [Р(Х = 0) + Р(Х = 1) + Р(Х = 2)]. Теперь, используя формулу (1), получаем:
Таким образом, вероятность того, что в банк в течение минуты придут не больше двух клиентов, равна 0,423 (или 42,3%), а вероятность того, что в банк в течение минуты придут больше двух клиентов, равна 0,577 (или 57,7%).
Такие вычисления могут показаться утомительными, особенно если параметр λ достаточно велик. Чтобы избежать сложных вычислений, многие пуассоновские вероятности можно найти в специальных таблицах (рис. 1). Например, вероятность того, что в заданную минуту в банк придут два клиента, если в среднем в банк приходят три клиента в минуту, находится на пересечении строки X = 2 и столбца λ = 3. Таким образом, она равна 0,2240 или 22,4%.
Рис. 1. Пуассоновская вероятность при λ = 3
Сейчас вряд ли кто-то будет пользоваться таблицами, если под рукой есть Excel с его функцией =ПУАССОН.РАСП() (рис. 2). Эта функция имеет три параметра: число успешных испытаний Х , среднее ожидаемое количество успешных испытаний λ, параметр Интегральная , принимающий два значения: ЛОЖЬ – в этом случае вычисляется вероятность числа успешных испытаний Х (только Х), ИСТИНА – в этом случае вычисляется вероятность числа успешных испытаний от 0 до Х.
Рис. 2. Расчет в Excel вероятностей распределения Пуассона при λ = 3
Аппроксимация биноминального распределения с помощью распределения Пуассона
Если число n велико, а число р - мало, биномиальное распределение можно аппроксимировать с помощью распределения Пуассона. Чем больше число n и меньше число р , тем выше точность аппроксимации. Для аппроксимации биномиального распределения используется следующая модель Пуассона.
где Р(Х) - вероятность X успехов при заданных параметрах n и р , n - объем выборки, р - истинная вероятность успеха, е - основание натурального логарифма, X - количество успехов в выборке (X = 0, 1, 2, …, n ).
Теоретически случайная величина, имеющая распределение Пуассона, принимает значения от 0 до ∞. Однако в тех ситуациях, когда распределение Пуассона применяется для приближения биномиального распределения, пуассоновская случайная величина - количество успехов среди n наблюдений - не может превышать число n . Из формулы (2) следует, что с увеличением числа n и уменьшением числа р вероятность обнаружить большое количество успехов уменьшается и стремится к нулю.
Как говорилось выше, математическое ожидание µ и дисперсия σ 2 распределения Пуассона равны λ. Следовательно, при аппроксимации биномиального распределения с помощью распределения Пуассона для приближения математического ожидания следует применять формулу (3).
(3) µ = Е(Х) = λ = np
Для аппроксимации стандартного отклонения используется формула (4).
Обратите внимание на то, что стандартное отклонение, вычисленное по формуле (4), стремится к стандартному отклонению в биномиальной модели – , когда вероятность успеха p стремится к нулю, и, соответственно, вероятность неудачи 1 – р стремится к единице.
Предположим, что 8% шин, произведенных на некотором заводе, являются бракованными. Чтобы проиллюстрировать применение распределения Пуассона для аппроксимации биномиального распределения, вычислим вероятность обнаружить одну дефектную шину в выборке, состоящей из 20 шин. Применим формулу (2), получим
Если бы мы вычислили истинное биномиальное распределение, а не его приближение, то получили бы следующий результат:
Однако эти вычисления довольно утомительны. В то же время, если вы используете Excel для вычисления вероятностей, то применение аппроксимации в виде распределения Пуассона становится излишним. На рис. 3 показано, что трудоемкость вычислений в Excel одинакова. Тем не менее, этот раздел, на мой взгляд, полезен понимаем того, что при некоторых условиях биноминальное распределение и распределение Пуассона дают близкие результаты.
Рис. 3. Сравнение трудоемкости расчетов в Excel: (а) распределение Пуассона; (б) биноминальное распределение
Итак, в настоящей и двух предыдущих заметках были рассмотрены три дискретных числовых распределения: , и Пуассона. Чтобы лучше представлять, как эти распределения соотносятся друг с другом приведем небольшое дерево вопросов (рис. 4).
Рис. 4. Классификация дискретных распределений вероятностей
Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 320–328
Где λ равна среднему числу появления событий в одинаковых независимых испытаниях, т.е. λ = n × p, где p – вероятность события при одном испытании, e = 2,71828 .
Ряд распределения закона Пуассона имеет вид:
Назначение сервиса . Онлайн-калькулятор используется для построения Пуассоновского распределения и вычисления всех характеристик ряда: математического ожидания, дисперсии и среднеквадратического отклонения. Отчет с решением оформляется в формате Word . В случае, когда n велико, а λ = p·n > 10 формула Пуассона дает очень грубое приближение и для расчета P n (m) используют локальную и интегральную теоремы Муавра-Лапласа .
Числовые характеристики случайной величины Х
Математическое ожидание распределения ПуассонаM[X] = λ
Дисперсия распределения Пуассона
D[X] = λ
Пример №1
. Семена содержат 0.1% сорняков. Какова вероятность при случайном отборе 2000 семян обнаружить 5 семян сорняков?
Решение.
Вероятность р мала, а число n велико. np = 2 P(5) = λ 5 e -5 /5! = 0.03609
Математическое ожидание
: M[X] = λ = 2
Дисперсия
: D[X] = λ = 2
Пример №2
. Среди семян ржи имеется 0.4% семян сорняков. Составить закон распределения числа сорняков при случайном отборе 5000 семян. Найти математическое ожидание и дисперсию этой случайной величины.
Решение. Математическое ожидание: M[X] = λ = 0.004*5000 = 20. Дисперсия: D[X] = λ = 20
Закон распределения:
X | 0 | 1 | 2 | … | m | … |
P | e -20 | 20e -20 | 200e -20 | … | 20 m e -20 /m! | … |
Пример №3
. На телефонной станции неправильное соединение происходит с вероятностью 1/200. Найдите вероятность того, что среди 200 соединений произойдет:
а) ровно одно неправильное соединение;
б) меньше чем три неправильных соединения;
в) больше чем два неправильных соединения.
Решение.
По условию задачи вероятность события мала, поэтому используем формулу Пуассона (15).
а) Задано: n = 200, p = 1/200, k = 1. Найдем P 200 (1).
Получаем: . Тогда P 200 (1) ≈ e -1 ≈ 0,3679.
б) Задано: n = 200, p = 1/200, k < 3. Найдем P 200 (k < 3).
Имеем: a = 1.
в) Задано: n = 200, p = 1/200, k > 2. Найдем P 200 (k > 2).
Эту задачу можно решить проще: найти вероятность противоположного события, так как в этом случае нужно вычислить меньше слагаемых. Принимая во внимание предыдущий случай, имеем
Рассмотрим случай, когда n является достаточно большим, а p - достаточно малым; положим np = a, где a - некоторое число. В этом случае искомая вероятность определяется формулой Пуассона:
Вероятность появления k событий за время длительностью t можно также найти по формуле Пуассона:
где λ - интенсивность потока событий, то есть среднее число событий, которые появляются в единицу времени.
Пример №4 . Вероятность того, что деталь бракованная, равна 0.005. проверяется 400 деталей. Укажите формулу вычисления вероятности того, что больше 3 деталей оказались с браком.
Пример №5
. Вероятность появления бракованных деталей при их массовом производстве равна p. определить вероятность того, что в партии из N деталей содержится а) ровно три детали; б) не более трех бракованных деталей.
p=0,001; N = 4500
Решение.
Вероятность р мала, а число n велико. np = 4.5 < 10. Значит случайная величина Х – распределена по Пуассоновскому распределению. Составим закон.
Случайная величина X имеет область значений (0,1,2,...,m). Вероятности этих значений можно найти по формуле:
Найдем ряд распределения X.
Здесь λ = np = 4500*0.001 = 4.5
P(0) = e - λ = e -4.5 = 0.01111
P(1) = λe -λ = 4.5e -4.5 = 0.04999
Тогда вероятность того, что в партии из N деталей содержится ровно три детали, равна:
Тогда вероятность того, что в партии из N деталей содержится не более трех бракованных деталей:
P(x<3) = P(0) + P(1) + P(2) = 0,01111 + 0,04999 + 0,1125 = 0,1736
Пример №6
. Автоматическая телефонная станция получает в среднем за час N вызовов. Определить вероятность того, что за данную минуту она получит: а) ровно два вызова; б) более двух вызовов.
N = 18
Решение.
За одну минуту АТС в среднем получает λ = 18/60 мин. = 0,3
Считая, что случайное число X вызовов, поступивших на АТС за одну минуту,
подчиняется закону Пуассона, по формуле найдем искомую вероятность
Найдем ряд распределения X.
Здесь λ = 0.3
P(0) = e - λ = e -0.3 = 0.7408
P(1) = λe -λ = 0.3e -0.3 = 0.2222
Вероятность того, что за данную минуту она получит ровно два вызова:
P(2) = 0,03334
Вероятность того, что за данную минуту она получит более двух вызовов:
P(x>2) = 1 – 0,7408 – 0,2222 – 0,03334 = 0,00366
Пример №7
. Рассматриваются два элемента, работающих независимо друг от друга. Продолжительность времени безотказной работы имеет показательное распределение с параметром λ1 = 0,02 для первого элемента и λ2 = 0,05 для второго элемента. Найти вероятность того, что за 10 часов: а) оба элемента будут работать безотказно; б) только Вероятность того, что за 10 часов элемент №1 не выйдет из строя:
Рещение.
P 1 (0) = e -λ1*t = e -0.02*10 = 0,8187
Вероятность того, что за 10 часов элемент №2 не выйдет из строя:
P 2 (0) = e -λ2*t = e -0.05*10 = 0,6065
а) оба элемента будут работать безотказно;
P(2) = P 1 (0)*P 2 (0) = 0,8187*0,6065 = 0,4966
б) только один элемент выйдет из строя.
P(1) = P 1 (0)*(1-P 2 (0)) + (1-P 1 (0))*P 2 (0) = 0.8187*(1-0.6065) + (1-0.8187)*0.6065 = 0.4321
Пример №7
. Производство даёт 1% брака. Какова вероятность того, что из взятых на исследование 1100 изделий выбраковано будет не больше 17?
Примечание
: поскольку здесь n*p =1100*0.01=11 > 10, то необходимо использовать
Как сразу стали поступать запросы: «Где Пуассон? Где задачи на формулу Пуассона?» и т.п . И поэтому я начну с частного применения распределения Пуассона – ввиду большой востребованности материала.
Задача до боли эйфории знакома:
И следующие две задачи принципиально отличаются от предыдущих:
Пример 4
Случайная величина подчинена закону Пуассона с математическим ожиданием . Найти вероятность того, что данная случайная величина примет значение, меньшее, чем ее математическое ожидание.
Отличие состоит в том, что здесь речь идёт ИМЕННО о распределении Пуассона.
Решение
: случайная величина принимает значения с вероятностями:
По условию, , и тут всё просто: событие состоит в трёх несовместных исходах :
Вероятность того, что случайная величина примет значение, меньшее, чем ее математическое ожидание.
Ответ :
Аналогичная задача на понимание:
Пример 5
Случайная величина подчинена закону Пуассона с математическим ожиданием . Найти вероятность того, что данная случайная величина примет положительное значение.
Решение и ответ в конце урока.
Помимо приближения биномиального распределения (Примеры 1-3), распределение Пуассона нашло широкое применение в теории массового обслуживания для вероятностной характеристики простейшего потока событий. Постараюсь быть лаконичным:
Пусть в некоторую систему поступают заявки (телефонные звонки, приходящие клиенты и т.д.). Поток заявок называют простейшим , если он удовлетворяет условиям стационарности , отсутствия последствий и ординарности . Стационарность подразумевает то, что интенсивность заявок постоянна и не зависит от времени суток, дня недели или других временнЫх рамок. Иными словами, не бывает «часа пик» и не бывает «мёртвых часов». Отсутствие последствий означает, что вероятность появления новых заявок не зависит от «предыстории», т.е. нет такого, что «одна бабка рассказала» и другие «набежали» (или наоборот, разбежались). И, наконец, свойство ординарности характеризуется тем, что за достаточно малый промежуток времени практически невозможно появление двух или бОльшего количества заявок. «Две старушки в двери?» – нет уж, увольте.
Итак, пусть в некоторую систему поступает простейший поток заявок со средней интенсивностью заявок в минуту (в час, в день или в произвольный промежуток времени). Тогда вероятность того, что за данный промежуток времени , в систему поступит ровно заявок, равна:
Пример 6
Звонки в диспетчерскую такси представляет собой простейший пуассоновский поток со средней интенсивностью 30 вызовов в час. Найти вероятность того, что: а) за 1 мин. поступит 2-3 вызова, б) в течение пяти минут будет хотя бы один звонок.
Решение
: используем формулу Пуассона:
а) Учитывая стационарность потока, вычислим среднее количество вызовов за 1 минуту:
вызова – в среднем за одну минуту.
По теореме сложения вероятностей несовместных событий:
– вероятность того, что за 1 минуту в диспетчерскую поступит 2-3 вызова.
б) Вычислим среднее количество вызов за пять минут:
Распределение Пуассона.
Рассмотрим наиболее типичную ситуацию, в которой возникает распределение Пуассона. Пусть событие А появляется некоторое число раз в фиксированном участке пространства (интервале, площади, объеме) или промежутке времени с постоянной интенсивностью. Для определенности рассмотрим последовательное появление событий во времени, называемое потоком событий. Графически поток событий можно иллюстрировать множеством точек, расположенных на оси времени.
Это может быть поток вызовов в сфере обслуживания (ремонт бытовой техники, вызов скорой помощи и др.), поток вызовов на АТС, отказ в работе некоторых частей системы, радиоактивный распад, куски ткани или металлические листы и число дефектов на каждом из них и др. Наиболее полезным распределение Пуассона оказывается в тех задачах, где требуется определить лишь число положительных исходов («успехов»).
Представим себе булку с изюмом, разделенную на маленькие кусочки равной величины. Вследствие случайного распределения изюминок нельзя ожидать, что все кусочки будут содержать их одинаковое число. Когда среднее число изюминок, содержащееся в этих кусочках, известно, тогда распределение Пуассона задает вероятность того, что любой взятый кусочек содержит X =k (k = 0,1,2,...,)число изюминок.
Иначе говоря, распределение Пуассона определяет, какая часть длинной серии кусочков будет содержать равное 0, или 1, или 2, или и т.д. число изюминок.
Сделаем следующие предположения.
1. Вероятность появления некоторого числа событий в данном промежутке времени зависит только от длины этого промежутка, а не от его положения на временной оси. Это свойство стационарности.
2. Появление более одного события в достаточно малом промежутке времени практически невозможно, т.е. условная вероятность появления в этом же интервале другого события стремится к нулю при ® 0. Это свойство ординарности.
3. Вероятность появления данного числа событий на фиксированном промежутке времени не зависит от числа событий, появляющихся в другие промежутки времени. Это свойство отсутствия последействия.
Поток событий, удовлетворяющий перечисленным предложениям, называется простейшим .
Рассмотрим достаточно малый промежуток времени . На основании свойства 2 событие может появиться на этом промежутке один раз или совсем не появиться. Обозначим вероятность появления события через р , а непоявления – через q = 1-p. Вероятность р постоянна (свойство 3) и зависит только от величины (свойство 1). Математическое ожидание числа появлений события в промежутке будет равно 0×q + 1×p = p . Тогда среднее число появления событий в единицу времени называется интенсивностью потока и обозначается через a, т.е. a = .
Рассмотрим конечный отрезок времени t и разделим его на n частей = . Появления событий в каждом из этих промежутков независимы (свойство 2). Определим вероятность того, что в отрезке времени t при постоянной интенсивности потока а событие появится ровно X = k раз и не появится n – k . Так как событие может в каждом из n промежутков появиться не более чем 1 раз, то для появления его k раз на отрезке длительностью t оно должно появиться в любых k промежутках из общего числа n. Всего таких комбинаций , а вероятность каждой равна . Следовательно, по теореме сложения вероятностей получим для искомой вероятности известную формулу Бернулли
Это равенство записано как приближенное, так как исходной посылкой при его выводе послужило свойство 2, выполняемое тем точнее, чем меньше . Для получения точного равенства перейдем к пределу при ® 0 или, что то же, n ® . Получим после замены
P = a = и q = 1 – .
Введем новый параметр = at , означающий среднее число появлений события в отрезке t . После несложных преобразований и переходу к пределу в сомножителях получим.
= 1, = ,
Окончательно получим
, k = 0, 1, 2, ...
е = 2,718... –основание натурального логарифма.
Определение . Случайная величина Х , которая принимает только целые, положительные значения 0, 1, 2, ... имеет закон распределения Пуассона с параметром , если
для k = 0, 1, 2, ...
Распределение Пуассона было предложено французским математиком С.Д. Пуассоном (1781-1840 гг). Оно используется для решения задач исчисления вероятностей относительно редких, случайных взаимно независимых событий в единицу времени, длины, площади и объема.
Для случая, когда а) – велико и б) k = , справедлива формула Стирлинга:
Для расчета последующих значений используется рекуррентная формула
P (k + 1) = P (k ).
Пример 1. Чему равна вероятность того, что из 1000 человек в данный день родились: а) ни одного, б) один, в) два, г) три человека?
Решение. Так как p = 1/365, то q = 1 – 1/365 = 364/365 » 1.
Тогда
а) ,
б) ,
в) ,
г) .
Следовательно, если имеются выборки из 1000 человек, то среднее число человек, которые родились в определенный день, соответственно будут равны 65; 178; 244; 223.
Пример 2. Определить значение , при котором с вероятностью Р событие появилось хотя бы один раз.
Решение. Событие А = {появиться хотя бы один раз} и = {не появиться ни одного раза}. Следовательно .
Отсюда и .
Например, для Р = 0,5 , для Р = 0,95 .
Пример 3. На ткацких станках, обслуживаемых одной ткачихой, в течение часа происходит 90 обрывов нити. Найти вероятность того, что за 4 минуты произойдет хотя бы один обрыв нити.
Решение. По условию t = 4 мин. и среднее число обрывов за одну минуту , откуда . Требуемая вероятность равна .
Свойства . Математическое ожидание и дисперсия случайной величины, имеющей распределение Пуассона с параметром , равны:
M (X ) = D (X ) = .
Эти выражения получаются прямыми вычислениями:
Здесь была осуществлена замена n = k – 1 и использован тот факт, что .
Выполнив преобразования, аналогичные использованным при выводе М (X ), получим
Распределение Пуассона используется для аппроксимации биноминального распределения при больших n