Характеристика та аналіз статистичних даних. Середні величини та показники варіації

Будь-яке статистичне дослідження, незалежно від його об’єму, крім оцінки відносного рівня досліджуваного явища чи його структури, завершується розрахунком та оцінкою узагальнюючих статистичних критеріїв. Найбільш поширеною формою статистичних показників є середні величини, які дають узагальнену кількісну характеристику певної ознаки в статистичній сукупності за певних умов місця та часу. Вони відображають типові риси варіаційних ознак досліджуваних явищ. Зважаючи на те, що кількісна характеристика ознаки пов’язана з її якісною стороною, середні величини слід розглядати тільки у світлі умов якісного аналізу. Крім узагальнюючої оцінки певної ознаки необхідність визначення середніх для сукупності мінливих кількісних величин виникає також тоді, коли порівнюють дві їх групи, які якісно відрізняються одна від одного.В практиці охорони здоров’я середні величини використовують досить широко:

• для характеристики організації роботи закладів охорони здоров’я (середня зайнятість ліжка, термін перебування в стаціонарі, кількість відвідувань на одного мешканця та інше);

• для характеристики показників фізичного розвитку (довжина, маса тіла, окружність голови новонароджених та інше);

• для визначення медико-фізіологічних показників організму (частота пульсу, дихання, рівня артеріального тиску та ін.);

• для оцінки даних медико-соціальних та санітарно-гігієнічних досліджень (середнє число лабораторних досліджень, середні норми харчового раціону, рівень радіаційного забруднення та інші).

За допомогою середніх можна порівнювати між собою сукупності, що мають різну варіабельність ознак. Середні величини широко використовуються для порівняння у часі, що дозволяє характеризувати найважливіші закономірності розвитку явища. Так, наприклад, закономірність збільшення росту дітей певного віку знаходить своє вираження в узагальнених показниках фізичного розвитку. Закономірності динаміки (збільшення чи зменшення) частоти пульсу, дихання, клінічних параметрів при певних захворюваннях знаходять свій прояв у статистичних показниках, які відображають фізіологічні параметри організму та інше. При цьому в окремих індивідуальних випадках дана тенденція не завжди буде визначатися. Наприклад, при лабораторних дослідженнях діагностується загальне збільшення числа лейкоцитів, яке виявляють у певних осіб під впливом тих чи інших причин (радіаційне забруднення території). В різні роки рівень даного параметра може не збільшуватися, проявлятися неоднаково в регіонах внаслідок різних конкретних умов. У зв’язку з цим дуже важливо, щоб середні показники були обгрунтовані на масовому узагальненні фактів. Це дозволяє виявити загальну тенденцію та показати типовий для даного періоду часу та регіону рівень явища. В такій ситуації середні величини нівелюють випадкові відхилення індивідуальних величин від загальної тенденції, які притаманні генеральній сукупності. В цьому проявляється дія закону великих чисел.

Найчастіше при вивченні медико-біологічних даних використовуються:

• середня арифметична;

• середня гармонійна;

• середня геометрична.

Крім того, практичне застосування знаходять узагальнюючі описові (непараметричні) характеристики варіативних ознак – мода і медіана.

Середні величини повинні визначатися на основі масового узагальнення фактів та застосовуватися до якісно однорідних сукупностей – це основна умова їх практичного та наукового використання. Середні величини не можна визначати, якщо сукупність досліджуваних ознак, процесів, явищ складаєтьсяз неоднорідних елементів. Обгрунтованість середніх величин набуває науково- практичного значення тільки за умови правильного групування. Основними вимогами при розрахунку середньої величини є якісно однорідна сукупність та достатнє число спостережень. Якісно однорідна сукупність означає, що всі її одиниці належатьдо одного виду явищ. Наприклад, число днів непрацездатності хворих за певною нозологічною формою, маса дітей – хлопчиків 7 років; пульс дітей одного віку при певному захворюванні та інше. Змішування сукупностей, які визначаються різними якісними ознаками, призводить до розрахунку нетипових середніх величин. Таким чином, середні величини в статистиці тільки тоді можуть бути основою наукового аналізу, коли відображають якісно однорідну сукупність. Якісна однорідність явищ, їх типовість, базується на основі теоретичного аналізу їх суті.

Обов’язковою умовою, якій повинен відповідати наявний статистичний матеріал для розрахунку середніх величин, є також достатнє число спостережень. Даний критерій можна визначити за допомогою формул, які представлені у розділі “Організація та проведення статистичного дослідження”.

Окремі елементи (значення) сукупності однорідних за якісним складом предметів, явищ, параметрів єваріантами, а всю їх сукупність можна представити у виглядіваріаційного ряду, який є основою для визначення середніх величин. Варіаційний ряд – це ряд варіант і відповідних їм частот. Варіаційні ряди дають можливість встановити характер розподілу одиниць сукупності за тією чи іншою кількісною ознакою та її варіацію – різноманітність індивідуальних значень ознак конкретних одиниць сукупності.

Окремі значення варіант певної ознаки позначаються літерою х. Число, яке показує, як часто зустрічається та чи інша варіанта у складі даного ряду, називається частотою (ї). Сума частот (Хї) дорівнює загальному числу спостережень (п).

Варіаційний ряд може бутипростим, де кожна варіанта представлена окремо, тому частота кожної з них дорівнює одиниці. Наприклад, розподіл хворих за частотою пульсу: 68, 69, 75, 70, 65, 68, 70, 75, 74, 72, 72, 68. Даний ряд є також нерангованим, тому що варіанти не систематизовані. Систематизувавши варіанти в порядку збільшення чи зменшення їх числового значення, даний ряд можна перетворити в рангований: 65, 68, 68, 68, 69, 70, 70, 72, 72, 74, 75, 75.

Якщо варіанти згрупувати за їх абсолютним значенням, то можна отримати згрупованийваріаційний ряд, де кожна варіанта представлена зі своєю частотою. Для нашого прикладу:

X 66 68 69 70 72 74 75 Р 1 3 1 2 2 1 2

Наведений згрупований ряд є неінтервальним,тому що групування проведено без конкретного інтервалу за абсолютним значенням кожної варіанти.

Варіаційні ряди, де значення варіант представлено у вигляді інтервалів, називаються інтервальними. У вигляді інтервального ряду часто представляють ознаки зі значною кількістю варіант. При цьому значення кожної варіанти представлено у вигляді інтервалу (табл. 1).

Таблиця 1

Розподіл хлопчиків 7 років за зростом

Зріст (х)

Число хлопчиків (0

125,0-126,9

4

127,0-128,9

12

129,0-130,9

8

131,0-132,9

4

Всього

п — 28

У наведеному прикладі (табл. 1) інтервали є закритими – кожен з них має верхню та нижню межу. В практиці зустрічаються відкриті інтервали (вік 60 років і старше, зріст до 120 см та інші). При аналізі ширину відкритого інтервалу, звичайно, вважають рівною ширині суміжного з ним інтервалу.

Згрупований інтервальний варіаційний ряд одержують шляхом об’єднання варіант у групи. При цьому потрібно пам’ятати, що: а) розмір варіаційних груп повинен залежати від природи явища; б) доцільно визначати однакові інтервали; в) межі варіаційних груп не повинні повторюватись.

Всі варіаційні ряди за якісною характеристикою розподіляються на дискретн/(перервні), в яких варіанти можуть бути представлені тільки цілими числами чи отримані в результаті підрахунків (розподіл за частотою пульсу, числом ліжко-днів, відвідувань) та інкретні(безперервні), де варіанти можуть бути представлені як цілими, так і дробовими числами, або є результатом вимірів (табл. 1). Клінічні параметри є здебільшого прикладом інкретних варіант.

В процесі проведення дослідження питання про число варіаційних груп вирішують з огляду на характер матеріалу та чисельність сукупності. Характерні особливості розподілу не виявляться, якщо при незначному числі одиниць спостереження взяти велике число груп, або якщо число груп є недостатнім.

При використанні ЕОМ для обробки статистичних даних групування проводять за стандартними процедурами. Однією з них є формула Стерджеса для визначення оптимального числа груп:

п = 1 + 3,322 •

де: п – число груп;

N – число одиниць спостереження.

Використання даної формули доцільне при великому числі одиниць спостереження.

Іншим варіантом, більш гнучким з практичної точки зору, є метод визначення амплітуди ряду. Для вирішення питання про число груп необхіднопредставити статистичну сукупність у вигляді рангованого ряду, тобто розташувати її одиниці в певному порядку. При чисельності сукупності менше 100 одиниць не доцільно планувати більше 10 груп.

Різниця між максимальним та мінімальним значенням варіант називається розмахом чи амплітудою (хтах~ хтіп).

Етапи складання інтервального варіаційного ряду такі:

• визначення амплітуди ряду;

• визначення числа груп;

• визначення величини інтервалу.

Розрахунок середніх величин базується на значеннях варіант. Якщо варіанта представлена у вигляді інтервалу, за величину її у кожному з них приймають центральну варіанту, тобто середину інтервалу. Для дискретного ряду центральна варіанта визначається як півсума одного інтервалу. Для інкретного ряду (табл. 1) нею є півсума початкових значень двох сусідніх інтервалів:

(125,0 + 127,0) : 2 = 126 см.

Загальну характеристику варіаційного ряду проводять за допомогою наступних параметрів: середньої арифметичної (х ), середнього квадратичного відхилення (5), середньої похибки середньої величини (ш), коефіцієнта варіації (С), амплітуди (хтах– хтіп).

Крім вказаних, у деяких випадках для характеристики ряду доцільно визначати також моду та медіану.

Мода – це варіанта, яка має найбільшу частоту. Моду використовують у тих випадках, коли потрібно дати характеристику ознаки, яка найбільш часто зустрічається в досліджуваній сукупності. її використовують тільки у великих сукупностях.

Медіаною в статистиці називається варіанта, яка займає серединне (центральне) положення у варіаційному ряду. Медіана поділяє ряд навпіл – по обидва боки від неї знаходиться однакова кількість одиниць сукупності.

Середня арифметична – найбільш поширений за частотою використання вид середніх величин. Вона може бути простою і зваженою. Для простого варіаційного ряду, в якому кожна варіанта повторяється один раз, визначається проста середня арифметична, яка розраховується як відношення суми значень варіант до загального числа спостережень.

— _             де: х – значення окремих варіант;

п               п – загальне число спостережень.

Для прикладу за частотою пульсу, наведеного вище, визначимо:

Т7 X 65 + 68 + 68 + 68 + 69 + 70 + 70 + 72 + 72 + 74 + 75 + 75

X = —————————————- —————————————— = 70,5 уд. хв.

Для згрупованого варіаційного ряду визначається зважена середня арифметична. Таким чином:

Т7                      65-1 + 68-3 + 69-1 + 70-2+ 72-2+ 74-1 + 75-2            Л

X – ——— =———————————– ———————————- = 70,5 уд. хв.

п                       12

Частота, з якою зустрічається кожна варіанта, називається “вага” варіанти, а середня арифметична є зваженою, тому що варіанти беруть участь у загальній сумі неодноразово, а ніби зважено за числом відповідних частот.

При визначенні середньої арифметичної для згрупованого інтервального варіаційного ряду: 1) визначають середину інтервалу, як вказано вище; 2) визначають добуток кожної центральної варіанти на відповідну для неї частоту; 3) суму добутків ділять на число спостережень.

Важливі властивості середньої арифметичної:

• Добуток середньої на суму частот завжди дорівнює сумі добутку варіант на частоту.

• Якщо від кожної варіанти відняти якесь довільне число, то нова середня зменшиться на те ж число.

• Якщо до кожної варіанти додати якесь довільне число, то середня збільшиться на те ж число. Друга та третя властивості середньої арифметичної показують, що при зменшенні чи збільшенні варіант на одне і те ж число зменшується чи збільшується рівень ознаки на те ж число.

• Якщо кожну варіанту поділити на якесь довільне число, то середня арифметична зменшується у стільки ж разів.

• Якщо кожну варіанту помножити на якесь довільне число, то середня арифметична збільшується у стільки ж разів.

• Якщо всі частоти (ваги) поділити чи помножити на якесь число, то середня арифметична внаслідок цього не зміниться – якщо ми збільшуємо чи зменшуємо рівнозначно частоти всіх варіант, ми не змінюємо вагу кожної окремої варіанти ряду.

і • Сума відхилень варіант від середньої арифметичної завжди дорівнює нулю. Це значить, що відносно середньої арифметичної взаємно погашаються відхилення варіант в той чи інший бік.

Загальні властивості можна використовувати, щоб полегшити техніку визначення середньої арифметичної варіаційного ряду.

Середня гармонійна розраховується в тих випадках, коли відомими є дані про чисельник при відсутності таких щодо знаменника. Наприклад, необхідно визначити середній час, затрачений на прийом одного хворого, коли відомо, що 5 лікарів вели прийом протягом 8 годин. Кожен з них затратив в середньому на прийом одного хворого відповідно 20; 16; 20; 15; 24 хвилини. Розрахунок має наступну схему: сукупний робочий час лікарів складав: п=8*5=40 годин (2400 хвилин, або 480 хвилин на одного лікаря). Навантаження на кожного лікаря визначається: для першого – 480 : 20 = 24 хворих; для другого – 480 : 16 = 30 хворих і т.д. Сумарно – 130 хворих.

Формула для розрахунку простої середньої гармонійної має вигляд:

5-8-60

п

X.

480 480 480 480 480

—– +——- +——- +——- +——-

20 16 20 15 24

гарм.

Середня геометрична визначається для тих параметрів, зміни значень яких проходять в геометричній прогресії (зміна чисельності населення в період між переписами, результати титрування вакцин, приріст маси тіла новонароджених протягом окремих місяців життя та інше).

Формула для розрахунку простої середньої геометричної має вигляд:

або

п

Логарифм середньої геометричної дорівнює сумі логарифмів всіх членів ряду, розділених на їх число.

Середня арифметична, яка використовується самостійно, сама по собі, часто має обмежене значення тому, що вона не відображає розміри коливання кількісних варіант ряду (варіабельність ряду). Важливою характеристикою ряду є оцінка різноманітності (мінливості, варіабельності) варіант досліджуваної сукупності. Основою даної оцінки є визначення відхилень окремих варіант від середнього значення ряду. Якщо варіаційний ряд більш компактний, варіанти менше відрізняються від середньої арифметичної. Тому можна вважати, що дана середня величина є більш типовою і краще описує дану сукупність. Якщо варіаційний, ряд розкиданий, варіанти значно відрізняються від середньої. В такому випадку середня є менш типовою та не зовсім чітко характеризує ряд і властивості окремих його варіант.

Одним із критеріїв різноманітності варіант ряду є його амплітуда – різниця крайніх значень. Проте, вона не враховує характер їх розподілу. За умови високої компактності розподілу варіант в сукупності і при наявності окремих варіант, що різко відрізняються від інших (“вискакуючі” варіанти), амплітуда не відображатиме істинний характер розподілу.

Іншою величиною мінливості ознак досліджуваної сукупності є середнє квадратичне відхилення (стандартне відхилення), яке позначається символом “сигма” (5). Чим вищим є середнє квадратичне відхилення, тим вищим буде ступінь різноманітності ознак сукупності та менш типовою середня. Наприклад, аналіз організації госпіталізації хворих показав, що середня тривалість доопераційного періоду при плановій госпіталізації у двох стаціонарах складає:

Лікарня № 2 X = 3,2 дня 5 = 0,9 дня

Лікарня № 1 X = 3,1 дня 5 = 0,3 дня

Середня тривалість підготовки до операції в обох стаціонарах практично однакова, проте середнє квадратичне відхилення, що відображає його коливання, в лікарні № 1 значно менше. Це є свідченням вищої типовості середньої величини та, ймовірно, результатом кращої організації госпіталізації і підготовки до оперативного лікування.

У випадках, коли значення ознак більше відхиляються від середньої {лікарня № 2), узагальнююча варіація знаходиться під впливом більш різнорідних умов і досліджувана сукупність хворих за якістю організації їх госпіталізації є менш однорідною. Таким чином, середня величина, яка характеризує цю менш однорідну сукупність, буде менш типовою.

Формула розрахунку середнього квадратичного відхилення така:

– для простого варіаційного ряду;

Для згрупованого варіаційного ряду.

V п-1

Де: п-1 – число спостережень в досліджуваній сукупності (при досить великому числі спостережень – п > ЗО – у формулу замість п-1 можна підставити п); [ – частота варіант; сі = х – X — відхилення кожної варіанти від середньої арифметичної; х – значення варіанти.

Для автоматизації розрахунків і їх програмування більш зручною є формула, яку можна навести в такому вигляді:

для простого варіаційного ряду;

Ух2і-п-Х1

Ш—І—————— – для згрупованого варіаційного ряду.

V п-1

Методику розрахунку середнього квадратичного відхилення розглянемо на прикладі оцінки середньої тривалості лікування хворих з пневмонією в стаціонарі (табл. 2).

Таблиця 2

Терміни лікування хворих з пневмонією в стаціонарі

Число днів (х)

Число хворих (Г)

х-ґ

(1 = х – X

сі2

сі2– Г

14

4

56

-3

9

36

15

6

90

-2

4

24

16

8

128

-1

1

8

17

11

187

-0

0

0

18

10

180

1

1

10

19

5

95

2

4

20

20

4

80

3

9

12

  

п = 48

816

  

  

1=110

у\ 48                                                     V п~\ V 47

Послідовність розрахунку середнього квадратичного відхилення:

• Визначаємо середню арифметичну (х).

• Знаходимо відхилення варіант від середньої арифметичної (сі).

• Підносимо відхилення (сі) в квадрат (для уникнення від’ємних значень та збільшення значень крайніх відхилень).

• Перемножуємо квадрати відхилень на відповідні частоти – та визначаємо їх суму.

• Визначаємо середнє квадратичне відхилення за наведеною формулою.

Для нашого прикладу: 8 = ± 1,5 дня.

Середнє квадратичне відхилення завжди визначають у тих іменованих числах, у яких представлені конкретні вимірювані варіанти та середня. Воно характеризує абсолютну міру варіації – чим більш мінливий, розсіяний ряд, тим “8” буде більше. Чим більше варіюють індивідуальні значення варіант, тим менш точно характеризується варіаційний ряд за допомогою середньої арифметичної.

Практична значимість середнього квадратичного відхилення (сигми) базується на теорії нормального розподілу варіант, згідно з якою їх відхилення від середнього значення в ту чи іншу сторону зустрічаються рівнозначно. Переважна більшість явищ при практичному аналізі медико-біологічних даних мають нормальний розподіл. Теорією статистики доведено, що в нормальному варіаційному ряду знаходиться шість середніх квадратичних відхилень – рівномірно по три з кожного боку від середньої.

Виходячи із значення середньої арифметичної (X ) та середнього квадратичного відхилення (8) при симетричному ряді розподілу можна стверджувати з відомим ступенем вірогідності, що певне число варіант буде знаходитись у визначених межах. Згідно з теорією математичної статистики, що доведено на великих числах спостережень, у межах (X ±18) будуть мати місце не менше 68,3 % всіх варіант даної сукупності. За межами даного інтервалу може бути до 31,7 % всіх спостережень. В межах (Х±28) будуть розташовані близько 95,5 % всіх варіант. Практично весь варіаційний ряд – 99,7 % варіант знаходитиметься в діапазоні (х±38). Окремі варіанти – до 0,3 % досліджуваної сукупності можуть не відповідати загальному характеру розподілу та випадати з нього внаслідок занадто низького чи високого рівня (“вискакуючі” варіанти).

Закономірностями розподілу частот варіаційного ряду можна скористатися при вирішенні практичних завдань. Для наведеного вище прикладу планова доопераційна середня тривалість госпіталізації в лікарні № 1 складає (3,1 ±0,3) дні. Аналіз 200 випадків лікування дозволяє зробити такий висновок: близько 68,3 % хворих (136 чоловік) матимуть тривалість доопераційного періоду всередньому 2,8-3,4 дні (х±15). У 95,5 % хворих (округлено 190 пацієнтів) він становитиме 2,5-3,7 дня (X ±28). Інтервал 2,2-4,0 дні (X ±35) описуватиме тривалість доопераційного періоду практично для всіх обстежених хворих.

Узагальнення представленого матеріалу дозволяє зробити висновок про можливість практичного використання середнього квадратичного відхилення:

• для визначення амплітуди ряду;

• відновлення крайніх його значень;

• визначення ймовірного числа спостережень в певних інтервалах.

Наведені критерії розподілу ознак (“сигмальна оцінка”) використовують для

індивідуальної оцінки показників фізичного розвитку, визначення норм клінічних та фізіологічних параметрів. Інтервал оцінки показників у межах (х±18) в більшості випадків визначає їх середній рівень; в межах (X ±28) – вище чи нижче середніх; в межах (X ±38) – дуже високі, чи дуже низькі рівні показників.

Оцінка середнього квадратичного відхилення залежить не тільки від ступеня варіації ознаки, але й від абсолютних рівнів варіант та середньої. Тому безпосередньо порівнювати середні квадратичні відхилення варіаційних рядів з різними рівнями і одиницями виміру, які характеризують неоднорідні явища (довжина у см, вага у кг), не можна. Для можливості такого зіставлення необхідно визначити для кожного ряду відношення середнього квадратичного відхилення (сигми) до середньої арифметичної у відсотках, тобто визначити коефіцієнт варіації,мінливості (С). Він є відносною мірою варіабельності, яка виражається в абстрактних, а не іменованих числах, критерієм надійності середньої величини і визначається за формулою:

С=-£-100% X

Чим вищий коефіцієнт варіації, тим більша варіабельність даної ознаки. Наприклад, визначили, що після дозованого навантаження середня частота пульсу в обстежених складала Х=90 уд./хв., 8 = 8 уд./хв., а артеріальний тиск X = 135 мм рт. ст., 8 = 7 мм рт. ст.

Коефіцієнт варіації для першого (за частотою пульсу) ряду:

С = —• 100 = 8,89% 90

Коефіцієнт варіації для другого (за артеріальним тиском) ряду:

С = —-100 = 5,18% 135

Для даного прикладу артеріальний тиск є більш сталою ознакою, ніж частота пульсу. Таким чином, коефіцієнти варіації дають більш точну оцінку мінливості явищ та визначають найбільшу (найменшу) варіабельність їх ознак.

Орієнтовними критеріями оцінки варіабельності за його коефіцієнтом можна вважати: низький рівень – до 10 %; середній рівень – 10-20 %, високий рівень – вище 20 %. Високий рівень коефіцієнта свідчить про невисоку точність узагальнюючої характеристики середньої величини, одним із шляхів підвищення якої є збільшення числа спостережень.