O danych, populacji i próbach statystycznych

Po co analizujemy jakiekolwiek dane? Powodów może być bardzo dużo, ale generalnie wszystkie sprowadzają się do jednego powodu, a mianowicie do pozyskania nowych informacji/nowej wiedzy na podstawie zebranych danych. Dane uzyskujemy na podstawie obserwacji, przesłanych raportów np. sprzedaży, uzyskanych zestawień np. o ilości wytworzonych produktów.

Zbiory danych mogą być przedstawiane w postaci liczbowej, lub w postaci opisowej. W statystyce używa się terminu „populacja”, który obejmuje wszystkie możliwe do uzyskania wyniki oraz terminu „próba” – to wyniki obserwacji, którymi dysponujemy. W zastosowaniach statystycznych wymagane jest, aby próba miała charakter losowy tzn. by była dobrana w sposób gdzie każdy zbiór danych ma równe szanse wyboru.

Jednym z ważniejszych zadań statystyki to wnioskowanie o całej populacji na podstawie próby statystycznej. Czy próba jest większa tym łatwiej wnioskować i szacować parametry całej populacji, co jest naturalną właściwością. Łatwiej wnioskować o zrachowaniach pewnej grupy osób na podstawie oceny większej ilości przedstawicieli niż mniejszej.

Jednak, dla osób nie mających do czynienia ze statystyką na co dzień, pewnym zaskoczeniem może być wielkość próby, którą w statystyce uznaje się za dużą. Duża próbą nazywa się próbę licząca nie mniej niż 30 pozycji. Oczywiście tak zebrane dane muszą mieć charakter losowy. Zatem jak chcemy wnioskować zrachowaniach jakieś grupy osób wystarczy w sposób losowy zebrać dane jedynie od 30 osób. 

Przykład

Załóżmy, ze zbieramy dane o mieszkańcach pewnej małej 15 tysięcznej miejscowości. Interesuje nas spożywanie wina przez mieszkańców miejscowości, zbieramy informacje ile i jakiego rodzaju wina wypijają mieszkańcy.

Populacją w przedstawionym przykładzie będą wszyscy mieszkańcy miejscowości, ale wiadomo, ze nie jesteśmy w stanie uzyskać informacji od wszystkich mieszkańców, nawet gdybyśmy dysponowali nieograniczonym budżetem na badania ankietowe, to i tak okaże się, że ktoś wyjechał, ktoś jest chory, a ktoś zwyczajnie nie ma ochoty udzielać informacji. Dlatego tez nasza informację pozyskamy jedynie od części mieszkańców. Ta cześć, od której uzyskamy dane to próba statystyczna.

Zbiorem liczbowym będą informacje ile wina wypijają poszczególni mieszkańcy należący do próby.

Zbiorem danych jakościowym będą informację o rodzaju wina, które wypijają mieszkańcy należący do próby.

Posiadając zbiór danych (próbę) można określić jego właściwości, tak by podejmując decyzję w oparciu o dane dysponował znanymi charakterystykami opisującymi określony zbiór. Do ilościowego i jakościowego opisu zbioru danych służą powszechnie stosowane miary. Miary zbioru danych stanowią pewien uniwersalny język opisujący zbiór. Dysponując zmierzonymi zbiorami można je porównać do innych, wartościować, podjąć decyzję biznesową itp.

Potocznie mówiąc miara to wartość obliczona na podstawie danych zawartych w zbiorze, która pozwoli na porównanie z innymi zbiorami, dla których obliczono również tą wartość.

Naturalną miarą, która łatwo oddaje właściwości zbioru jest np. jego średnia arytmetyczna. Mamy do porównania dwa zbiory osób: kobiety i mężczyźni liczące po 30 osób. Na podstawie obliczonych średnich możemy porównywać np. wzrost, wagę mężczyzn i kobiet. W statystyce używa się wiele różnych miar, jedne są bardzo intuicyjne, inne zaś wymagają głębszej analizy. Wśród podstawowych miar można wyróżnić: medianę, średnia arytmetyczną, dominantę, rozstęp, centyle, kwartyle, percentyle, wariancję i odchylenie standardowe. O miarach tych napisze w kolejnym wpisie na blogu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *