Czym jest statystyka? To przede wszystkim dziedzina nauki zajmująca się szeroko rozumianymi danymi ich zbieraniem, analizowaniem, interpretacją i prezentacją. Dosyć powszechną opinia jest, iż statystyka jest nauką dostarczająca wielu precyzyjnych danych, lecz zwykle nikomu niepotrzebnych. Obecnie świat zbiera i gromadzi ogromne ilości różnego rodzaju informacji i danych lecz jedynie bardzo niewielka ich część bywa wtórnie analizowana i wykorzystywana. Właśnie jednym z podstawowych celów statystyki jest rozumienie i opisywanie różnych zjawisk za pomocą liczb, co pozwala podejmować decyzje oraz wyciągać wnioski na podstawie obserwacji i eksperymentów.
Moim zdaniem obserwują rozwój statystyki na przestrzeni czasu można stwierdzić, iż podstawy teorii współczesnej statystyki powstały jako zapotrzebowanie na konkretne problemy powstające w normalnym życiu. Przykładem może być powszechnie używany rozkład t-studenta. (O rozkładach prawdopodobieństw i zmiennych losowych będzie w innym wpisie). Rozkład t-studenta jest stosowany w statystyce do testowania hipotez statystycznych, konstruowania przedziałów ufności oraz do oceny błędów pomiaru – niezależnie od tego co to znaczy, należy w tym momencie przyjąć, że są to istotne pojęcia statystyczne 😊. Przykłady stosowania rozkładu t-studenta będą przedstawione w innych wpisach. Wracając do istoty rozkładu t-studenta to został on opracowany w browarze w Guinnesa to został on opracowany w celu określenia prawdopodobieństwa jakości piwa. William Sealy Gosset, absolwent Uniwersytetu Oksfordzkiego, który pracował w browarze Guinnessa i stworzył statystykę, która pozwalała na dokładne określenie jakości piwa. Swoje prace publikował i podpisywał jako Student, ponieważ w owym czasie pracownicy wielu przedsiębiorstw mieli zakaz publikowania artykułów naukowych, które był uważane za tajemnice przedsiębiorstwa. Zarząd firmy raczej nie miał pojęcia o opracowanych metodach statystycznych. Biorąc pod uwagę, że w 2023 roku browar Guinnesa obchodził swoje 250 lecie, to możemy założyć, ze opracowane metody statystyczne się sprawdziły.
Historia statystyki jest skomplikowana i długa jak historia ludzkości. Jej początki sięgają starożytności, kiedy to ludzie zaczęli zbierać dane i analizować je w celu podejmowania decyzji. Jednak dopiero w XIX wieku statystyka stała się niezależną dziedziną naukową.
Pierwsze próby zbierania danych i analizowania danych podejmowano już w starożytności. Większości opracowań zajmujących się historia statystyki przyjmuje, że jej początku należy upatrywać w starożytnym Egipcie, gdzie prowadzone były spisy ludności i ziemi. Również w Chinach w II wieku p.n.e. zbierano dane o populacji w celu ustalenia podatków. Starożytni Rzymianie także zbierali dane statystyczne do celów podatkowych i wojskowych, stworzyli on system o nazwie Cenzus. Starożytni Grecy używali danych statystycznych do prognozowania pogody i różnego rodzaju zjawisk atmosferycznych, co można uznać za pierwsze udokumentowane próby wykorzystania danych do prognozowania przyszłości.
W średniowieczu statystyka była stosowana przede wszystkim w kontekście administracji, podatków i inwentaryzacji. W Europie zbierano dane o populacji w celu ustalania podatków i poboru rekrutów do wojska. Jednym z najważniejszych momentów tego okresu było utworzenie Domesday Book w 1086 r. przez Wilhelma Zdobywcę, który stanowił szczegółowy rejestr ziemi i majątku w Anglii.
Wiek XV i XVI to era odkryć geograficznych. Głównymi dziedzinami nauki rozwijającym się w owym czasie były geografia i kartografia. Wymienione dziedziny nauk, które w średniowieczu zaczęły się formować, pośrednio wpłynęły także na rozwój statystyki. Metody nawigacyjne, dane o odkrytych lądach, trasy przepływu statków, ich inwentaryzacja to elementy wpływające na rozwój statystyki. Pod koniec średniowiecza zostały sformułowane pojęcia „średnia”, „rozproszenie”. Można uznać, iż okres ten były początkiem powstawania statystyki jako formalnej nauki.
Z powstaniem prawdopodobieństwa i statystyki jako dziedziny nauki w przeszłości był mały problem wynikający z nastawienie w tym zakresie kościoła katolickiego. Wielu duchownych twierdziło, iż wygrana w grach hazardowych ( a do oceny tego zjawiska głownie stosowano prawdopodobieństwo) zależy od woli Boga, a nie od praw naukowych. W 1619 uczony purytanski Thomas Gataker w książce Of the Nature and the Use of Lots zaatakował pogląd, ze wyniki loterii i rzutów kością sa znakiem woli Boga. Stwierdził, ze są one determinowane przez prawa naturalne, choć reguły tych praw naturalnych są nam nieznane.
W 1662 roku John Graunt i William Petty opracowali wczesne metody statystyczne, które zapoczątkowały rozwój demografii. Przykładem może być opracowana tabela życia, która przedstawiała prawdopodobieństwo przeżycia osoby zależnie od wieku.
Przełomowym w rozwoju statystyki był wiek osiemnasty. Wtedy też formalnie zaczęto definiować rachunek prawdopodobieństwa, początkowo jako narzędzie dla hazardzistów, które miało pomagać w osiągnięci coraz wygranych. Pierre’a Simona de Laplace’a zdefiniował klasyczną definicji prawdopodobieństwa (1812), która tłumaczyła ona wiele interesujących wtedy zagorzałych graczy zjawisk, a ponadto dawała poprawne odpowiedzi. Jednak opracowana definicja zawierała zasadniczy błąd (zostanie przedstawiony w osobnym wpisie). Nie mnie jednak niezależnie od hazardzistów pojawiła się grupa matematyków, którzy rozpoczęli opracowanie teorii prawdopodobieństwa łącząc ją z przetwarzaniem danych. Jedną z osób, które wywarły wpływ na rozwój prawdopodobieństwa i statystyki był Jakob Bernoulli. Stworzył on podstawy rachunku prawdopodobieństwa i przyczynił się do rozwoju rachunku różniczkowego i wariacyjnego. Wprowadził pojęcia całki i biegunowego układu współrzędnych. Sformułował także prawo Bernoulliego. Bernoulli był także ojcem prawa wielkich liczb. Najwcześniejszą postać prawa wielkich liczb sformułował szwajcarski matematyk Jakob Bernoulli w 1713 roku w książce Ars Conjectandi.
Wiek XIX do dalszy rozwój statystyki. Jednym z najważniejszych odkryć naukowych w dziedzinie statystyki (o ile tak to można nazwać) było opracowanie rozkładu normalnego zwanego krzywa Gaussa. Rozkład normalny powszechnie występuje w otaczającym nas świecie i pozwala w miarę prosty sposób obliczyć prawdopodobieństwa wystąpienia wielu zjawisk. O rozkładzie normalnym i jego właściwościach będzie osobny wpis, bo to niezmiernie ważny rozkład. Opracowanie rozkładu normalnego umożliwiło efektywną analizę badań, stało się fundamentem dla wielu technik statystycznych. Również w tym okresie Francis Galton rozwijał pojęcia takie jak korelacja i regresja. W XIX wieku zaczęto również rozwijać metody statystyczne do analizy danych. Na przykład w 1821 roku angielski matematyk John Herschel przedstawił metodę do szacowania średniej populacji. W 1832 roku francuski matematyk Pierre-Simon Laplace przedstawił metodę do testowania hipotez statystycznych.
XX wiek to czas dynamicznego i burzliwego rozwoju statystyki. prawdziwego wybuchu w dziedzinie statystyki. W tym okresie powstały techniki takie jak analiza wariancji, metody statystyki bayesowskiej, a także narodziła się dziedzina machine learning, bazująca na statystyce.
Pojawienie się komputerów umożliwiło przeprowadzanie złożonych obliczeń na dużych zestawach danych. W tym okresie powstały techniki takie jak analiza wariancji, metody statystyki bayesowskiej, a także narodziła się dziedzina machine learning, bazująca na statystyce. W XX wieku wiele wybitnych matematyków zajmowało się statystyką. W mojej ocenie najistotniejszy wkład w rozwój statystki wnieśli;
- Ronald A. Fisher: brytyjski statystyk i genetyk, który wprowadził wiele pojęć i metod do statystyki, takich jak test F, analiza wariancji, estymacja maksymalnej wiarygodności, czy test chi-kwadrat1.
- Jerzy Neyman: polski matematyk, który wprowadził pojęcie błędu drugiego rodzaju, a także zaproponował wiele metod statystycznych, takich jak testy Neymana-Pearsona, czy estymacja punktowa1.
- Andrey Kolmogorov: rosyjski matematyk, który wprowadził pojęcie procesu stochastycznego, a także opracował wiele metod statystycznych, takich jak testy zgodności, czy testy niezależności1.
- Harald Cramér: szwedzki matematyk, który wprowadził wiele pojęć i metod do statystyki, takich jak twierdzenie Craméra-Rao, czy testy Craméra-von Misesa1.
Pod koniec XX wieku oraz dzisiaj statystyka jest nieodzownym elementem niemal każdej dziedziny życia. Stosuje się ją w biznesie, naukach społecznych, naukach przyrodniczych, medycynie, ekonomii, a nawet w sztuce.
Statystyka XXI wieku to statystyka oparta o komputerowe przetwarzanie danych i algorytmy sztucznej inteligencji. Pod koniec XX wieku zbieraliśmy niesamowite ilości danych, jednak użyteczność z tego tytuły była niewielka. Jedynie nieduży odsetek zbieranych danych był wykorzystywany. Obecnie dzięki powstającym algorytmom sztucznej inteligenci (AI – Artificate Inteligence) jesteśmy w stanie przetworzyć ogromne ilości danych i co więcej na tej podstawie opracować wnioski, przedstawić wyniki i starać się przewidzieć przyszłość. Oczywiście powstałe wcześniej prawa statystyczne dalej obowiązują, nie mnie jednak dużo łatwiej je zastosować.