Statystyka jest dziedziną matematyki zajmującą się gromadzeniem, organizacją, analizą, interpretacją i prezentacją danych. Stosując statystykę do rozwiązania problemu naukowego, przemysłowego lub społecznego, konwencjonalnie rozpoczyna się od populacji statystycznej lub procesu statystycznego, który ma być badany. Populacje mogą dotyczyć różnych tematów, takich jak „wszyscy ludzie żyjący w kraju” lub „każdy atom tworzący kryształ”. Statystyka dotyczy każdego aspektu danych, w tym planowania, zbierania danych w zakresie projektowania badań i eksperymentów.
Kiedy dane ze spisu powszechnego nie mogą być zebrane, statystycy zbierają dane poprzez opracowanie konkretnych projektów, eksperymentów i próbek do badań. Reprezentatywne dobieranie próby zapewnia, że wnioski mogą racjonalnie rozciągać się od próby do całej populacji. Badanie eksperymentalne polega na wykonaniu pomiarów badanego systemu, manipulowaniu systemem, a następnie wykonaniu dodatkowych pomiarów z zastosowaniem tej samej procedury w celu ustalenia, czy manipulacja zmieniła wartości pomiarów. W przeciwieństwie do tego, badania obserwacyjne nie obejmują eksperymentalnej manipulacji.
W analizie danych stosuje się dwie główne metody statystyczne:
Statystyka opisowa podsumowuje dane z próby przy użyciu wskaźników takich jak średnia lub odchylenie standardowe oraz statystykę inwazyjną, która wyciąga wnioski z danych podlegających zmienności losowej (np. błędy obserwacyjne, zmienność próby). Statystyki opisowe najczęściej dotyczą dwóch zestawów właściwości rozkładu (próba lub populacja): tendencja centralna (lub lokalizacja) ma na celu scharakteryzowanie centralnej lub typowej wartości rozkładu, natomiast dyspersja (lub zmienność) charakteryzuje stopień, w jakim wartości rozkładu odchodzą od jego centrum i od siebie nawzajem. Wnioski dotyczące statystyki matematycznej wyciągane są w ramach teorii prawdopodobieństwa, która zajmuje się analizą zjawisk losowych.
Standardowa procedura statystyczna obejmuje badanie zależności między dwoma zestawami danych statystycznych lub zestawem danych i danymi syntetycznymi zaczerpniętymi z analizowanego modelu. Proponuje się hipotezę dotyczącą statystycznej zależności pomiędzy dwoma zestawami danych i jest to porównywane jako alternatywa dla idealnej hipotezy zerowej braku zależności pomiędzy dwoma zestawami danych. Odrzucenie lub obalenie hipotezy zerowej odbywa się przy użyciu testów statystycznych, które określają ilościowo sens, w jakim wartość zerowa może być udowodniona jako nieprawdziwa, biorąc pod uwagę dane wykorzystane w teście. Pracując na podstawie hipotezy zerowej, rozpoznaje się dwie podstawowe formy błędu: błędy typu I (hipoteza zerowa jest niepoprawnie odrzucona, dając „fałszywie dodatni” wynik) oraz błędy typu II (hipoteza zerowa nie zostaje odrzucona, a faktyczna różnica pomiędzy populacjami jest pomijana, dając „fałszywie ujemny” wynik). Z tą strukturą wiąże się wiele problemów: od uzyskania wystarczającej liczebności próbki do określenia odpowiedniej hipotezy zerowej.
Procesy pomiarowe, które generują dane statystyczne również są obarczone błędem. Wiele z tych błędów jest klasyfikowanych jako losowe (hałas) lub systematyczne (błąd), ale inne rodzaje błędów (np. błąd, np. gdy analityk zgłasza nieprawidłowe jednostki) również mogą być ważne. Obecność brakujących danych lub cenzury może prowadzić do nieobiektywnych szacunków, a w celu rozwiązania tych problemów opracowano specjalne techniki.
Można powiedzieć, że statystyki zaczęły się w starożytnej cywilizacji, sięgając co najmniej do V wieku p.n.e., ale dopiero w XVIII wieku zaczęło się intensywniej czerpać z rachunku i teorii prawdopodobieństwa. W ostatnich latach statystyka w większym stopniu opierała się na oprogramowaniu statystycznym do tworzenia testów, takich jak analiza opisowa.
Artykuł stworzono we współpracy z portalem statystyka.online, na którym znajdują się zadania ze statystyki z pełnymi rozwiązaniami.