Professional Documents
Culture Documents
studi observasional (tidak terkontrol). In statistics , a result is called statistically significant if it is unlikely to have occurred by chance alone, according to a predetermined threshold probability, the significance level . Dalam statistik , hasil ini disebut statistik signifikan jika tidak mungkin untuk terjadi secara kebetulan saja, menurut yang ditentukan ambang batas probabilitas-pra, pada tingkat signifikansi . The phrase " test of significance " was coined by Ronald Fisher : "Critical tests of this kind may be called tests of significance, and when such tests are available we may discover whether a second sample is or is not significantly different from the first." [ 1 ] Ungkapan "uji signifikansi" diciptakan oleh Ronald Fisher : "tes Kritis semacam ini dapat disebut uji signifikansi, dan ketika tes tersebut tersedia kita dapat mengetahui apakah sampel kedua atau tidak secara signifikan berbeda dari yang pertama."
[1]
Hypothesis testing is sometimes called confirmatory data analysis , in contrast to exploratory data analysis . Pengujian hipotesis kadang-kadang disebut analisis data konfirmasi, berbeda dengan analisis data eksplorasi . In frequency probability , these decisions are almost always made using null-hypothesis tests (ie, tests that answer the question Assuming that the null hypothesis is true, what is the probability of observing a value for the test statistic that is at least as extreme as the value that was actually observed? ) [ 2 ] One use of hypothesis testing is deciding whether experimental results contain enough information to cast doubt on conventional wisdom. Dalam probabilitas frekuensi , keputusan ini hampir selalu dibuat dengan menggunakan null-hipotesis tes (yaitu, tes yang menjawab pertanyaan asumsi bahwa hipotesis nol benar, berapakah probabilitas mengamati nilai bagi statistik uji yang setidaknya seekstrim nilai yang benar-benar diamati)? [2] Salah satu penggunaan pengujian hipotesis adalah memutuskan apakah hasil eksperimen mengandung informasi yang cukup untuk meragukan kebijaksanaan konvensional. A result that was found to be statistically significant is also called a positive result ; conversely, a result that is not unlikely under the null hypothesis is called a negative result or a null result . Hasil yang ditemukan secara statistik signifikan juga disebut hasil positif, sebaliknya, hasil yang tidak mungkin di bawah hipotesis nol disebut hasil negatif atau hasil null. Statistical hypothesis testing is a key technique of frequentist statistical inference . pengujian hipotesis statistik adalah teknik kunci dari frequentist inferensi statistik . The Bayesian approach to hypothesis testing is to base rejection of the hypothesis on the posterior probability . [ 3 ] Other approaches to reaching a decision based on data are available via decision theory and optimal decisions . Pendekatan Bayesian untuk pengujian hipotesis adalah dengan dasar penolakan hipotesis pada probabilitas posterior . [3] Pendekatan-pendekatan lain untuk mencapai suatu keputusan berdasarkan data yang tersedia melalui teori keputusan dan keputusan yang optimal . The critical region of a hypothesis test is the set of all outcomes which, if they occur, will lead us to decide that there is a difference. Daerah kritis dari pengujian hipotesis adalah himpunan semua hasil yang, jika itu terjadi, akan membawa kita untuk memutuskan bahwa ada perbedaan. That is, cause the null hypothesis to be rejected in favor of the alternative hypothesis . Artinya, menyebabkan hipotesis nol harus ditolak berpihak pada hipotesis alternatif . The critical region is usually denoted by the letter C . Daerah kritis biasanya dinotasikan dengan huruf C.
[ edit ] Example 2 - Clairvoyant card game [ edit ] Contoh 2 - permainan kartu peramal
A person (the subject) is tested for clairvoyance. Seseorang (subyek) diuji untuk kewaskitaan. He is shown the reverse of a randomly chosen play card 25 times and asked which suit it belongs to. Dia menunjukkan kebalikan dari kartu bermain yang dipilih secara acak 25 kali dan bertanya
yang sesuai ini berada. The number of hits, or correct answers, is called X . Jumlah hits, atau jawaban yang benar, disebut X. As we try to find evidence of his clairvoyance, for the time being the null hypothesis is that the person is not clairvoyant. Ketika kami mencoba untuk menemukan bukti clairvoyance-nya, untuk sementara hipotesis nol adalah bahwa orang tersebut tidak peramal. The alternative is, of course: the person is (more or less) clairvoyant. Alternatifnya adalah, tentu saja: orang itu (lebih kurang) peramal. If the null hypothesis is valid, the only thing the test person can do is guess. Jika hipotesis nol ini berlaku, satu-satunya orang yang pengujian dapat lakukan adalah menebak. For every card, the probability (relative frequency) of guessing correctly is 1/4. Untuk setiap kartu, probabilitas (frekuensi relatif) dari menebak dengan benar adalah 1 / 4. If the alternative is valid, the test subject will predict the suit correctly with probability greater than 1/4. Jika alternatif tersebut valid, subyek tes akan memprediksi sesuai dengan benar dengan probabilitas lebih besar dari 1 / 4. We will call the probability of guessing correctly p . Kami akan memanggil kemungkinan menebak dengan benar p. The hypotheses, then, are: Hipotesis, kemudian, adalah:
and dan
When the test subject correctly predicts all 25 cards, we will consider him clairvoyant, and reject the null hypothesis. Ketika subjek tes dengan benar memprediksi semua 25 kartu, kita akan menganggap dia peramal, dan menolak hipotesis nol. Thus also with 24 or 23 hits. Demikian juga dengan 24 atau 23 hits. With only 5 or 6 hits, on the other hand, there is no cause to consider him so. Dengan hanya 5 atau 6 hits, di sisi lain, tidak ada alasan untuk menganggap dia begitu. But what about 12 hits, or 17 hits? Tapi bagaimana dengan 12 hits, atau 17 hits? What is the critical number, c , of hits, at which point we consider the subject to be clairvoyant? Berapa jumlah kritis, c, hits, di mana titik kami anggap subjek yang akan peramal? How do we determine the critical value c ? Bagaimana kita menentukan nilai kritis c? It is obvious that with the choice c =25 (ie we only accept clairvoyance when all cards are predicted correctly) we're more critical than with c =10. Hal ini jelas bahwa dengan pilihan c = 25 (yaitu kami hanya menerima clairvoyance ketika semua kartu diperkirakan benar) kita lebih kritis dibandingkan dengan c = 10. In the first case almost no test subjects will be recognized to be clairvoyant, in the second case, some number more will pass the test. Dalam kasus pertama hampir tidak ada subjek tes akan diakui untuk menjadi peramal, dalam kasus kedua, beberapa nomor lagi akan lulus tes. In practice, one decides how critical one will be. Dalam prakteknya, satu memutuskan betapa pentingnya satu akan. That is, one decides how often one accepts an error of the first kind - a false positive , or Type I error. Artinya, satu memutuskan seberapa sering orang menerima kesalahan jenis pertama - yang positif palsu , atau Tipe I kesalahan. With c = 25 the probability of such an error is: Dengan c = 25 kemungkinan seperti kesalahan adalah:
and hence, very small. dan karenanya, sangat kecil. The probability of a false positive is the probability of randomly guessing correctly all 25 times. Kemungkinan positif palsu adalah probabilitas acak menebak dengan benar semua 25 kali. Being less critical, with c =10, gives: Menjadi kurang kritis, dengan c = 10, memberikan:
Thus, c =10 yields a much greater probability of false positive. Dengan demikian, c = 10 menghasilkan lebih banyak peluang positif palsu. Before the test is actually performed, the desired probability of a Type I error is determined. Sebelum ujian sebenarnya dilakukan, kemungkinan yang diinginkan dari sebuah kesalahan Tipe I ditentukan. Typically, values in the range of 1% to 5% are selected. Biasanya, nilai-nilai dalam kisaran 1% sampai 5% yang dipilih. Depending on this desired Type 1 error rate, the critical value c is calculated. Tergantung pada tingkat kesalahan ini Tipe 1 yang diinginkan, nilai kritis c dihitung. For example, if we select an error rate of 1%, c is calculated thus: Sebagai contoh, jika kita memilih tingkat kesalahan 1%, c dihitung demikian:
From all the numbers c, with this property, we choose the smallest, in order to minimize the probability of a Type II error, a false negative . Dari semua c angka, dengan properti ini, kita memilih yang terkecil, untuk meminimalkan kemungkinan kesalahan Tipe II, sebuah negatif palsu . For the above example, we select: c = 12 . Untuk contoh di atas, kita pilih: c = 12. But what if the subject did not guess any cards at all? Tapi bagaimana jika subjek tidak menebak kartu apapun sama sekali? Having zero correct answers is clearly an oddity too. Setelah nol jawaban yang benar jelas keanehan juga. The probability of guessing incorrectly once is equal to p'=(1-p)=3/4. Kemungkinan menebak salah sekali sama dengan p '= (1-p) = 3 / 4. Using the same approach we can calculate that probability of randomly calling all 25 cards wrong is: Menggunakan pendekatan yang sama kita dapat menghitung bahwa kemungkinan secara acak memanggil semua 25 kartu yang salah:
This is highly unlikely (less than 1 in a 1000 chance). Hal ini sangat tidak mungkin (kurang dari 1 dalam kesempatan 1000). While the subject can't guess the cards correctly, dismissing H 0 in favour of H 1 would be an error. Sementara subjek tidak dapat menebak kartu dengan benar, menolak H 0 dalam mendukung H 1 akan menjadi kesalahan. In fact, the result would suggest a trait on the subject's part of avoiding calling the correct card. Bahkan, hasilnya akan menunjukkan ciri pada bagian subjek menghindari memanggil kartu yang benar. A test of this could be formulated: for a selected 1% error rate the subject would have to answer correctly at
least twice, for us to believe that card calling is based purely on guessing. Sebuah tes ini dapat dirumuskan: untuk tingkat kesalahan dipilih 1% subjek harus menjawab benar setidaknya dua kali, bagi kita untuk percaya bahwa kartu panggil didasarkan murni pada menebak-nebak.
[ edit ] Example 4 - Lady tasting tea [ sunting ] Contoh 4 - Lady mencicipi teh
The following example is summarized from Fisher, and is known as the Lady tasting tea example. [ 4 ] Fisher thoroughly explained his method in a proposed experiment to test a Lady's claimed ability to determine the means of tea preparation by taste. Contoh berikut ini diringkas dari Fisher, dan dikenal sebagai Lady mencicipi teh misalnya. [4] Fisher menjelaskan secara menyeluruh metodenya dalam percobaan yang diusulkan untuk menguji Lady's mengklaim kemampuan untuk menentukan cara persiapan teh dengan rasa. The article is less than 10 pages in length and is notable for its simplicity and completeness regarding terminology, calculations and design of the experiment. Artikel ini kurang dari 10 halaman panjang dan terkenal karena kesederhanaan dan kelengkapan mengenai terminologi, perhitungan dan desain eksperimen. The example is loosely based on an event in Fisher's life. Contohnya adalah longgar didasarkan pada peristiwa dalam kehidupan Fisher. The Lady proved him wrong. [ 5 ] Lady membuktikan bahwa dia salah. [5] 1. The null hypothesis was that the Lady had no such ability. Hipotesis nol adalah bahwa Lady tidak memiliki kemampuan seperti itu. 2. The test statistic was a simple count of the number of successes in 8 trials. Uji statistik adalah hitungan sederhana jumlah sukses dalam 8 persidangan. 3. The distribution associated with the null hypothesis was the binomial distribution familiar from coin flipping experiments. Distribusi terkait dengan hipotesis null adalah distribusi binomial akrab dari percobaan membalik koin. 4. The critical region was the single case of 8 successes in 8 trials based on a conventional probability criterion (< 5%). Wilayah kritis adalah kasus tunggal 8 keberhasilan dalam 8 percobaan berdasarkan kriteria probabilitas konvensional (<5%). 5. Fisher asserted that no alternative hypothesis was (ever) required. Fisher menegaskan bahwa tidak ada hipotesis alternatif (pernah) diperlukan. If and only if the 8 trials produced 8 successes was Fisher willing to reject the null hypothesis effectively acknowledging the Lady's ability with > 98% confidence (but without quantifying her ability). Jika dan hanya jika 8 uji coba menghasilkan 8 kesuksesan adalah Fisher bersedia untuk menolak hipotesis nol - efektif mengakui kemampuan Lady dengan> 98% confidence (tapi tanpa mengukur kemampuan dirinya). Fisher later discussed the benefits of more trials and repeated tests. Fisher kemudian dibahas manfaat lebih percobaan dan tes berulang-ulang.
3.
4. 5.
6.
7. 8.
alternative hypothesis can either be accepted or stays undecided as it was before the test. [ 7] Secara khusus, hipotesis nol memungkinkan untuk melampirkan atribut: itu harus dipilih sedemikian rupa sehingga memungkinkan kita untuk menyimpulkan apakah hipotesis alternatif bisa diterima atau tetap ragu seperti sebelum ujian. [7] The second step is to consider the statistical assumptions being made about the sample in doing the test; for example, assumptions about the statistical independence or about the form of the distributions of the observations. Langkah kedua adalah untuk mempertimbangkan asumsi statistik yang dibuat tentang sampel dalam melakukan tes, misalnya, asumsi tentang kemerdekaan statistik atau tentang bentuk distribusi dari pengamatan. This is equally important as invalid assumptions will mean that the results of the test are invalid. Hal ini sama pentingnya sebagai asumsi yang tidak valid akan berarti bahwa hasil tes tidak valid. Decide which test is appropriate, and stating the relevant test statistic T . Memutuskan mana tes yang sesuai, dan menyatakan yang bersangkutan uji statistik T. Derive the distribution of the test statistic under the null hypothesis from the assumptions. Turunkan distribusi dari statistik uji di bawah hipotesis nol dari asumsi. In standard cases this will be a well-known result. Dalam kasus standar ini akan menjadi hasil yang terkenal. For example the test statistics may follow a Student's t distribution or a normal distribution . Misalnya uji statistik dapat mengikuti distribusi t Siswa atau distribusi normal . The distribution of the test statistic partitions the possible values of T into those for which the null-hypothesis is rejected, the so called critical region, and those for which it is not. Distribusi dari statistik partisi menguji nilai yang mungkin T menjadi mereka dimanahipotesis null ditolak, yang penting daerah disebut demikian, dan mereka yang tidak. Compute from the observations the observed value t obs of the test statistic T . Hitung dari pengamatan t obs nilai yang diamati dari statistik T uji. Decide to either fail to reject the null hypothesis or reject it in favor of the alternative. Memutuskan apakah akan gagal menolak hipotesis nol atau menolaknya mendukung alternatif. The decision rule is to reject the null hypothesis H 0 if the observed value t obs is in the critical region, and to accept or "fail to reject" the hypothesis otherwise. Aturan keputusan untuk menolak hipotesis nol H 0 jika nilai t obs diamati adalah di daerah kritis, dan untuk menerima atau "gagal untuk menolak" hipotesis sebaliknya.
It is important to note the philosophical difference between accepting the null hypothesis and simply failing to reject it. Penting untuk dicatat perbedaan filosofis antara menerima hipotesis nol dan hanya gagal untuk menolaknya. The "fail to reject" terminology highlights the fact that the null hypothesis is assumed to be true from the start of the test; if there is a lack of evidence against it, it simply continues to be assumed true. The "gagal untuk menolak" terminologi menyoroti fakta bahwa hipotesis nol dianggap benar dari awal pengujian, jika ada kekurangan bukti menentangnya, ia hanya terus menjadi dianggap benar. The phrase "accept the null hypothesis" may suggest it has been proved simply because it has not been disproved, a logical fallacy known as the argument from ignorance . Ungkapan "menerima hipotesis nol" mungkin menyarankan telah terbukti hanya karena belum dibuktikan, logis kesalahan dikenal sebagai argumen dari kebodohan . Unless a test with particularly high power is used, the idea of "accepting" the null hypothesis may be dangerous. Kecuali tes dengan sangat tinggi daya yang digunakan, gagasan "menerima" hipotesis nol mungkin membahayakan. Nonetheless the
terminology is prevalent throughout statistics, where its meaning is well understood. Meskipun demikian terminologi adalah lazim di seluruh statistik, dimana artinya dipahami dengan baik. Alternatively, if the testing procedure forces us to reject the null hypothesis (H-null), we can accept the alternative hypothesis (H-alt)and we conclude that the research hypothesis is supported by the data. Atau, jika prosedur pengujian memaksa kita untuk menolak hipotesis nol (H-null), kita dapat menerima hipotesis alternatif (H-alt) dan kami menyimpulkan bahwa hipotesis penelitian didukung oleh data. This fact expresses that our procedure is based on probabilistic considerations in the sense we accept that using another set could lead us to a different conclusion. Fakta ini mengungkapkan bahwa prosedur kita didasarkan pada pertimbangan probabilistik dalam arti kita menerima bahwa menggunakan satuan lain bisa membawa kita pada kesimpulan yang berbeda.
For a given size or significance level , the test with the greatest power. Untuk tingkat ukuran atau signifikansi diberikan, uji dengan kekuatan terbesar. Uniformly most powerful test (UMP) Seragam yang paling kuat uji (UMP) A test with the greatest power for all values of the parameter being tested. Sebuah tes dengan kekuatan terbesar untuk semua nilai dari parameter yang diuji. Consistent test Uji Konsisten When considering the properties of a test as the sample size grows, a test is said to be consistent if, for a fixed size of test, the power against any fixed alternative approaches 1 in the limit. [ 9 ] Ketika mempertimbangkan sifat dari tes sebagai ukuran sampel tumbuh, tes dikatakan konsisten jika, untuk ukuran tetap tes, kekuatan tetap terhadap setiap alternatif pendekatan 1 di batas. [9] Unbiased test Netral uji For a specific alternative hypothesis, a test is said to be unbiased when the probability of rejecting the null hypothesis is not less than the significance level when the alternative is true and is less than or equal to the significance level when the null hypothesis is true. Untuk hipotesis alternatif yang spesifik, tes dikatakan tidak memihak ketika probabilitas menolak hipotesis nol tidak kurang dari tingkat signifikansi ketika alternatif adalah benar dan kurang dari atau sama dengan tingkat signifikansi ketika hipotesis nol adalah benar. Conservative test Konservatif uji A test is conservative if, when constructed for a given nominal significance level, the true probability of incorrectly rejecting the null hypothesis is never greater than the nominal level. uji adalah konservatif jika, ketika dibangun untuk signifikansi tingkat nominal yang diberikan, kemungkinan benar salah menolak hipotesis nol tidak pernah lebih besar dari tingkat nominal. Uniformly most powerful unbiased (UMPU) Seragam yang paling kuat tidak memihak (UMPU) A test which is UMP in the set of all unbiased tests. Sebuah tes yang UMP di set semua tes yang tidak bias. p-value p-value The probability, assuming the null hypothesis is true, of observing a result at least as extreme as the test statistic. Probabilitas, dengan asumsi hipotesis nol adalah benar, mengamati hasil setidaknya ekstrim sebagai uji statistik. The most stringent test Tes yang paling ketat here to read It is better to refer to [ 10 ] sini untuk membaca Lebih baik untuk mengacu [10]
In the table below, the symbols used are defined at the bottom of the table. Dalam tabel di bawah ini, simbol yang digunakan didefinisikan di bagian bawah meja. Many other tests can be found in other articles . Banyak tes lainnya dapat ditemukan di artikel lainnya . Name Nama Formula Rumus Assumptions or notes Asumsi atau catatan (Normal population or n > 30) and known. (Normal populasi atau n> 30) dan diketahui. ( z is the distance from the mean in relation to the standard deviation of the mean). (Z adalah jarak dari ratarata sehubungan dengan standar deviasi dari mean). For non-normal distributions it is possible to calculate a minimum proportion of a population that falls within k standard deviations for any k (see: Chebyshev's inequality ). Untuk distribusi non-normal adalah mungkin untuk menghitung proporsi minimum dari suatu populasi yang termasuk dalam k standar deviasi untuk setiap k (lihat: 's ketidaksamaan Chebyshev ). Normal population and independent observations and 1 and 2 are known populasi normal dan pengamatan independen dan 1 dan 2 dikenal (Normal populations or n 1 + n 2 > 40) and independent observations and 1 = 2 and 1 and 2 unknown (Normal populasi atau n 1 + n 2> 40), dan pengamatan yang independen dan 1 = 2 dan 1 dan 2 tidak diketahui (Normal populations or n 1 + n 2 > 40) and independent observations and 1 2 and 1 and 2 unknown (Normal populasi atau n 1 + n 2> 40), dan pengamatan yang independen dan 1 2 dan 1 dan
Two-sample pooled t-test , equal variances* Dua-sampel dikumpulkan t-test , varian yang sama * Two-sample unpooled t-test, unequal variances* Dua-sampel unpooled t-test, varian yang tidak
[ 11 ] [11]
sama *
2 tidak diketahui
[ 11 ] [11]
Two-proportion ztest, pooled for d 0 = 0 Dua-proporsi z-test, pooled untuk d 0 = 0 Two-proportion ztest, unpooled for | d 0 | > 0 Duaproporsi z-test, unpooled untuk | d 0 |> 0
n . p 0 > 10 and n (1 p 0 ) > 10 and it is a SRS (Simple Random Sample), see notes . n). p 0> 10 dan n (1 - p 0> 10 dan itu adalah SRS (Simple Random Sample), lihat catatan . n 1 p 1 > 5 and n 1 (1 p 1 ) > 5 and n 2 p 2 > 5 and n 2 (1 p 2 ) > 5 and independent observations, see notes . n 1 p 1> 5 dan n 1 (1 - p 1)> 5 dan n 2 p 2> 5 dan n 2 (1 - p 2)> 5 dan independen pengamatan, lihat catatan . n 1 p 1 > 5 and n 1 (1 p 1 ) > 5 and n 2 p 2 > 5 and n 2 (1 p 2 ) > 5 and independent observations, see notes . n 1 p 1> 5 dan n 1 (1 - p 1)> 5 dan n 2 p 2> 5 dan n 2 (1 - p 2)> 5 dan independen pengamatan, lihat catatan . One of the following Salah satu berikut All expected counts are at least 5 Semua jumlah yang diharapkan paling tidak 5 All expected counts are > 1 and no more than 20% of expected counts are less than 5 Semua jumlah yang diharapkan adalah> 1 dan tidak lebih dari 20% dari jumlah diperkirakan kurang dari 5
*Two-sample F Arrange so Atur sehingga > > test for equality of and reject H 0 for F > F ( / 2, n 1 variances * Dua1, n 2 1) [ 12 ] dan menolak H 0 sampel F uji untuk untuk> F F ( / 2, n 1 - 1, n 2 - 1) [12] kesamaan varians In general, the subscript 0 indicates a value taken from the null hypothesis , H 0 , which should be used as much as possible in constructing its test statistic. ... Secara umum, subskrip 0
menunjukkan nilai yang diambil dari hipotesis nol , H 0, yang harus digunakan semaksimal mungkin dalam membangun statistik uji-nya. ... Definitions of other symbols: Definisi simbol lain: , the probability of Type I s = sample standard = x/n = sample error (rejecting a null deviation s = proportion , unless hypothesis when it is in fact standar deviasi specified otherwise = true) , maka probabilitas dari sampel X / n = sampel 2 Tipe I kesalahan (menolak s = sample proporsi , kecuali hipotesis nol bila ternyata variance s 2 = ditentukan lain benar) varians sampel p 0 = hypothesized n = sample size n = ukuran s 1 = sample 1 population proportion sampel standard deviation p 0 = proporsi n 1 = sample 1 size n 1 = 1 s 1 = sampel populasi hipotesis ukuran sampel standar deviasi 1 p 1 = proportion 1 p 1 n 2 = sample 2 size n 2 = s 2 = sample 2 = proporsi 1 sampel 2 ukuran standard deviation p 2 = proportion 2 p 2 = sample mean = mean s 2 = 2 standar = proporsi 2 sampel deviasi sampel d p = hypothesized 0 = hypothesized population t = t statistic t = difference in mean 0 = hipotesis mean statistik t proportion d = p populasi d f = degrees of hipotesis perbedaan 1 = population 1 mean 1 = freedom d f = dalam proporsi mean populasi 1 derajat kebebasan min{ n 1 , n 2 } = 2 = population 2 mean 2 = minimum of n 1 and n = sample mean mean populasi 2 of differences = 2 min {n 1, n 2} = = population standard Mean sampel minimum n 1 dan n 2 deviation = deviasi standar perbedaan x1=n1p1x1=n1p populasi d 0 = hypothesized 1 2 2 = population variance population mean x2=n2p2x2=n2p = varians populasi difference d 0 = 2 2 populasi hipotesis = Chi-squared perbedaan mean statistic 2 = statistik s d = standard Chi-squared deviation of F = F statistic F = F differences d statistik standar deviasi = perbedaan
assuming Gaussian distributions. Fisher adalah seorang ahli statistik pertanian yang menekankan rancangan percobaan ketat dan metode untuk mengekstrak hasil dari beberapa sampel dengan asumsi distribusi Gaussian. Neyman (who teamed with the younger Pearson) emphasized mathematical rigor and methods to obtain more results from many samples and a wider range of distributions. Neyman (yang bekerja sama dengan Pearson muda) menekankan kekakuan matematika dan metode untuk mendapatkan hasil yang lebih dari banyak sampel dan berbagai distribusi yang lebih luas. Modern hypothesis testing is an (extended) hybrid of the Fisher vs Neyman/Pearson formulation, methods and terminology developed in the early 20th century. pengujian hipotesis modern adalah hibrida (diperpanjang) dari Fisher vs Neyman / Pearson formulasi, metode dan terminologi dikembangkan di awal abad 20.
between two populations. Sebenarnya, statistik tidak dapat digunakan untuk membuktikan bahwa ada persis nol perbedaan antara dua populasi. Failing to find evidence that there is a difference does not constitute evidence that there is no difference. Gagal untuk menemukan bukti bahwa ada perbedaan bukan merupakan bukti bahwa tidak ada perbedaan. This principle is sometimes described by the maxim "Absence of evidence is not evidence of absence." [ 13 ] Prinsip ini kadang-kadang digambarkan oleh pepatah "Tidak adanya bukti bukan merupakan bukti ketiadaan." [13] According to J. Menurut J. Scott Armstrong , attempts to educate researchers on how to avoid pitfalls of using statistical significance have had little success. Scott Armstrong , upaya untuk mendidik peneliti tentang bagaimana untuk menghindari perangkap menggunakan signifikansi statistik memiliki sedikit keberhasilan. In the papers "Significance Tests Harm Progress in Forecasting," [ 14 ] and "Statistical Significance Tests are Unnecessary Even When Properly Done," [ 15 ] Armstrong makes the case that even when done properly, statistical significance tests are of no value. Di koran "Tes Kemajuan Signifikan Harm di Peramalan," [14] dan "Tes Signifikansi statistik yang tidak penting Bahkan Ketika Benar Selesai," [15] Armstrong membuat kasus bahwa bahkan ketika dilakukan dengan benar, uji signifikansi statistik tak bernilai. A number of attempts failed to find empirical evidence supporting the use of significance tests. Sejumlah usaha yang gagal untuk menemukan bukti empiris mendukung penggunaan tes signifikansi. Tests of statistical significance are harmful to the development of scientific knowledge because they distract researchers from the use of proper methods. [ 16 ] Armstrong suggests authors should avoid tests of statistical significance; instead, they should report on effect sizes , confidence intervals , replications / extensions , and meta-analyses . Pengujian signifikansi statistik berbahaya bagi pengembangan ilmu pengetahuan, karena mereka mengalihkan perhatian para peneliti dari penggunaan metode yang tepat. [16] Armstrong menyarankan penulis harus menghindari uji signifikansi statistik, melainkan mereka harus melaporkan efek ukuran , interval keyakinan , ulangan / ekstensi , dan meta-analisis .
[ edit ] Significance and practical importance [ sunting ] Signifikansi dan kepentingan praktis
A common misconception is that a statistically significant result is always of practical significance, or demonstrates a large effect in the population. Kesalahpahaman yang umum adalah bahwa hasil statistik yang signifikan selalu signifikansi praktis, atau menunjukkan efek yang besar dalam populasi. Unfortunately, this problem is commonly encountered in scientific writing. [ 17 ] Given a sufficiently large sample, extremely small and non-notable differences can be found to be statistically significant, and statistical significance says nothing about the practical significance of a difference. Sayangnya, masalah ini yang biasa ditemui dalam penulisan ilmiah. [17] Mengingat sampel yang cukup besar, sangat kecil dan perbedaan non-terkenal dapat ditemukan secara statistik signifikan, dan signifikansi statistik mengatakan apa-apa tentang makna praktis dari perbedaan. Use of the statistical significance test has been called seriously flawed and unscientific by authors Deirdre McCloskey and Stephen Ziliak . Penggunaan uji signifikansi statistik telah disebut cacat serius dan tidak ilmiah oleh penulis Deirdre McCloskey dan Stephen Ziliak . They point out that "insignificance" does not mean unimportant, and propose that the scientific community should abandon usage of the test altogether, as it can cause false hypotheses to be accepted and true hypotheses to be rejected. [ 17 ] [ 18 ] Mereka menunjukkan bahwa "tak berarti" bukan berarti tidak penting, dan mengusulkan bahwa masyarakat ilmiah harus meninggalkan penggunaan tes sama sekali, karena dapat menyebabkan hipotesis palsu untuk diterima dan hipotesis benar untuk ditolak. [17] [18] Some statisticians have commented that pure "significance testing" has what is actually a rather strange goal of detecting the existence of a "real" difference between two populations. Beberapa ahli statistik telah berkomentar bahwa murni "pengujian penting" memiliki apa sebenarnya tujuan agak aneh untuk mendeteksi adanya perbedaan "nyata" antara dua populasi. In practice a difference can almost always be found given a large enough sample. Dalam prakteknya perbedaan hampir selalu bisa ditemukan diberi sampel yang cukup besar. The typically more relevant goal of science is a determination of causal effect size . Yang relevan tujuan lebih biasanya ilmu merupakan suatu penentuan kausal efek ukuran . The amount and nature of the difference, in other words, is what should be studied. [ 19 ] Many researchers also feel that hypothesis testing is something of a misnomer. Jumlah dan sifat perbedaan, dengan kata lain, adalah apa yang harus dipelajari. [19] Banyak peneliti juga merasa bahwa pengujian hipotesis adalah sesuatu yang keliru. In practice a single statistical test in a single study never "proves" anything. [ 20 ] Dalam praktek uji statistik tunggal dalam sebuah studi tunggal tidak pernah "membuktikan" apa-apa. [20] An additional problem is that frequentist analyses of p-values are considered by some to overstate "statistical significance". [ 21 ] [ 22 ] See Bayes factor for details. Masalah tambahan adalah bahwa frequentist analisis p-nilai yang dianggap oleh beberapa untuk melebih-lebihkan "signifikansi statistik". [21] [22] Lihat Bayes faktor untuk rincian.
The criticism here is of the application, or of the interpretation, rather than of the method. kritik di sini adalah aplikasi, atau penafsiran, bukan metode. Attacks and defenses of the nullhypothesis significance test are collected in Harlow et al. . [ 23 ] Serangan dan pertahanan dari hipotesis signifikansi uji-null dikumpulkan Harlow et al.. [23] The original purposes of Fisher's formulation, as a tool for the experimenter, was to plan the experiment and to easily assess the information content of the small sample. Tujuan asli dari formulasi Fisher, sebagai alat untuk eksperimen, adalah untuk merencanakan percobaan dan dengan mudah menilai isi informasi dari sampel kecil. There is little criticism, Bayesian in nature, [ citation needed ] of the formulation in its original context. Ada sedikit kritik, Bayesian di alam, [ rujukan? ] dari formulasi dalam konteks aslinya. In other contexts, complaints focus on flawed interpretations of the results and overdependence/emphasis on one test. Dalam konteks lain, keluhan fokus pada interpretasi cacat hasil dan over-dependence/emphasis pada satu tes. Numerous attacks on the formulation have failed to supplant it as a criterion for publication in scholarly journals. Sejumlah serangan di formulasi telah gagal untuk menggantikan sebagai kriteria untuk diterbitkan dalam jurnal ilmiah. The most persistent attacks originated from the field of Psychology. Serangan paling gigih berasal dari bidang Psikologi. After review, [ citation needed ] the American Psychological Association did not explicitly deprecate the use of nullhypothesis significance testing, but adopted enhanced publication guidelines which implicitly reduced the relative importance of such testing. Setelah diperiksa, [ rujukan? ] dengan Asosiasi Psikolog Amerika tidak secara eksplisit mencela penggunaan hipotesis signifikansi pengujiannull, tetapi mengadopsi pedoman publikasi disempurnakan yang secara implisit mengurangi kepentingan relatif dari pengujian tersebut. The International Committee of Medical Journal Editors recognizes an obligation to publish negative (not statistically significant) studies under some circumstances. [ citation needed ] Para Komite Internasional Medical Journal Editor mengakui kewajiban untuk menerbitkan negatif (tidak signifikan secara statistik) studi di bawah beberapa keadaan [. rujukan? ] The applicability of the null-hypothesis testing to the publication of observational (as contrasted to experimental) studies is doubtful. [ citation needed ] Penerapan dari-pengujian hipotesis null untuk publikasi observasional (sebagai kontras dengan eksperimental) studi diragukan. [ rujukan? ]
"Meskipun cengkraman yang pengujian hipotesis telah di psikologi eksperimental, saya sulit membayangkan mendalam berarti kurang dari transit dari data ke kesimpulan." [24] Students find it difficult to understand the formulation of statistical null-hypothesis testing. Siswa kesulitan untuk memahami formulasi pengujian hipotesis null-statistik. In rhetoric, examples often support an argument, but a mathematical proof "is a logical argument, not an empirical one". Dalam retorika, contoh sering mendukung argumen, tetapi bukti matematis "adalah sebuah argumen logis, bukan satu empiris". A single counterexample results in the rejection of a conjecture. Karl Popper defined science by its vulnerability to disproof by data. Single -balik hasil dalam penolakan terhadap sebuah dugaan. Karl Popper didefinisikan ilmu pengetahuan dengan kerentanan terhadap pembantahan oleh data. Null-hypothesis testing shares the mathematical and scientific perspective rather than the more familiar rhetorical one. Pengujian hipotesis null-saham perspektif matematika dan ilmiah daripada satu retoris lebih akrab. Students expect hypothesis testing to be a statistical tool for illumination of the research hypothesis by the sample; it is not. Siswa berharap pengujian hipotesis menjadi alat statistik untuk penerangan dari hipotesis penelitian dengan sampel, tidak. The test asks indirectly whether the sample can illuminate the research hypothesis. Pengujian langsung bertanya apakah sampel dapat menerangi hipotesis penelitian. Students also find the terminology confusing. Siswa juga menemukan membingungkan terminologi. While Fisher disagreed with Neyman and Pearson about the theory of testing, their terminologies have been blended. Sedangkan Fisher tidak setuju dengan Neyman dan Pearson tentang teori pengujian, terminologi mereka telah dicampur. The blend is not seamless or standardized. Campuran tidak mulus atau standar. While this article teaches a pure Fisher formulation, even it mentions Neyman and Pearson terminology (Type II error and the alternative hypothesis). Sementara artikel ini mengajarkan suatu formulasi Fisher murni, bahkan menyebutkan Neyman dan Pearson terminologi (Tipe error II dan hipotesis alternatif). The typical introductory statistics text is less consistent. Pengantar khas statistik teks kurang konsisten. The Sage Dictionary of Statistics would not agree with the title of this article, which it would call null-hypothesis testing. [ 2 ] "...there is no alternate hypothesis in Fisher's scheme: Indeed, he violently opposed its inclusion by Neyman and Pearson." [ 25 ] In discussing test results, "significance" often has two distinct meanings in the same sentence; One is a probability, the other is a subject-matter measurement (such as currency). Kamus Sage Statistik tidak akan setuju dengan judul artikel ini, yang sebut-pengujian hipotesis null. [2] "... tidak ada hipotesis alternatif dalam skema Fisher: Sesungguhnya, ia keras menentang dimasukkannya dengan Neyman dan . Pearson " [25] Dalam membahas hasil tes, "makna" sering memiliki dua makna yang berbeda dalam kalimat yang sama; Satu adalah probabilitas, yang lainnya adalah-materi pengukuran subjek (seperti mata uang). The significance (meaning) of (statistical) significance is significant (important). Makna (arti) dari (statistik) signifikansi adalah signifikan (penting). There is widespread and fundamental disagreement on the interpretation of test results. Ada pendapat luas dan mendasar pada interpretasi hasil tes. "A little thought reveals a fact widely understood among statisticians: The null hypothesis, taken literally (and that's the only way you can take it in formal hypothesis testing), is almost always false in the real world.... If it is false, even to a tiny degree, it must be the case that a large
enough sample will produce a significant result and lead to its rejection. So if the null hypothesis is always false, what's the big deal about rejecting it?" [ 25 ] (The above criticism only applies to point hypothesis tests. If one were testing, for example, whether a parameter is greater than zero, it would not apply.) "Sebuah pikiran kecil mengungkapkan fakta secara luas dipahami oleh kalangan ahli statistik: Hipotesis null, secara harfiah (dan bahwa satu-satunya cara yang dapat Anda ambil dalam pengujian hipotesis formal), hampir selalu salah di dunia nyata .... Jika false , bahkan untuk tingkat kecil, itu harus terjadi bahwa sampel yang cukup besar akan menghasilkan hasil yang signifikan dan menyebabkan penolakan. Jadi jika hipotesis nol selalu salah, apa masalahnya besar tentang menolaknya "? [25] ( Kritik di atas hanya berlaku untuk titik uji hipotesis Kalau orang pengujian, misalnya, apakah parameter lebih besar dari nol, itu tidak akan berlaku..) "How has the virtually barren technique of hypothesis testing come to assume such importance in the process by which we arrive at our conclusions from our data?" [ 24 ] "Bagaimana memiliki hampir tandus teknik pengujian hipotesis datang untuk menganggap penting tersebut dalam proses dimana kita sampai pada kesimpulan kami dari data kami?" [24] Null-hypothesis testing just answers the question of "how well the findings fit the possibility that chance factors alone might be responsible." [ 2 ] Null-pengujian hipotesis hanya menjawab pertanyaan "seberapa baik temuan sesuai dengan kemungkinan bahwa faktor kebetulan semata mungkin bertanggung jawab." [2] Null-hypothesis significance testing does not determine the truth or falsity of claims. Nullpengujian hipotesis signifikansi tidak menentukan kebenaran atau kepalsuan klaim. It determines whether confidence in a claim based solely on a sample-based estimate exceeds a threshold. Ini menentukan apakah keyakinan dalam klaim yang hanya didasarkan pada perkiraan sampel berbasis melebihi ambang batas. It is a research quality assurance test, widely used as one requirement for publication of experimental research with statistical results. Ini adalah jaminan kualitas penelitian pengujian, banyak digunakan sebagai salah satu persyaratan untuk publikasi penelitian eksperimental dengan hasil statistik. It is uniformly agreed that statistical significance is not the only consideration in assessing the importance of research results. Hal ini seragam sepakat bahwa signifikansi statistik tidak hanya pertimbangan dalam menilai pentingnya hasil penelitian. Rejecting the null hypothesis is not a sufficient condition for publication. Menolak hipotesis nol bukan merupakan kondisi yang cukup untuk publikasi. "Statistical significance does not necessarily imply practical significance!" [ 26 ] "Signifikansi statistik tidak selalu berarti signifikansi praktis!" [26]
cacat [. rujukan? ] Null-pengujian hipotesis belum mencapai tujuan dari sebuah probabilitas kesalahan rendah dalam jurnal medis. [27] [28]
with a confidence interval , (although Bayesian confidence intervals are different from classical ones). Seiring dengan banyak frequentist statistik, Bayesians lebih memilih untuk memberikan perkiraan, bersama dengan interval keyakinan , (walaupun interval kepercayaan Bayesian berbeda dari yang klasik). Some Bayesians (James Berger in particular) have developed Bayesian hypothesis testing methods, [ citation needed ] though these are not accepted by all Bayesians [ citation needed ] (notably, Andrew Gelman ). Beberapa Bayesians (James Berger khususnya) telah mengembangkan metode pengujian hipotesis Bayesian, [ rujukan? ] meskipun ini tidak diterima oleh semua [Bayesians kutipan diperlukan ] (terutama, Andrew Gelman ). Given a prior probability distribution for one or more parameters, sample evidence can be used to generate an updated posterior distribution . Mengingat distribusi probabilitas sebelumnya untuk satu atau lebih parameter, bukti sampel dapat digunakan untuk menghasilkan diperbarui distribusi posterior . In this framework, but not in the null hypothesis testing framework, it is meaningful to make statements of the general form "the probability that the true value of the parameter is greater than 0 is p ". Dalam kerangka ini, tapi tidak dalam rangka pengujian hipotesis null, bermakna untuk membuat laporan bentuk umum "probabilitas bahwa nilai sebenarnya dari parameter lebih besar dari 0 adalah p". According to Bayes' theorem , Menurut 'teorema Bayes ,
thus P(Null | Data) may approach 1 while P(Data | Null) approaches 0 only when P(Null)/P(Data) approaches infinity, ie (for instance) when the a priori probability of the null hypothesis, P(Null), is also approaching 1, while P(Data) approaches 0: then P(Data | Null) is low because the data are extremely unlikely, but the Null hypothesis is extremely likely to be true. [ citation needed ] [ clarification needed ] sehingga P (Null | Data) dapat mendekati 1 sementara P (Data | Null) mendekati 0 hanya jika P (Null) / P (Data) pendekatan tak terhingga, yaitu (misalnya) ketika apriori probabilitas hipotesis nol, P ( Null), juga mendekati 1, sedangkan P (Data) pendekatan 0: maka P (Data | Null) yang rendah karena data ini sangat tidak mungkin, tetapi hipotesis Null sangat mungkin untuk menjadi kenyataan [. rujukan? ] [ klarifikasi diperlukan ] This article makes numerous false claims and fails to even cite references in the literature (over 30 years or more) that take radical issue with them. Artikel ini membuat klaim palsu banyak dan gagal bahkan mengutip referensi dalam literatur (lebih dari 30 tahun atau lebih) yang mengambil masalah radikal dengan mereka. For example, it assumes that what people really want is a posterior probability in the null, whereas that is denied by frequentist statisticians. Sebagai contoh, ia menganggap bahwa apa yang orang inginkan adalah sebuah probabilitas posterior null, sedangkan yang ditolak oleh ahli statistik frequentist. Moreover, it has been clearly argued that whenever the p-value differs from a posterior probability it is the posterior that is problematic--regardless of how it is interpreted. Selain itu, telah jelas menyatakan bahwa jika p-nilai berbeda dari probabilitas posterior itu adalah posterior yang bermasalah --- terlepas dari bagaimana ditafsirkan. since there is SO much that is flagrantly wrong and biased (against significance tests) I will just give some references: D. Mayo ERROR AND THE GROWTH OF EXPERIMENTAL KNOWLEDGE (Chicago 1996, chapter 9-12); Mayo (2005), "Evidence as Passing Severe Tests: highly Probably vs. Highly Proved," (pp. 195-127) in P. Achinstein (ed.), SCIENTIFIC EVIDENCE. karena ada SO banyak yang terang-terangan salah dan bias (melawan tes signifikansi) Saya hanya akan memberikan beberapa referensi: Mayo D. ERROR DAN
PERTUMBUHAN EKSPERIMENTAL PENGETAHUAN (Chicago 1996, bab 9-12); Mayo (2005), "Bukti sebagai Melewati berat Pengujian: Mungkin sangat vs Sangat Terbukti, "(hal. 195-127) di P. Achinstein (ed.), BUKTI ILMIAH. (john Hopkins), Cox and Mayo (2010) in Mayo and Spanos (2010), ERROR AND INFERENCE (CUP) (John Hopkins), Cox dan Mayo (2010) di Mayo dan Spanos (2010), ERROR dan kesimpulan (CUP)