ค่ามาตรฐานของระดับนัยสำคัญอัลฟา แนวคิดระดับนัยสำคัญทางสถิติ

เมื่อให้เหตุผลในการอนุมานทางสถิติ เราควรตัดสินใจว่าเส้นแบ่งระหว่างการยอมรับและการปฏิเสธสมมติฐานว่างอยู่ที่ไหน เนื่องจากการมีอยู่ของอิทธิพลแบบสุ่มในการทดลอง ขอบเขตนี้จึงไม่สามารถวาดได้อย่างแม่นยำอย่างแน่นอน มันขึ้นอยู่กับแนวคิด ระดับความสำคัญ ระดับความสำคัญ คือความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้อง หรืออีกนัยหนึ่งคือ ระดับความสำคัญ - คือความน่าจะเป็นของความผิดพลาดประเภทที่ 1 ในการตัดสินใจ เพื่อแสดงถึงความน่าจะเป็นนี้ตามกฎแล้วพวกเขาใช้ตัวอักษรกรีก α หรือตัวอักษรละติน ร.ต่อไปเราจะใช้ตัวอักษร ร.

ตามประวัติศาสตร์ในศาสตร์ประยุกต์ที่ใช้สถิติโดยเฉพาะในด้านจิตวิทยาถือว่าระดับนัยสำคัญทางสถิติต่ำสุดคือระดับ พี = 0.05; เพียงพอ - ระดับ R= 0.01 และระดับสูงสุด พี = 0.001. ดังนั้นในตารางสถิติที่ให้ไว้ในภาคผนวกของหนังสือเรียนเกี่ยวกับสถิติมักจะให้ค่าแบบตารางสำหรับระดับ พี = 0,05, พี = 0.01 และ R= 0.001. บางครั้งจะมีการให้ค่าตารางสำหรับระดับ อาร์ - 0.025 และ พี = 0,005.

ค่า 0.05, 0.01 และ 0.001 คือสิ่งที่เรียกว่าระดับมาตรฐานที่มีนัยสำคัญทางสถิติ ในการวิเคราะห์ทางสถิติของข้อมูลการทดลอง นักจิตวิทยาต้องเลือกระดับนัยสำคัญที่ต้องการโดยขึ้นอยู่กับวัตถุประสงค์และสมมติฐานของการศึกษา อย่างที่คุณเห็น ค่าที่ใหญ่ที่สุดหรือขีดจำกัดล่างของระดับนัยสำคัญทางสถิติคือ 0.05 - ซึ่งหมายความว่าข้อผิดพลาดห้าข้อได้รับอนุญาตในกลุ่มตัวอย่างหนึ่งร้อยองค์ประกอบ (กรณีและปัญหา) หรือข้อผิดพลาดหนึ่งรายการจากยี่สิบองค์ประกอบ (กรณีวิชา). เป็นที่เชื่อกันว่าทั้งหก เจ็ด หรือมากกว่าร้อยครั้ง เราไม่สามารถทำผิดพลาดได้ ค่าใช้จ่ายของความผิดพลาดดังกล่าวจะสูงเกินไป

โปรดทราบว่าในชุดซอฟต์แวร์สถิติสมัยใหม่บนคอมพิวเตอร์ ไม่ได้ใช้ระดับนัยสำคัญมาตรฐาน แต่เป็นระดับที่คำนวณโดยตรงในกระบวนการทำงานด้วยวิธีการทางสถิติที่สอดคล้องกัน ระดับเหล่านี้เขียนแทนด้วยตัวอักษร อาร์สามารถมีนิพจน์ตัวเลขที่แตกต่างกันในช่วงตั้งแต่ 0 ถึง 1 เช่น พี = 0,7, R= 0.23 หรือ R= 0.012. เป็นที่ชัดเจนว่าในสองกรณีแรก ระดับความสำคัญที่ได้รับนั้นสูงเกินไป และเป็นไปไม่ได้ที่จะบอกว่าผลลัพธ์นั้นมีนัยสำคัญ ในเวลาเดียวกัน ในกรณีหลัง ผลลัพธ์มีนัยสำคัญที่ระดับ 12,000 นี่คือระดับที่ถูกต้อง

กฎสำหรับการยอมรับข้อสรุปทางสถิติมีดังนี้: บนพื้นฐานของข้อมูลการทดลองที่ได้รับนักจิตวิทยาจะคำนวณสถิติเชิงประจักษ์ที่เรียกว่าหรือค่าเชิงประจักษ์โดยใช้วิธีทางสถิติที่เขาเลือก สะดวกในการแสดงค่านี้เป็น ชม emp . แล้วสถิติเชิงประจักษ์ ชม emp เปรียบเทียบกับค่าวิกฤตสองค่า ซึ่งสอดคล้องกับระดับนัยสำคัญ 5% และ 1% สำหรับวิธีทางสถิติที่เลือกและแสดงเป็น ชม kr . ปริมาณ ชม kr จะพบวิธีการทางสถิติที่กำหนดตามตารางที่เกี่ยวข้องในภาคผนวกของหนังสือเรียนเกี่ยวกับสถิติ ปริมาณเหล่านี้ตามกฎจะแตกต่างกันเสมอและเพื่อความสะดวกสามารถเรียกเพิ่มเติมว่า ชม cr1และ ชม kr2 . พบค่าวิกฤตจากตาราง ชม cr1และ ชม kr2สะดวกในการแสดงในรูปแบบมาตรฐานต่อไปนี้:

อย่างไรก็ตาม เราเน้นว่าเราได้ใช้สัญกรณ์ ชม emp และ ชม kr เป็นตัวย่อของคำว่า "จำนวน" ในวิธีทางสถิติทั้งหมด การกำหนดเชิงสัญลักษณ์ของปริมาณเหล่านี้เป็นที่ยอมรับ ทั้งค่าเชิงประจักษ์ที่คำนวณโดยวิธีทางสถิติที่สอดคล้องกัน และปริมาณวิกฤตที่พบจากตารางที่เกี่ยวข้อง ตัวอย่างเช่น เมื่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์อันดับของ Spearman จากตารางค่าวิกฤตของสัมประสิทธิ์นี้ จะพบค่าต่อไปนี้ของค่าวิกฤต ซึ่งสำหรับวิธีนี้แสดงด้วยตัวอักษรกรีก ρ ("ro") . ดังนั้นสำหรับ พี = 0.05 ค่าที่พบตามตาราง ρ kr 1 = 0.61 และสำหรับ พี = 0.01 มูลค่า ρ kr 2 = 0,76.

ในสัญกรณ์มาตรฐานที่นำมาใช้ด้านล่าง จะมีลักษณะดังนี้:

ตอนนี้ เราต้องเปรียบเทียบค่าเชิงประจักษ์ของเรากับค่าวิกฤตสองค่าที่พบในตาราง ทำได้ดีที่สุดโดยวางตัวเลขทั้งสามตัวไว้บนแกนที่เรียกว่า "แกนนัยสำคัญ" "แกนนัยสำคัญ" เป็นเส้นตรงที่ด้านซ้ายสุดซึ่งเป็น 0 แม้ว่าตามกฎแล้วจะไม่ถูกทำเครื่องหมายบนเส้นตรงนี้และชุดตัวเลขจะเพิ่มขึ้นจากซ้ายไปขวา อันที่จริงนี่คือแกน x ของโรงเรียนปกติ โอ้ระบบพิกัดคาร์ทีเซียน อย่างไรก็ตาม ลักษณะเฉพาะของแกนนี้คือ "โซน" สามส่วนมีความโดดเด่น โซนสุดโต่งหนึ่งเรียกว่าโซนที่ไม่มีนัยสำคัญ โซนสุดโต่งที่สองเรียกว่าโซนที่มีนัยสำคัญ และโซนกลางเรียกว่าโซนความไม่แน่นอน ขอบเขตของทั้งสามโซนคือ ชม cr1สำหรับ พี = 0.05 และ ชม kr2 สำหรับ พี = 0.01 ดังแสดงในรูป

ขึ้นอยู่กับกฎการตัดสินใจ (กฎอนุมาน) ที่กำหนดไว้ในวิธีการทางสถิตินี้ เป็นไปได้สองทางเลือก

ตัวเลือกที่ 1: ยอมรับสมมติฐานทางเลือกถ้า ชม empชม kr .

หรือตัวเลือกที่สอง: ยอมรับสมมติฐานทางเลือก if ชม empชม kr .

นับ ชม emp ตามวิธีการทางสถิติบางอย่าง มันจำเป็นต้องอยู่ในหนึ่งในสามโซน

หากค่าเชิงประจักษ์อยู่ในโซนที่ไม่มีนัยสำคัญ ก็จะยอมรับสมมติฐาน H 0 เกี่ยวกับการไม่มีความแตกต่าง

ถ้า ชม emp ตกอยู่ในโซนที่มีนัยสำคัญ สมมติฐานทางเลือก H 1 เป็นที่ยอมรับ เกี่ยวกับ มีความแตกต่างและสมมติฐาน H 0 ถูกปฏิเสธ

ถ้า ชม emp ตกอยู่ในโซนของความไม่แน่นอน นักวิจัยเผชิญกับภาวะที่กลืนไม่เข้าคายไม่ออก ดังนั้น ขึ้นอยู่กับความสำคัญของปัญหาที่กำลังแก้ไข เขาสามารถพิจารณาการประมาณการทางสถิติที่ได้รับที่เชื่อถือได้ที่ระดับ 5% และด้วยเหตุนี้จึงยอมรับสมมติฐาน H 1 โดยปฏิเสธสมมติฐาน H 0 , หรือ - ไม่น่าเชื่อถือที่ระดับ 1% จึงยอมรับสมมติฐาน H 0 . อย่างไรก็ตาม เราเน้นว่านี่เป็นกรณีที่นักจิตวิทยาสามารถทำผิดพลาดประเภทที่หนึ่งหรือสองได้ ตามที่กล่าวไว้ข้างต้น ในกรณีเหล่านี้ เป็นการดีที่สุดที่จะเพิ่มขนาดตัวอย่าง

เรายังเน้นย้ำว่าค่า ชม emp ตรงกันทุกประการ ชม cr1หรือ ชม kr2 . ในกรณีแรก เราสามารถสรุปได้ว่าค่าประมาณนั้นเชื่อถือได้อย่างแน่นอนที่ระดับ 5% และยอมรับสมมติฐาน H 1 หรือในทางกลับกัน ยอมรับสมมติฐาน H 0 . ในกรณีที่สอง ตามกฎแล้ว สมมติฐานทางเลือก H 1 เกี่ยวกับการมีอยู่ของความแตกต่างเป็นที่ยอมรับ และสมมติฐาน H 0 ถูกปฏิเสธ

p-value(อังกฤษ) - ค่าที่ใช้ทดสอบสมมติฐานทางสถิติ อันที่จริง นี่คือความน่าจะเป็นของข้อผิดพลาดเมื่อปฏิเสธสมมติฐานว่าง (ข้อผิดพลาดประเภทแรก) การทดสอบสมมติฐานโดยใช้ค่า P เป็นทางเลือกแทนขั้นตอนการทดสอบแบบคลาสสิกผ่านค่าวิกฤตของการแจกแจง

โดยปกติ ค่า P จะเท่ากับความน่าจะเป็นที่ตัวแปรสุ่มที่มีการแจกแจงที่กำหนด (การกระจายของสถิติการทดสอบภายใต้สมมติฐานว่าง) จะใช้ค่าไม่น้อยกว่าค่าจริงของสถิติการทดสอบ วิกิพีเดีย.

กล่าวอีกนัยหนึ่ง ค่า p เป็นระดับนัยสำคัญที่เล็กที่สุด (กล่าวคือ ความน่าจะเป็นที่จะปฏิเสธสมมติฐานที่แท้จริง) ซึ่งสถิติการทดสอบที่คำนวณได้นำไปสู่การปฏิเสธสมมติฐานว่าง โดยปกติ ค่า p จะถูกเปรียบเทียบกับระดับนัยสำคัญมาตรฐานที่ยอมรับโดยทั่วไปที่ 0.005 หรือ 0.01

ตัวอย่างเช่น หากค่าของสถิติการทดสอบที่คำนวณจากกลุ่มตัวอย่างสอดคล้องกับ p = 0.005 แสดงว่ามีความเป็นไปได้ 0.5% ที่สมมติฐานจะเป็นจริง ดังนั้น ยิ่งค่า p น้อยเท่าไหร่ ก็ยิ่งดีเท่านั้น เนื่องจากจะเพิ่ม "ความแข็งแกร่ง" ของการปฏิเสธสมมติฐานว่างและเพิ่มความสำคัญที่คาดหวังของผลลัพธ์

คำอธิบายที่น่าสนใจเกี่ยวกับเรื่องนี้อยู่ที่ Habré

การวิเคราะห์ทางสถิติเริ่มดูเหมือนกล่องดำ: อินพุตคือข้อมูล เอาต์พุตคือตารางผลลัพธ์หลักและค่า p

p-value พูดว่าอะไร?

สมมติว่าเราตัดสินใจที่จะค้นหาว่ามีความสัมพันธ์ระหว่างการเสพติดเกมคอมพิวเตอร์นองเลือดกับความก้าวร้าวในชีวิตจริงหรือไม่ ในการนี้ เด็กนักเรียนสองกลุ่ม กลุ่มละ 100 คน ถูกสุ่มขึ้นมา (กลุ่มที่ 1 - แฟนเกมยิงปืน กลุ่มที่ 2 - ไม่เล่นเกมคอมพิวเตอร์) ตัวอย่างเช่น จำนวนการต่อสู้กับเพื่อนทำหน้าที่เป็นตัวบ่งชี้ถึงความก้าวร้าว ในการศึกษาจินตภาพของเรา ปรากฎว่ากลุ่มเด็กนักเรียนเล่นการพนันขัดแย้งกับสหายของพวกเขาบ่อยขึ้นอย่างเห็นได้ชัด แต่เราจะทราบได้อย่างไรว่าความแตกต่างของผลลัพธ์ที่มีนัยสำคัญทางสถิติเป็นอย่างไร? บางทีเราอาจได้รับความแตกต่างที่สังเกตได้โดยบังเอิญ? เพื่อตอบคำถามเหล่านี้ ค่า p ถูกใช้ - นี่คือความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือเด่นชัดกว่านี้ โดยที่จริง ๆ แล้วไม่มีความแตกต่างในประชากรทั่วไป กล่าวอีกนัยหนึ่งนี่คือความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือมากยิ่งขึ้นระหว่างกลุ่มของเราโดยที่เกมคอมพิวเตอร์ไม่ส่งผลต่อความก้าวร้าว แต่อย่างใด ฟังดูไม่ยากเลย อย่างไรก็ตาม สถิติเฉพาะนี้มักถูกตีความผิด

ตัวอย่างค่า p

ดังนั้นเราจึงเปรียบเทียบเด็กนักเรียนสองกลุ่มในแง่ของระดับความก้าวร้าวโดยใช้การทดสอบ t มาตรฐาน (หรือการทดสอบ Chi แบบไม่อิงพารามิเตอร์ - กำลังสองที่เหมาะสมกว่าในสถานการณ์นี้) และพบว่า p- โลภ ระดับนัยสำคัญน้อยกว่า 0.05 (เช่น 0.04) แต่ค่า p-significance ที่เป็นผลลัพธ์บอกอะไรเราได้บ้าง? ดังนั้น หากค่า p คือความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือเด่นชัดกว่านี้ โดยที่ไม่มีความแตกต่างในประชากรทั่วไป คุณคิดว่าข้อความใดคือข้อความที่ถูกต้อง:

1. เกมคอมพิวเตอร์เป็นสาเหตุของพฤติกรรมก้าวร้าว โดยมีโอกาส 96%
2. ความน่าจะเป็นที่ความก้าวร้าวและเกมคอมพิวเตอร์ไม่เกี่ยวข้องกันคือ 0.04
3. ถ้าเรามีนัยสำคัญระดับ p มากกว่า 0.05 นี่หมายความว่าความก้าวร้าวและเกมคอมพิวเตอร์ไม่เกี่ยวข้องกันแต่อย่างใด
4. ความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวโดยบังเอิญคือ 0.04
5. ข้อความทั้งหมดไม่ถูกต้อง

หากคุณเลือกตัวเลือกที่ห้า แสดงว่าคุณคิดถูก! แต่จากการศึกษาจำนวนมากพบว่า แม้แต่ผู้ที่มีประสบการณ์สำคัญในการวิเคราะห์ข้อมูลก็มักจะตีความค่า p ผิด

มาเรียงคำตอบกันตามลำดับ:

ข้อความสั่งแรกเป็นตัวอย่างของข้อผิดพลาดเกี่ยวกับสหสัมพันธ์: ข้อเท็จจริงที่ว่าสองตัวแปรมีความเกี่ยวข้องกันอย่างมีนัยสำคัญนั้นไม่ได้บอกอะไรเราเกี่ยวกับเหตุและผล บางทีอาจเป็นคนก้าวร้าวมากกว่าที่ต้องการใช้เวลาเล่นเกมคอมพิวเตอร์ และไม่ใช่เกมคอมพิวเตอร์ที่ทำให้คนก้าวร้าวมากขึ้น

นี่เป็นข้อความที่น่าสนใจกว่า ประเด็นคือในตอนแรกเราถือว่าไม่มีความแตกต่างกันจริงๆ และโดยคำนึงถึงสิ่งนี้ตามความเป็นจริง เราคำนวณค่า p ดังนั้น การตีความที่ถูกต้องคือ: "สมมติว่าความก้าวร้าวและเกมคอมพิวเตอร์ไม่เกี่ยวข้อง แต่อย่างใด ความน่าจะเป็นที่จะได้รับความแตกต่างดังกล่าวหรือเด่นชัดยิ่งขึ้นคือ 0.04"

แต่ถ้าเรามีความแตกต่างที่ไม่มีนัยสำคัญล่ะ นี่หมายความว่าไม่มีความสัมพันธ์ระหว่างตัวแปรที่ศึกษาหรือไม่? ไม่ หมายความว่าอาจมีความแตกต่างกันเท่านั้น แต่ผลลัพธ์ของเราไม่ได้ช่วยให้เราตรวจพบความแตกต่างได้

สิ่งนี้เกี่ยวข้องโดยตรงกับคำจำกัดความของ p-value เอง 0.04 คือความน่าจะเป็นที่จะได้ค่าความแตกต่างเหล่านี้หรือมากยิ่งกว่านั้นอีก โดยหลักการแล้ว เป็นไปไม่ได้ที่จะประมาณความน่าจะเป็นที่จะได้รับความแตกต่างอย่างแน่นอนในการทดลองของเรา!

นี่คือข้อผิดพลาดที่ซ่อนอยู่ในการตีความตัวบ่งชี้เช่น p-value ดังนั้นจึงเป็นสิ่งสำคัญมากที่จะต้องเข้าใจกลไกที่เป็นพื้นฐานของวิธีการวิเคราะห์และการคำนวณตัวบ่งชี้ทางสถิติหลัก

จะหา p-value ได้อย่างไร?

1. กำหนดผลลัพธ์ที่คาดหวังจากการทดสอบของคุณ

โดยปกติเมื่อนักวิทยาศาสตร์ทำการทดลอง พวกเขามีความคิดอยู่แล้วว่าผลลัพธ์ใดที่ควรพิจารณา "ปกติ" หรือ "ทั่วไป" ซึ่งอาจขึ้นอยู่กับผลการทดลองของการทดลองที่ผ่านมา บนชุดข้อมูลที่เชื่อถือได้ ข้อมูลจากวรรณกรรมทางวิทยาศาสตร์ หรือนักวิทยาศาสตร์อาจอ้างอิงจากแหล่งข้อมูลอื่น สำหรับการทดสอบของคุณ ให้กำหนดผลลัพธ์ที่คาดหวัง และแสดงเป็นตัวเลข

ตัวอย่าง: ตัวอย่างเช่น การศึกษาก่อนหน้านี้ได้แสดงให้เห็นว่าในประเทศของคุณ รถสีแดงมักจะได้รับตั๋วเร่งด่วนมากกว่ารถสีน้ำเงิน ตัวอย่างเช่น คะแนนเฉลี่ยแสดงความพึงพอใจ 2:1 สำหรับรถสีแดงมากกว่ารถสีน้ำเงิน เราต้องการตรวจสอบว่าตำรวจมีอคติแบบเดียวกันกับสีรถยนต์ในเมืองของคุณหรือไม่ ในการทำเช่นนี้เราจะวิเคราะห์ค่าปรับสำหรับการเร่งความเร็ว ถ้าเราสุ่มตั๋ว 150 ใบที่ออกให้สำหรับรถสีแดงหรือสีน้ำเงิน เราคาดว่าจะออกตั๋ว 100 ใบสำหรับรถสีแดง และ 50 ใบสำหรับรถสีน้ำเงิน ถ้าตำรวจในเมืองของเรามีอคติต่อสีรถเช่นนี้ สังเกตได้ทั่วประเทศ

2. กำหนดผลลัพธ์ที่สังเกตได้จากการทดลองของคุณ

เมื่อคุณได้กำหนดผลลัพธ์ที่คาดหวังแล้ว คุณต้องทดลองและค้นหาค่าจริง (หรือ "ที่สังเกต") คุณต้องแสดงผลลัพธ์เหล่านี้เป็นตัวเลขอีกครั้ง หากเราสร้างเงื่อนไขการทดลอง และผลลัพธ์ที่สังเกตได้แตกต่างไปจากที่คาดไว้ เราก็มีความเป็นไปได้สองอย่าง - สิ่งนี้เกิดขึ้นโดยบังเอิญ หรือสิ่งนี้เกิดจากการทดสอบของเราอย่างแม่นยำ จุดประสงค์ในการค้นหาค่า p นั้นแม่นยำเพื่อกำหนดว่าผลลัพธ์ที่สังเกตได้นั้นแตกต่างจากที่คาดไว้ในลักษณะที่เราไม่สามารถปฏิเสธ "สมมติฐานว่าง" ได้หรือไม่ - สมมติฐานที่ว่าไม่มีความสัมพันธ์ระหว่างตัวแปรทดลองกับค่าที่สังเกตได้ ผล.

ตัวอย่าง: ตัวอย่างเช่น ในเมืองของเรา เราสุ่มเลือกตั๋วความเร็วสูง 150 ใบที่ออกให้กับรถสีแดงหรือสีน้ำเงิน เราพิจารณาแล้วว่ามีการออกตั๋ว 90 ใบสำหรับรถสีแดงและ 60 ใบสำหรับรถสีน้ำเงิน ซึ่งต่างจากผลลัพธ์ที่คาดไว้ซึ่งก็คือ 100 และ 50 ตามลำดับ การทดลองของเรา (ในกรณีนี้ การเปลี่ยนแหล่งข้อมูลจากระดับชาติเป็นระดับเมือง) ทำให้เกิดการเปลี่ยนแปลงในผลลัพธ์ หรือตำรวจเมืองของเรามีอคติแบบเดียวกับค่าเฉลี่ยของประเทศ และเราเห็นเพียงรูปแบบสุ่มเท่านั้น ค่า p จะช่วยให้เราระบุสิ่งนี้ได้

3. กำหนดจำนวนองศาอิสระในการทดสอบของคุณ

จำนวนองศาอิสระคือระดับความแปรปรวนในการทดสอบของคุณ ซึ่งพิจารณาจากจำนวนหมวดหมู่ที่คุณกำลังสำรวจ สมการสำหรับจำนวนองศาอิสระคือจำนวนองศาอิสระ = n-1 โดยที่ "n" คือจำนวนหมวดหมู่หรือตัวแปรที่คุณกำลังวิเคราะห์ในการทดสอบของคุณ

ตัวอย่าง: ในการทดลองของเรา มีผลลัพธ์สองหมวดหมู่: ประเภทหนึ่งสำหรับรถสีแดง และอีกหมวดสำหรับรถสีน้ำเงิน ดังนั้น ในการทดลองของเรา เรามีดีกรีอิสระ 2-1 = 1 ดีกรี ถ้าเราเปรียบเทียบรถสีแดง สีน้ำเงิน และสีเขียว เราจะมีอิสระ 2 ระดับ เป็นต้น

4. เปรียบเทียบผลลัพธ์ที่คาดหวังและที่สังเกตได้โดยใช้การทดสอบไคสแควร์

Chi-square (เขียนว่า "x2") เป็นค่าตัวเลขที่วัดความแตกต่างระหว่างค่าที่คาดหวังและค่าที่สังเกตได้ของการทดสอบ สมการของไคสแควร์คือ x2 = Σ((o-e)2/e) โดยที่ "o" คือค่าที่สังเกตได้ และ "e" คือค่าที่คาดไว้ รวมผลลัพธ์ของสมการที่กำหนดสำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมด (ดูด้านล่าง)

โปรดทราบว่าสมการนี้มีตัวดำเนินการบวก Σ (ซิกมา) กล่าวอีกนัยหนึ่ง คุณต้องคำนวณ ((|o-e|-.05)2/e) สำหรับแต่ละผลลัพธ์ที่เป็นไปได้ และเพิ่มตัวเลขเข้าด้วยกันเพื่อให้ได้ค่าไคสแควร์ ในตัวอย่างของเรา เรามีผลลัพธ์ที่เป็นไปได้สองประการ - รถที่ได้รับโทษเป็นสีแดงหรือสีน้ำเงิน ดังนั้นเราต้องนับ ((o-e)2/e) สองครั้ง - หนึ่งครั้งสำหรับรถสีแดง และอีกครั้งสำหรับรถสีน้ำเงิน

ตัวอย่าง: ลองแทนค่าที่คาดหวังและสังเกตของเราลงในสมการ x2 = Σ((o-e)2/e) จำไว้ว่าเนื่องจากตัวดำเนินการบวก เราต้องนับ ((o-e)2/e) สองครั้ง - หนึ่งครั้งสำหรับรถสีแดง และอีกครั้งสำหรับรถสีน้ำเงิน เราจะดำเนินการดังนี้:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3

5. เลือกระดับความสำคัญ

ตอนนี้เรารู้จำนวนองศาอิสระในการทดลองแล้ว และเรารู้ค่าของการทดสอบไคสแควร์แล้ว เราต้องทำอีกอย่างหนึ่งก่อนจึงจะหาค่า p ได้ เราจำเป็นต้องกำหนดระดับความสำคัญ พูดง่ายๆ ก็คือ ระดับนัยสำคัญบ่งชี้ว่าเรามั่นใจในผลลัพธ์ของเราเพียงใด ค่านัยสำคัญที่ต่ำจะสอดคล้องกับความน่าจะเป็นต่ำที่ผลการทดลองได้มาโดยบังเอิญ และในทางกลับกัน ระดับความสำคัญเขียนเป็นเศษส่วนทศนิยม (เช่น 0.01) ซึ่งสอดคล้องกับความน่าจะเป็นที่เราได้รับผลการทดลองโดยบังเอิญ (ในกรณีนี้ ความน่าจะเป็นที่จะเป็น 1%)

ตามแบบแผน นักวิทยาศาสตร์มักจะกำหนดระดับความสำคัญของการทดลองไว้ที่ 0.05 หรือ 5% ซึ่งหมายความว่าผลการทดลองที่ตรงตามเกณฑ์ที่มีนัยสำคัญนั้นสามารถรับได้โดยความน่าจะเป็นเพียง 5% โดยบังเอิญเท่านั้น กล่าวอีกนัยหนึ่ง มีโอกาส 95% ที่ผลลัพธ์เกิดจากการที่นักวิทยาศาสตร์จัดการกับตัวแปรทดลอง ไม่ใช่โดยบังเอิญ สำหรับการทดลองส่วนใหญ่ ความมั่นใจ 95% ว่ามีความสัมพันธ์ระหว่างสองตัวแปรก็เพียงพอที่จะพิจารณาว่าตัวแปรทั้งสองมีความเกี่ยวข้องกัน "จริงๆ"

ตัวอย่าง: สำหรับตัวอย่างรถยนต์สีแดงและสีน้ำเงิน ให้ทำตามแบบแผนระหว่างนักวิทยาศาสตร์และตั้งค่าระดับนัยสำคัญเป็น 0.05

6. ใช้แผ่นข้อมูลการแจกแจงแบบไคสแควร์เพื่อค้นหาค่า p ของคุณ

นักวิทยาศาสตร์และนักสถิติใช้สเปรดชีตขนาดใหญ่เพื่อคำนวณค่า p ของการทดลอง ข้อมูลตารางมักจะมีแกนตั้งทางด้านซ้าย ซึ่งสอดคล้องกับจำนวนองศาอิสระ และแกนนอนที่ด้านบน ซึ่งสอดคล้องกับค่า p ใช้ข้อมูลในตารางเพื่อค้นหาจำนวนองศาอิสระของคุณก่อน จากนั้นดูอนุกรมของคุณจากซ้ายไปขวาจนกว่าคุณจะพบค่าแรกมากกว่าค่าไคสแควร์ของคุณ ดูค่า p ที่สอดคล้องกันที่ด้านบนของคอลัมน์ของคุณ ค่า p ของคุณอยู่ระหว่างตัวเลขนี้กับค่าถัดไป (ค่าที่อยู่ทางซ้ายของคุณ)

ตารางการแจกจ่าย Chi-squared สามารถหาได้จากหลายแหล่ง (คุณสามารถหาได้จากลิงค์นี้)

ตัวอย่าง: ค่าไคสแควร์ของเราคือ 3 เนื่องจากเรารู้ว่าการทดลองของเรามีอิสระเพียง 1 องศา เราจะเลือกแถวแรกสุด เราไปจากซ้ายไปขวาตามเส้นนี้ จนกว่าเราจะพบค่าที่มากกว่า 3 ซึ่งเป็นค่าทดสอบไคสแควร์ของเรา อันแรกที่เราพบคือ 3.84 เมื่อค้นหาคอลัมน์ของเรา เราจะเห็นว่าค่า p ที่สอดคล้องกันคือ 0.05 ซึ่งหมายความว่าค่า p ของเราอยู่ระหว่าง 0.05 ถึง 0.1 (ค่า p สูงสุดถัดไปในตาราง)

7. ตัดสินใจว่าจะปฏิเสธหรือเก็บสมมติฐานว่างไว้

เนื่องจากคุณได้กำหนดค่า p โดยประมาณสำหรับการทดสอบของคุณแล้ว คุณต้องตัดสินใจว่าจะปฏิเสธสมมติฐานว่างของการทดสอบของคุณหรือไม่ (จำได้ว่า นี่คือสมมติฐานที่ว่าตัวแปรทดลองที่คุณจัดการไม่ได้ส่งผลต่อผลลัพธ์ที่คุณสังเกต) หากค่า p ของคุณน้อยกว่าระดับนัยสำคัญ ยินดีด้วย คุณได้พิสูจน์แล้วว่ามีความเป็นไปได้สูงที่จะมีความสัมพันธ์ระหว่างตัวแปรที่คุณจัดการกับผลลัพธ์ที่คุณสังเกต หากค่า p ของคุณสูงกว่าระดับนัยสำคัญ คุณจะไม่สามารถแน่ใจได้ว่าผลลัพธ์ที่คุณสังเกตเห็นนั้นเกิดจากโอกาสหรือการปรับเปลี่ยนตัวแปรของคุณ

ตัวอย่าง: ค่า p อยู่ระหว่าง 0.05 ถึง 0.1 นี่มันไม่น้อยกว่า 0.05 อย่างชัดเจน โชคไม่ดีที่เราไม่สามารถปฏิเสธสมมติฐานว่างของเราได้ ซึ่งหมายความว่าเรายังไม่ถึงโอกาสขั้นต่ำ 95% ที่จะบอกว่าตำรวจในเมืองของเรากำลังออกตั๋วสำหรับรถสีแดงและสีน้ำเงินที่มีความน่าจะเป็นที่ค่อนข้างแตกต่างจากค่าเฉลี่ยของประเทศ

กล่าวอีกนัยหนึ่ง มีโอกาส 5-10% ที่ผลลัพธ์ที่เราสังเกตจะไม่ใช่ผลของการเปลี่ยนแปลงตำแหน่ง (การวิเคราะห์ของเมือง ไม่ใช่ทั้งประเทศ) แต่เป็นเพียงอุบัติเหตุ เนื่องจากเราต้องการความแม่นยำน้อยกว่า 5% เราจึงไม่สามารถพูดได้ว่าเรามั่นใจว่าตำรวจในเมืองของเรามีอคติกับรถสีแดงน้อยกว่า มีโอกาสเล็กน้อย (แต่มีนัยสำคัญทางสถิติ) ที่จะไม่เป็นเช่นนั้น

พื้นฐานของทฤษฎีการทดสอบสมมติฐานทางสถิติ

แนวคิดของสมมติฐานทางสถิติ

สมมติฐานทางสถิติ- นี่เป็นข้อสันนิษฐานเกี่ยวกับประเภทของการกระจายหรือเกี่ยวกับค่าของพารามิเตอร์ที่ไม่รู้จักของประชากรทั่วไปซึ่งสามารถตรวจสอบได้โดยใช้ตัวบ่งชี้ตัวอย่าง

ตัวอย่างของสมมติฐานทางสถิติ:

ประชากรทั่วไปมีการกระจายตามกฎเกาส์ (กฎปกติ)

ความแปรปรวนของประชากรปกติสองกลุ่มมีค่าเท่ากัน

ในการประมาณค่าของพารามิเตอร์ทั่วไปตามตัวบ่งชี้ตัวอย่างทางชีววิทยาเรียกว่า สมมติฐานว่าง , เช่น. สันนิษฐานว่า ว่าพารามิเตอร์ทั่วไปที่ตัดสินจากข้อมูลตัวอย่างไม่แตกต่างกัน และความแตกต่างที่สังเกตได้ระหว่างตัวบ่งชี้ตัวอย่างไม่เป็นระบบ แต่เป็นแบบสุ่มล้วนๆ

ประกอบกับสมมติฐานที่หยิบยกขึ้นมาพิจารณาสมมติฐานที่ขัดแย้งกับมันด้วย หากสมมติฐานที่เสนอมาถูกปฏิเสธ จะมีการตั้งสมมติฐานทางเลือกขึ้น เป็นประโยชน์ในการแยกแยะระหว่างพวกเขา

ศูนย์ (แต่)เรียกว่าสมมติฐานที่เสนอ

อัลเทอร์เนทีฟ (N 1)- สมมติฐานที่ขัดแย้งกับค่าว่าง

มีสมมติฐานที่มีเพียงหนึ่งข้อสันนิษฐานมากกว่าหนึ่งข้อ

และสมมติฐานซึ่งประกอบด้วยสมมติฐานง่ายๆ จำนวนจำกัดหรือไม่จำกัด - ยาก .

ควรเน้นย้ำถึงลักษณะทางสถิติของวิธีการที่อธิบายไว้สำหรับการทดสอบสมมติฐานว่าง โดยเฉพาะอย่างยิ่ง ในข้อเท็จจริงที่ว่าคำสั่งเกี่ยวกับความถูกต้องของสมมติฐานว่างนั้นไม่ได้รับการยอมรับอย่างแน่นอน แต่ในระดับที่มีนัยสำคัญระดับหนึ่งเท่านั้น

ระดับความสำคัญคือเปอร์เซ็นต์ของกรณีที่ไม่น่าจะเกิดขึ้นซึ่งขัดแย้งกับสมมติฐานที่ยอมรับ เรียกว่าเป็นคำถาม

ในการศึกษาทางชีววิทยา มักใช้ระดับนัยสำคัญ 5% ซึ่งสอดคล้องกับความน่าจะเป็นที่ P=0.05

ในกรณีที่สำคัญกว่านั้น เมื่อข้อสรุปควรเข้มงวดเป็นพิเศษ ระดับของความสำคัญจะถูกนำมา



1% หรือ P=0.01 และ

0.1% หรือ P = 0.001

ดังนั้น ความน่าจะเป็นที่ตัดสินใจละเลยเมื่อประมาณค่าพารามิเตอร์ทั่วไปจากข้อมูลของการสังเกตตัวอย่าง จะแสดงโดยระดับนัยสำคัญที่ยอมรับได้

ความน่าจะเป็นของกรณีตรงข้ามเมื่อสมมติฐานน่าเชื่อถือเรียกว่า ความน่าจะเป็นของความมั่นใจ

โดยปกติในการปฏิบัติงานวิจัย จะใช้เกณฑ์ความเชื่อมั่นสามระดับ:

หน้า 1 =0.95; หน้า 2 = 0.99; P 3 \u003d 0.999

ความน่าจะเป็น P 1 = 0.95; สอดคล้องกับ t = 1.96

หน้า 2 = 0.99; สอดคล้องกับ t = 2.58

หน้า 2 =0.999; สอดคล้องกับ t = 3.29

ค่าของความน่าจะเป็นของความมั่นใจหรือระดับของนัยสำคัญเมื่อทดสอบสมมติฐานถูกกำหนดโดยผู้วิจัยเอง ขึ้นอยู่กับระดับของความแม่นยำในการดำเนินการศึกษาและความรับผิดชอบของข้อสรุปที่เกิดขึ้น

ถ้า P≥0.05 หรือ P<0,95, то отвергать нулевую гипотезу нет оснований.

ถ้า R<0,05 или Р≥0,95, нулевая гипотеза отвергается.

ข้อผิดพลาดประเภทที่ 1 และ 11 เกณฑ์ความสำคัญ

ระดับความสำคัญ พื้นที่วิกฤต

การตัดสินใจที่จะปฏิเสธหรือยอมรับสมมติฐานทางสถิตินั้นขึ้นอยู่กับข้อมูลตัวอย่าง ดังนั้นต้องคำนึงถึงความเป็นไปได้ของการตัดสินใจที่ผิดพลาด แยกแยะระหว่างข้อผิดพลาด Type I และ Type II

ข้อผิดพลาดประเภทที่ 1คือสมมติฐานที่ถูกต้องจะถูกปฏิเสธ (เช่น สมมติฐานว่างจะถูกปฏิเสธ ณ เวลาที่เป็นจริง)

ข้อผิดพลาดประเภทที่ 1คือจะยอมรับสมมติฐานที่ผิด (เช่น จะยอมรับสมมติฐานว่างในเวลาที่ไม่เป็นความจริง)

เมื่อละทิ้งสมมติฐานว่าง มีความน่าจะเป็นที่ยังคงเป็นจริง (กล่าวคือ เราสร้างข้อผิดพลาดประเภท I-ro) ความน่าจะเป็นนี้จะแสดงด้วย α ความน่าจะเป็น α เรียกว่าระดับนัยสำคัญ

ระดับความสำคัญ αคือความน่าจะเป็นที่จะผิดพลาด

ความน่าจะเป็นของข้อผิดพลาดประเภท II แสดงด้วย ß และค่า

1-ß-call อำนาจของเกณฑ์ .

ยิ่งมีพลังงานสูง ความน่าจะเป็นของข้อผิดพลาด Type II ก็จะยิ่งต่ำลง


เปอร์เซ็นต์ที่อนุญาตของข้อผิดพลาดที่เป็นไปได้ของประเภทแรกนั้นเป็นเรื่องของข้อตกลงร่วมกัน เหนือสิ่งอื่นใด ควรพิจารณาถึงผลลัพธ์ที่เป็นไปได้ของการตัดสินใจที่ผิดพลาดด้วย การตัดสินใจที่ผิดพลาด เช่น ในการตรวจสอบ อาจมีผลที่ร้ายแรงกว่าความบริสุทธิ์ที่ประกาศอย่างผิดพลาดของสารเคมี ดังนั้น ในกรณีแรก ความแน่นอนที่สูงขึ้น และด้วยเหตุนี้ จึงควรระบุข้อผิดพลาดประเภทที่ 1 ที่เป็นไปได้ให้น้อยกว่าในกรณีที่สอง

กฎต่อไปนี้มักจะปฏิบัติตาม

สมมติฐานที่กำลังทดสอบจะถูกยกเลิกหากข้อผิดพลาดประเภท 1 สามารถเกิดขึ้นได้น้อยกว่า 100α = 1% ของทุกกรณี (เช่น α 0.01) ความแตกต่างที่พิจารณาแล้วถือว่ามีนัยสำคัญ

สมมติฐานที่ทดสอบได้เป็นที่ยอมรับเมื่อข้อผิดพลาดประเภท 1 เป็นไปได้มากกว่า 100α = 5% ของทุกกรณี (α 0.05) ความแตกต่างที่พิจารณาแล้วถือว่าไม่มีนัยสำคัญ

ควรมีการอภิปรายสมมติฐานที่อยู่ระหว่างการพิจารณาเพิ่มเติมหากจำนวนข้อผิดพลาดประเภทที่ 1 ที่เป็นไปได้อยู่ระหว่าง 5% ถึง 1% (0.01 0.05) ความแตกต่างที่ตรวจพบจะถูกตีความว่าเป็นข้อโต้แย้งได้ บ่อยครั้งที่การวัดเพิ่มเติมสามารถชี้แจงสถานการณ์ได้ หากการวัดเพิ่มเติมไม่เพียงพอไม่ว่าด้วยเหตุผลใดก็ตาม ข้อมูลที่ได้รับควรได้รับการตีความตามกรณีที่เลวร้ายที่สุด

ทางเลือกของ α เป็นเรื่องของข้อตกลง บางครั้งมันก็เพียงพอแล้วที่จะเลือก 100α = 10% ในบางกรณี ในทางปฏิบัติ ความเป็นไปได้ของการตัดสินใจที่ผิดพลาดควรได้รับการยกเว้น (เช่น เมื่อประเมินผลที่เป็นพิษของการเตรียมยา ). จากนั้น สมมติฐานที่ทดสอบแล้วจะถูกยกเลิกทันทีที่จำนวนข้อผิดพลาดที่เป็นไปได้ของประเภทที่ 1 ถึงระดับเล็กน้อย เช่น 100α = 0.1%

ข้อผิดพลาดประเภทที่ 1 และ 2 ขึ้นอยู่กับแต่ละอื่น ๆ น้อยจะเป็น α, ยิ่งจะมี β (และในทางกลับกัน). ดังนั้นจึงไม่มีประโยชน์ที่จะเลือกค่าของ α ที่เล็กเกินไปสำหรับการทดสอบนัยสำคัญ เนื่องจากค่าที่ไม่รู้จักจึงเพิ่มขึ้นอย่างมากด้วยเหตุนี้ ß. ทางเลือก α หมายถึงขั้นตอนการวางแผนของการทดลอง!

หลังจากตั้งค่าระดับนัยสำคัญแล้ว จะพบกฎตามสมมติฐานที่ยอมรับหรือปฏิเสธ กฎดังกล่าวเรียกว่า เกณฑ์ทางสถิติ

การทดสอบทางสถิติ- กฎที่ยอมรับหรือปฏิเสธสมมติฐานว่าง

การสร้างเกณฑ์ประกอบด้วยการเลือกฟังก์ชันที่เหมาะสม T= T(X 1, ..., Xn) จากการสังเกต X 1 , ... X น ซึ่งทำหน้าที่เป็นตัววัดความคลาดเคลื่อนระหว่างค่าทดลองและค่าสมมุติ


ฟังก์ชันนี้ซึ่งเป็นตัวแปรสุ่มเรียกว่า สถิติเกณฑ์

สถิติเกณฑ์- ตัวแปรสุ่มที่พัฒนาขึ้นเป็นพิเศษซึ่งทราบฟังก์ชันการกระจาย

สันนิษฐานว่าการกระจายความน่าจะเป็น T \u003d T (1, ..., X p) สามารถคำนวณได้ภายใต้สมมติฐานที่ว่าสมมติฐานที่กำลังทดสอบเป็นจริง และการแจกแจงนี้ไม่ได้ขึ้นอยู่กับลักษณะของการแจกแจงแบบสมมุติฐาน

หลังจากเลือกเกณฑ์หนึ่งแล้ว ชุดของค่าที่เป็นไปได้ทั้งหมดจะถูกแบ่งออกเป็นสองชุดย่อยที่ไม่ทับซ้อนกัน: หนึ่งในนั้นมีค่าเกณฑ์ที่ปฏิเสธสมมติฐานว่างและอีกชุดหนึ่งซึ่งเป็นที่ยอมรับ เช่น ว่าด้วยขอบเขตวิกฤตและขอบเขตการยอมรับสมมติฐาน

พื้นที่วิกฤตคือชุดของค่าเกณฑ์ที่สมมติฐานว่างถูกปฏิเสธ

พื้นที่ของการยอมรับสมมติฐานคือชุดของค่าเกณฑ์ที่ยอมรับสมมติฐานว่าง

หลักการพื้นฐานของการทดสอบสมมติฐานสามารถกำหนดได้ดังนี้: ถ้าค่าที่สังเกตได้ของเกณฑ์อยู่ในขอบเขตวิกฤต สมมติฐานจะถูกปฏิเสธ ถ้าค่าที่สังเกตได้ของเกณฑ์อยู่ในพื้นที่ของการยอมรับของสมมติฐาน สมมติฐานก็เป็นที่ยอมรับ

เนื่องจากเกณฑ์ ท = T(X 1, ..., X p) เป็นตัวแปรสุ่มแบบหนึ่งมิติ ค่าที่เป็นไปได้ทั้งหมดอยู่ในช่วงเวลาหนึ่ง ดังนั้น บริเวณวิกฤตและขอบเขตการยอมรับสมมติฐานจึงเป็นช่วงๆ เช่นกัน และด้วยเหตุนี้จึงมีจุดที่แยกจากกัน จุดดังกล่าวเรียกว่าวิกฤต

ค่าวิกฤตของเกณฑ์คือจุดที่แยกเขตวิกฤตออกจากพื้นที่ยอมรับสมมติฐาน

ค่าวิกฤตพบ T cr จากการแจกแจงสถิติ T โดยที่ถ้าสมมติฐานเป็นจริง ความน่าจะเป็นของเหตุการณ์ (T บริเวณวิกฤต) จะเท่ากับ α, เป็น -ระดับนัยสำคัญที่กำหนดไว้ล่วงหน้า กล่าวคือ นี่คือค่าของสถิติ T cr T ซึ่ง P(T บริเวณวิกฤต) = α

มีด้านเดียว (ด้านขวาหรือด้านซ้าย) และภูมิภาควิกฤตทวิภาคี ถูกกำหนดจากนิพจน์ต่อไปนี้:

ถนัดขวา - P (T> T cr) \u003d α;

ด้านซ้าย - P (T<Т кр) = α

ทวิภาคี - P(T Tcr2) =a Tcr1

หากการกระจายของเกณฑ์มีความสมมาตรเทียบกับศูนย์ ดังนั้น Р(Т<-Т кр) = Р(Т>T CR) ดังนั้นเราจึงได้ P(T>T CR)= ก/2.

ข้าว. 37. พื้นที่วิกฤต: ด้านซ้าย, ด้านขวา, ทวิภาคี

พบจุดวิกฤตจากตารางที่สอดคล้องกับการแจกแจงเกณฑ์

การทดสอบที่มีนัยสำคัญแบ่งออกเป็นแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์

อดีตถูกสร้างขึ้นบนพื้นฐานของพารามิเตอร์ของตัวอย่างและแสดงหน้าที่ของพารามิเตอร์เหล่านี้

ที่สอง - ฟังก์ชันจากตัวแปรของชุดที่กำหนดพร้อมความถี่

เกณฑ์พารามิเตอร์ใช้ได้เฉพาะเมื่อประชากรที่สุ่มตัวอย่างถูกกระจายตามปกติ

การทดสอบแบบไม่อิงพารามิเตอร์ใช้ได้กับการกระจายรูปทรงต่างๆ อย่างหลังมีข้อได้เปรียบบางอย่างเหนือพารามิเตอร์เนื่องจากข้อกำหนดที่ต่ำกว่าสำหรับการใช้งานของพวกเขา ความเป็นไปได้ที่หลากหลายกว่า และบ่อยครั้งที่ง่ายต่อการนำไปใช้งานมากกว่า แน่นอน เราต้องคำนึงถึงความแม่นยำที่ต่ำกว่าของเกณฑ์เหล่านี้เมื่อเปรียบเทียบกับเกณฑ์พารามิเตอร์ด้วย

ผลลัพธ์ของวิธีการทดสอบทางสถิติมักไม่สะดวกสำหรับนักวิเคราะห์ ในหลายกรณีพวกเขาทำให้ไม่มีนัยสำคัญ (a>O,O5)หรือความแตกต่างที่ขัดแย้งกัน แม้ว่าบนพื้นฐานของประสบการณ์เชิงอัตวิสัย ความแตกต่าง "ที่แท้จริง" ได้ถูกกำหนดไว้แล้ว ในกรณีเช่นนี้ การวัดเพิ่มเติมมักจะช่วยได้ ยิ่งได้ผลลัพธ์มาก ความแตกต่างที่น้อยลงจะถูกบันทึกได้อย่างน่าเชื่อถือ ไม่ว่าในกรณีใด เราไม่ควรพยายามแทนที่ข้อมูลที่แน่ชัดด้วยข้อมูลที่น่าสงสัยโดยอิงจากการประเมินตามอัตนัย

ระดับความสำคัญ - คือความน่าจะเป็นที่เราพิจารณาถึงความแตกต่างที่มีนัยสำคัญ แต่แท้จริงแล้วมันเป็นการสุ่ม

เมื่อเราระบุว่าความแตกต่างมีนัยสำคัญที่ระดับนัยสำคัญ 5% หรือที่ R< 0,05 เราก็หมายความว่าความน่าจะเป็นที่ยังไม่น่าเชื่อถือคือ 0.05

เมื่อเราระบุว่าความแตกต่างมีนัยสำคัญที่ระดับนัยสำคัญ 1% หรือที่ R< 0,01 เราก็หมายความว่าความน่าจะเป็นที่ยังไม่น่าเชื่อถือคือ 0.01

หากเราแปลทั้งหมดนี้เป็นภาษาที่เป็นทางการมากขึ้น ระดับนัยสำคัญก็คือความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่าง ในขณะที่มันเป็นเรื่องจริง

ความผิดพลาด,ซึ่งประกอบด้วยหนึ่งสิ่งที่เราถูกปฏิเสธสมมติฐานว่างในขณะที่เป็นความจริงเรียกว่าข้อผิดพลาดประเภทที่ 1(ดูตารางที่ 1)

แท็บ 1. สมมติฐานว่างและทางเลือก และสถานะการทดสอบที่เป็นไปได้

ความน่าจะเป็นของข้อผิดพลาดดังกล่าวมักจะแสดงเป็น α. อันที่จริงเราจะต้องใส่วงเล็บไม่ใช่ p < 0.05 หรือ p < 0.01 และ α < 0.05 หรือ α < 0,01.

หากความน่าจะเป็นของข้อผิดพลาดคือ α แล้วความน่าจะเป็นของการตัดสินใจที่ถูกต้องคือ 1-α ยิ่ง α น้อยกว่า ความน่าจะเป็นของคำตอบที่ถูกต้องก็จะยิ่งมากขึ้น

ในทางจิตวิทยา เป็นเรื่องปกติที่จะต้องพิจารณาระดับ 5% (p≤0.05) เป็นระดับต่ำสุดที่มีนัยสำคัญทางสถิติ: ระดับ 1% ก็เพียงพอแล้ว (p≤0.01) และระดับสูงสุด 0.1% ( p≤0.001) ดังนั้นในตารางค่าวิกฤตมักจะให้ค่าของเกณฑ์ซึ่งสอดคล้องกับระดับของนัยสำคัญทางสถิติ p≤0.05 และ p≤0.01 บางครั้ง - p≤0.001 สำหรับเกณฑ์บางเกณฑ์ ตารางจะระบุระดับที่แน่นอนของนัยสำคัญของค่าเชิงประจักษ์ที่แตกต่างกัน ตัวอย่างเช่น สำหรับ φ*=1.56 p=0.06

อย่างไรก็ตาม จนกว่าระดับของนัยสำคัญทางสถิติจะถึง p=0.05 เรายังไม่มีสิทธิ์ปฏิเสธสมมติฐานว่าง เราจะปฏิบัติตามกฎต่อไปนี้ในการปฏิเสธสมมติฐานที่ไม่มีความแตกต่าง (HO) และยอมรับสมมติฐานที่มีนัยสำคัญทางสถิติของความแตกต่าง (H 1)

กฎของการปฏิเสธโฮและการยอมรับh1

หากค่าเชิงประจักษ์ของเกณฑ์เท่ากับหรือเกินกว่าค่าวิกฤตที่สอดคล้องกับ p≤0.05 ดังนั้น H 0 จะถูกปฏิเสธ แต่เรายังไม่สามารถยอมรับ H 1 ได้อย่างแน่นอน

หากค่าเชิงประจักษ์ของเกณฑ์เท่ากับหรือเกินกว่าค่าวิกฤตที่สอดคล้องกับ p≤0.01 ดังนั้น H 0 จะถูกปฏิเสธและยอมรับ H 1

ข้อยกเว้น : การทดสอบ G sign, การทดสอบ Wilcoxon T และการทดสอบ Mann-Whitney U มีความสัมพันธ์แบบผกผัน

ข้าว. 4. ตัวอย่างของ “แกนนัยสำคัญ” สำหรับการทดสอบ Rosenbaum Q

ค่าวิกฤตของเกณฑ์ถูกกำหนดเป็น Q o.o5 และ Q 0.01 ซึ่งเป็นค่าเชิงประจักษ์ของเกณฑ์เป็น Q emp มันถูกล้อมรอบด้วยวงรี

ทางด้านขวาของค่าวิกฤต Q 0.01 ขยาย "โซนความสำคัญ" - ค่าเชิงประจักษ์อยู่ที่นี่ซึ่งเกิน Q 0.01 และดังนั้นจึงมีความสำคัญอย่างแน่นอน

ทางด้านซ้ายของค่าวิกฤตของ Q 0.05 "โซนของความไม่สำคัญ" จะขยายออกไป - ค่าเชิงประจักษ์ของ Q ตกลงที่นี่ ซึ่งต่ำกว่า Q 0.05 ดังนั้นจึงไม่มีนัยสำคัญอย่างไม่มีเงื่อนไข

เราเห็นว่า คิว 0,05 =6; คิว 0,01 =9; คิว ชั่วคราว =8;

ค่าเชิงประจักษ์ของเกณฑ์อยู่ในช่วงระหว่าง Q 0.05 ถึง Q 0.01 นี่คือโซนของ "ความไม่แน่นอน": เราสามารถปฏิเสธสมมติฐานเกี่ยวกับความไม่น่าเชื่อถือของความแตกต่าง (H 0) ได้แล้ว แต่เรายังไม่สามารถยอมรับสมมติฐานเกี่ยวกับความน่าเชื่อถือของพวกเขา (H 1)

อย่างไรก็ตาม ในทางปฏิบัติ ผู้วิจัยสามารถพิจารณาถึงความแตกต่างที่มีนัยสำคัญอยู่แล้วที่ไม่เข้าข่ายความไม่สำคัญ โดยประกาศว่ามีความแตกต่างกันอย่างมีนัยสำคัญที่ p < 0.05 หรือระบุระดับนัยสำคัญของค่าเชิงประจักษ์ที่ได้รับของเกณฑ์ เช่น p=0.02 ด้วยความช่วยเหลือของตารางมาตรฐานที่อยู่ในหนังสือเรียนเกี่ยวกับวิธีการทางคณิตศาสตร์ทั้งหมด สิ่งนี้สามารถทำได้โดยสัมพันธ์กับเกณฑ์ของ Kruskal-Wallis H, χ 2 r ฟรีดแมน, แอล เพจ, φ* ฟิชเชอร์ .

ระดับของนัยสำคัญทางสถิติหรือค่าวิกฤตของเกณฑ์ถูกกำหนดแตกต่างกันเมื่อทำการทดสอบสมมติฐานทางสถิติแบบตรงและแบบไม่มีทิศทาง

ด้วยสมมติฐานทางสถิติเชิงทิศทาง การทดสอบแบบด้านเดียวจะใช้กับสมมติฐานแบบไม่มีทิศทาง ซึ่งเป็นการทดสอบแบบสองทาง การทดสอบแบบสองด้านมีความเข้มงวดมากกว่าเนื่องจากทดสอบความแตกต่างในทั้งสองทิศทาง ดังนั้นค่าเชิงประจักษ์ของการทดสอบที่ก่อนหน้านี้สอดคล้องกับระดับนัยสำคัญ p < 0.05 ตอนนี้สอดคล้องกับระดับ p เท่านั้น < 0,10.

เราไม่ต้องตัดสินใจเองทุกครั้งว่าเขาจะใช้การทดสอบแบบทางเดียวหรือสองทาง ตารางค่าวิกฤตของเกณฑ์จะถูกเลือกในลักษณะที่สมมติฐานทิศทางสอดคล้องกับเกณฑ์ด้านเดียวและสมมติฐานที่ไม่ใช่ทิศทางสอดคล้องกับเกณฑ์สองด้านและค่าที่กำหนดจะเป็นไปตาม ข้อกำหนดที่ใช้กับแต่ละรายการ ผู้วิจัยเพียงต้องการให้แน่ใจว่าสมมติฐานของเขาตรงกันในความหมายและรูปแบบกับสมมติฐานที่เสนอในคำอธิบายของแต่ละเกณฑ์

กำหนด ที่คาดหวังในผลการทดสอบของคุณโดยปกติเมื่อนักวิทยาศาสตร์ทำการทดลอง พวกเขามีความคิดอยู่แล้วว่าผลลัพธ์ใดที่ควรพิจารณา "ปกติ" หรือ "ทั่วไป" ซึ่งอาจขึ้นอยู่กับผลการทดลองของการทดลองที่ผ่านมา บนชุดข้อมูลที่เชื่อถือได้ ข้อมูลจากวรรณกรรมทางวิทยาศาสตร์ หรือนักวิทยาศาสตร์อาจอ้างอิงจากแหล่งข้อมูลอื่น สำหรับการทดสอบของคุณ ให้กำหนดผลลัพธ์ที่คาดหวังและแสดงเป็นตัวเลข

  • ตัวอย่าง: สมมติว่าการวิจัยก่อนหน้านี้แสดงให้เห็นว่าในประเทศของคุณ เจ้าของรถสีแดงมักจะได้รับตั๋วเร่งด่วนมากกว่ารถสีน้ำเงิน ตัวอย่างเช่น คะแนนเฉลี่ยแสดงความพึงพอใจ 2:1 สำหรับรถสีแดงมากกว่ารถสีน้ำเงิน งานของเราคือตรวจสอบว่าตำรวจมีอคติต่อสีรถยนต์ในเมืองของคุณอย่างเท่าเทียมกันหรือไม่ ในการทำเช่นนี้เราจะวิเคราะห์ค่าปรับสำหรับการเร่งความเร็ว ถ้าเราสุ่มตั๋ว 150 ใบที่ออกให้เจ้าของรถสีแดงหรือสีน้ำเงิน เราคาดว่า 100 ค่าปรับจะออกให้กับเจ้าของรถสีแดงและ 50 - เจ้าของสีน้ำเงิน ถ้าตำรวจในเมืองเราลำเอียงเรื่องสีรถเหมือนทั่วประเทศ.

กำหนด สังเกตผลการทดลองของคุณเมื่อคุณได้กำหนดผลลัพธ์ที่คาดหวังแล้ว ก็ได้เวลาทดสอบและค้นหาค่าจริง (หรือที่ "สังเกต") คุณต้องแสดงผลลัพธ์เหล่านี้เป็นตัวเลขอีกครั้ง ถ้าเราสร้างเงื่อนไขการทดลองและผลที่สังเกตได้ แตกต่างจากที่คาดไว้ เราก็มีได้ 2 ทาง คือ บังเอิญ หรือ เหตุเกิด กับการทดลองของเรา. จุดประสงค์ในการค้นหาค่า p นั้นแม่นยำเพื่อกำหนดว่าผลลัพธ์ที่สังเกตได้นั้นแตกต่างจากที่คาดไว้ในลักษณะที่เราไม่สามารถปฏิเสธ "สมมติฐานว่าง" ได้หรือไม่ - สมมติฐานที่ว่าไม่มีความสัมพันธ์ระหว่างตัวแปรทดลองกับค่าที่สังเกตได้ ผล.

  • ตัวอย่าง: สมมติว่าในเมืองของเรา เราสุ่มเลือกตั๋วความเร็วสูง 150 ใบที่ออกให้กับรถสีแดงหรือสีน้ำเงิน เราได้กำหนดไว้ว่า 90 เจ้าของรถสีแดงออกค่าปรับและ 60 - เจ้าของสีน้ำเงิน ซึ่งต่างจากผลลัพธ์ที่คาดหวังคือ 100 และ 50, ตามลำดับ การทดลองของเรา (ในกรณีนี้ การเปลี่ยนแหล่งข้อมูลจากระดับรัฐเป็นระดับเมือง) ทำให้เกิดการเปลี่ยนแปลงในผลลัพธ์จริงหรือไม่ หรือตำรวจเมืองของเรามีอคติต่อผู้ขับขี่รถยนต์ คล้ายกันเหมือนกับค่าเฉลี่ยของประเทศ และเราเห็นแค่ค่าเบี่ยงเบนแบบสุ่ม? ค่า p จะช่วยให้เราระบุสิ่งนี้ได้
  • กำหนดจำนวน ระดับความอิสระการทดลองของคุณจำนวนองศาอิสระคือระดับความแปรปรวนในการทดสอบของคุณ ซึ่งพิจารณาจากจำนวนหมวดหมู่ที่คุณกำลังสำรวจ สมการสำหรับจำนวนองศาอิสระคือ จำนวนองศาอิสระ = n-1โดยที่ "n" คือจำนวนหมวดหมู่หรือตัวแปรที่คุณวิเคราะห์ในการทดสอบของคุณ

    • ตัวอย่าง: ในการทดสอบของเรา มีผลลัพธ์สองประเภท: ประเภทหนึ่งสำหรับเจ้าของรถสีแดง และอีกประเภทสำหรับเจ้าของรถสีน้ำเงิน ดังนั้น ในการทดลองของเรา เรามี 2-1 = อิสระ 1 องศา. ถ้าเราเปรียบเทียบรถสีแดง สีน้ำเงิน และสีเขียว เราจะมี 2 องศาของเสรีภาพและอื่น ๆ
  • เปรียบเทียบผลลัพธ์ที่คาดหวังและที่สังเกตได้กับการทดสอบ ไคสแควร์. Chi-square (เขียนว่า "x 2") เป็นค่าตัวเลขที่วัดความแตกต่างระหว่าง ที่คาดหวังและ สังเกตได้ค่าการทดลอง สมการของไคสแควร์มีดังต่อไปนี้: x 2 \u003d Σ ((o-e) 2 / e)โดยที่ "o" คือค่าที่สังเกตได้ และ "e" คือค่าที่คาดหวัง รวมผลลัพธ์ของสมการที่กำหนดสำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมด (ดูด้านล่าง)

    • โปรดทราบว่าสมการนี้รวมตัวดำเนินการบวก Σ (ซิกม่า). กล่าวอีกนัยหนึ่ง คุณต้องคำนวณ ((|o-e|-.05) 2 /e) สำหรับแต่ละผลลัพธ์ที่เป็นไปได้ และเพิ่มตัวเลขเข้าด้วยกันเพื่อให้ได้ค่าไคสแควร์ ในตัวอย่างของเรา เรามีผลลัพธ์ที่เป็นไปได้สองประการ - รถที่ได้รับโทษเป็นสีแดงหรือสีน้ำเงิน ดังนั้นเราต้องนับ ((o-e) 2 /e) สองครั้ง - หนึ่งครั้งสำหรับรถสีแดงและอีกครั้งสำหรับรถสีน้ำเงิน
    • ตัวอย่าง: ลองแทนค่าที่คาดหวังและสังเกตของเราลงในสมการ x 2 = Σ((o-e) 2 /e) จำไว้ว่าเนื่องจากตัวดำเนินการบวก เราจำเป็นต้องนับ ((o-e) 2 /e) สองครั้ง - หนึ่งครั้งสำหรับรถสีแดงและอีกครั้งสำหรับรถสีน้ำเงิน เราจะดำเนินการดังนี้:
      • x 2 = ((90-100) 2/100) + (60-50) 2/50)
      • x 2 = ((-10) 2/100) + (10) 2/50)
      • x 2 = (100/100) + (100/50) = 1 + 2 = 3 .
  • เลือก ระดับความสำคัญ. ตอนนี้เรารู้จำนวนองศาอิสระของการทดลองและค่าของการทดสอบไคสแควร์แล้ว เราต้องทำอีกอย่างหนึ่งก่อนที่เราจะหาค่า p ได้ เราจำเป็นต้องกำหนดระดับความสำคัญ พูดง่ายๆ ก็คือ ระดับนัยสำคัญบ่งชี้ว่าเรามั่นใจในผลลัพธ์ของเราเพียงใด ค่านัยสำคัญที่ต่ำจะสอดคล้องกับความน่าจะเป็นต่ำที่ผลการทดลองจะเป็นแบบสุ่มและในทางกลับกัน ระดับความสำคัญเขียนเป็นเศษส่วนทศนิยม (เช่น 0.01) ซึ่งสอดคล้องกับความน่าจะเป็นที่เราได้รับผลการทดลองโดยบังเอิญ (ในกรณีนี้ ความน่าจะเป็นที่จะเป็น 1%)

  • ใช้แผ่นข้อมูลการแจกแจงแบบไคสแควร์เพื่อค้นหาค่า pนักวิทยาศาสตร์และนักสถิติใช้สเปรดชีตขนาดใหญ่เพื่อคำนวณค่า p ของการทดลอง ข้อมูลตารางมักจะมีแกนตั้งทางด้านซ้าย ซึ่งสอดคล้องกับจำนวนองศาอิสระ และแกนนอนที่ด้านบน ซึ่งสอดคล้องกับค่า p ใช้ข้อมูลตารางเพื่อค้นหาจำนวนองศาอิสระของคุณก่อน จากนั้นดูอนุกรมของคุณจากซ้ายไปขวาจนกว่าคุณจะพบค่าแรก มากกว่าค่าไคสแควร์ของคุณ ดูค่า p ที่สอดคล้องกันที่ด้านบนของคอลัมน์ของคุณ ค่า p ที่คุณต้องการอยู่ระหว่างตัวเลขนี้กับค่าถัดไป (ค่าที่อยู่ทางซ้ายของคุณ)

    • ตารางการแจกแจงแบบไคสแควร์สามารถหาได้จากแหล่งต่างๆ - สามารถพบได้ทางออนไลน์ หรือค้นหาในหนังสือวิทยาศาสตร์หรือสถิติ ถ้าคุณไม่มีหนังสือเหล่านี้ในมือ ให้ใช้รูปภาพด้านบน หรือใช้สเปรดชีตออนไลน์ที่คุณสามารถดูได้ฟรี เช่น medcalc.org เธอตั้งอยู่
    • ตัวอย่าง: ค่าไคสแควร์ของเราคือ 3 ลองใช้ตารางการแจกแจงไคสแควร์ในภาพด้านบนเพื่อหาค่า p โดยประมาณ เนื่องจากเรารู้ว่าในการทดลองของเราทั้งหมด 1 ระดับความอิสระ เลือกแถวแรกสุด เราไปจากซ้ายไปขวาตามเส้นที่กำหนดจนได้ค่าที่มากกว่า 3 ค่าไคสแควร์ของเรา อันแรกที่เราพบคือ 3.84 เมื่อค้นหาคอลัมน์ของเรา เราจะเห็นว่าค่า p ที่สอดคล้องกันคือ 0.05 ซึ่งหมายความว่า p-value . ของเรา ระหว่าง 0.05 ถึง 0.1(ค่า p ถัดไปในตารางโดยเรียงลำดับจากน้อยไปมาก)
  • ตัดสินใจว่าจะปฏิเสธหรือทิ้งสมมติฐานว่างไว้เนื่องจากคุณได้กำหนดค่า p โดยประมาณสำหรับการทดสอบของคุณแล้ว คุณต้องตัดสินใจว่าจะปฏิเสธสมมติฐานว่างของการทดสอบของคุณหรือไม่ (จำได้ว่า นี่เป็นสมมติฐานที่ตัวแปรทดลองที่คุณจัดการ ไม่ส่งผลต่อผลลัพธ์ที่คุณสังเกตเห็น) หากค่า p น้อยกว่าระดับนัยสำคัญ ยินดีด้วย คุณได้พิสูจน์แล้วว่ามีความสัมพันธ์ที่เป็นไปได้อย่างมากระหว่างตัวแปรที่คุณจัดการกับผลลัพธ์ที่คุณสังเกต หากค่า p สูงกว่าระดับนัยสำคัญ จะไม่สามารถพูดได้อย่างแน่นอนว่าผลลัพธ์ที่คุณสังเกตนั้นเป็นผลมาจากโอกาสบริสุทธิ์หรือการปรับเปลี่ยนตัวแปรเหล่านี้

    • ตัวอย่าง: ค่า p อยู่ระหว่าง 0.05 ถึง 0.1 ก็เป็นที่ชัดเจน ไม่น้อยกว่า 0.05 น่าเสียดายที่เรา เราไม่สามารถปฏิเสธสมมติฐานว่างของเราได้. ซึ่งหมายความว่าเรายังไม่ถึงระดับความน่าจะเป็นขั้นต่ำ 95% ที่จะบอกว่าตำรวจในเมืองของเราออกตั๋วให้กับเจ้าของรถสีแดงและสีน้ำเงินที่มีความน่าจะเป็นที่ค่อนข้างแตกต่างจากค่าเฉลี่ยของประเทศ
    • กล่าวอีกนัยหนึ่ง มีโอกาส 5-10% ที่ผลลัพธ์ที่เราสังเกตจะไม่ใช่ผลของการเปลี่ยนแปลงตำแหน่ง (การวิเคราะห์ของเมือง ไม่ใช่ทั้งประเทศ) แต่เป็นเพียงอุบัติเหตุ เนื่องจากความถูกต้องที่เราเรียกร้องไม่ควรเกิน 5% เราจึงพูดไม่ได้ อย่างมั่นใจตำรวจในเมืองของเรามีอคติต่อเจ้าของรถสีแดงน้อยกว่า - มีความเป็นไปได้เล็กน้อย (แต่มีนัยสำคัญทางสถิติ) ที่จะไม่เป็นเช่นนั้น
  • มีอะไรให้อ่านอีกบ้าง