שימוש מוטעה במידע סטטיסטי, בין אם ע"י מומחים ובין אם ע"י הדיוטות, הוא מאוד מאוד נפוץ והדיון לעיל ממחיש זאת יפה מאוד. אני מקווה שהנקודות הבאות יעזרו להאיר את הסקת המסקנות מהנתונים יותר טוב. כדי למקד את הדיון אני אשתמש במינוחים כלליים שאינם תלויי ניסוי ספציפי.
קודם כל, ממידע סטטיסטי לפיו מתוך S פעמים בהם נערך ניסוי, X מהמקרים העידו על תוצאה T, לא ניתן להסיק דבר חוץ מכך שב-S הפעמים הספציפיות האלה X פעמים יצא T. ההסקה שהסיכוי ל-T בניסוי בודד הוא X לחלק ל-S לא רק שאינו נכון אלא אין לו כלל משמעות.
למשל: אם בדקו על פני אוכלוסיה של מליון איש את גובהו של כל אחד ואחת וגילו ש-180 סנטימטרים התקבל 100,000 פעמים האם ניתן להסיק מכך שהסיכוי שהגובה שלך (קוראים יקרים) הוא 180 סנטימטרים הוא 10%? זו שאלה מגוחכת מכיוון שאין כלל משמעות לצירוף המילים "הסיכוי שגובהי 180 סנטימטרים הוא....". כדי להשתמש במידע סטטיסטי חייבים לעשות הנחת הומוגניות, שבעיקרה אומרת שניתן להסיק לגבי הפרט מידע הסתברותי ממידע סטטיסטי לגבי הכלל. זו הנחה שבלעדיה אין שום שימוש לסטטיסטיקה, וזו גם הנחה שהיא תמיד שגויה. וזה בסדר גמור כל עוד מבינים מה עושים. בכל שימוש במתימטיקה עושים הנחות בלתי אפשריות על המציאות כדי ליישם עקרונות כלליים.
למשל, הנחת ההומוגניות לגבי גבהים היא באופן כל-כך ברור שגויה ומעוותת את המציאות יותר מדי. מספיק מבט זריז כדי לאמוד גובה ולראות ישר שמי שמולך לא ממש הומוגני ביחס לקבוצה הכללית. אבל יש מקרים בהם הנחת ההומוגניות בסדר גמור.
למשל, אם תגיעו לאיזה אי נידח וכולם שם יזהירו אתכם לא לאכול פרי מסויים, שדווקא נראה מאוד טעים, כי הוא עושה כאבי בטן חבל על הזמן, אינסטינקט ההשרדות שלכם יגרום לכם לחשוב שיש סיבה טובה לא לאכול אותו. אין לכם שום יכולת להוכיח זאת ואתם מסתמכים על מידע סטטיסטי של תושבי האי (כמעט כל מי שאוכל מהפרי חוטף כאבי בטן מהגיהנום - כך סיפרו לכם). השימוש במידע סטטיסטי זה לגביכם נעשה על סמך הנחת הומוגניות, שמזהה אתכם כשייכים לאותה קבוצה ביולוגית כמו דיירי האי, וכן הבנתכם הבסיסית שהפיזיולוגיה שלכם כנראה דומה, ולכן סביר שרעלנים ישפיעו עליכם ועליהם בצורה דומה. לפני שעשיתם הנחה זו אין כל דרך להשתמש במידע הסטטיסטי בכלל. כמובן שהנחת הומוגניות זו היא שגויה לחלוטין. הפיזיולוגיה שלכם מאוד מאוד שונה והרגלי החיים שלכם שונים. הרי ייתכן מאוד שהסיבה שהפרי רעיל למקומיים הוא בגלל שהוא מזיק לפלורת המעיים הספציפית להם. לכם, בתור מבקרים רגעיים באי, אין שום בעיה ואתם מפסידים לאכול פרי מאוד טעים בגלל יישום מידע סטטיסטי שאינו ישים לגביכם.
הנחת ההומוגניות לעולם אינה נכונה, אך בלעדיה לא ניתן להשתמש בסטטיסטיקה. בדיוק כמו שההנחה שהעולם, על שלושת מימדיו, ניתן למידול מתימטי בעזרת שלוש קואורדינטות של מספרים ממשיים זו הנחה שגויה לחלוטין ואף אחד לא טוען אותה. הטענה היא שמידול כזה יעיל במקרים מסויימים ומאפשר חישובים בצורה יעילה. אני לא אומר לא להשתמש בסטטיסטיקה בדיוק כמו שאני לא אומר לא להשתמש בפיזיקה ניוטונית. אני כן אומר שצריך להבין איך להשתמש בזה נכון.
ובחזרה לדיון לעיל. כפי ש
רחל ברמן חזרה ואמרה וחזרה ואמרה המשמעות של הנתונים הסטטיסטיים יעילה מאוד להשוואה בין שיטות שונות. תחת ההנחה הסבירה שניסויים על שיטות מניעה נערכות בצורות דומות (מספר משתתפים, זמן הניסוי וכו') ניתן בהחלט להפיק מידע הסתברותי לגבי איזו שיטה יותר יעילה או אם שתי שיטות יעילות באותה מידה.
אם השיטה יעילה לגביך או לא זו שאלה אחרת לגמרי. הדרך היחידה לענות עליה היא לעשות הנחת הומוגניות שתכלול אתכם בקבוצה הרלוונטית להסקת מסקנות. בשביל לעשות הנחת הומוגניות כזאת צריך לדעת יותר על הרגלי ההזדווגות של כל זוג בניסוי, רמת פוריות, מה הם אכלו בכל יום, מצב הרוח שלהם וכו'. אז צריך להחליט איזה מידע רלוונטי לכם ואיזה לא. כמובן שזה בלתי אפשרי ולכן ראוי לנקוט בגישה אחרת. גישה שבה כל אחד נוקט בחיי היום-יום אלא אם כן מבלבלים אותך יותר מידי עם מינוחים ז'רגוניים.
כל אחד עושה הנחת הומוגניות בסיסית עד שיש עדות סטטיסטית לאי נכונותה ואז היא מוחלפת בהנחת הומוגניות מעודנת יותר עד שגם זו נתקלת בחוסר קונסיסטנטיות סטטיסטית ומוחלפת באחרת וחוזר חלילה. אם זה מזכיר לכם את השיטה המדעית אז אחלה כי זה מה שזה. דרך בריאה להסתכל על מידע סטטיסטי זה כעל ניסוי בפיזיקה. הניסוי יכול להעיד על קשר בין דברים ולהצדיק מחקר נוסף או הוא יכול להפריך תאוריה ולחייב החלפתה באחרת. כך גם מידע סטטיסטי. הוא יכול להעיד על קשר בין דברים ולהצדיק מחקר שיוביל להבנת הקשר. הוא יכול גם להצביע על הנחת הומוגניות שגויה ולחייב החלפתה באחרת.
ושוב בחזרה לדיון לעיל, המידע הסטטיסטי לפיו משגל נסוג ושימוש בקונדום יעילים כמעט באותה מידה מעידים על כך שיש להבין יותר טוב את המנגנונים המעורבים בכל שיטה ולהבין יותר טוב איך זה עובד. בינתיים כל אחד יכול לעשות איזה שימוש פרטני שבא לו תוך הנחת הומוגניות זו או אחרת. אין בכלל מקום לוויכוח של מה הנתונים אומרים לגבי זוג ספציפי ללא הנחת הומוגניות שמונחת על השולחן. גם אין מקום לדיון על משמעות הנתונים הסטטיסטיים שכן אלה נתונים יבשים לחלוטין (אפשר לחלוק כמובן על מהימנותם). הוויכוח נובע מתוך איזו הנחה סמויה, שמקורה בחוסר הבנה עמוק, ולצער כולנו מאוד מאוד נפוץ, של סטטיסטיקה והסתברות (שנראה ש
מתימטיקה דיסקרטית סובל ממנה). הנחה סמויה זו היא שיש איזה משמעות פנימית וטהורה של סיכויים. האמת היא שאין - הכל תלוי בהנחת ההומוגניות.
כדוגמא הבאה נדון בקוביה - אובייקט נפוץ בדיונים בהסתברות. "הסיכוי לקבל 6 הוא 1 ל-6" יתקבל בברכה ע"י כל הקוראים. אבל הוא נכון תחת ההנחה שמדובר בקוביה מאוזנת. ומה זה אומר שהיא מאוזנת? זה אומר שהסיכוי לקבל כל פאה הוא 1 ל-6. אם כך קוביה היא מאוזנת אם הסיכוי לקבל כל פאה הוא 1 ל-6 ומצד שני הסיכוי לקבל כל פאה בסיכוי 1 ל-6 נכון רק לקוביה מאוזנת. אם זה נשמע לכם מעגלי זה בגלל שזה מעגלי. כשחושבים על זה יותר ויותר מבינים שאין דרך לצאת מהמעגל הזה ואז מבינים שאין דבר כזה הסתברות טהורה ושהכל תלוי בקונטקסט.
בעגה יותר מקצועית הנחת ההומוגניות נקראת maximum entropy principle ומי שמעוניין יכול לקרוא את הספר המעולה של Jayness שנקרא "Probability Theory - The Logic of Science" חינם ברשת.
שימוש מוטעה במידע סטטיסטי, בין אם ע"י מומחים ובין אם ע"י הדיוטות, הוא מאוד מאוד נפוץ והדיון לעיל ממחיש זאת יפה מאוד. אני מקווה שהנקודות הבאות יעזרו להאיר את הסקת המסקנות מהנתונים יותר טוב. כדי למקד את הדיון אני אשתמש במינוחים כלליים שאינם תלויי ניסוי ספציפי.
קודם כל, ממידע סטטיסטי לפיו מתוך S פעמים בהם נערך ניסוי, X מהמקרים העידו על תוצאה T, לא ניתן להסיק דבר חוץ מכך שב-S הפעמים הספציפיות האלה X פעמים יצא T. ההסקה שהסיכוי ל-T בניסוי בודד הוא X לחלק ל-S לא רק שאינו נכון אלא אין לו כלל משמעות.
למשל: אם בדקו על פני אוכלוסיה של מליון איש את גובהו של כל אחד ואחת וגילו ש-180 סנטימטרים התקבל 100,000 פעמים האם ניתן להסיק מכך שהסיכוי שהגובה שלך (קוראים יקרים) הוא 180 סנטימטרים הוא 10%? זו שאלה מגוחכת מכיוון שאין כלל משמעות לצירוף המילים "הסיכוי שגובהי 180 סנטימטרים הוא....". כדי להשתמש במידע סטטיסטי חייבים לעשות הנחת הומוגניות, שבעיקרה אומרת שניתן להסיק לגבי הפרט מידע הסתברותי ממידע סטטיסטי לגבי הכלל. זו הנחה שבלעדיה אין שום שימוש לסטטיסטיקה, וזו גם הנחה שהיא תמיד שגויה. וזה בסדר גמור כל עוד מבינים מה עושים. בכל שימוש במתימטיקה עושים הנחות בלתי אפשריות על המציאות כדי ליישם עקרונות כלליים.
למשל, הנחת ההומוגניות לגבי גבהים היא באופן כל-כך ברור שגויה ומעוותת את המציאות יותר מדי. מספיק מבט זריז כדי לאמוד גובה ולראות ישר שמי שמולך לא ממש הומוגני ביחס לקבוצה הכללית. אבל יש מקרים בהם הנחת ההומוגניות בסדר גמור.
למשל, אם תגיעו לאיזה אי נידח וכולם שם יזהירו אתכם לא לאכול פרי מסויים, שדווקא נראה מאוד טעים, כי הוא עושה כאבי בטן חבל על הזמן, אינסטינקט ההשרדות שלכם יגרום לכם לחשוב שיש סיבה טובה לא לאכול אותו. אין לכם שום יכולת להוכיח זאת ואתם מסתמכים על מידע סטטיסטי של תושבי האי (כמעט כל מי שאוכל מהפרי חוטף כאבי בטן מהגיהנום - כך סיפרו לכם). השימוש במידע סטטיסטי זה לגביכם נעשה על סמך הנחת הומוגניות, שמזהה אתכם כשייכים לאותה קבוצה ביולוגית כמו דיירי האי, וכן הבנתכם הבסיסית שהפיזיולוגיה שלכם כנראה דומה, ולכן סביר שרעלנים ישפיעו עליכם ועליהם בצורה דומה. לפני שעשיתם הנחה זו אין כל דרך להשתמש במידע הסטטיסטי בכלל. כמובן שהנחת הומוגניות זו היא שגויה לחלוטין. הפיזיולוגיה שלכם מאוד מאוד שונה והרגלי החיים שלכם שונים. הרי ייתכן מאוד שהסיבה שהפרי רעיל למקומיים הוא בגלל שהוא מזיק לפלורת המעיים הספציפית להם. לכם, בתור מבקרים רגעיים באי, אין שום בעיה ואתם מפסידים לאכול פרי מאוד טעים בגלל יישום מידע סטטיסטי שאינו ישים לגביכם.
הנחת ההומוגניות לעולם אינה נכונה, אך בלעדיה לא ניתן להשתמש בסטטיסטיקה. בדיוק כמו שההנחה שהעולם, על שלושת מימדיו, ניתן למידול מתימטי בעזרת שלוש קואורדינטות של מספרים ממשיים זו הנחה שגויה לחלוטין ואף אחד לא טוען אותה. הטענה היא שמידול כזה יעיל במקרים מסויימים ומאפשר חישובים בצורה יעילה. אני לא אומר לא להשתמש בסטטיסטיקה בדיוק כמו שאני לא אומר לא להשתמש בפיזיקה ניוטונית. אני כן אומר שצריך להבין איך להשתמש בזה נכון.
ובחזרה לדיון לעיל. כפי ש [po]רחל ברמן[/po] חזרה ואמרה וחזרה ואמרה המשמעות של הנתונים הסטטיסטיים יעילה מאוד להשוואה בין שיטות שונות. תחת ההנחה הסבירה שניסויים על שיטות מניעה נערכות בצורות דומות (מספר משתתפים, זמן הניסוי וכו') ניתן בהחלט להפיק מידע הסתברותי לגבי איזו שיטה יותר יעילה או אם שתי שיטות יעילות באותה מידה.
אם השיטה יעילה לגביך או לא זו שאלה אחרת לגמרי. הדרך היחידה לענות עליה היא לעשות הנחת הומוגניות שתכלול אתכם בקבוצה הרלוונטית להסקת מסקנות. בשביל לעשות הנחת הומוגניות כזאת צריך לדעת יותר על הרגלי ההזדווגות של כל זוג בניסוי, רמת פוריות, מה הם אכלו בכל יום, מצב הרוח שלהם וכו'. אז צריך להחליט איזה מידע רלוונטי לכם ואיזה לא. כמובן שזה בלתי אפשרי ולכן ראוי לנקוט בגישה אחרת. גישה שבה כל אחד נוקט בחיי היום-יום אלא אם כן מבלבלים אותך יותר מידי עם מינוחים ז'רגוניים.
כל אחד עושה הנחת הומוגניות בסיסית עד שיש עדות סטטיסטית לאי נכונותה ואז היא מוחלפת בהנחת הומוגניות מעודנת יותר עד שגם זו נתקלת בחוסר קונסיסטנטיות סטטיסטית ומוחלפת באחרת וחוזר חלילה. אם זה מזכיר לכם את השיטה המדעית אז אחלה כי זה מה שזה. דרך בריאה להסתכל על מידע סטטיסטי זה כעל ניסוי בפיזיקה. הניסוי יכול להעיד על קשר בין דברים ולהצדיק מחקר נוסף או הוא יכול להפריך תאוריה ולחייב החלפתה באחרת. כך גם מידע סטטיסטי. הוא יכול להעיד על קשר בין דברים ולהצדיק מחקר שיוביל להבנת הקשר. הוא יכול גם להצביע על הנחת הומוגניות שגויה ולחייב החלפתה באחרת.
ושוב בחזרה לדיון לעיל, המידע הסטטיסטי לפיו משגל נסוג ושימוש בקונדום יעילים כמעט באותה מידה מעידים על כך שיש להבין יותר טוב את המנגנונים המעורבים בכל שיטה ולהבין יותר טוב איך זה עובד. בינתיים כל אחד יכול לעשות איזה שימוש פרטני שבא לו תוך הנחת הומוגניות זו או אחרת. אין בכלל מקום לוויכוח של מה הנתונים אומרים לגבי זוג ספציפי ללא הנחת הומוגניות שמונחת על השולחן. גם אין מקום לדיון על משמעות הנתונים הסטטיסטיים שכן אלה נתונים יבשים לחלוטין (אפשר לחלוק כמובן על מהימנותם). הוויכוח נובע מתוך איזו הנחה סמויה, שמקורה בחוסר הבנה עמוק, ולצער כולנו מאוד מאוד נפוץ, של סטטיסטיקה והסתברות (שנראה ש [po]מתימטיקה דיסקרטית[/po] סובל ממנה). הנחה סמויה זו היא שיש איזה משמעות פנימית וטהורה של סיכויים. האמת היא שאין - הכל תלוי בהנחת ההומוגניות.
כדוגמא הבאה נדון בקוביה - אובייקט נפוץ בדיונים בהסתברות. "הסיכוי לקבל 6 הוא 1 ל-6" יתקבל בברכה ע"י כל הקוראים. אבל הוא נכון תחת ההנחה שמדובר בקוביה מאוזנת. ומה זה אומר שהיא מאוזנת? זה אומר שהסיכוי לקבל כל פאה הוא 1 ל-6. אם כך קוביה היא מאוזנת אם הסיכוי לקבל כל פאה הוא 1 ל-6 ומצד שני הסיכוי לקבל כל פאה בסיכוי 1 ל-6 נכון רק לקוביה מאוזנת. אם זה נשמע לכם מעגלי זה בגלל שזה מעגלי. כשחושבים על זה יותר ויותר מבינים שאין דרך לצאת מהמעגל הזה ואז מבינים שאין דבר כזה הסתברות טהורה ושהכל תלוי בקונטקסט.
בעגה יותר מקצועית הנחת ההומוגניות נקראת maximum entropy principle ומי שמעוניין יכול לקרוא את הספר המעולה של Jayness שנקרא "Probability Theory - The Logic of Science" חינם ברשת.