More  

收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

小編的世界 優質文選 科學

新疫苗實驗刷屏,科學的AB測試是如何混淆視聽的?


字體大小:
2020年11月29日 -
:     
 

人人都是產品經理

深圳聚力創想信息科技有限公司

世界上有三種謊言:謊言、該死的謊言、統計數字。

There are three kinds of lies:lies, damned lies, and statistics.01 全世界矚目的兩個對照試驗

這周頻繁被2組對照實驗刷屏,都和抗Covid-19有關。國際上對疫情的報道不斷,但也沒有這兩組實驗的結果來得刺激。1. 口罩實驗

第一個刷屏的實驗,是來自丹麥的 “口罩防護效果” 對照實驗,如下圖所示。

2020年11月18日, 醫學內科領域頂級期刊《Annals of Internal Medicine》發表了一篇“驚世駭俗”的論文, 這個論文提出了一個觀點“戴口罩對於防護新冠沒用”。這篇論文已經在71 個國際主流媒體上被報道, 推特上已經有55,994個轉發和討論帖。

文中詳細描述了,在丹麥進行的、關於戴口罩預防新冠感染的隨機對照試驗:6000 人隨機分成兩組,做了兩個月試驗,外出保持社交距離並戴口罩組的感染率是 1.8% ,外出保持社交距離不佩戴口罩的對照組感染率是 2.1% 。因為兩組的感染率差異不顯著,結果不具有統計學意義。因此,在這組實驗中,結論是 “戴口罩的防護作用是無效的”。2. 新疫苗實驗

第二個刷屏的實驗,是登上各大主流媒體重磅頭條的“最新疫苗有效性”對照實驗,如下圖所示。

同樣是11月18日,藥品制造商輝瑞公司宣布最新實驗結果:他們研制的冠狀病毒疫苗有效性為95%,且沒有嚴重副作用。Covid-19 疫情在全球範圍內急劇上升期間,這組完整的疫苗試驗結果給各國都打了一劑強心針。

這項試驗包括近 44,000 名志願者,其中一半人注射了疫苗、另一半人注射的是鹽水(安慰劑)。然後,持續觀察每組有多少人患上 Covid-19。最終,在 170 例感染了 Covid-19的患者中,安慰劑組占 162 例,疫苗組僅占 8 例。實驗初步證明,該疫苗可以預防輕度和重度形式的 Covid-19。如果疫苗的授權審批通過,輝瑞公司將全面投入量產。02 被大眾“誤讀”的三組數據

對照實驗(A/B測試)一直是科學陣地牢不可破的根基,它讓我們更接近事情的真相,統計數據的價值也被充分發揮出來。但是,很多實驗結果在向大眾傳播時,信息容易被誤讀,甚至會成為誤導大家的工具。究其原因,只有一個:對A/B測試的理解不准確。統計數字從來不會說謊,說謊的是它們被解讀的方式。1. 1.8% VS 2.1%

前面提到,在丹麥進行的、關於戴口罩預防新冠感染的隨機對照試驗中,6000 人隨機分成兩組,試驗進行了兩個月,戴口罩組的感染率是 1.8%,不戴口罩組的感染率是 2.1%。在統計學上,這兩組數據的差異沒有顯著性。所以,很多人就認為,口罩很雞肋,對於防護病毒是無效的。

首先,在此研究進行的時候,新冠病毒感染在丹麥還很罕見,且丹麥的人口密集度低,口罩的作用本來就具有很大局限性,以至於該項研究得出的結論並不能反映:1. 在新冠爆發期間,戴口罩的作用;2. 在人口密集的地區,帶口罩的作用。

其次,帶面罩組有 42 名參與者(1.8%)、對照組有 53 名(2.1%)參與者感染,組間差異為 -0.3 百分點,這個百分點雖然不能說明顯著性差異,但是如果換個角度解讀,我們卻能發現這組數據的可疑之處。

截至目前,丹麥實際的人群感染率約為 3/1000,如果試驗擴展到從整個丹麥人口中隨機抽取 6000 人,非口罩組的感染人數大致為 9 個,這個數字遠遠低於實驗中的53例。就算口罩可以降低 50% 的感染率(這已經相當高了,現實中不可能),那麼,這個假想的實驗中,口罩組最多可以減少 4.5 例感染。

而現實中的口罩組,感染人數竟然比對照組少了 11 例,這得多大的預防效果才能存在如此之大的人數差異呀?可見,這組實驗結論的漏洞很大。

這還沒有算上,被招募者的 6000 人,其職業、行動軌跡、行為習慣和身體素質都存在很大差異,如上圖所示,僅職業不明的人群就占了總實驗人數的 22% 。個體存在的差異會影響最終驗證的結果,實驗中參雜了太多的無關變量,導致實驗結果很難被相信。2. 大樣本量 6000

姑且不談現實中口罩的應用場景,這裏僅深究一下 6000 的 “大樣本量” 是否真的合理?

換句話說,3000 對 3000 的實驗設計,是否具有預測價值呢?丹麥平均的感染率約為千分之三,依舊假設人群感染率為 3/1000,就算口罩的作用可以降低 1/3 的感染率(降低 1/3 已經是很強的作用了)。那麼實驗終點,非口罩組和口罩組預期感染人數分別是 9 例和 6 例,這一數字並不具備顯著性。即使預期感染率達到 5/1000 (相當於武漢的感染率),那麼非口罩組預期感染人數 15 例,口罩組為 10 例,粗略計算, p=0.42,還是沒有顯著差異……

直到感染率達到 2% 的極高水平,非口罩組為 60 例,口罩組為40 例,p= 0.01 ——這時候才達到統計學顯著性水平。可見,6000 人的設置並沒有結合實際的人群低感染率來進行設計,只需稍微深究一下,就知道禁不起推敲。

換句話說,不是什麼情況下,都適合做對照實驗的。對照實驗並不是萬金油,必須和現實情況密切結合。如果實際需求的樣本量很大、現實卻只能收集很少的樣本數據時,這樣完成的實驗結果,不僅不能說明問題,還很可能造成統計學上的某種誤導。3. 新疫苗功效高達 95%

上文還提到了有關“新疫苗”的試驗,其結論也被很多人理解為,如果注射一支疫苗,就可以將感染機率降低 95%。實際上,這個數字也很有誤導性。95% 這個數字是怎麼來的呢?

以輝瑞公司的實驗為例,首先招募了 43,661 名志願者,研究人員等待 170 人出現 Covid-19 症狀,並獲得陽性測試結果。在這 170 個陽性結果中,有 162 個屬於接受了安慰劑的對照組,只有 8 個是屬於接受了疫苗的實驗組。

然後,科學家對這兩部分患者之間的相對差異做了定義:如果疫苗組和安慰劑組之間的感染人數沒有差異,則功效為0%;如果疫苗組無人感染,則功效為100%。

通過計算,我們得出 (100% – 8/162) = 95%,這個數字無疑是證明疫苗有效的有力證據。但是這個數字並不能說明:一旦接種疫苗後,生病的幾率是多少。同理,它也不能說明大規模接種疫苗後,接種人群的疫情降低程度。

現實中,接種疫苗後的情況並不好估計,因為參加試驗的人員不能反映整個人群的複雜情況,在實際情況中,人們可能會遇到各種各樣的健康和反應的差異,僅僅是一次大規模臨床實驗,根本不能說明其效果。之所以大概率會被推行,是因為事出緊急,疫苗的正面作用一旦被認可,就很可能做大規模的接種。畢竟,減少病毒的傳播是第一要務。

但是,如果人們接種了疫苗,然後放松了戴口罩或其他安全衛生措施,則很有可能增加冠狀病毒傳播給他人的機率,更何況還存在相當數量的無症狀感染者。因此,慎重對待特別積極的實驗結果,才是更科學的思考方式。03 給營銷A/B測試的啟示

A/B測試在廣告投放、轉化迭代、優惠策略等眾多的營銷場景中,被廣泛應用著。一說如何提高營銷 ROI,營銷人最先想到的就是“做個 A/B 測試吧,咱用數據說話。”但是,營銷中如何讓測試數據說出正確的話,而不是像以上兩個實驗那樣,對人產生不必要的誤導呢?1. 測試不是打輔助,測試就是策略本身

與傳統決策流程中的歸納後驗式不同,A/B測試是一種先驗的實驗體系,屬於預測型結論。和疫苗實驗類似,得出的結論很難對全量流量做出預測,但是卻可以作為權衡利弊的籌碼,幫助你做出重大決策。

這也就帶來了一個問題,很多人認為做完A/B測試,驗出結果好壞,這個測試就可以結束了,殊不知營銷的多變因素不亞於疫苗的接種情況,會遇到各種各樣的差異性問題。這就需要營銷人員持續地做測試,將測試作為一種手段和策略,而不是只給決策打個輔助,偶爾才用一下。

此外,將A/B測試當作策略、而非輔助,還有兩個重要原因:

很多時候,做A/B實驗時,會不自覺對用戶進行篩選,這個時候得出的ROI較高,一旦擴量到全部用戶,ROI可能就會降低(類比疫苗實驗)。因此在說某個策略的ROI時,需要注意,是否是小規模用戶的效率,而不是整體用戶的ROI。這個時候,就需要做持續不斷的測試,才有可能不斷接近目標ROI。

還有一種新奇效應遞減的情況,也很常見。在出某個新營銷頁面的時候,用戶可能會比較感興趣,這個時候效果最好。但是過一段時間,用戶的新奇感就會消失,需要營銷人員做持續、快速的創意測試,以防止因版本效果衰減而帶來的轉化率大幅波動。

例子

某頭部在線教育企業的課程,在移動端推廣效率成為其市場部門非常重視的核心指標之一。為提高用戶的購買轉化,營銷和產品部門合作,決定通過A/B測試找到優化方案。

第一次測試,修改主標題,原版本的 “60萬好老師”改為“名師1對1輔導”,轉化率提升 3% 左右,采用試驗版本。

第二次測試,改副標題,結果原版本的“預約免費試聽課”比測試版的“尋找自己的1對1老師”,轉化效果要好 4.7%,於是繼續采用原版本。

第三次測試最有趣,修改了按鈕上的引導語。在按鈕的點擊轉化方面,原始版本“免費試聽”比試驗版本“快速預約”高 10%。但是,在後續的實際購買轉化追蹤數據顯示,試驗版本比原始版本高出 9%!

對於這個試驗結果,該品牌根據這個產品在市場上的發展階段,進行了綜合評估,最終還是決定最終的試驗版本,盡管點擊率差一些,但是轉化收益最優。

可見,持續的測試、並根據實際業務情況做出優化,應該成為營銷人的日常策略。因為總是有隨市場變化的因素,今天表現好的元素也不一定明天還好,效果是動態的,測試也同樣需要動態中進行。

更何況每次測試都可以得到一些新的積累,比如這個案例中,如果這個課程產品是剛起步階段,需要更多地拉新用戶,那麼營銷人員就應該選擇原始版本——能獲取更多潛在用戶的資料。2. 測試結果要綜合看,維度不能單一

通常,我們會從一個固定的測量維度來評估測試結果。但是如果只考慮一個維度也意味著脫離了情景來看實驗數據。比如,疫苗實驗的結果中,就沒有考慮到無症狀感染者的情況,很可能導致結論有偏差。

數字結果是一方面,但是其背後的業務含義更加重要,不能忽略。比如,在不同的情景下,你可能需要對相同的A/B測試結果,做出不同的決策。

一個營銷活動,在進行不同優惠策略的A/B測試時發現,A版比B版的用戶總活躍度高出 5%,但是卻同時降低了其中年輕用戶的活躍度占比,那麼應該推廣哪個版本好呢?

情景一,這是一個中老年購買力占主導的營銷活動,顯然更傾向於總活躍度的提升,至於年輕人,反正也沒有實際購買欲望,可以在這次活動中忽略掉。

情景二,這是一個青年人購買力占主導的營銷活動,總活躍度提升,但年輕人活躍度度下降,很可能影響實際的成單率,A、B版本的選擇,必須重新進行評估。

此外,維度不能單一,還包括避免習慣性地將測試結果當作一個絕對整體來看待。一般而言,從某個固定的測量維度來評估測試的結果是沒錯的,這樣做通常可以避免在多個維度中挑選最符合“需要”的數據,而故意忽視不符合假設的結果。

但同樣,僅考慮一個維度也意味著脫離了情景來看試驗數據——不同的情景,很可能意味著對A/B測試結果截然不同的解釋。

例子

幾年前 Airbnb 對搜索頁進行了改版設計。搜索頁是 Airbnb 業務流程中非常重要的一個頁面,決定後續的轉化情況。

搜索頁改版前後的變化如圖,新版更強調房源的圖片(Airbnb為房主提供專業的攝影服務)及標記了房源所在位置的地圖。為了這次改版,團隊投入了很多資源,設計人員和產品人員都預測新版肯定會表現更好,定性研究也表明新版本更好。

但針對搜索頁的A/B測試結果卻顯示,新版轉化率並沒有更好。這個結果讓人大跌眼鏡,因此分析團隊將數據細分到不同的情景中,來查找結果背後的真正原因。

經過分析後發現,問題出在 IE 瀏覽器上。如上圖,除了來自 IE 的訪問以外,新版在其他主流瀏覽器上的表現都是優於原版的。這個縱向的深入分析,幫助團隊找到真正的問題:搜索頁的改版很有效果,但是代碼實現存在嚴重問題。在修複相關的問題後,源自IE的數據也有了超出 2% 的增長。

這個案例是A/B測試中一個被人津津樂道的案例,可以看出,從多個維度對測試結果進行解釋,是很有需要的。營銷人員都應該嘗試將數據分解到不同的維度,然後去理解不同維度下測試的實際效果。

最後,需要強調一點,A/B測試雖好,但是如果使用不當、或解釋不當,都可以成為增加營銷阻力的因素。這就需要營銷人避免在分析結果時出現自欺欺人的傾向。

我們都理解,測試過程很費時費力,有的改版結果,測試後發現很打臉。這種情況下,很多營銷人為了找到有利的結果,會刻意去分解數據,然後在多個維度中挑選“最符合需要的”數據,或者和上文中的兩個“刷屏”的抗疫實驗一樣,為了證明某個假設而只突出部分數據或片面解讀。

例如,盡管我們都知道A/B測試的最終還是要落腳於優化整體營銷ROI,而不是為了單純優化某個指標。但是,當某個指標表現及其搶眼的時候,可能會導致優化者的短視。比如,過分注重某一層的轉化率,從而在設計引導上急功近利或花樣百出,甚至強迫用戶去做出點擊,而不管後續轉化的質量。

還是那句,A/B測試從來不會說謊,說謊的是它們被解讀的方式。想獲得消費者洞見和營銷優化策略,就要遵循科學的方式、做好充分的解讀,數字太漂亮或太反常,都要保持十二分的警惕。#專欄作家#

關注智能營銷領域,擅長發現最新的營銷技術及工具,並發掘行業前沿案例。

本文原創發布於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協議