自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

公交車總遲到？你大概掉進了“等待時間悖論”

作者：大數(shù)據(jù)文摘 2018-11-27 05:46:10

大數(shù)據(jù) 數(shù)據(jù)分析

在等待平均10分鐘一班的公交車時，你的平均等待時間將為10分鐘。這就叫等待時間悖論。

大數(shù)據(jù)文摘出品

編譯：李雷、小蔣、錢天培

如果你經(jīng)常坐公交車，相信下面這一場景對你絕不陌生。

你到了車站，準(zhǔn)備搭乘聲稱每10分鐘一班的公交車。你盯著你的手表留意著時間，結(jié)果公交車終于在11分鐘后到來。

這時你不由得感嘆：為什么今天運氣這么差!

想想也是。如果公交車每10分鐘一班，而你到達的時間是隨機的，那么你的平均等待時間難道不是5分鐘嘛?

但實際上，等待公交車的時間似乎永遠(yuǎn)要比你預(yù)估的久。

究竟是你錯了?還是公交運營系統(tǒng)出了問題?

事實證明，在一些合理的假設(shè)下，你可以得出一個驚人的結(jié)論：

在等待平均10分鐘一班的公交車時，你的平均等待時間將為10分鐘。

這就叫等待時間悖論。

等待時間悖論

如果公交車精確每10分鐘來一輛，那么你的平均等待時間就是這個間隔的一半：5分鐘。

可是，如果我們給這個10分鐘加上一點隨機成分呢?

這時，等待時間悖論就出現(xiàn)了。

等待時間悖是檢驗悖論的一種。那么，什么是檢驗悖論呢?

簡言之，只要觀察量的概率與觀察量有關(guān)，就會出現(xiàn)檢驗悖論。比如說，我們做了一個調(diào)查大學(xué)生班級平均人數(shù)的調(diào)查。雖然學(xué)校確實保證每班平均有30名學(xué)生，但實際調(diào)查下來的平均班級規(guī)模通常會大得多。

原因是，較大的班級中就有更多的學(xué)生，因此在計算學(xué)生的平均體驗時，你會對大班進行過度地抽樣。極端得講，如果有一個班一個學(xué)生也沒有，那你壓根不會抽樣到這個班級的學(xué)生。

對于通常10分鐘一班的公交線路，有時兩班車的間隔會超過10分鐘，有時則短點。如果你在隨機時間到達，那你會有更多機會遇到更長的等待間隔，而不是較短的。

因此，乘客所經(jīng)歷的平均等待時間間隔將比公交車之間的平均到達時間間隔更長，因為較長的間隔是被過度采樣了的。

但等待時間悖論提出了一個比這更震撼的主張。

當(dāng)兩班車的平均間隔是N分鐘時，搭乘者所經(jīng)歷的平均等待時間也是N分鐘，而非N/2分鐘。

這是真的嗎?

模擬等待時間

為了證明等待時間悖論的合理性，讓我們首先模擬平均每10分鐘到達一班的公交車流。

我們將模擬大量的公交車到達的情況：100萬輛(或大約19年中全天不間斷的10分鐘來一輛車的間隔)，以保證實驗的準(zhǔn)確性。

import numpy as np 
 
N = 1000000  # number of buses 
tau = 10  # average minutes between arrivals 
 
rand = np.random.RandomState(42)  # universal random seed 
bus_arrival_times = N * tau * np.sort(rand.rand(N))

為了確認(rèn)我們做的是對的，讓我們檢查一下平均間隔是否接近τ= 10：

intervals = np.diff(bus_arrival_times) 
intervals.mean()

輸出：

9.9999879601518398

通過模擬這些公交車到達，我們現(xiàn)在可以模擬大量乘客在此期間到達公交車站，并計算他們每個人經(jīng)歷的等待時間。讓我們將它封裝在一個函數(shù)中供以后使用：

def simulate_wait_times(arrival_times, 
                       rseed=8675309,  # Jenny's random seed 
                       n_passengers=1000000): 
   rand = np.random.RandomState(rseed) 
    
   arrival_times = np.asarray(arrival_times) 
   passenger_times = arrival_times.max() * rand.rand(n_passengers) 
 
   # find the index of the next bus for each simulated passenger 
   i = np.searchsorted(arrival_times, passenger_times, side='right') 
 
   return arrival_times[i] - passenger_times

然后我們可以模擬一些等待時間并計算平均值：

wait_times = simulate_wait_times(bus_arrival_times) 
wait_times.mean()

輸出：

10.001584206227317

平均等待時間接近10分鐘。正如等待時間悖論預(yù)測的那樣。

深入挖掘：概率和泊松過程

我們?nèi)绾卫斫膺@一現(xiàn)象呢?

從本質(zhì)上說，這是檢驗悖論的一個例子，其中觀察值的概率與觀察值本身有關(guān)。讓我們用p(T)表示公交車到達車站時間隔T的分布。在這種表示法中，到達時間的期望值是：

在上面的模擬中，我們選擇了E [T] =τ= 10分鐘。

當(dāng)乘客隨機到達公交車站時，他們所經(jīng)歷的時間間隔的概率將受到p(T)的影響，但也受到T本身的影響：間隔時間越長，乘客遇到這一間隔的概率就越大。

所以我們可以得出乘客所經(jīng)歷的到達時間分布：

比例常數(shù)來自正態(tài)化分布：

與上面相比，我們可以將它簡化為

預(yù)計等待時間E [W]將是乘客所經(jīng)歷的預(yù)期間隔的一半，所以我們可以寫作

或者可以寫得更清楚一點：

現(xiàn)在，讓我們?yōu)閜(T)選擇一個表格并計算積分。

(1) 選擇p(T)

如果我們這種公式推導(dǎo)可行，那用于p(T)的合理分布是什么?

我們可以通過繪制兩班車間隔的直方圖來獲得模擬到達中的p(T)分布的圖片：

%matplotlib inline 
import matplotlib.pyplot as plt 
plt.style.use('seaborn') 
 
plt.hist(intervals, bins=np.arange(80), density=True) 
plt.axvline(intervals.mean(), color='black', linestyle='dotted') 
plt.xlabel('Interval between arrivals (minutes)') 
plt.ylabel('Probability density');

這里的垂直虛線表示平均的間隔大約為10分鐘。這看起來非常像指數(shù)分布，而且并非偶然：我們將公交車的到達時間模擬為均勻隨機數(shù)，這非常接近于泊松過程，對于這樣的過程，可以證明到達之間的間隔分布是呈指數(shù)分布的。

注：實際上，在區(qū)間Nτ內(nèi)均勻采樣N個點，點之間的間隔T遵循β分布：T /(Nτ)〜Bet [1，N]，當(dāng)N很大的時候這個極限趨于T~Exp [1 /τ]。

區(qū)間的指數(shù)分布意味著到達時間遵循泊松過程。

通過再次檢查這個推斷，我們可以確認(rèn)它與泊松過程的另一個屬性的相匹配：在固定時間范圍內(nèi)到達公交的數(shù)量將是泊松分布的。讓我們將模擬到達的時間按小時分桶檢查一下：

from scipy.stats import poisson 
 
# count the number of arrivals in 1-hour bins 
binsize = 60 
binned_arrivals = np.bincount((bus_arrival_times // binsize).astype(int)) 
x = np.arange(20) 
 
# plot the results 
plt.hist(binned_arrivals, bins=x - 0.5, density=True, alpha=0.5, label='simulation') 
plt.plot(x, poisson(binsize / tau).pmf(x), 'ok', label='Poisson prediction') 
plt.xlabel('Number of arrivals per hour') 
plt.ylabel('frequency') 
plt.legend();

經(jīng)驗值和理論值緊密匹配，這讓我們相信我們的解釋是正確：對于大N，柏松過程可以很好地描述我們模擬的公交到達時間，其到達間隔是指數(shù)分布的。

這意味著概率分布如下：

將此概率分布代入上面的公式，我們發(fā)現(xiàn)一個人的平均等待時間為

乘客的預(yù)期等待時間與公交到達的平均間隔相同!

一種補充的推斷方式是：泊松過程是一個無記憶過程，這意味著事件發(fā)生的歷史情況與下一個事件的預(yù)期時間無關(guān)。所以當(dāng)你到達公交站后，等到下一班公交的平均等待時間總是一樣的：在我們的案例中，它是10分鐘，這與上一班車走了多久無關(guān)!

同樣的原理，你已經(jīng)等待了多久并不重要：下一輛公交預(yù)計的到達時間總是10分鐘：對泊松過程來說，你花費在等待的時間沒用。

實際的等待時間

如果通過泊松過程確實描述了真實世界的公交到達時間，上述分析是正確的，但事實真的如此嗎?

為了確定等待時間悖論是否描述了現(xiàn)實情況，我們深入研究了一些可供下載的數(shù)據(jù)：arrival_times.csv(3MB的CSV文件)

https://gist.githubusercontent.com/jakevdp/82409002fcc5142a2add0168c274a869/raw/1bbabf78333306dbc45b9f33662500957b2b6dc3/arrival_times.csv

該數(shù)據(jù)集包含2016年第二季度記錄的西雅圖市中心3rd & Pike公交站的西雅圖Rapid Ride C、D、E線的預(yù)定和實際到達時間。

import pandas as pd 
df = pd.read_csv('arrival_times.csv') 
dfdf = df.dropna(axis=0, how='any') 
df.head()

我特意選擇Rapid Ride路線的數(shù)據(jù)是因為，在一天的大部分時間里，公交車的間隔很規(guī)律，通常在10到15分鐘之間。

(1) 數(shù)據(jù)清洗

首先，讓我們進行一下數(shù)據(jù)清洗，將其轉(zhuǎn)換為更易于使用的表單：

# combine date and time into a single timestamp 
 
df['scheduled'] = pd.to_datetime(df['OPD_DATE'] + ' ' + df['SCH_STOP_TM']) 
df['actual'] = pd.to_datetime(df['OPD_DATE'] + ' ' + df['ACT_STOP_TM']) 
 
# if scheduled & actual span midnight, then the actual day needs to be adjusted 
minute = np.timedelta64(1, 'm') 
hour = 60 * minute 
diff_hrs = (df['actual'] - df['scheduled']) / hour 
df.loc[diff_hrs > 20, 'actual'] -= 24 * hour 
df.loc[diff_hrs < -20, 'actual'] += 24 * hour 
df['minutes_late'] = (df['actual'] - df['scheduled']) / minute 
 
# map internal route codes to external route letters 
df['route'] = df['RTE'].replace({673: 'C', 674: 'D', 675: 'E'}).astype('category') 
df['direction'] = df['DIR'].replace({'N': 'northbound', 'S': 'southbound'}).astype('category') 
 
# extract useful columns 
dfdf = df[['route', 'direction', 'scheduled', 'actual', 'minutes_late']].copy() 
 
df.head()

(2) 公交車晚了多少?

該表中主要有六個不同的數(shù)據(jù)集：C、D和E線的北行和南行。為了了解它們的特性，讓我們繪制這六條線路的實際與預(yù)定到達時間差的直方圖：

import seaborn as sns 
g = sns.FacetGrid(df, row="direction", col="route") 
g.map(plt.hist, "minutes_late", bins=np.arange(-10, 20)) 
g.set_titles('{col_name} {row_name}') 
g.set_axis_labels('minutes late', 'number of buses');

你可能會認(rèn)為公交車每次在行程開始時與其時間表更接近，并且在快結(jié)束時有更多的差異，這在數(shù)據(jù)中得到了證實：南行(southbound)C線和北行(northbound) D線、E線都在各自路線的起點接近時間表，而其反方向在終點時更接近。

(3) 預(yù)定和觀察到的到達時間間隔

接下來讓我們來看看這六條路線觀察和預(yù)計的到達時間間隔。我們首先使用Pandas 的groupby功能分別計算這些間隔：

def compute_headway(scheduled): 
   minute = np.timedelta64(1, 'm') 
   return scheduled.sort_values().diff() / minute 
 
grouped = df.groupby(['route', 'direction']) 
df['actual_interval'] = grouped['actual'].transform(compute_headway) 
df['scheduled_interval'] = grouped['scheduled'].transform(compute_headway)

g = sns.FacetGrid(df.dropna(), row="direction", col="route") 
g.map(plt.hist, "actual_interval", bins=np.arange(50) + 0.5) 
g.set_titles('{col_name} {row_name}') 
g.set_axis_labels('actual interval (minutes)', 'number of buses');

可以很清楚看出，這并不像我們模型的指數(shù)分布形式，此外，分布可能受到非恒定的預(yù)定到達間隔的影響。

讓我們重復(fù)上面的圖表，查看預(yù)定到達間隔的分布：

這表明公交車在整個星期都有不同的到達時間間隔，所以我們無法從原始到達時間數(shù)據(jù)的分布來評估等待時間悖論的準(zhǔn)確性。

g = sns.FacetGrid(df.dropna(), row="direction", col="route") 
g.map(plt.hist, "scheduled_interval", bins=np.arange(20) - 0.5) 
g.set_titles('{col_name} {row_name}') 
g.set_axis_labels('scheduled interval (minutes)', 'frequency');

構(gòu)建均勻分布的時間表

即使預(yù)定的到達間隔不均勻，也有一些特定的間隔有大量到達的數(shù)據(jù)：例如，有近2000個北行E線的預(yù)定間隔為10分鐘。為了探索等待時間悖論是否適用，讓我們按路線、方向和預(yù)定間隔對數(shù)據(jù)進行分組，然后將這些近似的到達時間重新堆疊在一起，就像它們按順序發(fā)生的一樣。這應(yīng)該保持了原始數(shù)據(jù)所有的相關(guān)特征，同時更容易直接與等待時間悖論的預(yù)測比較。

def stack_sequence(data): 
   # first, sort by scheduled time 
   datadata = data.sort_values('scheduled') 
    
   # re-stack data & recompute relevant quantities 
   data['scheduled'] = data['scheduled_interval'].cumsum() 
   data['actual'] = data['scheduled'] + data['minutes_late'] 
   data['actual_interval'] = data['actual'].sort_values().diff() 
   return data 
 
subset = df[df.scheduled_interval.isin([10, 12, 15])] 
grouped = subset.groupby(['route', 'direction', 'scheduled_interval']) 
sequenced = grouped.apply(stack_sequence).reset_index(drop=True) 
sequenced.head()

使用這些清理過的數(shù)據(jù)，我們可以繪制不同路線、方向和到達頻率的“實際”到達間隔的分布：

for route in ['C', 'D', 'E']: 
   g = sns.FacetGrid(sequenced.query(f"route == '{route}'"), 
                     row="direction", col="scheduled_interval") 
   g.map(plt.hist, "actual_interval", bins=np.arange(40) + 0.5) 
   g.set_titles('{row_name} ({col_name:.0f} min)') 
   g.set_axis_labels('actual interval (min)', 'count') 
   g.fig.set_size_inches(8, 4) 
   g.fig.suptitle(f'{route} line', y=1.05, fontsize=14)

我們看到，每條路線和時間表的觀測到達間隔的分布接近高斯分布，在預(yù)定的到達間隔附近達到峰值，并且在路線開始附近具有較小的標(biāo)準(zhǔn)差(C的南行(southbound)，D / E的北行(northbound))，以及在路線結(jié)束附近有更大的標(biāo)準(zhǔn)差。

即使不經(jīng)過統(tǒng)計測試，我們也可以清楚地看到，實際的到達時間間隔肯定不是指數(shù)分布的，因而等待時間悖論所依賴的基本假設(shè)并不成立。

我們可以利用上面使用的等待時間模擬功能來找到每條公交路線、方向和時間表的平均等待時間：

grouped = sequenced.groupby(['route', 'direction', 'scheduled_interval']) 
sims = grouped['actual'].apply(simulate_wait_times) 
sims.apply(lambda times: "{0:.1f} +/- {1:.1f}".format(times.mean(), times.std()))

輸出：

平均等待時間可能比預(yù)定時間間隔的一半長上一兩分鐘，但不等于等待時間悖論所暗示的預(yù)定時間間隔。換句話說，檢驗悖論得到了證實，但等待時間悖論似乎與現(xiàn)實不符。

結(jié)論

等待時間悖論是個非常有趣的現(xiàn)象。它涵蓋了模擬、概率以及統(tǒng)計假設(shè)與現(xiàn)實的比較。

雖然我們確認(rèn)了，現(xiàn)實世界的公交線路確實遵循了一些版本的檢驗悖論，但上面的分析非常明確地顯示，等待時間悖論背后的核心假設(shè)(公交車的到達時間遵循泊松過程)并不是很有根據(jù)。

回想起來，這也并不令人驚訝：泊松過程是一個無記憶過程，它假設(shè)到達的概率完全獨立于自上次到達的時間。實際上，一個運行良好的公交系統(tǒng)將有一個有意安排的時間表，用以避免這種行為：公交車不會在一天中的隨機時間開始他們的路線，而是按照選擇能夠***服務(wù)公眾的時間表開始他們的路線。

這里更大的教訓(xùn)是，你應(yīng)該謹(jǐn)慎對待任何數(shù)據(jù)分析工作的假設(shè)。泊松過程可以良好地描述到達時間的數(shù)據(jù) – 但只是在某些特定情況下。

僅僅因為一種類型的數(shù)據(jù)看起來像另一種類型的數(shù)據(jù)，并不能推導(dǎo)出對一種數(shù)據(jù)有效的假設(shè)必然對另一種有效。

通常那些看似正確的假設(shè)可能會導(dǎo)致與現(xiàn)實不符的結(jié)論。

***，你可以在這里下載本文全部代碼👇http://jakevdp.github.io/downloads/notebooks/WaitingTimeParadox.ipynb

相關(guān)報道：

http://jakevdp.github.io/blog/2018/09/13/waiting-time-paradox/?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章，微信公眾號“大數(shù)據(jù)文摘（ id: BigDataDigest）”】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來源： 51CTO專欄

等待時間悖論公交車數(shù)據(jù)分析

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="ys8wq"></style>