一文帶您了解統(tǒng)計(jì)分布類型(Distributions)-全面解析統(tǒng)計(jì)分布類型(統(tǒng)計(jì)分布有哪些常見類型)
統(tǒng)計(jì)(Statistics )是一種強(qiáng)大的分析工具,可以幫助我們理解數(shù)據(jù)的意義,而其核心概念是分布(Distributions)。統(tǒng)計(jì)中的分布幫助我們理解數(shù)據(jù)的分散方式,提供了對(duì)各種數(shù)據(jù)集概率和行為的重要洞見。從常見的正態(tài)分布的鐘形曲線到其他偏斜和厚尾的模式,接下類的內(nèi)容為您揭示各種分布類型,清晰地解釋它們的特征、應(yīng)用及其在統(tǒng)計(jì)分析中的重要性。
上圖展示了各種統(tǒng)計(jì)分布的分類及其相互關(guān)系。從圖中可以看到:
- 均勻分布(Uniform)和伯努利分布(Bernoulli)位于頂端,表示最基礎(chǔ)的分布類型。它們相互關(guān)聯(lián),均勻分布可轉(zhuǎn)化為伯努利分布。
- 伯努利分布(Bernoulli)進(jìn)一步引出二項(xiàng)分布(Binomial)和幾何分布(Geometric)。二項(xiàng)分布可視為多次伯努利試驗(yàn)的結(jié)果,而幾何分布則描述了首次成功試驗(yàn)前的失敗次數(shù)。
- 二項(xiàng)分布(Binomial)和幾何分布(Geometric)分別導(dǎo)出泊松分布(Poisson)和指數(shù)分布(Exponential)。泊松分布是二項(xiàng)分布在試驗(yàn)次數(shù)趨于無窮大時(shí)的極限,而指數(shù)分布是幾何分布的連續(xù)型版本。
- 指數(shù)分布(Exponential)進(jìn)一步擴(kuò)展為韋伯分布(Weibull)。
- 正態(tài)分布(高斯分布)(Normal/Gaussian)在中心位置,它是許多自然現(xiàn)象的基礎(chǔ)。對(duì)數(shù)正態(tài)分布(Log Normal)和學(xué)生t分布(Student's t)均從正態(tài)分布衍生而來。
- 卡方分布(Chi-Squared)也是由正態(tài)分布派生的,其進(jìn)一步導(dǎo)出伽馬分布(Gamma)和貝塔分布(Beta)。
這張圖通過箭頭清晰地展示了這些分布之間的衍生關(guān)系,幫助我們理解不同統(tǒng)計(jì)分布的演變和應(yīng)用。
1.均勻分布(Uniform Distribution )
均勻分布是一種概率分布,在給定范圍內(nèi)所有結(jié)果的可能性相等。這意味著如果從這個(gè)范圍內(nèi)隨機(jī)選擇一個(gè)值,那么任何一個(gè)值的可能性都與其他值相同。下面代碼模擬生成均勻分布的數(shù)據(jù)序列:
import numpy as npimport plotly.graph_objects as goimport scipy.stats as stats# Function to plot histogram and density using plotlydef plot_distribution(data, title, pdf=None): hist = go.Histogram(x=data, nbinsx=30, histnorm='probability density', name='Histogram') fig = go.Figure(data=[hist]) if pdf is not None: x = np.linspace(min(data), max(data), 100) density = pdf(x) fig.add_trace(go.Scatter(x=x, y=density, mode='lines', name='Density')) fig.update_layout(title=title, xaxis_title='Value', yaxis_title='Density') fig.show()# 生成均勻分布(Uniform)數(shù)據(jù)并繪制圖表data_uniform = np.random.uniform(0, 1, 1000)plot_distribution(data_uniform, '均勻分布(Uniform Distribution)')
均勻分布在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中的應(yīng)用示例:
- 隨機(jī)初始化:在許多機(jī)器學(xué)習(xí)算法中,如神經(jīng)網(wǎng)絡(luò)和k均值聚類,參數(shù)初始值對(duì)最終結(jié)果有顯著影響。均勻分布常用于隨機(jī)初始化參數(shù),因?yàn)樗_保范圍內(nèi)所有值被選擇的概率相等。
- 采樣:均勻分布也可用于采樣。例如,如果你有一個(gè)每個(gè)類別樣本數(shù)量相等的數(shù)據(jù)集,可以使用均勻分布隨機(jī)選擇一個(gè)子集,該子集代表所有類別。
- 數(shù)據(jù)增強(qiáng):在某些情況下,你可能希望通過生成與原始數(shù)據(jù)相似的新樣本來人為增加數(shù)據(jù)集的大小。均勻分布可以用于生成在原始數(shù)據(jù)指定范圍內(nèi)的新數(shù)據(jù)點(diǎn)。
- 超參數(shù)調(diào)優(yōu):均勻分布還可用于超參數(shù)調(diào)優(yōu),在這種情況下需要為機(jī)器學(xué)習(xí)模型尋找最佳超參數(shù)組合。通過為每個(gè)超參數(shù)定義均勻先驗(yàn)分布,可以從分布中采樣以探索超參數(shù)空間。
2.伯努利分布(Bernoulli Distribution )
伯努利分布是描述二元結(jié)果的概率分布,其中結(jié)果可以是成功(用值1表示)或失?。ㄓ弥?表示)。伯努利分布由一個(gè)參數(shù)來表征,即成功的概率,用 p 表示。
下面是python 代碼生成伯努利分布的數(shù)據(jù)集:
# 生成伯努利分布(Bernoulli)數(shù)據(jù)并繪制圖表data_bernoulli = np.random.binomial(1, 0.5, 1000)plot_distribution(data_bernoulli, '伯努利分布(Bernoulli)')
在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中伯努利分布的例子包括:通常用于建模二元結(jié)果的概率分布,例如預(yù)測客戶是否會(huì)購買產(chǎn)品、判斷電子郵件是否為垃圾郵件,或者預(yù)測患者是否患有某種疾病。
3.二項(xiàng)分布(Binomial Distribution)
二項(xiàng)分布是描述在固定數(shù)量的獨(dú)立伯努利試驗(yàn)中成功次數(shù)的概率分布,這些試驗(yàn)有兩種可能的結(jié)果(通常稱為“成功”和“失敗”),每次試驗(yàn)成功的概率是恒定的。二項(xiàng)分布由兩個(gè)參數(shù)來表征:試驗(yàn)的次數(shù) n 和成功的概率 p。
下面是python 代碼生成二項(xiàng)分布的數(shù)據(jù)集:
# 生成二項(xiàng)分布(Binomial)數(shù)據(jù)并繪制圖表data_binomial = np.random.binomial(10, 0.5, 1000)plot_distribution(data_binomial, '二項(xiàng)分布(Binomial)')
在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中二項(xiàng)分布的例子包括:
- 模型準(zhǔn)確率評(píng)估:當(dāng)測試一個(gè)機(jī)器學(xué)習(xí)模型來預(yù)測電子郵件是否為垃圾郵件時(shí),你可能會(huì)運(yùn)行它 100 次。每次測試,你檢查模型的預(yù)測是否正確(成功)或不正確(失?。?。二項(xiàng)分布幫助你理解在給定一定準(zhǔn)確率的情況下,模型在這100次測試中可能預(yù)測正確的次數(shù)。
- A/B 測試:在A/B測試中,你比較兩個(gè)版本的某個(gè)東西,比如一個(gè)網(wǎng)站或一個(gè)廣告,以確定哪個(gè)表現(xiàn)更好。二項(xiàng)分布可以讓你估計(jì)基于一定成功概率,哪個(gè)版本會(huì)更成功,比如獲得更多點(diǎn)擊或轉(zhuǎn)化次數(shù)的情況。
4.幾何分布(Geometric distribution)
幾何分布是描述在一系列獨(dú)立伯努利試驗(yàn)中,首次獲得成功(成功概率為 p)所需的試驗(yàn)次數(shù)的概率分布。換言之,它表示了在多次重復(fù)試驗(yàn)中,第一次成功所需的平均試驗(yàn)次數(shù)。
下面是python 的示例:
# 生成幾何分布(Geometric)數(shù)據(jù)并繪制圖表data_geometric = np.random.geometric(0.5, 1000)plot_distribution(data_geometric, '幾何分布(Geometric)')
5.泊松分布(Poisson distribution)
泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)受到的服務(wù)請(qǐng)求的次數(shù),電話交換機(jī)接到呼叫的次數(shù)、汽車站臺(tái)的候客人數(shù)、機(jī)器出現(xiàn)的故障數(shù)、自然災(zāi)害發(fā)生的次數(shù)、DNA序列的變異數(shù)、放射性原子核的衰變數(shù)、激光的光子數(shù)分布等等。(單位時(shí)間內(nèi)發(fā)生的次數(shù),可以看作事件發(fā)生的頻率,類似物理的頻率 )。
下面是python 的示例:
# 生成泊松分布(Poisson)數(shù)據(jù)并繪制圖表data_poisson = np.random.poisson(5, 1000)plot_distribution(data_poisson, '泊松分布(Poisson)')
6.指數(shù)分布(Exponential distribution)
指數(shù)分布(Exponential distribution)是一種連續(xù)概率分布。指數(shù)分布可以用來建模平均發(fā)生率恒定、連續(xù)、獨(dú)立的事件發(fā)生的間隔,比如旅客進(jìn)入機(jī)場的時(shí)間間隔、電話打進(jìn)客服中心的時(shí)間間隔、機(jī)器的壽命等。
下面是python 的示例:
# 生成指數(shù)分布(Exponential)數(shù)據(jù)并繪制圖表data_exponential = np.random.exponential(1, 1000)plot_distribution(data_exponential, '指數(shù)分布(Exponential)', pdf=stats.expon(scale=1).pdf)
7.韋伯分布(Weibull distribution)
韋伯分布(Weibull distribution)是一種連續(xù)概率分布,常用于描述時(shí)間直至某事件發(fā)生的概率,如產(chǎn)品壽命或設(shè)備故障時(shí)間。它的形狀由兩個(gè)參數(shù)決定:形狀參數(shù)(通常表示為 k),影響分布形狀的傾斜度;尺度參數(shù)(通常表示為 λ),決定分布的尺度和事件發(fā)生的頻率。韋伯分布適用于描述不同的可靠性問題和壽命分析,具有靈活性和廣泛的應(yīng)用性。
# 生成韋伯分布(Weibull)數(shù)據(jù)并繪制圖表data_weibull = np.random.weibull(1.5, 1000)plot_distribution(data_weibull, '韋伯分布(Weibull)', pdf=stats.weibull_min(1.5).pdf)
8.正態(tài)分布(高斯分布)(Normal/Gaussian)
正態(tài)分布,也稱為高斯分布,是統(tǒng)計(jì)學(xué)中最重要和最常見的連續(xù)概率分布之一。它以其鐘形曲線特征而聞名,分布的形狀由兩個(gè)參數(shù)完全描述:均值(μ)和標(biāo)準(zhǔn)差(σ)。正態(tài)分布的中心在均值處,標(biāo)準(zhǔn)差決定了曲線的寬度。在正態(tài)分布中,68% 的數(shù)據(jù)落在均值加減一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),而95% 的數(shù)據(jù)落在均值加減兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),這使得正態(tài)分布在描述自然和社會(huì)現(xiàn)象中的廣泛應(yīng)用。
正態(tài)分布不僅在統(tǒng)計(jì)學(xué)中具有重要作用,在自然科學(xué)、社會(huì)科學(xué)以及工程領(lǐng)域也有廣泛應(yīng)用。它經(jīng)常用于建模連續(xù)型隨機(jī)變量,如身高、體重和溫度等。由于中心極限定理的影響,許多隨機(jī)現(xiàn)象的分布會(huì)趨向于正態(tài)分布,這使得它成為數(shù)據(jù)分析和假設(shè)檢驗(yàn)的基礎(chǔ)工具之一。
# 生成正態(tài)分布(高斯分布)(Normal/Gaussian)數(shù)據(jù)并繪制圖表data_normal = np.random.normal(0, 1, 2000)plot_distribution(data_normal, '正態(tài)分布(高斯分布)(Normal/Gaussian)', pdf=stats.norm(0, 1).pdf)
9.對(duì)數(shù)正態(tài)分布(Log Normal Distribution)
在概率論和統(tǒng)計(jì)學(xué)中,對(duì)數(shù)正態(tài)分布是一個(gè)具有重尾特性的連續(xù)概率分布,它描述的是一個(gè)隨機(jī)變量,其對(duì)數(shù)值服從正態(tài)分布。換句話說,如果對(duì)每個(gè)值取自然對(duì)數(shù)并繪制這個(gè)分布,你將得到正態(tài)分布。對(duì)數(shù)正態(tài)分布的概率密度函數(shù)(PDF)的方程為:
# 生成對(duì)數(shù)正態(tài)分布(Log Normal)數(shù)據(jù)并繪制圖表data_log_normal = np.random.lognormal(0, 1, 1000)plot_distribution(data_log_normal, '對(duì)數(shù)正態(tài)分布(Log Normal)', pdf=stats.lognorm(1).pdf)
在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中,對(duì)數(shù)正態(tài)分布的例子包括:
- 互聯(lián)網(wǎng)討論論壇中發(fā)布的評(píng)論長度遵循對(duì)數(shù)正態(tài)分布。
- 用戶在在線文章(如笑話、新聞等)上的停留時(shí)間遵循對(duì)數(shù)正態(tài)分布。
- 國際象棋游戲的時(shí)長往往遵循對(duì)數(shù)正態(tài)分布。
- 在經(jīng)濟(jì)學(xué)中,有證據(jù)表明97%–99%的人口收入分布呈對(duì)數(shù)正態(tài)分布。
10.學(xué)生t分布(Student's t Distribution)
學(xué)生t分布(Student's t Distribution)是一種在估計(jì)小樣本均值時(shí)常用的概率分布,特別是在樣本量較小且總體標(biāo)準(zhǔn)差未知的情況下。由英國統(tǒng)計(jì)學(xué)家威廉·西利·戈塞特以筆名“學(xué)生”發(fā)表,因此得名。
學(xué)生t分布的形狀類似于正態(tài)分布,但在兩端具有更厚的尾巴,這意味著它在小樣本情況下能夠更好地反映數(shù)據(jù)的變異性。t分布由一個(gè)參數(shù)描述,即自由度(degrees of freedom, df),自由度通常等于樣本量減去1(n-1)。隨著自由度的增加,t分布逐漸接近正態(tài)分布。
學(xué)生t分布的概率密度函數(shù)(PDF)為:
學(xué)生t分布在統(tǒng)計(jì)推斷中非常重要,特別是在t檢驗(yàn)中,用于比較樣本均值和總體均值或兩個(gè)樣本均值之間的差異。
# 生成學(xué)生t分布(Student's t)數(shù)據(jù)并繪制圖表data_students_t = np.random.standard_t(10, 1000)plot_distribution(data_students_t, '學(xué)生t分布(Student's t)')
11.卡方分布(Chi-Squared Distribution)
卡方分布(Chi-Squared Distribution)是一種用于假設(shè)檢驗(yàn)和估計(jì)方差的概率分布,特別是在統(tǒng)計(jì)學(xué)中的廣泛應(yīng)用??ǚ椒植纪ǔS糜诜治龇讲詈皖l數(shù)數(shù)據(jù),它由一個(gè)參數(shù)描述,即自由度(degrees of freedom, df)。
# 生成卡方分布(Chi-Squared)數(shù)據(jù)并繪制圖表data_chi_squared = np.random.chisquare(2, 1000)plot_distribution(data_chi_squared, '卡方分布(Chi-Squared)', pdf=stats.chi2(2).pdf)
卡方分布在統(tǒng)計(jì)學(xué)中有許多重要應(yīng)用:
- 卡方檢驗(yàn):用于檢驗(yàn)兩個(gè)分類變量是否獨(dú)立(獨(dú)立性檢驗(yàn))或檢驗(yàn)觀察到的頻率分布與期望頻率分布是否一致(擬合優(yōu)度檢驗(yàn))。
- 方差分析:在估計(jì)總體方差或比較多個(gè)總體方差時(shí)使用。
- 置信區(qū)間:用于構(gòu)建總體方差的置信區(qū)間。
12.伽馬分布(Gamma Distribution)
伽馬分布(Gamma Distribution)是一種連續(xù)概率分布,廣泛應(yīng)用于排隊(duì)論、氣象學(xué)、金融和工程等領(lǐng)域。它可以用于建模等待時(shí)間、壽命分析等。
# 生成伽馬分布(Gamma)數(shù)據(jù)并繪制圖表data_gamma = np.random.gamma(2, 2, 1000)plot_distribution(data_gamma, '伽馬分布(Gamma)', pdf=stats.gamma(2, scale=2).pdf)
伽馬分布在統(tǒng)計(jì)學(xué)和應(yīng)用領(lǐng)域中有許多重要用途,例如:
- 排隊(duì)論:用于建模顧客在隊(duì)列中的等待時(shí)間。
- 氣象學(xué):用于描述降雨量分布。
- 金融:用于建模保險(xiǎn)索賠大小和風(fēng)險(xiǎn)度量。
13.貝塔分布(Beta Distribution)
貝塔分布(Beta Distribution)是一種定義在區(qū)間 [0, 1] 上的連續(xù)概率分布,常用于描述概率和比例的分布情況。貝塔分布由兩個(gè)正參數(shù) α和 β描述,這兩個(gè)參數(shù)決定了分布的形狀。
# 生成貝塔分布(Beta)數(shù)據(jù)并繪制圖表data_beta = np.random.beta(2, 2, 1000)plot_distribution(data_beta, '貝塔分布(Beta)', pdf=stats.beta(2, 2).pdf)
貝塔分布在貝葉斯統(tǒng)計(jì)中有廣泛應(yīng)用,特別是作為二項(xiàng)分布參數(shù)的共軛先驗(yàn)分布。例如,在概率估計(jì)中,當(dāng)我們有關(guān)于某事件發(fā)生次數(shù)的信息時(shí),貝塔分布可以用于更新事件的概率估計(jì)。
此外,貝塔分布在各種應(yīng)用領(lǐng)域中也非常有用,例如:
- A/B 測試:用于建模轉(zhuǎn)化率的分布。
- 機(jī)器學(xué)習(xí):用于建模和推斷概率參數(shù)。
- 金融:用于描述投資回報(bào)率的分布。
通過調(diào)整 α 和 β的值,貝塔分布可以表現(xiàn)出不同的形狀,從均勻分布到偏斜分布,能夠靈活地適應(yīng)各種數(shù)據(jù)分布形式。
14.帕累托分布(Pareto Distribution)
帕累托分布(Pareto Distribution)是一種描述某些類型的社會(huì)、科學(xué)、地質(zhì)和其他現(xiàn)象的概率分布,特別適用于表示財(cái)富分布、城市人口分布和互聯(lián)網(wǎng)流量分布等。它以意大利經(jīng)濟(jì)學(xué)家維爾弗雷多·帕累托命名,通常用于描述“80/20法則”,即80%的財(cái)富由20%的人口擁有。
帕累托分布由兩個(gè)參數(shù)描述:形狀參數(shù)(α)和尺度參數(shù)(x_m)。形狀參數(shù)決定了分布的厚尾特性,而尺度參數(shù)表示最小值或閾值。其概率密度函數(shù)(PDF)的公式為:
帕累托分布在經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)和工程學(xué)中有廣泛應(yīng)用,用于建模極端事件和不均衡現(xiàn)象。
# 生成帕累托分布(Pareto Distribution)數(shù)據(jù)并繪制圖表data_beta = np.random.pareto(3., 1000)plot_distribution(data_beta, '帕累托分布(Pareto Distribution)', pdf=stats.beta(2, 2).pdf)
統(tǒng)計(jì)是一種強(qiáng)大的分析工具,通過分布幫助我們理解數(shù)據(jù)的分散方式及其概率行為。從均勻分布、伯努利分布到正態(tài)分布和帕累托分布,各種分布類型揭示了不同數(shù)據(jù)集的特征和應(yīng)用。本文介紹了這些分布的基本概念、數(shù)學(xué)公式及其在機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)中的實(shí)際應(yīng)用。通過圖示展示分布之間的關(guān)系,說明它們?cè)诮y(tǒng)計(jì)分析中的重要性及其演變過程。此信息將幫助讀者更好地理解和應(yīng)用統(tǒng)計(jì)分布進(jìn)行數(shù)據(jù)分析和建模。