小編的世界 優質文選 生物
字體大小:
2020年11月17日 -
:
3D視覺工坊
生成算法
生成運動捕捉方法是通過將人體模型擬合到從圖像中提取的信息來確定人的姿勢和形狀。對於一組給定的模型參數(身體形狀,骨骼長度,關節角度),用生成模型表示。然後可以將該表示形式與從圖像中提取的特征進行比較,並計算出一個“誤差值”,該誤差值表示假設與觀察到的數據相差多少。在一種可能性中,可以將由預測參數產生的3D三角形網格投影到2D圖像中,並使網格和人的輪廓的重疊最大化,或者,通過將模型的3D頂點與視覺外殼的3D點之間的距離最小化,可以通過迭代算法將3D人體模型與3D重建進行比較最接近的點。
對於生成算法的關鍵因素是對功能的適當定義,該功能將特定的假設與圖像中可用的信息進行比較。如果不仔細考慮,那麼搜索最佳模型參數集就很容易失敗,從而導致估計結果的錯誤。此外,構造一個對圖像噪聲和不現實模型構型具有魯棒性的代價函數是比較困難的。在極端情況下,在追蹤開始時需要強迫被捕獲者擺出一個特定的姿勢。如果擬合之後由於遮擋、圖像噪聲或其他故障而變得混亂,跟蹤在沒有人工干預的情況下將無法自我糾正。研究人員已經嘗試使用改進的搜索算法、身體部位檢測器和最近的姿態識別算法中獲得的額外信息,或者通過生成方法和鑒別方法的耦合來解決這種情況。
“生成算法”相關文章解析
Multi-view Pictorial Structures for 3D Human Pose Estimation
摘要:
圖像結構模型是2D人體姿勢估計的標准,已提出了許多改進措施,例如,經過區分訓練的身體部位檢測器,靈活的身體模型以及局部和全局混合。盡管這些技術允許實現2D姿態估計的最新性能,但它們尚未擴展為支持3D姿態估計。因此,本文提出了一種基於2D姿態估計的最新進展的多視圖圖形結構模型,並結合了跨多個視點的證據以實現可靠的3D姿態估計。文中評估了HumanEva-I和MPII Cooking數據集上的多視圖圖片結構方法。與3D姿態估計的相關工作相比,文中的方法僅在單幀上運行,並且不依賴於特定於運動的運動模型或跟蹤,從而獲得了相似或更好的結果。對於具有更複雜動作的活動,文中的方法要優於最新技術。
正文:
本文中考慮了來自多個校准攝像機的關節式3D人體姿勢估計的任務。傳統上,此任務使用3D人體模型解決,並且涉及3D人體配置的高維空間中的複雜推理。為了解決搜索複雜性,已經提出了各種機制,例如退火粒子濾波或非參數置信傳播。在本文中,作者認為,通過將3D推理問題公式化為每個攝像機視圖中姿勢的2D投影的聯合推理,可以顯著降低搜索複雜度。為此,文中以成功的2D圖形結構模型為基礎,這些模型被證明對2D人體姿態估計有效。僅僅以2D推理可以將解決2D到3D提升歧義的時間延遲到考慮所有圖像觀測值的時間點,但是這與基於3D人體模型的方法相反,該方法需要在推理過程的早期就假設3D姿勢。
本文提出了一種2D姿態估計方法,該方法以色彩特征和更有效的空間術語擴展了作者最新的2D圖形結構模型。同樣,文中將其推廣到混合模型,並提出了一種新的混合組分選擇方法。同時文中是將2D姿勢估計模型擴展到多視圖模型,該模型對從多個角度看到的人的姿勢執行聯合推理,然後,此模型的輸出將用於恢複3D姿勢。同時在HumanEva-I數據集和MPII Cooking數據集上評估該方法,該數據集是多視圖3D姿態估計的標准基准,在HumanEva-I上,文中的方法達到的准確度與他人文獻中的最新結果相當,後者依賴於特定活動的運動模型和跟蹤,而本文的方法僅在單幀上運行。在MPII Cooking上,本文的方法比2D方法有了很大的改進,證明了在多個視圖中共同估計姿勢的優勢。
1. Single-view model單視圖模型
1.1 Pictorial structures model
在下文中,作者描述了依賴於圖形結構模型的2D姿態估計方法。作者介紹了一種更靈活的零件配置和多模式成對,顏色特征和圖形結構的混合。
圖片結構模型將人體表示為N個剛性零件的配置L = {,,}和成對零件關系E的集合。每個部分的位置由li =()給出,其中(()是該部分的圖像位置,而是絕對方向,分解為一元和成對項的乘積:
文中不是通過四肢的配置來編碼身體姿態,而是通過身體關節的配置來編碼。從肢體轉換到關節的優點是,新模型可以更好地編碼出平面旋轉導致的身體部位的透視縮短。文中的新模型有14個部分,分別對應軀幹、頭部、左、右手腕、肘部、肩膀、腳踝、膝蓋和臀部,MPII數據集只使用了10個上半身部分。
1.2 Appearance representation
零件似然項用增強零件檢測器表示,該零件檢測器依賴於使用密集計算的形狀上下文描述符網格對圖像的編碼。本文使用顏色特征來增強在增強部分檢測器中使用的形狀上下文特征,例如手或頭部經常具有特征性的膚色。另外,某些顏色比身體部位更可能對應於相應的背景。為此,作者針對RGB顏色空間的每個維度使用10個面元的多維直方圖對零件邊界框的顏色進行編碼,從而得出1000維度的特征向量,將形狀上下文與顏色特征連接起來,並在此組合表示的基礎上學習增強型零件檢測器。
1.3 Spatial model
下列等式編碼模型各部分之間的空間約束,並在兩部分之間的關節的變換空間中以高斯分布進行建模:
作者通過在這些成對的部分依賴層引入混合模型來擴展模型。為此,將上述公式中的單峰高斯項替換為K個模態的最大值項,並用高斯表示每個模態。新的多模態兩兩項為:
1.4 Mixtures of pictorial structures (Mixture PS)
作者將方法擴展到混合圖形結構模型。作者通過將訓練數據與k均值聚類並為每個聚類學習單獨的模型來獲得混合成分。組件通常對應於數據中的主要模式,例如人相對於相機的各種視點。組件的索引被視為潛在變量,在測試時進行推斷。作者發現使用等式中的後驗值對預測最佳混合成分不可靠,因此提出兩種替代策略。
a. 組件分類器:作者訓練了一個整體分類器,該分類器根據人員邊界框的內容來區分混合成分。為此,作者使用的方法可以共同解決對象檢測和視點分類的任務,但依賴於結構化的預測公式,該公式既可以鼓勵正確的定位又可以進行組件檢測。
b. 最小方差:作者使用與姿勢估計的質量直接相關的標准選擇混合分量,選擇了身體各部位後緣分布具有最小不確定性的最佳組件。
2. Multi-view model多視圖模型
描述3D姿態估計的方法包括兩個步驟。第一步,作者共同估算每個視圖中3D人體關節的2D投影。作為表示和推斷人體姿勢的基本工具,作者依賴於單視圖模型中引入的2D模型。在第二步中,作者使用估計的2D投影並通過三角剖分恢複3D姿勢。
為了清楚起見,作者首先針對兩個視圖的情況介紹多視圖模型。類似於單視圖模型中的公式,有條件的身體後部結構在兩個視圖中分解為一元和成對項的乘積,它們為每個視圖獨立定義零件之間的外觀和空間約束。另外,作者在每個視圖的每對對應部分之間引入成對因子。兩種視圖中的關節後部結構由下式給出:
2.1 Multi-view appearance
因子編碼從多個角度看到的身體部位的顏色和形狀。作者通過連接來自多個視圖的特征來定義關節外觀特征向量,並使用此表示來訓練增強部分檢測器。外觀因素取決於每個視圖中零件的位置。與單視圖增強部分檢測器相比,多視圖檢測器在訓練期間可以訪問所有視圖中的特征,並且可以利用視圖中的特征的同時出現,來學習更具判別性的檢測器。
因子對每個視圖中的零件位置應在同一3D位置上的一致性進行約束。給定一對對應的零件位置和,作者首先使用線性三角測量在3D中重建零件的對應位置,多視圖對應因子為
2.2 3D mixture model
多視圖模型也采用圖形結構的混合來表示每個視圖的2D身體配置。但是,在多視圖情況下,混合分量對應於3D中類似的姿勢組。為了獲得此類3D混合分量,作者首先將3D訓練姿勢與k均值聚類。然後,投影每個3D群集的訓練數據,並從投影數據中學習2D模型。對於組件檢測器,作者在所有視圖中添加相應組件的分數。對於基於不確定性的標准,作者將在單視圖模型中的空間模型中為所有視圖中的每個對應組件添加不確定性得分。
2.3 Inference
在簡化的假設的前提下,圖形結構方法可以進行有效而精確的推斷。但是,這些假設限制了模型的表達能力。例如,等式中的成對因子以及等式中的多視圖因子不是高斯模型,並在模型結構中創建循環依賴。為了用非高斯因素和循環模型進行推理,作者使用近似兩階段推理程序。在第一階段,此過程依賴於具有高斯成對因子以及簡單的形狀和顏色外觀術語的簡化樹結構模型,以便生成有關身體部位位置的建議。這個階段可以看作是減少搜索空間的步驟,這是應用更複雜的模型所必需的,第一階段的推論是通過求和積置信傳播來執行的,允許計算每個身體部位的邊緣分布。該推論是精確而有效的,因為該模型是樹形結構的,並且可以使用高斯卷積來計算消息。在第二階段中,作者從中采樣了足夠大的位置集,並在所有模型中使用所有因素在采樣部分位置的縮減狀態空間中進行了推斷,使用最大乘積置信度傳播,因為它允許獲得整個身體配置的一致估計。最後,給定多視圖圖片結構模型估計的2D投影,使用三角剖分重建3D姿勢。
實驗結果
結論:
傳統上會使用3D人體模型解決3D人體姿勢估計問題。在這項工作中,作者采用了另一種方法,並將問題重新表述為對每個攝像機視圖中3D姿勢的2D投影集的推斷。這種替代的公式建立在最先進的圖片結構模型的基礎上,可以從2D人體姿勢估計的最新進展中受益。通過擴展之前提出的原始模型,該模型具有靈活的部分,顏色特征,多模式成對術語以及圖形結構的混合,作者的2D姿態估計方法顯著提高了用於評估的兩個數據集的性能。為了利用多視圖信息,作者使用跨視圖的外觀和空間對應約束來擴充模型。
判別算法
判別算法避免了反複調整身體模型參數以適應圖像的過程,因此它們也通常被稱為無模型算法。與生成方法相比,它們通常會有更快的處理時間,改進的健壯性和減少對初始猜測的依賴。然而,它們可以降低精確度,並且它們需要一個非常大的樣本數據數據庫(甚至比生成算法所使用的構建統計體型模型所需要的數據還要多),從中它們可以學習如何推斷結果。判別算法主要有兩種方法,一種方法是直接發現從圖像特征到位姿描述的映射,例如使用基於機器學習的回歸,從而就有可能“教”計算機如何僅使用圖像數據來確定一個簡單骨架模型的姿態。另一個方法是利用深度學習來訓練一個系統,這個系統可以識別多個人的身體部位,然後快速解析這些部位來確定骨骼。或者,也可以創建一個位姿示例數據庫,然後搜索當前圖像中已知的最相似的位姿。
“判別算法”相關文章解析
Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
摘要:
作者提出一種有效檢測圖像中多個人的2D姿勢的方法。該方法使用非參數表示(作者稱為PAF)來學習將身體部位與圖像中的個體相關聯。該體系結構對全局上下文進行編碼,從而允許自下而上的解析步驟,無論圖像中有多少人,都可以在保持高精度的同時實現實時性能。該體系結構旨在通過同一順序預測過程的兩個分支共同學習零件位置及其關聯。作者的方法在首次COCO 2016關鍵點挑戰中排在首位,在性能和效率上都大大超過了MPII MultiPerson基准測試之前的最新結果。
正文:
人體2D姿態估計-定位解剖學關鍵點或部位的問題,主要集中在尋找個體的身體部位。推斷圖像中的多個人的姿勢,尤其是從事社交活動的人,會帶來一系列獨特的挑戰。首先,每個圖像可能包含未知數量的人,這些人可以在任何位置或任何比例出現。其次,由於接觸,咬合和肢體關節活動,人與人之間的互動會引起複雜的空間干擾,從而使零件的關聯變得困難。第三,運行時複雜度往往隨著映像中的人數而增加,這使實時性能成為挑戰。
在本文中,作者提出了一種有效的方法,可以在多個公共基准上以最先進的精度進行多人姿勢估計。作者通過PAF展示了關聯評分的第一個自下而上的表示形式,這是一組二維矢量場,它們在圖像域上編碼肢體的位置和方向。作者證明,同時推斷出這些檢測和關聯的自下而上的表示方式,可以很好地編碼全局上下文,以使貪婪的解析能夠以少量的計算成本來獲得高質量的結果。
Simultaneous Detection and Association:
作者的架構,如上圖所示,同時預測檢測置信度映射和編碼部分到部分關聯的親和域。這個網絡被分成兩個分支,上面的分支(用米色表示)預測可信度圖,下面的分支(用藍色表示)預測親和力域。每個分支都是一個迭代架構,它細化了連續階段的預測。首先通過卷積網絡(由VGG-19和微調的前10層初始化)對圖像進行分析,生成一組特征圖F,輸入到每個分支的第一階段。在第一階段,網絡生成一組檢測置信度圖和一組部分親和場,其中,lawren1和czain1是第一階段進行推理的CNNs。在隨後的每一個階段中,前一階段的兩個分支的預測,連同原始圖像特征F,被連接起來並用於產生精確的預測,並進行了跨階段的置信度圖和親和度字段的細化。為了指導網絡迭代預測第一個支路的身體部分和第二個支路的PAF的置信度圖,作者在每個階段末分別應用兩個損失函數和一個損失函數。作者在估計預測和真實地面圖和場之間使用L2損失。因此,作者對損失函數進行空間加權來解決一個實際問題,從而使一些數據集不能完全的標記所有人。具體而言,t階段兩個分行的損失函數為:
每個階段的中間監督通過定期補充梯度來解決梯度消失的問題,總目標是:
Confidence Maps for Part Detection
在訓練期間,作者從帶注釋的2D關鍵點生成接地的真實度置信圖。每個置信度圖是特定身體部位出現在每個像素位置的信念的2D表示。理想情況下,如果圖像中只有一個人,則只要可見部分可見,則每個置信度圖中應存在一個峰值;如果出現多個人,則應該為每個人k對應於每個可見部分j的峰值。作者先為每一個人生成置信圖,網絡中要預測的接地真實度置信度圖是通過最大算子對單個置信度圖進行的匯總。
Part Affinity Fields for Part Association
給定一組檢測到的身體部位,如何組裝它們以形成未知人數的全身姿勢?作者是對每對身體部位檢測的關聯性進行置信度度量,即它們屬於同一個人。測量關聯的一種可能方法是檢測肢體上每對零件之間的附加中點,並檢查候選零件檢測之間其發生率,但是,當人們擠在一起時,這些中點很可能支持虛假的關聯。這種假聯想是由於表示方面的兩個限制而引起的:(1)它僅編碼每個肢體的位置,而不是編碼方向;(2)將肢體的支撐區域減少到單個點。
為了解決這些限制,作者提出了一種新穎的特征表示,稱為零件親和力字段,該字段保留了肢體支撐區域中的位置和方向信息。零件相似性是每個肢體的2D矢量場:對於屬於特定肢體的區域中的每個像素,2D向量編碼從肢體的一部分指向另一部分的方向。每種肢體都有一個對應的親和力場,將其兩個相關的身體部位連接在一起。
在測試期間,作者通過計算對應PAF上沿著連接候選零件位置的線段的線積分來測量候選零件檢測之間的關聯,即作者測量預測的PAF與候選肢體的對齊方式,該肢體將通過連接檢測到的身體部位而形成。具體來說,對於兩個候選零件位置dj1和dj2,作者沿著線段對預測零件字段進行采樣,以測量對其關聯的置信度:
Multi-Person Parsing using PAFs
作者對檢測置信度圖執行非極大值抑制,以獲得零件候選位置的離散集合。對於每個部分,由於圖像中有多個人或誤判斷,作者可能有多個候選對象。這些候選零件定義了大量可能的肢體,作者使用定義的PAF上的線積分計算為每個候選肢體評分。找到最佳解析的問題對應於一個稱為NP-Hard的K維匹配問題。在本文中,作者提出了一個貪婪的松弛,該松弛持續產生高質量的匹配項。作者推測原因是由於PAF網絡的接收域很大,成對關聯分數隱式編碼全局上下文。
當要找到多個人的全身姿勢時,確定Z是K維匹配問題。在這項工作中,作者為優化添加了兩個放寬部分。首先,選擇了最少數量的邊緣來獲得人體姿勢的生成樹骨架,而不是使用完整的圖形。其次,進一步將匹配問題分解為一組二分匹配子問題,並獨立確定相鄰樹節點中的匹配。本文中顯示了詳細的比較結果,該結果表明,最小的貪婪推理以很小的計算成本就能很好地逼近全局解。原因是,相鄰樹節點之間的關系是通過PAF顯式建模的,但是內部,非相鄰樹節點之間的關系是由CNN隱式建模的。之所以會出現此屬性,是因為CNN是在大接收域下訓練的,並且來自非相鄰樹節點的PAF也影響預測的PAF。
通過這兩個松弛,優化可以簡單地分解為:
使用相應等式分別獲得每種肢體類型的肢體連接候選者。使用所有肢體連接候選者,可以將共享相同零件檢測候選者的連接組裝成多個人的全身姿勢,在樹結構上的優化方案比在全連接圖上的優化快幾個數量級。
實驗結果:
在本文中,作者考慮了這種感知的關鍵組成部分:實時算法來檢測圖像中多個人的2D姿勢。提出了關鍵點關聯的顯式非參數表示形式,它編碼了人類四肢的位置和方向。其次,作者設計了一種用於共同學習零件檢測和零件關聯的架構。第三,作者證明了文中的解析算法足以產生高質量的人體姿勢解析,即使圖像中的人數增加,該算法也能保持效率。
Reference:
1.A Review of the Evolution of Vision-Based Motion Analysis and the Integration of Advanced Computer Vision Methods Towards Developing a Markerless System
2.Multi-view Pictorial Structures for 3D Human Pose Estimation
3.Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields