欧美人与禽2O2O性论交,秋霞免费视频,国产美女视频免费观看网址,国产成人亚洲综合网色欲网

「12月22日」十一篇(將)開源論文代碼分享

作者 | CV君

編輯 | CV君

報道 | 我愛計算機視覺(微信id:aicvml)

#手-物抓取#

GOAL: Generating 4D Whole-Body Motion for Hand-Object Grasping

馬普所

生成運動逼真的數(shù)字人有很多應用,因此被廣泛研究,但現(xiàn)有的方法主要集中在身體的主要肢體上,忽略了手和頭。手部雖已被單獨研究,但重點是生成真實的靜態(tài)抓取物體。為了合成與世界互動的虛擬人物,需要同時生成全身運動和真實的手部抓握。這兩個子問題本身就很有挑戰(zhàn)性,如果結合在一起,姿勢的狀態(tài)空間就會大大增加,手和身體運動的尺度也不同,全身的姿勢和手的抓握必須一致,滿足物理約束,并且是合理的。此外,頭部也參與其中,因為動畫必須看著物體才能與之互動。

本次研究任務,首次解決了生成 avatar 抓取未知物體的全身、手和頭運動的問題。作為輸入,所提出方法 GOAL,需要一個三維物體、它的位置和一個起始三維身體姿勢和形狀。GOAL 使用兩個新的網絡輸出一個全身姿勢序列。首先,GNet生成一個目標全身抓握,具有現(xiàn)實的身體、頭部、手臂和手的姿勢,以及手與物體的接觸。其次,MNet生成起始姿勢和目標姿勢之間的運動。

它要求 avatar 以腳踏實地的方式走向物體,將頭轉向它,伸出手,以逼真的手的姿勢和手與物體的接觸抓住它。為了實現(xiàn)這一目標,網絡利用一種結合SMPL-X身體參數(shù)和三維頂點偏移的表示方法。

在GRAB數(shù)據(jù)集上對GOAL進行了定性和定量的訓練和評估。結果表明,GOAL對未見過的物體有很好的概括性,表現(xiàn)優(yōu)于基線。GOAL在合成真實的全身物體抓取方面邁出了一步。

將開源:https://goal.is.tuebingen.mpg.de/

論文:https://arxiv.org/abs/2112.11454

「12月22日」十一篇(將)開源論文代碼分享

#Transformer#

Learned Queries for Efficient Local Attention

特拉維夫大學&Reichman University

Vision Transformers(ViT)作為強大的視覺模型,與前些年主導視覺研究的卷積神經網絡不同,Vision Transformers 享有捕捉數(shù)據(jù)中長距離依賴關系的能力。然而,任何 Transformers 架構的一個組成部分,即自關注機制,存在著高延遲和低效率的內存利用,使其不太適合高分辨率的輸入圖像。

為此,分層視覺模型在非交錯窗口上局部采用了自關注。這種松弛將復雜性降低到與輸入大小成線性關系;然而,它限制了跨窗口的互動,損害了模型的性能。

在本文中,提出一個新的移位不變的局部注意力層,query and attend(QnA),它以重疊的方式在局部聚集輸入,很像卷積。QnA的關鍵思想是引入學習查詢,這允許快速和有效的實施。通過將其納入一個分層的 Vision Transformers 模型來驗證層的有效性。

以及展示在速度和內存復雜性方面的改進,同時實現(xiàn)了與最先進的模型相媲美的準確性。最后,該層隨著窗口大小的變化擴展得特別好,需要的內存比現(xiàn)有方法少10倍,而速度卻快5倍。

將開源:https://github.com/moabarar/qna

論文:https://arxiv.org/abs/2112.11435

「12月22日」十一篇(將)開源論文代碼分享

#圖像生成#

StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

華盛頓大學&Adobe Research&斯坦福大學

StyleSDF,是一種高分辨率、三維一致的圖像和形狀生成技術。該方法只在單視圖RGB數(shù)據(jù)上進行訓練,并站在 StyleGAN2 的肩膀上進行圖像生成,同時解決了3D感知GAN的兩個主要挑戰(zhàn):1)高分辨率、視圖一致的RGB圖像的生成,2)詳細的3D形狀。通過合并基于SDF的3D表示和基于風格的2D生成器來實現(xiàn)這一目標。

三維隱含網絡渲染了低分辨率的特征圖,基于風格的網絡從中生成了視圖一致的1024×1024圖像。值得注意的是,基于SDF的三維建模定義了詳細的三維表面,導致了一致的體積渲染。在視覺和幾何質量方面,所提出方法顯示出與現(xiàn)有技術水平相比更高的質量結果。

將開源:https://github.com/royorel/StyleSDF

論文:https://arxiv.org/abs/2112.11427

「12月22日」十一篇(將)開源論文代碼分享

#圖像分割##Transformer#

iSegFormer: Interactive Image Segmentation with Transformers

iSegFormer,一種新型的基于 Transformer 的交互式圖像分割方法。iSegFormer建立在現(xiàn)有的分割 Transformer 之上,將用戶的點擊作為額外的輸入,允許用戶交互地、反復地完善分割掩碼。并在幾個公共基準上評估了iSegFormer,包括自然和醫(yī)學圖像。

評估結果顯示,iSegFormer 在自然圖像上取得了與最新技術相當?shù)慕Y果,并且無需微調就能很好地推廣到醫(yī)學圖像上。評估結果表明,所提出的方法具有很強的通用性和有效性。

已開源:https://github.com/qinliuliuqin/iSegFormer

論文:https://arxiv.org/abs/2112.11325

「12月22日」十一篇(將)開源論文代碼分享

#文本檢測#

Hateful Memes Challenge: An Enhanced Multimodal Framework

臉書人工智能提出的 Hateful Meme 挑戰(zhàn)賽吸引了世界各地的參賽者。該挑戰(zhàn)的重點是檢測多模態(tài) Meme 中的 hateful speech(仇恨性言論)。各種最先進的深度學習模型已經被應用于這個問題,挑戰(zhàn)賽排行榜上的表現(xiàn)也在不斷提高。

本文中,作者加強了 hateful(仇恨)檢測框架,包括利用 Detectron 進行特征提取,探索不同損失函數(shù)的 VisualBERT 和 UNITER 模型的不同設置,研究 hateful memes(仇恨記憶)和 the sensitive text features(敏感文本特征)之間的關聯(lián),最后建立集成方法來提高模型性能。

在挑戰(zhàn)賽的測試集上,微調的VisualBERT、UNITER和合集方法的AUROC分別達到了0.765、0.790和0.803,擊敗了基線模型。

已開源:https://github.com/yatingtian/hateful-meme

論文:https://arxiv.org/abs/2112.11244

「12月22日」十一篇(將)開源論文代碼分享

#運動預測#

Learning Human Motion Prediction via stochastic Differential Equations

吉林大學&浙江大學&南洋理工大學&杭州電子科技大學

文章提出一種新的方法,基于stochastic differential equations(隨機微分方程)和 path integrals(路徑積分)對人體運動問題進行建模。在所提出方法中,每個骨骼關節(jié)的運動曲線被表述為一個基本的隨機變量,并以Langevin 方程為模型。GAN被用來模擬路徑積分,對可能的路徑進行優(yōu)化。

實驗結果表明,所提出方法在短期預測和長期預測方面都大大超過了最先進的方法。

總的來說,本次工作研究了利用隨機微分方程和路徑積分來模擬人類運動的新想法,并為這個方向奠定了理論基礎。并相信這是邁向更精確的運動預測和理論突破的堅實一步。

將開源:https://github.com/herolvkd/MM-2021-StochasticMotionPrediction

論文:https://arxiv.org/abs/2112.11124

「12月22日」十一篇(將)開源論文代碼分享

RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality

清華&中科院&曠視&亞伯大學

與卷積層相比,全連接(FC)層在建模長距離依賴性方面更出色,但在捕捉局部模式方面更差,因此通常不太適合用于圖像識別

本文提出一種方法, "Locality Injection",通過將平行信念核的訓練參數(shù)合并到FC核中,將局部先驗因素納入FC層。局部注入可以被看作是一種新穎的結構重參數(shù)化方法,因為它通過轉換參數(shù)來等效地轉換結構。

在此基礎上,提出 RepMLP Block 多層感知器(MLP)塊,它使用三個FC層來提取特征,以及一個名為RepMLPNet的新型架構。分層設計使RepMLPNet區(qū)別于其他同時提出的視覺MLP。由于它能產生不同層次的特征圖,它有資格作為下游任務(如語義分割)的骨干模型。

研究結果表明:

1)位置注入是MLP模型的一種通用方法;

2)與其他MLP相比,RepMLPNet具有良好的準確性-效率權衡;

3)RepMLPNet是第一個能夠無縫轉移到城市景觀語義分割的MLP。

已開源:https://github.com/DingXiaoH/RepMLP

論文:https://arxiv.org/abs/2112.11081

「12月22日」十一篇(將)開源論文代碼分享

#AAAI 2022##實例分割#

SOIT: Segmenting Objects with Instance-Aware Transformers

Hikvision Research Institute&ref="https://www.baidu.com/link?url=1XbL-F_1z6iuiZZAiXMuGdgXFmoOt94TQwX-dYg3UsWIbbEA5vGqg7gZCXgsh_HZ&wd=&eqid=a411ee9e000684020000000461c2c8b8">西安交通大學

本文提出一個端到端的實例分割框架,SOIT,它用實例感知Transformer來分割對象。受DETR~cite啟發(fā),所提出方法將實例分割視為一個直接的集合預測問題,并有效地消除了許多手工制作的組件,如RoI裁剪、一對多標簽分配和非最大抑制(NMS)的需要。

在SOIT中,全局圖像背景下,多個查詢被學習來直接推理一組語義類別、邊界盒位置和像素級掩碼的物體嵌入。類別和邊界框可以很容易地通過一個固定長度的向量嵌入。特別是像素大小的掩碼,是由一組參數(shù)嵌入的,以構建一個輕量級的實例感知Transformer。之后,全分辨率的掩碼由實例感知Transformer產生,不涉及任何基于RoI的操作。

總的來說,SOIT引入一個簡單的單階段實例分割框架,該框架既無RoI也無NMS。在MS COCO數(shù)據(jù)集上的實驗結果表明,SOIT明顯優(yōu)于最先進的實例分割方法。此外,在一個統(tǒng)一的查詢嵌入中對多個任務的聯(lián)合學習也能大幅提高檢測性能。

將開源:https://github.com/yuxiaodongHRI/SOIT

論文:https://arxiv.org/abs/2112.11037

「12月22日」十一篇(將)開源論文代碼分享

#密集預測##Transformer#

MPViT: Multi-Path Vision Transformer for Dense Prediction

ETRI&韓國科學技術院&AITRICS

密集的計算機視覺任務,如目標檢測和分割,需要有效的多尺度特征表示來檢測或分類具有不同大小的物體或區(qū)域。雖然卷積神經網絡(CNN)一直是此類任務的主流架構,但近期所推出的 Vision Transformer(ViTs)旨在取代它們作為主干。與CNN類似,ViTs建立一個簡單的多級結構(即從細到粗),用于單尺度patche 的多尺度表示。

本次研究工作,以不同于現(xiàn)有Transformer 的視角,探索多尺度 patch 嵌入和多路徑結構,構建 Multi-Path Vision Transformer(MPViT)。MPViT通過使用重疊卷積補丁嵌入,將相同大小~(即序列長度)的特征與不同尺度的補丁同時嵌入。然后,不同尺度的標記通過多條路徑獨立地送入Transformer編碼器,并將得到的特征聚合起來,從而在同一特征水平上實現(xiàn)精細和粗略的特征表示。由于多樣化、多尺度的特征表示,MPViTs從微小~(5M)擴展到基本~(73M),在ImageNet分類、目標檢測、實例分割和語義分割上,始終比最先進的 Vision Transformer 取得更優(yōu)異的性能。這些廣泛的結果表明,MPViT 可以作為一個多功能的骨干網絡,用于各種視覺任務。

將開源:https://github.com/youngwanLEE/MPViT

論文:https://arxiv.org/abs/2112.11010

「12月22日」十一篇(將)開源論文代碼分享

#航空檢測#

Mapping industrial poultry operations at scale with deep learning and aerial imagery

微軟&Stanford RegLab

集中式動物飼養(yǎng)場(CAFOs)對空氣、水和公眾健康構成了嚴重的風險,但事實證明對其進行監(jiān)管具有挑戰(zhàn)性。美國政府問責局指出,一個基本挑戰(zhàn)是缺乏關于CAFO的全面位置信息。作者使用美國農業(yè)部的國家農業(yè)圖像計劃(NAIP)1米/像素的航空圖像來檢測整個美國大陸的家禽CAFOs。訓練卷積神經網絡(CNN)模型,以識別單個禽舍,并將性能最好的模型應用于超過42TB的圖像,以創(chuàng)建第一個全國性的、開源的家禽CAFOs數(shù)據(jù)集。根據(jù)加州10個手工標注縣的家禽CAFO設施位置的驗證集來驗證模型的預測,并證明這種方法在填補環(huán)境監(jiān)測的空白方面具有巨大的潛力。

已開源:https://github.com/microsoft/poultry-cafos/

論文:https://arxiv.org/abs/2112.10988

「12月22日」十一篇(將)開源論文代碼分享

#多標簽識別##AAAI 2022#

Structured Semantic Transfer for Multi-Label Recognition with Partial Labels

廣東工業(yè)大學&中山大學

多標簽圖像識別是一項基本而實用的任務,因為現(xiàn)實世界的圖像本來就擁有多個語義標簽。然而,由于輸入圖像和輸出標簽空間的復雜性,很難收集大規(guī)模的多標簽標注。為了降低標注成本,提出一個 structured semantic transfer(SST)框架,該框架能夠用部分標簽訓練多標簽識別模型,即每幅圖像只有一些標簽是已知的,而其他標簽是缺失的(也稱為未知標簽)。

該框架由兩個互補的遷移模塊組成,探索圖像內和跨圖像的語義關聯(lián),以遷移已知標簽的知識,為未知標簽生成偽標簽。具體來說,圖像內語義遷移模塊學習圖像特定的標簽共現(xiàn)矩陣,并根據(jù)該矩陣將已知標簽映射到補充未知標簽。同時,一個跨圖像遷移模塊學習特定類別的特征相似性,幫助補充具有高相似性的未知標簽。最后,已知和生成的標簽都被用來訓練多標簽識別模型。

在微軟 COCO、Visual Genome 和 Pascal VOC 數(shù)據(jù)集上進行的廣泛實驗表明,所提出的 SST 框架獲得了比目前最先進的算法更優(yōu)越的性能。

將開源:https://github.com/HCPLab-SYSU/HCP-MLR-PL

論文:https://arxiv.org/abs/2112.10941

「12月22日」十一篇(將)開源論文代碼分享

相關新聞

聯(lián)系我們
聯(lián)系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部