基于MMPose的姿態估計配置案例

前言

MMPose是一款基于PyTorch的姿態分析開源工具箱，是OpenMMLab項目成員之一，主要特性：

支持多種人體姿態分析相關任務：2D多人姿態估計、2D手部姿態估計、動物關鍵點檢測等等

更高的精度和更快的速度：包括“自頂向下”和“自底向上”兩大類算法

支持多樣的數據集：支持了很多主流數據集的準備和構建，如 COCO、 MPII等

模塊化設計：將統一的人體姿態分析框架解耦成不同的模塊組件，通過組合不同的模塊組件，可以便捷地構建自定義人體姿態分析模型

本文主要對動物關鍵點檢測模型進行微調與測試，從數據集構造開始，詳細解釋各模塊作用。對一些新手可能會犯的錯誤做一些說明

環境配置

mmcv的安裝方式在我前面的mmdetection和mmsegmentation教程中都有寫到。這里不再提

MMPose安裝方法最好是使用git，如果沒有git工具，可以使用mim install mmpose

最后在項目文件夾下新建checkpoint、outputs、data文件夾，分別用來存放模型預訓練權重、模型輸出結果、訓練數據

from IPython import display
!pip install openmim
!pip install -q /kaggle/input/frozen-packages-mmdetection/mmcv-2.0.1-cp310-cp310-linux_x86_64.whl


!git clone https://github.com/open-mmlab/mmdetection.git
%cd mmdetection
!pip install -e .


%cd ..
!git clone https://github.com/open-mmlab/mmpose.git
%cd mmpose
!pip install -e .


!mkdir checkpoint
!mkdir outputs
!mkdir data
display.clear_output()

在上面的安裝工作完成后，我們檢查一下環境，以及核對一下安裝版本

from IPython import display
import mmcv
from mmcv.ops import get_compiling_cuda_version, get_compiler_version
print('MMCV版本', mmcv.__version__)
%cd /kaggle/working/mmdetection
import mmdet
print('mmdetection版本', mmdet.__version__)
%cd /kaggle/working/mmpose
import mmpose
print('mmpose版本', mmpose.__version__)
print('CUDA版本', get_compiling_cuda_version())
print('編譯器版本', get_compiler_version())

輸出：

MMCV版本 2.0.1
/kaggle/working/mmdetection
mmdetection版本 3.1.0
/kaggle/working/mmpose
mmpose版本 1.1.0
CUDA版本 11.8
編譯器版本 GCC 11.3

?為方便后續進行文件操作，導入一些常用庫

import os
import io
import json
import shutil
import random
import numpy as np
from pathlib import Path


from PIL import Image
from tqdm import tqdm
from mmengine import Config

from pycocotools.coco import COCO

預訓練模型推理

在進行姿態估計前需要目標檢測將不同的目標檢測出來，然后再分別對不同的目標進行姿態估計。所以我們要選擇一個目標檢測模型。

這里選擇的是mmdetection工具箱中的RTMDet模型，型號選擇RTMDet-l。配置文件位于mmdetection/configs/rtmdet/rtmdet_l_8xb32-300e_coco.py，我們復制模型權重地址并進行下載。

姿態估計模型選擇RTMPose模型，打開mmpose項目文件夾projects/rtmpose/README.md文檔，發現RTMPose模型動物姿態估計（Animal 2d (17 Keypoints)）僅提供了一個預訓練模型。

配置文件位于projects/rtmpose/rtmpose/animal_2d_keypoint/rtmpose-m_8xb64-210e_ap10k-256x256.py，我們復制模型權重地址并進行下載。

將預訓練權重模型全部放入mmpose項目文件夾的checkpoint文件夾下。

# 下載RTMDet-L模型，用于目標檢測
!wget https://download.openmmlab.com/mmdetection/v3.0/rtmdet/rtmdet_l_8xb32-300e_coco/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth -P checkpoint
# 下載RTMPose模型，用于姿態估計
!wget https://download.openmmlab.com/mmpose/v1/projects/rtmposev1/rtmpose-m_simcc-ap10k_pt-aic-coco_210e-256x256-7a041aa1_20230206.pth -P checkpoint
display.clear_output()

MMPose提供了一個被稱為MMPoseInferencer的、全面的推理API。這個API使得用戶得以使用所有MMPose支持的模型來對圖像和視頻進行模型推理。此外，該API可以完成推理結果自動化，并方便用戶保存預測結果。

我們使用Cat Dataset數據集中的一張圖片作為示例，進行模型推理。推理參數說明：

det_model：mmdetection工具箱中目標檢測模型配置文件

det_weights：mmdetection工具箱中目標檢測模型對應預訓練權重文件

pose2d：mmpose工具箱中姿態估計模型配置文件

pose2d_weights：mmpose工具箱中姿態估計對應預訓練權重文件

out_dir：圖片生成的文件夾

from mmpose.apis import MMPoseInferencer


img_path = '/kaggle/input/cat-dataset/CAT_00/00000001_012.jpg'
# 使用模型別名創建推斷器
inferencer = MMPoseInferencer(det_model = '/kaggle/working/mmdetection/configs/rtmdet/rtmdet_l_8xb32-300e_coco.py',
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?det_weights = 'checkpoint/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth',
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?pose2d = 'projects/rtmpose/rtmpose/animal_2d_keypoint/rtmpose-m_8xb64-210e_ap10k-256x256.py',
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?pose2d_weights = 'checkpoint/rtmpose-m_simcc-ap10k_pt-aic-coco_210e-256x256-7a041aa1_20230206.pth')


# MMPoseInferencer采用了惰性推斷方法，在給定輸入時創建一個預測生成器
result_generator = inferencer(img_path, out_dir = 'outputs', show=False)
result = next(result_generator)
display.clear_output()

可視化推理結果

import matplotlib.pyplot as plt


img_og = mmcv.imread(img_path)
img_fuse = mmcv.imread('outputs/visualizations/00000001_012.jpg')


fig, axes = plt.subplots(1, 2, figsize=(15, 10))
axes[0].imshow(mmcv.bgr2rgb(img_og))
axes[0].set_title('Original Image')
axes[0].axis('off')


axes[1].imshow(mmcv.bgr2rgb(img_fuse))
axes[1].set_title('Keypoint Image')
axes[1].axis('off')
plt.show()

數據處理

數據內容詳解

Cat Dataset包含9000多張貓圖像。對于每張圖像，都有貓頭部的注釋，有9個點，2個用于眼睛，1個用于嘴巴，6個用于耳朵。

注釋數據存儲在1個文件中，文件名是相應的圖像名稱，末尾加上“cat”。每張貓圖像都有1個注釋文件。對于每個注釋文件，注釋數據按以下順序存儲：

?○Number of points （關鍵點數目）

?○Left Eye（左眼）

?○Right Eye（右眼）

?○Mouth（嘴）

?○Left Ear-1（左耳-1）

?○Left Ear-2（左耳-2）

?○Left Ear-3（左耳-3）

?○Right Ear-1（右耳-1）

?○Right Ear-2（右耳-2）

?○Right Ear-3（左耳-3）

數據集最初在互聯網檔案館中找到，網站（https://archive.org/details/CAT_DATASET）

數據層級目錄如下所示：

- CAT_00
 ? ? - 00000001_000.jpg
 ? ? - 00000001_000.jpg.cat
 ? ? - 00000001_005.jpg
 ? ? - 00000001_005.jpg.cat
 ? ? - ...
 - CAT_01
 ? ? - 00000100_002.jpg
 ? ? - 00000100_002.jpg.cat
 ? ? - 00000100_003.jpg
 ? ? - 00000100_003.jpg.cat
 - CAT_02
 - CAT_03
 - CAT_04
 - CAT_05
 - CAT_06

總的來說，一共有7個文件夾，每個文件夾里面有若干.jpg格式的圖片文件，且對應有.cat格式的注釋文件，.cat文件可以看做是文本文件，內容示例：

9 435 322 593 315 524 446 318 285 283 118 430 195 568 186 701 81 703 267?

除第1個數字9表示有9個關鍵點，后面每2個點表示1個部位的坐標(x,y)，所以一共有1 + 2 * 9 = 19個點

文件夾規整

我們將數據集中的7個文件夾中的圖片與注釋文件分開，分別存儲在mmpose項目文件夾data文件夾中，并分別命名為images、ann

def separate_files(og_folder, trans_folder):
 ? ?image_folder = os.path.join(trans_folder, 'images')
 ? ?ann_folder = os.path.join(trans_folder, 'ann')
 ? ?os.makedirs(image_folder, exist_ok=True)
 ? ?os.makedirs(ann_folder, exist_ok=True)
 ? ?for folder in os.listdir(data_folder):
 ? ? ? ?folder_path = os.path.join(data_folder, folder)
 ? ? ? ?if os.path.isdir(folder_path):
 ? ? ? ? ? ?for file in os.listdir(folder_path):
 ? ? ? ? ? ? ? ?if file.endswith('.jpg'):
 ? ? ? ? ? ? ? ? ? ?source_path = os.path.join(folder_path, file)
 ? ? ? ? ? ? ? ? ? ?target_path = os.path.join(image_folder, file)
 ? ? ? ? ? ? ? ? ? ?shutil.copy(source_path, target_path)
 ? ? ? ? ? ? ? ?elif file.endswith('.cat'):
 ? ? ? ? ? ? ? ? ? ?source_path = os.path.join(folder_path, file)
 ? ? ? ? ? ? ? ? ? ?target_path = os.path.join(ann_folder, file)
 ? ? ? ? ? ? ? ? ? ?shutil.copy(source_path, target_path)


data_folder = '/kaggle/input/cat-dataset'
trans_folder = './data'


separate_files(data_folder, trans_folder)

構造COCO注釋文件

本質上來說COCO就是1個字典文件，第1級鍵包含images、annotations、categories。

?○其中images包含id（圖片的唯一標識，必須要是數值型，不能有字符）、file_name（圖片名字）、?height（圖片高度）,?width（圖片寬度）這些信息

?○其中annotations包含category_id（圖片所屬種類）、segmentation（實例分割掩碼）、iscrowd（決定是RLE格式還是polygon格式）、image_id（圖片id，對應images鍵中的id）、id（注釋信息id）、bbox（目標檢測框，[x, y, width, height]）、?area（目標檢測框面積）、num_keypoints（關鍵點數量）,?keypoints（關鍵點坐標）

?○其中categories包含supercategory、id（類別id）、name（類別名）、keypoints（各部位名稱）、skeleton（部位連接信息）

?○更詳細的COCO（https://zhuanlan.zhihu.com/p/29393415）注釋文件解析推薦博客COCO數據集的標注格式、如何將VOC XML文件轉化成COCO數據格式（https://www.cnblogs.com/marsggbo/p/11152462.html）

?○構造read_file_as_list函數，將注釋文件中的坐標變成[x,y,v]，v為0時表示這個關鍵點沒有標注，v為1時表示這個關鍵點標注了但是不可見（被遮擋了），v為2時表示這個關鍵點標注了同時可見。因為數據集中部位坐標均標注且可見，所以在x,y坐標后均插入2。

def read_file_as_list(file_path):
 ? ?with open(file_path, 'r') as file:
 ? ? ? ?content = file.read()
 ? ? ? ?key_point = [int(num) for num in content.split()]
 ? ? ? ?key_num = key_point[0]
 ? ? ? ?key_point.pop(0)
 ? ? ? ?for i in range(2, len(key_point) + len(key_point)//2, 2 + 1):
 ? ? ? ? ? ?key_point.insert(i, 2)
 ? ?return key_num,key_point

構造get_image_size函數，用于獲取圖片寬度和高度。

def get_image_size(image_path):
 ? ?with Image.open(image_path) as img:
 ? ? ? ?width, height = img.size
 ? ?return width, height

因為數據集沒有提供目標檢測框信息，且圖片中基本無干擾元素，所以將目標檢測框信息置為[0, 0, width, height]即整張圖片。相應的目標檢測框面積area = width * height。

# 轉換為coco數據格式
def coco_structure(ann_dir,image_dir):
 ? ?coco = dict()
 ? ?coco['images'] = []
 ? ?coco['annotations'] = []
 ? ?coco['categories'] = []
 ? ?coco['categories'].append(dict(supercategory = 'cat',id = 1,name = 'cat',
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? keypoints = ['Left Eye','Right Eye','Mouth','Left Ear-1','Left Ear-2','Left Ear-3','Right Ear-1','Right Ear-2','Right Ear-3'],
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? skeleton = [[0,1],[0,2],[1,2],[3,4],[4,5],[5,6],[6,7],[7,8],[3,8]]))
 ? ?ann_list = os.listdir(ann_dir)
 ? ?id = 0
 ? ?for file_name in tqdm(ann_list):
 ? ? ? ?key_num,key_point = read_file_as_list(os.path.join(ann_dir, file_name))
 ? ? ? ?if key_num == 9:
 ? ? ? ? ? ?image_name = os.path.splitext(file_name)[0]
 ? ? ? ? ? ?image_id = os.path.splitext(image_name)[0]
 ? ? ? ? ? ?height, width = get_image_size(os.path.join(image_dir, image_name))
 ? ? ? ? ? ?image = {"id": id, "file_name": image_name, "height": height, "width": width}
 ? ? ? ? ? ?coco['images'].append(image)
 ? ? ? ? ? ?key_dict = dict(category_id = 1, segmentation = [], iscrowd = 0, image_id = id, 
 ? ? ? ? ? ? ? ? ? ?id = id, bbox = [0, 0, width, height], area = width * height, num_keypoints = key_num, keypoints = key_point)
 ? ? ? ? ? ?coco['annotations'].append(key_dict)
 ? ? ? ? ? ?id = id + 1
 ? ?return coco

寫入注釋信息，并將其保存為mmpose項目文件夾data/annotations_all.json文件

ann_file = coco_structure('./data/ann','./data/images')
output_file_path = ?'./data/annotations_all.json'
with open(output_file_path, "w", encoding="utf-8") as output_file:
 ? ?json.dump(ann_file, output_file, ensure_ascii=True, indent=4)

拆分訓練、測試數據

按0.85、0.15的比例將注釋文件拆分為訓練、測試文件

def split_coco_dataset(coco_json_path: str, save_dir: str, ratios: list,
 ? ? ? ? ? ? ? ? ? ? ? shuffle: bool, seed: int):
 ? ?if not Path(coco_json_path).exists():
 ? ? ? ?raise FileNotFoundError(f'Can not not found {coco_json_path}')


 ? ?if not Path(save_dir).exists():
 ? ? ? ?Path(save_dir).mkdir(parents=True)


 ? ?ratios = np.array(ratios) / np.array(ratios).sum()


 ? ?if len(ratios) == 2:
 ? ? ? ?ratio_train, ratio_test = ratios
 ? ? ? ?ratio_val = 0
 ? ? ? ?train_type = 'trainval'
 ? ?elif len(ratios) == 3:
 ? ? ? ?ratio_train, ratio_val, ratio_test = ratios
 ? ? ? ?train_type = 'train'
 ? ?else:
 ? ? ? ?raise ValueError('ratios must set 2 or 3 group!')


 ? ?coco = COCO(coco_json_path)
 ? ?coco_image_ids = coco.getImgIds()


 ? ?val_image_num = int(len(coco_image_ids) * ratio_val)
 ? ?test_image_num = int(len(coco_image_ids) * ratio_test)
 ? ?train_image_num = len(coco_image_ids) - val_image_num - test_image_num
 ? ?print('Split info: ====== 
'
 ? ? ? ? ?f'Train ratio = {ratio_train}, number = {train_image_num}
'
 ? ? ? ? ?f'Val ratio = {ratio_val}, number = {val_image_num}
'
 ? ? ? ? ?f'Test ratio = {ratio_test}, number = {test_image_num}')


 ? ?seed = int(seed)
 ? ?if seed != -1:
 ? ? ? ?print(f'Set the global seed: {seed}')
 ? ? ? ?np.random.seed(seed)


 ? ?if shuffle:
 ? ? ? ?print('shuffle dataset.')
 ? ? ? ?random.shuffle(coco_image_ids)


 ? ?train_image_ids = coco_image_ids[:train_image_num]
 ? ?if val_image_num != 0:
 ? ? ? ?val_image_ids = coco_image_ids[train_image_num:train_image_num +
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? val_image_num]
 ? ?else:
 ? ? ? ?val_image_ids = None
 ? ?test_image_ids = coco_image_ids[train_image_num + val_image_num:]


 ? ?categories = coco.loadCats(coco.getCatIds())
 ? ?for img_id_list in [train_image_ids, val_image_ids, test_image_ids]:
 ? ? ? ?if img_id_list is None:
 ? ? ? ? ? ?continue


 ? ? ? ?img_dict = {
 ? ? ? ? ? ?'images': coco.loadImgs(ids=img_id_list),
 ? ? ? ? ? ?'categories': categories,
 ? ? ? ? ? ?'annotations': coco.loadAnns(coco.getAnnIds(imgIds=img_id_list))
 ? ? ? ?}


 ? ? ? ?if img_id_list == train_image_ids:
 ? ? ? ? ? ?json_file_path = Path(save_dir, f'{train_type}.json')
 ? ? ? ?elif img_id_list == val_image_ids:
 ? ? ? ? ? ?json_file_path = Path(save_dir, 'val.json')
 ? ? ? ?elif img_id_list == test_image_ids:
 ? ? ? ? ? ?json_file_path = Path(save_dir, 'test.json')
 ? ? ? ?else:
 ? ? ? ? ? ?raise ValueError('img_id_list ERROR!')


 ? ? ? ?print(f'Saving json to {json_file_path}')
 ? ? ? ?with open(json_file_path, 'w') as f_json:
 ? ? ? ? ? ?json.dump(img_dict, f_json, ensure_ascii=False, indent=2)


 ? ?print('All done!')

輸出：

loading annotations into memory...
Done (t=0.13s)
creating index...
index created!
Split info: ====== 
Train ratio = 0.85, number = 8495
Val ratio = 0, number = 0
Test ratio = 0.15, number = 1498
Set the global seed: 2023
shuffle dataset.
Saving json to data/trainval.json
Saving json to data/test.json
All done!

可以看到訓練集有8495張圖片，測試集有1498張圖片

模型配置文件

打開項目文件夾下的projects/rtmpose/rtmpose/animal_2d_keypoint/rtmpose-m_8xb64-210e_ap10k-256x256.py文件，發現模型配置文件僅繼承_base_/default_runtime.py文件

需要修改主要有dataset_type、data_mode、dataset_info、codec、train_dataloader 、test_dataloader 、val_evaluator、base_lr、max_epochs、default_hooks。還有一些細節我在代碼中有標注，可以參照著修改

修改完成后將文件寫入./configs/animal_2d_keypoint/cat_keypoint.py中

custom_config = """
_base_ = ['mmpose::_base_/default_runtime.py']


# 數據集類型及路徑
dataset_type = 'CocoDataset'
data_mode = 'topdown'
data_root = './data/'
work_dir = './work_dir'


# cat dataset關鍵點檢測數據集-元數據
dataset_info = {
 ? ?'dataset_name':'Keypoint_cat',
 ? ?'classes':'cat',
 ? ?'paper_info':{
 ? ? ? ?'author':'Luck',
 ? ? ? ?'title':'Cat Keypoints Detection',
 ? ?},
 ? ?'keypoint_info':{
 ? ? ? ?0:{'name':'Left Eye','id':0,'color':[255,0,0],'type': '','swap': ''},
 ? ? ? ?1:{'name':'Right Eye','id':1,'color':[255,127,0],'type': '','swap': ''},
 ? ? ? ?2:{'name':'Mouth','id':2,'color':[255,255,0],'type': '','swap': ''},
 ? ? ? ?3:{'name':'Left Ear-1','id':3,'color':[0,255,0],'type': '','swap': ''},
 ? ? ? ?4:{'name':'Left Ear-2','id':4,'color':[0,255,255],'type': '','swap': ''},
 ? ? ? ?5:{'name':'Left Ear-3','id':5,'color':[0,0,255],'type': '','swap': ''},
 ? ? ? ?6:{'name':'Right Ear-1','id':6,'color':[139,0,255],'type': '','swap': ''},
 ? ? ? ?7:{'name':'Right Ear-2','id':7,'color':[255,0,255],'type': '','swap': ''},
 ? ? ? ?8:{'name':'Right Ear-3','id':8,'color':[160,82,45],'type': '','swap': ''}
 ? ?},
 ? ?'skeleton_info': {
 ? ? ? ?0: {'link':('Left Eye','Right Eye'),'id': 0,'color': [255,0,0]},
 ? ? ? ?1: {'link':('Left Eye','Mouth'),'id': 1,'color': [255,0,0]},
 ? ? ? ?2: {'link':('Right Eye','Mouth'),'id': 2,'color': [255,0,0]},
 ? ? ? ?3: {'link':('Left Ear-1','Left Ear-2'),'id': 3,'color': [255,0,0]},
 ? ? ? ?4: {'link':('Left Ear-2','Left Ear-3'),'id': 4,'color': [255,0,0]},
 ? ? ? ?5: {'link':('Left Ear-3','Right Ear-1'),'id': 5,'color': [255,0,0]},
 ? ? ? ?6: {'link':('Right Ear-1','Right Ear-2'),'id': 6,'color': [255,0,0]},
 ? ? ? ?7: {'link':('Right Ear-2','Right Ear-3'),'id': 7,'color': [255,0,0]},
 ? ? ? ?8: {'link':('Left Ear-1','Right Ear-3'),'id': 8,'color': [255,0,0]},
 ? ?}
}


# 獲取關鍵點個數
NUM_KEYPOINTS = len(dataset_info['keypoint_info'])
dataset_info['joint_weights'] = [1.0] * NUM_KEYPOINTS
dataset_info['sigmas'] = [0.025] * NUM_KEYPOINTS


# 訓練超參數
max_epochs = 100 
val_interval = 5
train_cfg = {'max_epochs': max_epochs, 'val_begin':20, 'val_interval': val_interval}
train_batch_size = 32
val_batch_size = 32
stage2_num_epochs = 10
base_lr = 4e-3 / 16
randomness = dict(seed=2023)


# 優化器
optim_wrapper = dict(
 ? ?type='OptimWrapper',
 ? ?optimizer=dict(type='AdamW', lr=base_lr, weight_decay=0.05),
 ? ?paramwise_cfg=dict(
 ? ? ? ?norm_decay_mult=0, bias_decay_mult=0, bypass_duplicate=True))


# 學習率
param_scheduler = [
 ? ?dict(type='LinearLR', start_factor=1.0e-5, by_epoch=False, begin=0, end=600),
 ? ?dict(
 ? ? ? ?type='CosineAnnealingLR',
 ? ? ? ?eta_min=base_lr * 0.05,
 ? ? ? ?begin=max_epochs // 2,
 ? ? ? ?end=max_epochs,
 ? ? ? ?T_max=max_epochs // 2,
 ? ? ? ?by_epoch=True,
 ? ? ? ?convert_to_iter_based=True),
]


# automatically scaling LR based on the actual training batch size
auto_scale_lr = dict(base_batch_size=1024)


# codec settings
# input_size可以換成128的倍數
# sigma高斯分布標準差，越大越易學，但進度低。高精度場景，可以調小，RTMPose 原始論文中為 5.66
# input_size、sigma和下面model中的in_featuremap_size參數需要成比例縮放
codec = dict(
 ? ?type='SimCCLabel',
 ? ?input_size=(512, 512),
 ? ?sigma=(24, 24),
 ? ?simcc_split_ratio=2.0,
 ? ?normalize=False,
 ? ?use_dark=False)


# 模型：RTMPose-M
model = dict(
 ? ?type='TopdownPoseEstimator',
 ? ?data_preprocessor=dict(
 ? ? ? ?type='PoseDataPreprocessor',
 ? ? ? ?mean=[123.675, 116.28, 103.53],
 ? ? ? ?std=[58.395, 57.12, 57.375],
 ? ? ? ?bgr_to_rgb=True),
 ? ?backbone=dict(
 ? ? ? ?_scope_='mmdet',
 ? ? ? ?type='CSPNeXt',
 ? ? ? ?arch='P5',
 ? ? ? ?expand_ratio=0.5,
 ? ? ? ?deepen_factor=0.67,
 ? ? ? ?widen_factor=0.75,
 ? ? ? ?out_indices=(4, ),
 ? ? ? ?channel_attention=True,
 ? ? ? ?norm_cfg=dict(type='SyncBN'),
 ? ? ? ?act_cfg=dict(type='SiLU'),
 ? ? ? ?init_cfg=dict(
 ? ? ? ? ? ?type='Pretrained',
 ? ? ? ? ? ?prefix='backbone.',
 ? ? ? ? ? ?checkpoint='https://download.openmmlab.com/mmdetection/v3.0/rtmdet/cspnext_rsb_pretrain/cspnext-m_8xb256-rsb-a1-600e_in1k-ecb3bbd9.pth'
 ? ? ? ?)),
 ? ?head=dict(
 ? ? ? ?type='RTMCCHead',
 ? ? ? ?in_channels=768,
 ? ? ? ?out_channels=NUM_KEYPOINTS,
 ? ? ? ?input_size=codec['input_size'],
 ? ? ? ?in_featuremap_size=(16, 16),
 ? ? ? ?simcc_split_ratio=codec['simcc_split_ratio'],
 ? ? ? ?final_layer_kernel_size=7,
 ? ? ? ?gau_cfg=dict(
 ? ? ? ? ? ?hidden_dims=256,
 ? ? ? ? ? ?s=128,
 ? ? ? ? ? ?expansion_factor=2,
 ? ? ? ? ? ?dropout_rate=0.,
 ? ? ? ? ? ?drop_path=0.,
 ? ? ? ? ? ?act_fn='SiLU',
 ? ? ? ? ? ?use_rel_bias=False,
 ? ? ? ? ? ?pos_enc=False),
 ? ? ? ?loss=dict(
 ? ? ? ? ? ?type='KLDiscretLoss',
 ? ? ? ? ? ?use_target_weight=True,
 ? ? ? ? ? ?beta=10.,
 ? ? ? ? ? ?label_softmax=True),
 ? ? ? ?decoder=codec),
 ? ?test_cfg=dict(flip_test=True))


backend_args = dict(backend='local')


# pipelines
train_pipeline = [
 ? ?dict(type='LoadImage', backend_args=backend_args),
 ? ?dict(type='GetBBoxCenterScale'),
 ? ?dict(type='RandomFlip', direction='horizontal'),
 ? ?# dict(type='RandomHalfBody'),
 ? ?dict(
 ? ? ? ?type='RandomBBoxTransform', scale_factor=[0.8, 1.2], rotate_factor=30),
 ? ?dict(type='TopdownAffine', input_size=codec['input_size']),
 ? ?dict(type='mmdet.YOLOXHSVRandomAug'),
 ? ?dict(
 ? ? ? ?type='Albumentation',
 ? ? ? ?transforms=[
 ? ? ? ? ? ?dict(type='ChannelShuffle', p=0.5),
 ? ? ? ? ? ?dict(type='CLAHE', p=0.5),
 ? ? ? ? ? ?# dict(type='Downscale', scale_min=0.7, scale_max=0.9, p=0.2),
 ? ? ? ? ? ?dict(type='ColorJitter', p=0.5),
 ? ? ? ? ? ?dict(
 ? ? ? ? ? ? ? ?type='CoarseDropout',
 ? ? ? ? ? ? ? ?max_holes=4,
 ? ? ? ? ? ? ? ?max_height=0.3,
 ? ? ? ? ? ? ? ?max_width=0.3,
 ? ? ? ? ? ? ? ?min_holes=1,
 ? ? ? ? ? ? ? ?min_height=0.2,
 ? ? ? ? ? ? ? ?min_width=0.2,
 ? ? ? ? ? ? ? ?p=0.5),
 ? ? ? ?]),
 ? ?dict(type='GenerateTarget', encoder=codec),
 ? ?dict(type='PackPoseInputs')
]


val_pipeline = [
 ? ?dict(type='LoadImage', backend_args=backend_args),
 ? ?dict(type='GetBBoxCenterScale'),
 ? ?dict(type='TopdownAffine', input_size=codec['input_size']),
 ? ?dict(type='PackPoseInputs')
]


train_pipeline_stage2 = [
 ? ?dict(type='LoadImage', backend_args=backend_args),
 ? ?dict(type='GetBBoxCenterScale'),
 ? ?dict(type='RandomFlip', direction='horizontal'),
 ? ?dict(type='RandomHalfBody'),
 ? ?dict(
 ? ? ? ?type='RandomBBoxTransform',
 ? ? ? ?shift_factor=0.,
 ? ? ? ?scale_factor=[0.75, 1.25],
 ? ? ? ?rotate_factor=60),
 ? ?dict(type='TopdownAffine', input_size=codec['input_size']),
 ? ?dict(type='mmdet.YOLOXHSVRandomAug'),
 ? ?dict(
 ? ? ? ?type='Albumentation',
 ? ? ? ?transforms=[
 ? ? ? ? ? ?dict(type='Blur', p=0.1),
 ? ? ? ? ? ?dict(type='MedianBlur', p=0.1),
 ? ? ? ? ? ?dict(
 ? ? ? ? ? ? ? ?type='CoarseDropout',
 ? ? ? ? ? ? ? ?max_holes=1,
 ? ? ? ? ? ? ? ?max_height=0.4,
 ? ? ? ? ? ? ? ?max_width=0.4,
 ? ? ? ? ? ? ? ?min_holes=1,
 ? ? ? ? ? ? ? ?min_height=0.2,
 ? ? ? ? ? ? ? ?min_width=0.2,
 ? ? ? ? ? ? ? ?p=0.5),
 ? ? ? ?]),
 ? ?dict(type='GenerateTarget', encoder=codec),
 ? ?dict(type='PackPoseInputs')
]


# data loaders
train_dataloader = dict(
 ? ?batch_size=train_batch_size,
 ? ?num_workers=2,
 ? ?persistent_workers=True,
 ? ?sampler=dict(type='DefaultSampler', shuffle=True),
 ? ?dataset=dict(
 ? ? ? ?type=dataset_type,
 ? ? ? ?data_root=data_root,
 ? ? ? ?metainfo=dataset_info,
 ? ? ? ?data_mode=data_mode,
 ? ? ? ?ann_file='trainval.json',
 ? ? ? ?data_prefix=dict(img='images/'),
 ? ? ? ?pipeline=train_pipeline,
 ? ?))
val_dataloader = dict(
 ? ?batch_size=val_batch_size,
 ? ?num_workers=2,
 ? ?persistent_workers=True,
 ? ?drop_last=False,
 ? ?sampler=dict(type='DefaultSampler', shuffle=False, round_up=False),
 ? ?dataset=dict(
 ? ? ? ?type=dataset_type,
 ? ? ? ?data_root=data_root,
 ? ? ? ?metainfo=dataset_info,
 ? ? ? ?data_mode=data_mode,
 ? ? ? ?ann_file='test.json',
 ? ? ? ?data_prefix=dict(img='images/'),
 ? ? ? ?pipeline=val_pipeline,
 ? ?))
test_dataloader = val_dataloader


default_hooks = {
 ? ?'checkpoint': {'save_best': 'PCK','rule': 'greater','max_keep_ckpts': 2},
 ? ?'logger': {'interval': 50}
}


custom_hooks = [
 ? ?dict(
 ? ? ? ?type='EMAHook',
 ? ? ? ?ema_type='ExpMomentumEMA',
 ? ? ? ?momentum=0.0002,
 ? ? ? ?update_buffers=True,
 ? ? ? ?priority=49),
 ? ?dict(
 ? ? ? ?type='mmdet.PipelineSwitchHook',
 ? ? ? ?switch_epoch=max_epochs - stage2_num_epochs,
 ? ? ? ?switch_pipeline=train_pipeline_stage2)
]


# evaluators
val_evaluator = [
 ? ?dict(type='CocoMetric', ann_file=data_root + 'test.json'),
 ? ?dict(type='PCKAccuracy'),
 ? ?dict(type='AUC'),
 ? ?dict(type='NME', norm_mode='keypoint_distance', keypoint_indices=[0, 1])
]


test_evaluator = val_evaluator
"""
config = './configs/animal_2d_keypoint/cat_keypoint.py'
with io.open(config, 'w', encoding='utf-8') as f:
 ? ?f.write(custom_config)

模型訓練

使用訓練腳本啟動訓練

!python tools/train.py {config}

因為訓練輸出太長，這里截取一段模型在測試集上最佳精度：

08/06 19:15:56 - mmengine - INFO - Evaluating CocoMetric...
Loading and preparing results...
DONE (t=0.07s)
creating index...
index created!
Running per image evaluation...
Evaluate annotation type *keypoints*
DONE (t=0.57s).
Accumulating evaluation results...
DONE (t=0.03s).
 Average Precision ?(AP) @[ IoU=0.50:0.95 | area= ? all | maxDets= 20 ] = ?0.943
 Average Precision ?(AP) @[ IoU=0.50 ? ? ?| area= ? all | maxDets= 20 ] = ?0.979
 Average Precision ?(AP) @[ IoU=0.75 ? ? ?| area= ? all | maxDets= 20 ] = ?0.969
 Average Precision ?(AP) @[ IoU=0.50:0.95 | area=medium | maxDets= 20 ] = -1.000
 Average Precision ?(AP) @[ IoU=0.50:0.95 | area= large | maxDets= 20 ] = ?0.944
 Average Recall ? ? (AR) @[ IoU=0.50:0.95 | area= ? all | maxDets= 20 ] = ?0.953
 Average Recall ? ? (AR) @[ IoU=0.50 ? ? ?| area= ? all | maxDets= 20 ] = ?0.987
 Average Recall ? ? (AR) @[ IoU=0.75 ? ? ?| area= ? all | maxDets= 20 ] = ?0.977
 Average Recall ? ? (AR) @[ IoU=0.50:0.95 | area=medium | maxDets= 20 ] = -1.000
 Average Recall ? ? (AR) @[ IoU=0.50:0.95 | area= large | maxDets= 20 ] = ?0.953
08/06 19:15:56 - mmengine - INFO - Evaluating PCKAccuracy (normalized by ``"bbox_size"``)...
08/06 19:15:56 - mmengine - INFO - Evaluating AUC...
08/06 19:15:56 - mmengine - INFO - Evaluating NME...
08/06 19:15:57 - mmengine - INFO - Epoch(val) [60][47/47] ? ?coco/AP: 0.943453 ?coco/AP .5: 0.979424 ?coco/AP .75: 0.969202 ?coco/AP (M): -1.000000 ?coco/AP (L): 0.944082 ?coco/AR: 0.953471 ?coco/AR .5: 0.987316 ?coco/AR .75: 0.977303 ?coco/AR (M): -1.000000 ?coco/AR (L): 0.953471 ?PCK: 0.978045 ?AUC: 0.801710 ?NME: 0.121770 ?data_time: 0.101005 ?time: 0.435133
08/06 19:15:57 - mmengine - INFO - The previous best checkpoint /kaggle/working/mmpose/work_dir/best_PCK_epoch_55.pth is removed
08/06 19:16:01 - mmengine - INFO - The best checkpoint with 0.9780 PCK at 60 epoch is saved to best_PCK_epoch_60.pth.

可以看到模型PCK達到了0.978，AUC達到了0.8017，mAP也都挺高，說明模型效果非常不錯！

模型精簡

mmpose提供模型精簡腳本，模型訓練權重文件大小減少一半，但不影響精度和推理

將在驗證集上表現最好的模型權重進行精簡

import glob
ckpt_path = glob.glob('./work_dir/best_PCK_*.pth')[0]
ckpt_sim = './work_dir/cat_pose_sim.pth'
# 模型精簡
!python tools/misc/publish_model.py 
 ? ? ? ?{ckpt_path} 
 ? ? ? ?{ckpt_sim}

模型推理

這里和上面的模型推理使用相同的思路，使用RTMDet模型進行目標檢測，使用我們自己訓練的RTMPose模型進行姿態估計。

不過pose2d參數是我們上面保存的配置文件./configs/animal_2d_keypoint/cat_keypoint.py，pose2d_weights為最佳精度模型精簡后的權重文件glob.glob('./work_dir/cat_pose_sim*.pth')[0]。

img_path = '/kaggle/input/cat-dataset/CAT_00/00000001_012.jpg'


inferencer = MMPoseInferencer(det_model = '/kaggle/working/mmdetection/configs/rtmdet/rtmdet_l_8xb32-300e_coco.py',
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?det_weights = 'checkpoint/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth',
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?pose2d = './configs/animal_2d_keypoint/cat_keypoint.py',
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?pose2d_weights = glob.glob('./work_dir/cat_pose_sim*.pth')[0])


result_generator = inferencer(img_path, out_dir = 'outputs', show=False)
result = next(result_generator)
display.clear_output()

可視化訓練結果

img_og = mmcv.imread(img_path)
img_fuse = mmcv.imread('outputs/visualizations/00000001_012.jpg')


fig, axes = plt.subplots(1, 2, figsize=(15, 10))
axes[0].imshow(mmcv.bgr2rgb(img_og))
axes[0].set_title('Original Image')
axes[0].axis('off')


axes[1].imshow(mmcv.bgr2rgb(img_fuse))
axes[1].set_title('Keypoint Image')
axes[1].axis('off')
plt.show()

編輯：黃飛

閱讀全文

姿態估計(2111) 姿態估計(2111)
人體姿態識別(1542) 人體姿態識別(1542)
pytorch(12788) pytorch(12788)

基于PoseDiffusion相機姿態估計方法

介紹一般意義上，相機姿態估計通常依賴于如手工的特征檢測匹配、RANSAC和束調整（BA）。在本文中，作者提出了PoseDiffusion，這是一種新穎的相機姿態估計方法，它將深度學習與基于對應關系

2023-07-23 15:22:29

731

姿態融合算法是什么

作者：Joy Yang1.什么是姿態融合算法簡單來說，姿態融合算法就是融合多種運動傳感器數據（一般需要3軸加速度， 3軸陀螺儀或者3軸地磁感應傳感器），通過數字濾波算法容錯補償，實現當前姿態檢測

2019-07-19 06:47:49

姿態解算算法模塊理解

了解或想開發無人機的朋友肯定繞不過姿態解算這茬，花點時間去了解它們原理并不難，這里提供兩個原理鏈接供大家參考：四元數表示旋轉的理解四旋翼姿態解算原理而在代碼實現方面，我這里寫好了姿態解算算法模塊供大家學習和參考。

2022-01-11 07:06:21

AHRS姿態結算的yaw不準確

是這樣的，本人最近在移植ahrs的姿態結算，程序是網上的，不過很奇怪結算出來的姿態pitch，roll 是準確的，但是yaw不準確，具體表現為，假如我輕輕轉動幾度，它算出來的的yaw角可能要100多度了

2019-05-08 04:51:12

MPU6050姿態解算的原理是什么

MPU6050姿態解算的原理是什么？MPU6050姿態解算的程序該如何去是實現呢？

2021-12-17 07:14:26

Pixhawk之姿態解算篇（1）_入門篇（DCM Nomalize）精選資料推薦

一、開篇慢慢的、慢慢的、慢慢的就快要到飛控的主要部分了，飛控飛控就是所謂的飛行控制唄，一個是姿態解算一個是姿態控制，解算是解算，控制是控制，各自負責各自的任務，我也不懂，還在學習中~~~~最近看姿態

2021-08-09 07:23:32

Pixhawk代碼分析-姿態解算篇A 精選資料推薦

姿態解算篇A基本知識1、如何實現控制一個無人機系統的算法主要有兩類：姿態檢測算法、姿態控制算法。姿態控制、被控對象、姿態檢測三個部分構成一個閉環控制系統。被控對象的模型是由其物理系統決定，設計無人機

2021-08-09 08:09:27

【CANNON申請】姿態解算

申請理由：這款開發板的硬件非常適合我現在在做姿態解算設計，再加上自有的mpu6050 gps，可以用來測試姿態解算的準確性項目描述：利用陀螺儀，加速度計，磁力計等做一個了定高定位的姿態解算，檢驗算法的正確性

2016-01-26 13:58:39

【HarmonyOS HiSpark AI Camera】運動身體姿態分析

項目名稱：運動身體姿態分析試用計劃：項目計劃通過攝像頭或傳感器捕獲人體在運動器械中運動中的姿態，通過AI分析身體狀態，時時對運動器械做出相應的調整，對無器械運動對形體的分析，給出矯正方案預計成果捕捉人體的姿態

2020-11-19 20:48:03

【先楫HPM5361EVK開發板試用體驗】06-基于MPU9250的姿態解算

的姿態信息，因此需要進行姿態解算以獲取設備的準確姿態。姿態解算常用的方法有互補濾波和卡爾曼濾波。 1、卡爾曼濾波簡介卡爾曼濾波是一種利用狀態估計和觀測數據的最優估計濾波方法。其優點在于能夠處理系統噪聲

2024-01-17 14:55:27

【愛芯派 Pro 開發板試用體驗】人體姿態估計模型部署前期準備

部署模型的整體架構。接下來就回到最開始定的主線上了——人體姿態估計。這篇文章就是記錄對一些輕量化人體姿態估計模型的調研，和前期準備。 1、人體姿態估計任務介紹下面對人體姿態估計任務做一個簡單的介紹

2024-01-01 01:04:09

四軸姿態解算

mpu6050姿態解算，內部DMP輸出。上位機為匿名的上位機。

2015-06-14 17:15:48

基于無跡卡爾曼濾波的四旋翼無人飛行器姿態估計算法_朱巖

2020-06-04 08:48:36

嵌入式姿態測量系統的姿態參數怎么計算？

傳統的姿態測量系統采用捷聯式慣導系統(SINS)，相比平臺式慣導系統而言，其具有體積相對更小，成本相對更低，易于安裝和維護并且可靠性更高的有點，因此，捷聯慣導系統在飛行器導航和姿態測量中得到了廣泛

2019-08-22 07:27:31

嵌入式姿態測量系統的結構是什么？

傳統的姿態測量因為采用高精度陀螺儀和加速度計等姿態傳感器，體積龐大并且價格昂貴。當前MEMS產品因其體積小、價格低、功耗低，被稱為是傳統的慣性測量組合的一次重大改革，越來越多地應用于姿態測量應用中

2020-04-15 07:12:20

怎樣去設計全姿態指引儀圖形顯示系統？

全姿態指引儀的功能與原理是什么？怎樣去設計全姿態指引儀圖形顯示系統？

2021-05-07 07:29:02

新手求助如何去設計全姿態指引儀？

全姿態指引儀的功能與原理是什么？怎樣去設計全姿態指引儀系統的硬件？

2021-05-07 06:01:43

無人機設計中姿態檢測算法、姿態控制算法有什么區別 ?

無人機設計中姿態檢測算法、姿態控制算法有什么區別 ?推薦課程：張飛四旋翼飛行器視頻套件，76小時吃透四軸算法http://t.elecfans.com/topic/40.html?elecfans_trackid=bbs_post

2018-07-14 12:12:37

機器人姿態監控

想弄一個vi可以動態顯示機器人的姿態，但不知道有什么函數可以引入機器人的模型，幫幫忙，謝謝。

2012-02-11 17:25:22

蒙特卡羅模擬估計

[em57]《我國銀行業操作風險的蒙特卡羅模擬估計》樊欣，楊曉光（中國科學院數學與系統科學研究院系統科學研究所）摘要：利用從公開媒體報道中搜集到的中國銀行業操作風險損失事件，分別對損失事件發生頻率

2009-03-25 11:50:27

請問MPU6050的軟件解算姿態和DMP解算姿態各自的優缺點是什么？

MPU6050有軟件解算姿態和DMP解算姿態，他們各自的優缺點是什么呢？因為大家都知道的是DMP可以減輕MCU的負擔，但我看了好幾個微型四軸開源飛控的選擇都是用軟件解算，什么理由呢？

2019-05-29 04:36:05

請問一下end-to-end的人臉姿態估計器開發流程有哪些

請問一下end-to-end的人臉姿態估計器開發流程有哪些？

2022-02-16 07:25:25

請問四軸姿態結算該怎么學習？

有誰會四軸的姿態結算嗎?最近要做四軸了，也查了有關姿態結算的資料，但是看的那些資料好難，該怎么學習啊？求大神助我

2019-04-28 05:16:26

陀螺儀姿態矯正問題

目前正在做超聲波測風速風向的項目，所測風速風向為水平二維面內的數據，為防止儀器抖動偏轉造成測量誤差，現在想用陀螺儀進行校準，陀螺儀測得的為儀器姿態角，想通過姿態角和坐標系轉換矩陣，將儀器直接測得

2019-05-31 04:36:04

光照變化情況下的靜態頭部姿態估計

針對圖像光照的變化對靜態頭部姿態估計的影響，該文提出一種基于有向梯度直方圖和主成分分析的姿態特征，并利用SVM分類器進行分類。該算法分別在CMU姿態、光照、表情數據庫

2009-04-22 09:34:44

基于MEMS的姿態測量系統

基于MEMS 的姿態測量系統A MEMS2Ba sed Attitude Reference System 載體的姿態測量是載體進行預計軌跡運動的基礎。姿態測量有多種方式,其中采用磁場傳感器測量大地磁場確定航向的

2009-06-08 20:37:03

衛星姿態測量系統中模糊神經網絡的應用

為了提高衛星姿態測量系統的姿態估計精度，研究設計了一個模糊神經網絡，對各姿態傳感器的輸出信號進行綜合處理。研究表明：此方法可以使測量精度得以很大提高。關

2009-07-13 11:34:05

飛行體姿態角測試技術

研究飛行體姿態角測試技術，提出了一種姿態角測試方法，給出了可行的實現方案和實測曲線，用卡爾丹角結合測試曲線對被測體姿態進行了分析。通過實際測試，證明了該測試方

2010-12-23 10:02:51

什么是運動估計

什么是運動估計運動估計基本思想是將圖像序列的每一幀分成許多互不重疊的宏塊，并認為

2008-08-25 13:11:53

3353

微型存儲測試系統在飛行體姿態測量中的設計應用

　　摘要：本文主要介紹了微型存儲測試系統在姿態測量中的設計，結合飛行體在飛行時各種變化姿態的采集，編

2010-11-07 10:54:15

917

[9.2.1]--9.2姿態估計(1)

無人機

李開鴻發布于 2022-11-10 02:09:00

[9.2.1]--9.2姿態估計(2)

無人機

李開鴻發布于 2022-11-10 02:10:16

基于姿態校正的人臉檢測方法

本人提出了一種基于姿態校正的人臉檢測方法，在此基礎上，提出姿態角度估計目標函數，并討論了2種尋優方法，該方法在自拍的視頻序列中進行姿態估計和人臉檢測試驗

2011-04-13 17:24:03

基于Kalman濾波的俯仰角速度估計

直升機的姿態角速度不容易準確獲得，本文提出了一種采用Kalman濾波理論對直升機俯仰角速度進行估計的方法，建立俯仰角速度方程，給出估計參數的Kalman濾波算法，實驗證明該方法能

2011-06-21 16:37:06

濾波在飛行器姿態獲取系統中的實現

濾波在飛行器姿態獲取系統中的實現濾波在飛行器姿態獲取系統中的實現濾波在飛行器姿態獲取系統中的實現

2016-06-08 17:29:36

姿態解算理解

姿態解算理解，感興趣的小伙伴們可以瞧一瞧。

2016-08-23 17:56:00

基于磁強計和MEMS陀螺的彈箭全姿態探測

2016-12-17 16:33:39

姿態控制中的散開現象_何朕

2017-01-08 12:03:28

基于MEMS的捷聯姿態系統的設計與試驗_胡佳興

2017-01-12 20:03:43

仿真姿態識別電路原理圖

姿態識別電路原理圖

2017-04-25 18:02:04

基于梯度下降法和互補濾波的航向姿態參考系統

針對微型無人機航向姿態參考系統低成本、小型化的工程實現需求，基于三軸陀螺儀、加速度計和磁力計，提出了一種在線實時姿態估計算法。該算法采用四元數描述系統模型，采用改進的梯度下降法預處理加速度計和磁力計

2017-11-16 10:29:24

一種改進擴展卡爾曼的四旋翼姿態估計算法

為了提高標準擴展卡爾曼姿態估計算法的精確度和快速性，將運動加速度抑制的動態步長梯度下降算法融入擴展卡爾曼中，提出一種改進擴展卡爾曼的四旋翼姿態估計算法。該算法在卡爾曼測量更新中采用梯度下降法進行

2017-12-04 11:31:26

基于四元數和擴展卡爾曼濾波器的姿態解算與外力加速度同步估計算法

針對慣性導航應用中，姿態解算與外力加速度估計互相干擾的問題，提出一種基于四元數和擴展卡爾曼濾波器的姿態解算與外力加速度同步估計算法。首先，利用估計的外力加速度修正傳感器加速度數據得到準確的反向

2017-12-19 14:11:57

基于STM32的四旋翼飛行姿態串級控制的設計與實現

本文主要介紹了基于STM32的四旋翼飛行姿態串級控制的設計與實現，行器控制器通過處理微型MEMS慣性器件和三維地磁傳感器采集的數據，計算飛行器的姿態角，并根據飛行指令，結合相應的控制律給出適當的控制信號，控制飛行器姿態和位置。能夠實現飛行姿態的穩定控制，達到了設計的目的。

2017-12-23 15:24:36

7254

基于MPU6050的四軸硬件姿態解算研究

針對四軸飛行器姿態信息的實時準確獲取問題，對四軸飛行器的姿態解算方面進行了研究。在分析姿態表示的四元數法和歐拉角法基礎上，以成熟的Mahony互補濾波算法為例比較了軟件姿態解算和基于MPU6050

2018-03-08 09:19:54

mpu6050姿態解算原理_mpu6050姿態解算程序

mpu6050常用作提供飛控運行時的姿態測量和計算。本文首先介紹了MPU6050姿態解算的原理，其次詳細的介紹了mpu6050姿態解算程序。

2018-03-09 09:15:24

41963

一種基于六自由度IMU和動力學的車身姿態和側向速度估計方法

如前文所述，本文建立了三個估計器，在小側向激勵工況下，可通過基于動力學模型的估計器估計出側向車速，進一步使用該側向車速估計出由于平動產生的側向加速度，加速度傳感器測量值剔除該平動加速度后，余下的部分即為由于姿態角導致的重力在加速度傳感器測量值中的分量。

2018-07-31 14:26:31

8987

AlphaPose是一個實時多人姿態估計系統

新系統采用 PyTorch 框架，在姿態估計（Pose Estimation）標準測試集COCO validation set上，達到 71mAP的精度（比 OpenPose 相對提升17

2018-09-08 09:11:05

7987

一種基于深度神經網絡的迭代6D姿態匹配的新方法

在本文工作中，作者提出了DeepIM——一種基于深度神經網絡的迭代6D姿態匹配的新方法。給定測試圖像中目標的初始6D姿態估計，DeepIM能夠給出相對SE(3)變換符合目標渲染視圖與觀測圖像之間

2018-09-28 10:23:12

3474

UC Berkeley大學的研究人員們利用深度姿態估計和深度學習技術

給定一段視頻，我們用基于視覺的動作估計器預測每一幀演員的動作qt。該動作預測器是建立在人類網格復原這一工作之上的（akanazawa.github.io/hmr/），它用弱監督對抗的方法訓練動作估計

2018-10-12 09:06:29

2561

針對姿態傳感器的姿態估計方法的詳細資料說明免費下載

針對姿態傳感器提供不同采樣率和時延的矢量測量離散時間樣本的情況，提出了一種姿態估計方法。所提出的方法基于輸出預測器和姿態觀測器或濾波器的級聯組合。該預測器補償矢量測量中的采樣和延遲的影響，并提供輸出

2018-12-11 08:00:00

微軟、中科大開源基于深度高分辨表示學習的姿態估計算法

作者在官網指出，深度高分辨率網絡不僅對姿態估計有效，也可以應用到計算機視覺的其他任務，諸如語義分割、人臉對齊、目標檢測、圖像分類中，期待更多具有說服力的結果公布。

2019-03-05 09:55:55

2611

一份深度學習“人體姿勢估計”全指南，從DeepNet到HRNet

一個部件表示目標對象某部分圖形的模板。“彈簧”顯示部件之間的連接方式，當部件通過像素位置和方向進行參數化后，其所得到的結構可以對與姿態估計非常相關的關節進行建模。（結構化預測任務）

2019-05-08 17:10:43

15954

基于增強通道和空間信息的人體姿態估計網絡

字節跳動和東南大學組成的團隊提出了基于增強通道和空間信息的人體姿態估計網絡，論文《Multi-Person Pose Estimation with Enhanced Channel-wise

2019-07-18 11:19:05

3772

姿態傳感器的工作原理_姿態傳感器作用

姿態傳感器是基于MEMS技術的高性能三維運動姿態測量系統。它包含三軸陀螺儀、三軸加速度計，三軸電子羅盤等運動傳感器，通過內嵌的低功耗ARM處理器得到經過溫度補償的三維姿態與方位等數據。利用基于四元數的三維算法和特殊數據融合技術，實時輸出以四元數、歐拉角表示的零漂移三維姿態方位數據。

2019-12-25 10:36:08

17574

騰訊優圖實驗室在人體2D姿態估計中獲得了創新技術突破

近日，騰訊優圖實驗室在人體2D姿態估計任務中獲得創新性技術突破，其提出的基于語義對抗的數據增強算法Adversarial Semantic Data Augmentation (ASDA)，刷新

2020-10-26 14:12:42

2357

3D姿態估計時序卷積+半監督訓練

在這項工作中，視頻中的3D姿態可以通過全卷積模型來估計，具體是在二維關鍵點上通過空洞時間卷積的模型得到3D姿態。我們還介紹了一種不...

2020-12-08 22:54:05

651

一種采用深度殘差網絡的頭部姿態估計方法

為提高真實場景下頭部姿態估計的準確性，提出一種采用深度殘差網絡的頭部姿態估計方法。將深度殘差網絡 Restnetl01作為主干網絡，引入優化器提高深層卷積網絡訓練時的梯度穩定性，使用RGB圖像并采用

2021-03-16 11:27:44

基于深度學習的二維人體姿態估計方法

基于深度學習的二維人體姿態估計方法通過構建特定的神經網絡架構，將提取的特征信息根據相應的特征融合方法進行信息關聯處理，最終獲得人體姿態估計結果，因其具有廣泛的應用價值而受到研究人員的關注。從數據

2021-03-22 15:51:15

硬件Kalman濾波器的航拍云臺姿態如何獲取

航拍云臺姿態獲取是航空攝影中相機姿態校正的基本依據，介紹了一種基于硬件Kalman濾波器的航拍云臺姿態獲取的實

2021-04-08 15:55:28

2042

收藏！姿態估計開源項目匯總資料下載

電子發燒友網為你提供收藏！姿態估計開源項目匯總資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

2021-04-21 08:43:06

基于深度學習的二維人體姿態估計算法

近年來人體姿態估計作為計算機視覺領域的熱點，在視頻監控、人機交互、智慧校園等領域具有廣泛的應用前景。隨著神經網絡的快速發展，采用深度學習方法進行二維人體姿態估計，相較于傳統需要人工設定特征的方法

2021-04-27 16:16:07

基于Bagging-SVM集成分類器的頭部姿態估計方法

針對現有常用分類器性能不能滿足頭部姿態估計對準確率的要求，以及光照變化影響頭部姿態估計準確率的問題，提出了一種基于 Bagging-SVM集成分類器的頭部姿態估計方法。首先，通過圖片預處理

2021-05-07 10:11:14

基于面部特征點定位的圖像人臉姿態估計方法

針對目前基于學習的姿態估計方法對訓練樣本及設備要求較高的問題，提出一種基于面部特征點定位的無需訓練即能估計單幅圖像中人臉姿態的方法。通過 Adrian bulat人臉特征點定

2021-05-24 15:43:38

基于編解碼殘差的人體姿態估計方法

人體姿態估計尤其是多人姿態估計逐漸滲透到教育、體育等各個方面，精度高、輕量級的多人姿態估計更是當下的研究熱點。自下而上的多人姿態估計方法的實時性較強，但是精度一般不高，網絡結構也比較龐大。對于

2021-05-28 16:35:28

基于視點與姿態估計的視頻監控行人再識別

行人再識別是視頻監控中一項極具挑戰性的仼務。圖像中的遮擋、光照、姿態、視角等因素，會對行人再識別的準確率造成極大影響。為了提高行人再識別的準確率，提出一種融合視點機制與姿態估計的行人再識別方法。首先

2021-05-28 16:41:15

基于自抗擾解耦模型的四旋翼姿態控制器

2021-07-01 16:28:55

基于單片機的云臺姿態測量系統設計（一）

本課題針對人們對安防系統的迫切需求，設計一種基于單片機的云臺姿態測量系統。運行該測量系統后，可以較精確并實時獲取云臺姿態的數據，進而為云臺姿態控制提供準確的輸入信息。該技術方法可以廣泛應用

2021-11-18 09:51:03

移動和嵌入式人體姿態估計

轉載自：移動和嵌入式人體姿態估計(Mobile and Embedded Human Pose Estimation)作者：Arrow背景現有的大部分模型都是在PC(帶有超級強大...

2022-01-26 18:25:06

人臉姿態檢測|Fine Grained Head Pose Estimation Without Keypoint

人臉姿態估計算法，主要用以估計輸入人臉塊的三維歐拉角。一般選取的參考系為相機坐標系，即選擇相機作為坐標原點。姿態估計可用于許多...

2022-02-07 11:44:36

如何使用COCO數據集訓練和優化二維姿態估計模型

　　PAFs 是一種用自下而上的方法表示關聯分數的方法。有關詳細信息，請參閱基于部分相似域的實時多人二維姿態估計。它由一組二維向量場組成，對肢體的位置和方向進行編碼。這與熱圖相關聯，用于在后處理期間通過執行二部匹配和關聯身體部位候選來構建骨架。

2022-04-10 09:30:11

2606

用NVIDIA遷移學習工具箱如何訓練二維姿態估計模型

　　本系列的第一篇文章介紹了在 NVIDIA 遷移學習工具箱中使用開源 COCO 數據集和 BodyPoseNet 應用程序的如何訓練二維姿態估計模型。

2022-04-10 09:41:20

1445

深部目標姿態估計的不確定性量化研究

　　FastUQ 是一種新的用于深部目標姿態估計的快速不確定性量化方法，具有高效、即插即用的特點，支持一類通用的姿態估計任務。這項研究在自主駕駛和一般自主性方面具有潛在的重大影響，包括更穩健和安全的感知，以及不確定性感知控制和規劃。

2022-04-26 16:18:24

944

iNeRF對RGB圖像進行類別級別的物體姿態估計

NeRF來應用無網格、純RGB的6DoF姿態估計的分析合成法：給定一個圖像，找到攝像機相對于三維物體或場景的平移和旋轉。

2022-08-10 11:37:52

1100

基于OnePose的無CAD模型的物體姿態估計

基于CAD模型的物體姿態估計：目前最先進的物體6DoF姿態估計方法可以大致分為回歸和關鍵點技術。第一類方法直接將姿勢參數與每個感興趣區域（RoI）的特征進行回歸。相反，后一類方法首先通過回歸或投票

2022-08-10 11:42:22

1249

一種基于去遮擋和移除的3D交互手姿態估計框架

與被充分研究的單手姿態估計任務不同，交互手3D姿態估計是近兩年來剛興起的學術方向。現存的工作會直接同時預測交互手的左右兩手的姿態，而我們則另辟蹊徑，將交互手姿態估計任務，解耦成左右兩手分別的單手姿態估計任務。這樣，我們就可以充分利用當下單手姿態估計技術的最新進展。

2022-09-14 16:30:23

676

將不確定性感知和姿態回歸結合用于自動駕駛車輛定位

提出了一種聯合訓練姿態估計和不確定性的方法，其具有可靠的不確定性估計和改進的訓練穩定性。

2023-01-30 11:30:28

1193

一種使用2D激光雷達在室內場景下估計機器人姿態的方法

確定移動機器人的狀態是機器人導航系統中重要的組成部分。在本文中，我們提出了一種使用2D激光雷達在室內場景下估計機器人姿態的方法，并探討了如何將新型的場景表示模型整合到標準蒙特卡羅定位（MCL）系統中。

2023-02-08 09:46:06

1230

ImPosing：用于視覺定位的隱式姿態編碼

先通過圖像編碼器計算表示圖像向量。然后通過評估分布在地圖上的初始姿態候選來搜索相機姿態。姿態編碼器對相機姿態進行處理以產生可以與圖像向量相匹配的潛在表示，每個候選姿態都會有一個基于到相機姿態的距離的分數。高分提供了用于選擇新候選者的粗略定位先驗。

2023-04-03 09:51:27

320

Meta研究：基于頭顯攝像頭進行姿態估計的方法和優缺點

AR/VR體驗需要由用戶姿態的顯式表征所驅動。特別地，其需要從設備的角度估計用戶的姿態，這隱含地對應于以自我為中心的角度，亦即與用戶3D頭部和身體姿態相應對的“Egopose/自我姿態”。自我姿態驅動著在AR和VR中構建自然體驗所需的必要輸入。

2023-05-31 14:49:22

450

飛行器姿態計算

在飛行器的控制中，姿態計算是至關重要的一步。姿態計算的目標是確定飛行器相對于參考坐標系的姿態，通常以歐拉角（滾轉、俯仰和偏航）或四元數的形式表示。

2023-06-14 10:41:40

1253

姿態傳感器詳解

文章詳細介紹了姿態傳感器的硬件設計、軟件設計和應用領域，姿態傳感器也可以稱為航姿參考系統（AHRS），是如今航模無人機，機器人，天線云臺，聚光太陽能，地面及水下設備，虛擬現實，人體運動分析等需要低成本、高動態三維姿態測量的產品設備等領域常用的一款傳感器。

2022-01-05 14:30:09

2421

九軸姿態傳感器的介紹和應用

姿態傳感器介紹及應用

2021-11-01 10:22:32

1334

硬件加速人體姿態估計開源分享

電子發燒友網站提供《硬件加速人體姿態估計開源分享.zip》資料免費下載

2023-06-25 10:27:00

利用opencv+openpose實現人體姿態檢測

利用opencv+openpose實現，接著我又開始找一些資料，在pycharm上部署。前言人體姿態估計的一個有趣應用是 CGI（computer graphic image，一種電影制造技術）應用。如果

2023-06-26 10:15:04

2081

AI技術：一種聯合迭代匹配和姿態估計框架

由于噪聲和退化，并非所有正確匹配都能給出良好的姿態。之前的操作僅保證具有判別性高的描述子的特征點有更高的匹配分數，并且首先被識別以參與姿態估計，但忽略了魯棒姿態估計所需的幾何要求。

2023-07-18 12:58:56

313

AI深度相機-人體姿態估計應用

我們非常高興地發布一個新的代碼示例，展示虹科AI深度相機SDK的驚人功能。只需6行源代碼，您就可以實時準確地估計和跟蹤人體姿態！我們最新的代碼示例使用AI機器學習技術來識別和跟蹤人體的關鍵點，使您能

2023-07-31 17:42:26

553

3d人體姿態估計用什么實現的原理為什么要先進行2D估計再進行3D估計？

3D姿態數據集是依靠適合室內環境的動作捕捉（MOCAP）系統構建的。MOCAP系統需要帶有多個傳感器和緊身衣褲的復雜裝置，在室外環境使用是不切實際的

2023-08-03 11:40:46

744

基于飛控的姿態估計算法作用及原理

? 姿態估計的作用？姿態估計是飛控算法的一個基礎部分，而且十分重要。為了完成飛行器平穩的姿態控制，首先需要精準的姿態數據作為控制器的反饋。 ? 飛控姿態估計的難點？姿態估計的一個難點

2023-11-13 11:00:40

280

一個用于6D姿態估計和跟蹤的統一基礎模型

今天筆者將為大家分享NVIDIA的最新開源方案FoundationPose，是一個用于 6D 姿態估計和跟蹤的統一基礎模型。只要給出CAD模型或少量參考圖像，FoundationPose就可以在測試時立即應用于新物體，無需任何微調，關鍵是各項指標明顯優于專為每個任務設計的SOTA方案。

2023-12-19 09:58:19

309

使用愛芯派Pro開發板部署人體姿態估計模型

部署模型的整體架構。接下來就回到最開始定的主線上了——人體姿態估計。這篇文章就是記錄對一些輕量化人體姿態估計模型的調研，和前期準備。

2024-01-09 09:50:44

425

已全部加載完成

搜索歷史

基于MMPose的姿態估計配置案例

評論