为了训练RhythmNet,该团队创建了一个大规模的多模态语料库——VIPL-HR1。该语料库以开源方式提供,包含了2378个可见光视频和752个近红外视频,涉及107名受试者。每个视频片段都是由网络摄像头和红外传感器以及智能手机捕捉到的,包含了头部运动、头部姿态(带有注释的偏航、俯仰和滚转角)、照明和设备使用情况的变化。
RhythmNet由几个组件组成,包括一个面部探测器,该探测器根据一个人的面部视频定位81个以上的面部标记。
此外,还有一个单独的组件进行对齐和皮肤分割,以去除眼睛区域和其他非面部区域,然后从相隔0.5秒的视频帧生成时空图,以表示心率信号。这些图被输入到机器学习模型中,该模型经过训练可以从时空图预测心率,然后计算每分钟的估计心跳次数,最后得出一个平均值。
研究人员在MAHNOB-HCI和MMSE-HR两个广泛使用的数据库以及他们自己的数据库上对系统进行了评估。
他们表示,针对VIPL-HR1测试的大多数样本(71%)中,RhythmNet的心率估计误差低于每分钟5次,并且在每分钟47次到147次之间与基本事实有很好的相关性。
研究人员还补充说,MAHNOB-HCI和MMSE-HR的错误率不超过每分钟8.28次。
据雷锋网了解,团队还计划研究这种方法在其他生理状态测量任务中的有效性,比如通过视频测量呼吸频率和血压,以及利分布式学习和多任务学习技术,开发一个更强大的心率估计模型。
“心率是一个重要的生理信号,反映了一个人的身体和情绪状态。传统的心率测量通常依靠接触式监护仪,这可能会带来不便和不适。”该论文的共同作者写道,“ (我们提出的系统) 仅从表面上看,在数据库内和跨数据库测试场景中,都实现了很不错的心率估计准确性。”