以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

视频会议源码服务好得 视频会议源码的主要特点

  

  每个人都应该能够使用视频会议,包括使用手语交流的用户。然而,由于大多数视频会议应用程序的过渡窗口都集中在大声说话的人身上,因此签名者很难“说话”,因此他们可以轻松有效地进行交流。在视频会议中启用实时手语检测具有挑战性,因为应用程序需要使用大量视频源作为输入来执行分类,这使得任务计算量很大。在某种程度上,由于这些挑战,对手语检测的研究非常有限。   

  

  在“使用语言检测人体姿势估计的实时注册”中,在提出SLRTP2020和在全球范围内显示ECCV2020时,我们提出了一个实时手语检测模型,并证明了它是如何用于提供视频会议系统的机制来识别作为活动说话人的人进行签名的。   

  

     

  

  #我们的模式。   

  

  为了给各种视频会议应用提供实时工作的解决方案,需要设计一个易于“即插即用”的轻量级模型。以前在客户端集成视频会议应用程序模型的尝试已被证明消耗更少。   

  

  CPU周期的轻量级模型对于最小化对呼叫质量的影响非常重要。为了降低输入维数,我们将模型所需的信息从视频中分离出来,从而对每一帧进行分类。   

  

  由于手语涉及用户的身体和手,我们首先运行姿势估计模型PoseNet。这大大减少了从整个高清图像到用户身体上少量地标的输入,包括眼睛、鼻子、肩膀、手等等。我们使用这些地标来计算从一帧到另一帧的光流,从而量化模型的用户动作,而不保留用户特定的信息。每个姿势都根据一个人的肩宽进行标准化,以确保模型在距离相机一定距离内照顾到签名者。然后,在被传递到模型之前,光流被视频的帧速率归一化。   

  

  为了测试这种方法,我们使用了德国手语语料库(DGS),它包含由人签名的长视频和指示签名发生在哪个帧的跨度注释。作为一个简单的基线,我们训练了一个线性回归模型来预测一个人何时会用光流数据签名。基线达到了大约。   

  

  80%的准确率,每帧只有3微秒(0.000003秒)左右。以前50帧的光流作为线性模型的上下文,可以达到83.4%。   

  

  为了总结上下文的使用,我们使用了长期和短期记忆(LSTM)架构,它包含了前一个时间步骤的记忆,但不追溯。使用单层LSTM然后线性层,该模型的精度尽可能高。   

  

  91.5%,每帧处理时间为3.5毫秒(0.0035秒)。   

  

     

  

  #概念证明   

  

  一旦我们有了一个有效的手语检测模型,我们就需要设计一种方法来使用它来触发视频会议应用中的主动说话人功能。我们开发了一个轻量级、实时的手语检测网络演示,它连接到各种视频会议应用程序,可以在用户签名时设置为“扬声器”。本次演示使用PoseNet快速估计人体姿态,使用tf.js在浏览器中运行手语检测模型,使其能够实时可靠地工作。   

  

  当手语检测模型确定用户正在签名时,会通过虚拟音频线缆传输超声波音频,任何视频会议应用都可以检测到,就像签名用户在“说话”一样。音频为20千赫。   

  

  频率传输,通常超出人类听觉范围。因为视频会议应用通常将音频“音量”检测为语音,而不仅仅是语音,这使得应用错误地认为用户在说话。   

  

     

  

  你现在可以试试我们的实验演示了!默认情况下,演示文稿充当手语检测器。训练代码和模型,以及网络演示的源代码,都可以在GitHub上找到。   

  

  #演示。   

  

  在下面的视频中,我们演示了如何使用该模型。请注意左上角的黄色图表,它反映了模型检测活动是否真的是手语的信心。当用户签名时,图表值上升到关闭。   

  

  100,当她停止签名时,它降到了零。这个过程实时发生,每秒30帧,这是所用相机的最大帧率。   

  

  #用户反馈。   

  

  为了更好地理解演示在实践中的效果,我们进行了用户体验研究。参与者被要求在视频会议中使用我们的实验演示,并像往常一样通过手语交流。他们还被要求在对方的名字上签名,并在参与者身上测试说话者的转换行为。参与者积极响应,手语被检测到并被视为可听语音,演示成功识别出已签名的参与者,并触发会议系统的音频表图标,将焦点吸引到已签名的参与者。   

  

  #结论   

  

  我们认为每个人都应该能够访问视频会议应用程序,并希望这项工作是朝着这个方向迈出的有意义的一步。我们已经展示了如何使用我们的模型使签名者更容易使用视频会议。