1. 引言近年来,直播竞答、网络游戏直播等新的实时音视频通讯场景不断推陈出新,并成为引领互联网娱乐风向的弄潮儿。实时音视频应用的爆发,也使得WebRTC(Web Real-Time Communication,网页实时通信技术,)技术成为了人们关注的焦点。如何打造自己的WebRTC 服务器呢?下面我先来介绍一下WebRTC 服务器的一些基本内容:开源的WebRTC 服务器介绍WebRTC服务端整体分析通信优化WebRTC的未来展望首先,我们会先来了解下一些开源的服务器是怎么做的,我们做事情,在没有头绪的基础上,参考和模仿可能是一种必然流程,毕竟站在巨人的肩膀上,我们的视野才更加开阔。其次,通过形形色色的开源服务器介绍和理解,我们初步的去分析一个WebRTC 服务器究竟包含哪些模块,又是一个什么样的组织架构和层次关系。后面在服务器搭建后面临的丢包和多人通话问题又有什么解决方式。最后就是展望一下整个WebRTC未来发展。2. 开源的WebRTC 服务器介绍我们进入第一部分:WebRTC开源服务器介绍,这个模块我选择了我认为很有代表意义的3种类型的WebRTC 开源服务器大而全的Kurento务实主义的Licode小而美的Mediasoup大而全的Kurento之所以称Kurento为大而全,是因为Kurento 强大的滤镜和计算机视觉,我们看这张图:Kurento功能图通过这张图我们了解到Kurento不仅仅包含了普通流媒体服务器的SFU MCU Transcoding Recording等基本功能,还包含了强大的滤镜和计算机视觉处理功能,而且,在整体的功能上不仅仅包含WebRTC 模块还有很多其他协议支持,诸如SIP RTMP RTSP 等协议,更准确的说Kurento 更像是一个融合通信平台,而且Kurento,基于插件式编程方式,很容易扩展自己的功能模块。Kurento 在应用中有哪些问题,或者说,哪些是优势,哪些是劣势呢,我们看下面:优势:文档齐全无论API使用文档,还是部署文档都很齐全功能强大,强大的路径和计算机视觉处理模块化编程,方便扩展,这是对开发者很友好的地方使用方便,客户端服务端都有专门的API 组件 接入系统,而且服务器端提供了J2EE node.js两种接口文档,覆盖很齐全劣势:代码太多太庞大,可能需要开发者有足够的功力才能驾驭这把屠龙刀还一个重要原因就是性能比较差小而美的MediasoupMediasoup是一个很新的WebRTC服务器,专注WebRTC 的相关功能开发,专注做好这一件事,很小确很美。下面这样图是Mediasoup 大致的一个基本架构图:Mediasoup 架构Mediasoup优势:性能优秀支持很多的WebRTC 新特性(PlanB UnifiedPlan simulcast)同时支持ORTC和WebRTC 的互通劣势:功能比较少代码和架构相对来比较晦涩一点信令模块只提供node.js 版本务实主义的Licode说了两款极端的WebRTCserver ,我们最后讲一个务实主义的Licode ,为什么称Licode 为务实主义?Licode 这款服务器完全是站在一个PAAS 平台,一个业务的角度去思考问题,去构建整个系统,很务实,很实际,我们看Licode架构图:Licode 架构图架构很清晰:用户端:房间信令模块WebRTC媒体模块服务端:开发者方面:业务接入的API模块服务器内部:面向开发的API 服务模块,提供基本的房间和用户操作房间服务器模块,提供基本的房间信令支持媒体模块,完成服务端的WebRTC 媒体功能整个服务架构内部各个服务模块通过MQ 消息总线进行数据通信,做了一个服务器要做的基本功能,同时微服务化,很符合现在服务器开发的方向。Licode 作为WebRTC 服务器有很多优势:功能齐全扩展方便,鉴权,存储,融合通信一应俱全代码扩展简单,预留了足够的扩展接口部署简单,一键脚本安装,很方便缺点:内部模块说明比较少性能一般服务端只提供的node.js 版本总结这么多服务器怎么选择呢?看自己的业务需求,团队能力,项目周期。有能力的团队可以尝试选Kurento,讲求平衡快速选择Licode,追求极致Mediasoup 很符合选择。相关视频推荐:C/C++程序员进入互联网公司的捷径-WebRTC开发_哔哩哔哩_bilibili手把手实现WebRTC音视频通话|WebRTC音视频通话逻辑剖析、如何通过代码实现音视频通话_哔哩哔哩_bilibili学习地址:【免费】FFmpeg/WebRTC/RTMP/NDK/Android音视频流媒体高级开发-学习视频教程-腾讯课堂需要更多ffmpeg/webrtc..音视频流媒体开发学习资料加群812855908领取3 WebRTC 服务端分析到底WebRTC 是个什么东西,又包含哪些模块呢,我们从下面几个方面逐一分析:基本组件层次架构基本组件基本模块图中我列出了基本的组件:Rtp/Rtcp媒体打包协议Dtls加密协议ICEP2P 传输协议SDP系统控制协议,控制整个系统的运行行为Rtp/Rtcp Dtls ICE是基本组件相对实现比较容易,这个我们不做过多介绍,我们着重介绍下SDP 这个协议SDP 演进SDP 伴随着WebRTC 的发展,经历了很多变化,我把这个过程归纳为两个阶段:PlanA单流时代PlanB/UnifiedPlan多流时代PlanA每个stream 对应一个peer 多个stream 对应多个peer,整体运行图如下:PlanA下面是PlanA 的SDP 结构:没什么新奇的地方,大家都应该比较熟悉了,我们不做介绍了。PlanB UnifiedPlan:one peer multi stream, 单个peer 可以拥有多个steam ,整体运行图如下:PlanB UnifiedPlan其中PlanB 是chrome SDP 多流方案,而UnifiedPlan是Firefox 的多流标准同时也是JSEP的标准多流方案,所以UnifiedPlan是我们关注的重点。我们先来看看PlanB 的多流SDP 大致内容:PlanB SDPPlanB 和 PlanA 相比,基本组织形式是相同的。我们看标红的地方,PlanB 组织多流的方式是通过msid来完成,每个msid 对应一条媒体流. 每个msid下面是自己的传输信息,所以在PlanB 方案下,我们可以通过msid来标记用户。我们再来看看UnifiedPlan,下面是一个UnifiedPlan 部分SDP:UnifiedPlanUnifiedPlan通过加多个m 标签,来组织多流,每条流分配一个m 标签,后面跟着自己的attribute 描述,另外group 行业进行了修改,以每个track 进行描述。当然UnifiedPlan 里面也是msid 可以用来标记用户。相比 PlanB,UnifiedPlan SDP更加清晰,自然,当然问题是数据量比计较大,因为有很多冗余字段,当然作为JSEP 的标准,我们必须更加关注UnifiedPlan 方案。另外Firefox 里面mid 长度不能超过16位,在大家的服务器上产生UnifiedPlan 格式的SDP时注意一下。PlanBUnifiedPlan 方案优势:客户端single peer, 减少开发难度,无论 MCU 模式还是SFU 模式,客户端只需要创建一个peer减少端口占用,加强系统安全WebRTC 层次架构说完基本组件,我们开始介绍WebRTC 服务端,分3个层面:接口层接口层主要为PeerConnectionInterface接口实现,主要提供诸如一下内容:控制层控制层也就是我们所说的SDP 模块,控制整个系统的运行表现,包括编解码参数,流控方式,Dtls 加解密参数以及ICE穿透用的地址候选。传输层先看图:传输层分为3个层次,媒体打包(RTP/RTCP),数据安全(DtlsTransport),Ice P2P 传输模块(IceTransport)。了,这里我们了解全部系统组件,将系统组件叠加,我们就得到了,下面是一个完整的WebRTC 组件的一个层次结构:分为3层:接口层,提供基本的peer 接口功能,控制层,主要是SDP 的解析和生成工作,最后传输层,提供媒体打包,传输,流控,安全,ICE 等功能。4. 通信优化分两个层面去讲:对抗丢包多人通话对抗丢包NACK使用场景 low RTT 或者延时不敏感场景FEC冗余换取实时性和丢包。增强带宽抢占能力,这才是FEC 最主要的用途。两种方式各有优缺点,NACK代价是延时,FEC的代价是带宽,显然在高清会议中不适用FEC 方式。比较可取的方式是FEC+NACK, 低延时环境下,尽量采用重传,高延时生成适度的FEC数据包,对数据进行选择性重传。多人通信多人通信是一个令人的头疼的问题,因为面临以下几个问题:不同的用户网络带宽不同的运营商不同用户网络带宽先看第一个,我们都知道在通信中,用户的带宽往往是不对等的,怎么样做到按需供给,总体来说我们有一下几种方式:转码SVC 分层编码Simulcast(多流方案)先转码方案:服务端对用户发来的数据进行二次编码,服务端根据用户的网络情况,提供给用户不同质量的码流,这种方式服务压力大,延迟大,硬件成本高,比较适合小规模视频会议,或者发言人较少的场景。SVC方案:编码器产生的码流包含一个或多个可以单独解码的子码流,子码流可以具有不同的码率,帧率和空间分辨率。分级的类型:时域可分级(Temporalscalability):可以从码流中提出具有不同帧频的码流。空间可分级(Spatialscalability):可以从码流中提出具有不同图像尺寸的码流。质量可分级(Qualityscalability):可以从码流中提出具有不同图像质量的码流。分层结构图SVC可以组合提供不同质量的码流,服务器可以根据用户网络情况选择一路进行转发,SVC 应该是最好的对抗丢包的方式,可惜WebRTC 不能用,这里我们不做深入研究,H264SVC RTP打包情况可以参考rtc6190Simulcast(多流) 方案:如图:客户端同时发送多种码率到服务端,然后服务端进行选择性转发,这种方案,发送端上传压力大,而且编码压力也大,但是,这是唯一一种WebRTC 支持的针对多人通话的技术。下面我们看看如何开启这种技术:Chrome 端 包括js 和 native 源码端:Chrome并没有提供直接的接口用于开启多流方案,我们在Chrome 系列中只能通过修改的本段的SDP 来开启多流方案,如图:通过修改SDP 加入SIM 标志开启多流,开启几条,就多加入几条ssrc 信息Firefox 端:Firefox 提供了直接的接口用于开启多流方案,如下图:Firefox直接通过RtpSender 的 SetParameters 接口开启多流,简单方便,这也是Firefox 相比较Chrome更好的地方,更加遵从WebRTC标准。另外在Rtp的传输上Chrome和Firefox 是不同的:>>>Chrome:通过ssrc 对应多流方案,每个ssrc对应一种多流a=ssrc-group:SIM2098403539(low) 2098403540(medium) 2098403541(high)>>>Firefox:通过urn:ietf:params:rtp-hdrext:sdes:rtp-stream-idRtp协议头的扩展来完成多流和ssrc 的对应关系,进而完成传输。不同运营商中国运营商主要有电信 移动和联通,另外包括很多小运营上和结构运营商,运营商很多,而且由于运营商之间的网络宽口问题,跨网通信延迟大,网络不稳定,针对这种情况,我们基于DNS重定向,分配给用户运行商相同的服务器,这里说一句,运营商分类的判断,需要很久的运维经验和数据作为支撑,这也是我们的PP云的优势所在,我们PP云有十几年的运营数据作为支撑,这些数据不仅帮我们构建更加快速的服务器网络,而且还可以帮我们为用户定位到最优的服务器,进而解决最后一英里的网络传输问题。5 WebRTC 未来展望为AI 赋能AI 的发展,赋予了WebRTC更多的应用空间,比如基于人脸和语音识别的网站和APP 登录系统,前端通过WebRTC 进行视频数据的采集和传输,后台通过AI智能分析比对结果,进而完成登录,简单,方便。安防领域我们知道安防领域比较多的协议包括ONVIF,GB28181 RTSP,这几个协议在网页端无法直接观看,智能借助于插件,插件面临兼容和安全问题,体验很差,有的摄像头支持RTMP观看,但是很遗憾,2020年flash 将退出历史舞台,HLS延时大,而无插件,极速都是WebRTC 的优势所在,我相信不救的将来WebRTC 在安防领域会占据一席之地。6. 结语:WebRTC1.0 已经定稿,这为WebRTC的未来发展提供了方向,并且WebRTC 无论是应用还是社区都处于高速发展状态,并且Google也在不断地提供和完善WebRTC 的相关功能,我相信WebRTC 的未来无可限量。
本文出自快速备案,转载时请注明出处及相应链接。