【原】移动(IP)网中的MOS及测评方法

和老康一起学5G 2023-11-08 发布于陕西

展开全文

一、移动IP网络语音运营商无论是在4G(LTE)，还是5G(NR)网络中推出语音服务时总是宣称VOLTE或VONR均可进行"高清语音、高清视频"通话；而现实是因网络覆盖、终端所处环境、人体感知差异等因素制约，实际效果差强人意；为此ITU制定了(IP)网络语音评估规范,具体请参阅"MOS——移动通信网语音评分标准"。

二、MOS与感知从2G(GSM)时代起MOS一直作为语音通话质量的评估标准；当通话双方语音或视频通话MOS得分达到4.3 - 4.5之间被认为是非常优秀，而MOS分数低于3.5时则认为通话质量不可接受，需要设法改进。

三、MOS是用于评估通过IP路由进行语音和视频通话的标准；这是因为VoIP MOS需提供准确的语音质量测量，而不仅仅只用“好”或“差”等一般词语来描述通话质量；MOS平均意见得分通常介于1~5之间，其中:5代表最高质量的VoIP呼叫，1代表质量最差的服务。这种评估比主观观点或诸如“我感觉很多断断续续的语音通话”之类陈述的结果更简单。

四、MOS评估方法当今世界MOS分数通常是通过接近人类排名的客观测量方法来测量和分类，具体可通过两种简单方法进行。

4.1 使用VoIP进行评估 VoIP电话系统是指基于硬件或软件的电话，使用互联网协议语音作为一项开创性技术。通过IP网络发送和接收电话、音频或视频；评估根据数据包丢失、延迟和抖动来衡量VoIP质量进行打分。

4.2 设备监控测量通过网络指标和设备监控相结合，为您提供 VoIP 质量的完整概述，以衡量 VoIP MOS 分数。结合上述元素您可以准确识别影响VoIP音频和视频电话的内容、地点、人物和方式。

五、MOS分数计算有几种标准，这些计算算法中的每一个都是针对特定应用而设计的；其中一些计算算法仅考虑IP统计数据。相比之下其他测量包括噪声、音量、回声和失真等模拟测量，以提高准确性和可重复性。目前全球公认的MOS计算算法包括：

5.1 PESQ ITU T P.862 这是一种经过经验改进的心理声学模型，旨在使用真实呼叫者评估语音质量。这种算法在通过被测网络或设备传输后记录主导呼叫的副本。它将两者进行比较，以衡量单向失真和噪声对语音质量的影响。PESQ算法最显着的缺陷是:由于原始文件和副本文件经过时间对齐和幅度归一化以进行比较分析，因此它没有考虑延迟、回声和衰减的影响。

5.2 P.563 Listening MOS它是PESQ P.562算法扩展,适用于单端测试，因为它可以根据实际语音样本或通话录音非侵入式地计算MOS分数。P.563包括噪声、回声、延迟、削波、帧静音、数据包丢失、VoIP编解码器和网络类型的所有影响。

5.3 VQES算法是指一种复杂的、基于统计的算法。算法评估最终用户满意度和通话质量，考虑低音量、噪声、失真、回声和延迟的影响。其中:P(UDI)也可以使用VQES算法计算，其代表无法使用、困难或烦人的呼叫概率,也表明呼叫者因呼叫的整体质量而感到沮丧的程度。回声会影响VQES MOS算法,但延迟不会;延迟和回声都会影响P(UDI)。

5.4 MOS应用加速通话质量测试这咱高级MOS应用程序使用自然语音参考文件，消除静音和音节重复，将数小时的自然语音压缩为几分钟的通话，然后测量其质量。

5.5 VoIP压力测试测试呼叫持续时间长达24小时以频繁地报告MOS。这些测试被认为是语音的“BERT”测试，可以帮助运营商识别周期性问题和长期呼叫退化。基于MOS的测试算法是使用实际语音进行单端测试的完美算法。单端测试是指可以使用人工呼叫者、IVR 或语音邮件系统作为测试源的情况。

5.6 TCP和RTCP-XR - IETF RFC-3611是由RFC-3611定义的实时传输协议 (RTP) 的控制部分，通常用于通过 IP 网络传输语音和视频数据包。

标准RTCP包含有关媒体传输的基本质量信息，包括数据包丢失、重复、抖动、数据包生存时间(TTL)和跳数限制值。
标准RTCP扩展报告(RTCP-XR)定义了额外的服务质量详细信息，包括突发统计、往返延迟(RTD)、数字信号和噪声水平、回声回波损耗、R 因子、监听和会话MOS以及抖动缓冲区配置。
RTCP本身并不是一种MOS算法，而是一种报告媒体共享质量的方法。
测试系统还使用RTC和RTCP-XR来测量和报告服务质量。

关于上述所有MOS 算法，需要牢记的一点是MOS评级主要基于受试者的个人分数。