清华大学郑方：语音仍是个小众行业，“内斗”压价会损害整个市场

“市场真正需要的是解决问题的综合方案，要利用它的特点找到不同的技术来融合。这个融合应该是能解决问题的融合，不能为融合而融合。”在本期沙龙上，清华大学人工智能研究院听觉智能研究中心主任郑方教授在谈到智能语音技术融合发展的趋势时说到。

郑方认为，技术的发展离不开市场的土壤，而现在用单一技术去解决市场的需求有很大的难度，这也是一些 AI 公司面临困境的重要原因之一。

他还提到，不同的语音技术分支，发展程度不同，语音识别、语音合成等相对成熟，但也有口音、低资源语种等问题。但目前成熟的分支存在比较严重的同质化问题，在技术上是方法同质化，并带来了市场的恶性竞争。

在智能语音企业商业化过程中，如何选择适合自身的发展模式？郑方认为，模式的好坏取决于三个因素：一由市场需求决定，包括痛点（解决最受关注的问题）和痒点（突破创新的东西）；二是由技术来决定，技术是否成熟，是否具有一定领先性等；三是由竞争关系决定。企业最后采取什么样的商业模式，都需要根据这几个因素来综合决定。

▲ 清华大学人工智能研究院听觉智能研究中心主任郑方教授

对于目前智能语音行业的生态，郑方提到，虽然巨头在资金、人才、数据、算法、算力上都占据了优势，但随着第三代人工智能的到来，小企业仍有一定发展空间，把方向找对，把力量用对，就能够在竞争中处于有利地位。

他还呼吁，语音行业在中国仍然属于一个小众行业，要想做得好就要避免恶性竞争。一方面，语音企业需要找到自身定位，避免重复投入；同时技术研发人员和用户之间也要达成比较好的互动，前者专注在技术层面创新，后者则在场景方面有创新，两个结合起来才能形成比较好的生态。

他指出，目前市场上出现了一种不良竞争的情况，用户在发现提供商比较多后，就会通过让企业“内斗”压价，压得很低甚至没有利润。他认为，这会使得企业没有钱做研发，最后受损的是整个市场。

以下是郑方教授分享实录（经删减整理）

目前智能语音处在什么样的发展阶段？不同技术存在很大的差异，对于这种差距怎么看？

郑方：语音处理技术包含很多分支，语音识别、语音合成、声纹识别、情感识别，信号分类等等。不同的技术处于不同的发展阶段，语音合成、语音识别，目前相对比较成熟，但也有很多问题需要解决，比如口音问题，比如低资源的语种问题。音频情感识别、声音信号健康诊断等新技术，还在进行研究。

但相对已经成熟的分支存在一个问题，就是同质化比较严重。方法同质化，带来恶性竞争。原因在哪儿？我们有时候过多跟踪别人的技术，而疏于做深度分析。

不少观点提到，单一的技术无法让 AI 企业在激烈的市场环境中生存发展起来，那智能语音应该怎么去做融合发展？

郑方：不同的问题可能需要用不同的技术综合来解决，比如身份认证，尤其网上远程或者无监督情况下的身份认证，可能会用到声纹识别、语音识别、鉴伪、情感识别等技术。市场真正需要的是解决问题的综合方案，要利用它的特点找到不同的技术来融合。这个融合应该是“能解决问题的融合”，不能“为融合而融合”。

现在很多 AI 企业包括智能语音企业会出现很多转型，比如最开始只是做语音技术，后来开始去做 AI 芯片、操作系统等，怎么看待这种尝试？

郑方：从我个人来看，对技术也好，对产品也好，应该术业有专攻，坚定不移地做技术改进，不断升级突破。但在企业发展过程中，根据一些战略的需求或者市场的需求，做一些主动的转型，这是应该的，也是可取的。但有些转型，我觉得是在资本的压力下做的一种被动转型。如果一个主要做算法研究的人去搞芯片，他其实没有那方面的特长，非要做，为什么呢？因为收入满足不了投资方的需求，被迫做转型，这种不可取，虽然可以理解。

AI 企业经过转型后大概形成四种商业模式：卖技术、卖产品、卖服务、卖解决方案。智能语音企业如何选择适合自身的商业模式，哪种模式会更容易跑通？

郑方：模式的好坏有三方面的决定因素。第一取决于市场需求，痛点和痒点。痛点是解决基本的最受关注的问题，痒点就是想要做一些突破创新的东西。第二，由技术来决定，技术是否成熟，是否具有一定的领先性，能不能解决实际问题。第三，由竞争关系决定，厂商之间的竞争关系是什么样的程度，如果竞争比较激烈，可能带来相互压价或者恶性竞争。

企业最后采取什么样的商业模式，都是根据这几个因素来综合决定的。比较成熟、市场也觉得比较容易接受的技术，那就可以用产品或服务的模式直接销售。一些不太成熟的，如用声音看病，那就可能用技术驱动，在双方合作的过程中去完善它，根据不同情况采取不同的模式来做可能比较好。

很多互联网巨头都在布局智能语音，如何看待和这些巨头的竞争，希望智能语音行业能够形成怎样的生态？

郑方：巨头在资金、人才、数据、算法、算力上都占据了优势，小企业是不是就没有空间了？我觉得不是。人工智能进入到第三代，就是把前两代的知识和数据结合起来，研究可解释性，研究鲁棒性（系统的稳健性）。但是可解释性不是完全靠大数据能解决的，有些问题并不依赖大数据，反而是用小数据解决的。这个可能是巨头们不一定有的优势，小企业把方向找对，把力量用对，就能够在竞争中处于有利地位。

需要特别强调一点的是，我们要维护一个良好秩序，技术人员（如科研机构、科技公司）专注在技术层面创新，用户企业（如银行等）则在场景方面有创新，两个结合起来才能形成比较好的生态，要杜绝恶性的竞争。

语音行业在中国仍然属于一个小众行业，要想做得好就要避免恶性竞争，企业都找好自己定位，在擅长的方面做得好、做到精、做到第一，甚至国际上拿到 NO.1，避免重复投入。企业之间也需要良性竞争，现在有一种不好的情形，用户一旦发现技术、产品或服务提供商多了，就会通过让这些企业“内斗”来压价，压得很低甚至没有利润，企业没钱做研发，最后受损的是整个市场。在价格方面，用户应该有正确的观念和判断，就像不能用拖拉机的预算去买奥迪。

在智能语音发展过程中，应该如何保护用户的个人隐私？

郑方：这需要多方努力才能解决，首先用户要有保护自己隐私的意识，在这个前提下还需要两方面的努力。第一是法律法规。我们国家最近刚刚颁布了《数据安全法》，对数据保护做了要求，也需要推进标准规范。以后哪些数据能传，哪些不能传，数据怎么留存，留存多长时间必须销毁，是否要得到用户的明示同意等，这些都要有明确规范。

第二，对企业一定要有技术上面的要求。企业应该有一些社会责任感，在做技术研发的时候，从源头阶段就要按照规范来做，做到从采集、传输、存储、使用到最后销毁的全生命周期都能保证用户隐私得到保护。