本周,在详细介绍了微软Teams的消噪功能几个月后,我深入研究了Google Meet的消噪功能。两者都使用监督学习。两人都试图过滤打字、吸尘器和响动包,同时保持交谈、唱歌和大笑。当然,谷歌Meet会取消它的乐器,而微软Teams会保留它们,但除此之外它们几乎是一样的。至少他们看起来像他们,直到你看引擎盖下。
时机并非巧合——协作和视频会议工具从来没有像时势时代那么重要,因为在时势时代,成千上万的人不得不在家学习和工作。谷歌和微软正在测试他们的机器学习排名,希望立刻实现Zoom并粉碎Slack。谷歌Meet和微软团队使用AI实时消除背景噪音,所以你只能在电话会议上听到声音。然而,在我采访了他们各自的产品线索后,让我震惊的是,这些公司在处理同一个问题时有多么不同。
这是一个简单的版本:谷歌将其机器学习模型放在云中,而微软将其机器学习模型放在边缘。此外,还有更多让我直接引用产品线索。
我是G套件产品管理总监Serge Lachapelle:
我们的工作是尽快通过云。但是现在有了这些TensorFlow处理器,基本上我们的基础设施的构建方式,我们发现我们可以实时操作媒体,有时只有大约20毫秒的延迟。这就是我们要走的路。
我是罗伯特艾克纳,微软团队小组的项目经理:
很多机器学习发生在云中。例如,对于语音识别,您对着麦克风说话,然后将其发送到云端。云有强大的计算能力,然后你可以运行这些大型模型来识别语音。对我们来说,因为是实时 ,所以我需要处理每一帧。假设是10或20毫秒的帧。现在,我需要在这段时间内处理它,以便我可以立即发送给您。我不能发到云上,等一些噪音抑制后再发回来。
延迟的问题也导致了成本的问题。增加每一个网络跳会增加延迟,为每个呼叫执行大量的服务器处理会增加成本。
谷歌的拉查佩尔,费用:
还有一个相关的成本。绝对的。但是在建模的过程中,我们觉得会让针移动太多,所以这是我们需要做的。这是我们将为付费G Suite客户带来的第一个功能。当我们看到它的使用情况并不断改进时,我们希望能把它带给越来越多的用户。
微软的艾克纳,就成本而言:
确保将尽可能多的计算推送到用户的端点,因为实际上不涉及成本。你已经有一台笔记本电脑、个人电脑或手机,所以现在让我们做一些其他的处理。只要不超负荷CPU就可以了。
然而,还有其他权衡。
谷歌的拉夏贝尔,速度:
做到这一点而不减慢速度是非常重要的,因为这基本上是我们团队的大部分工作——总是试图优化一切来提高速度。我们不能引入会降低速度的功能。因此,我想说的是,仅仅优化代码使其尽可能快就完成了一半以上的工作。不仅仅是模型的创建,还有整个机器学习部分。就像优化,优化,优化。这是最困难的障碍。
微软的艾克纳,关于电池寿命:
是的,电池寿命,这显然是我们正在关注的。我们不希望您当前的电池寿命大大缩短,只是因为我们增加了一些噪音抑制功能。这绝对是我们交货的另一个要求。我们需要确保我们没有退步。
乍一看,这些不同的方法很有道理。在公司的DNA里。谷歌诞生于 时代,微软开启了软件时代。传统上,微软在本地安装软件,而谷歌则是在云中托管应用程序。简而言之,这是微软Office和G Suite的对比。
然而,事情从来没有这么简单。当然,Office让G Suite相形见绌,但微软Azure比谷歌云更成功。与此同时,谷歌浏览器获得了如此巨大的胜利,以至于Edge现在基于Chromium。
但是我跑题了。谷歌和微软在为他们的视频通话解决方案建立噪音过滤时采用了完全不同的方法。谷歌随云而来,给所有人带来了同样的体验,但该死。微软努力给每个人带来最好的体验,但这该死的复杂性令人遗憾。
拉查佩尔和艾克纳都向我承认,他们可能不得不根据每个功能的部署方式来改变他们的方法。现在说哪种解决方案更好,或者是否会有赢家还为时过早。然而,如果支持其中一家公司,就会有明显的输家:云或边缘。
标签: