第(1/3)页 贾瀞雯看着那份测试报告,眉头皱起来。 百分之六十二,意味着每三句话里就有一句识别错误。 这样的产品,根本没法用。 “瓶颈在哪儿?”她问。 “数据。”张涛说,“语音识别需要大量标注好的语音数据。 我们没有这方面的积累,要从零开始收集。 还有算法,现有模型对噪声、口音的适应性很差。” 贾瀞雯记下这些,当晚就汇报给了陈浩。 陈浩听完,沉默了一会儿。 “百分之六十二,比我预期的好一点。”他说,“我本来以为会更差。” “那怎么办?”贾瀞雯问。 “别急。”陈浩说,“语音识别是长期工程。 先收集数据,优化模型。 我把手头一些资料发给你,可能有用。” 几天后,贾瀞雯收到一个压缩包。 里面是几十篇论文和技术文档,都是关于语音识别的最新研究。 有些是英文的,有些是中文的,还有一些是手写的笔记——陈浩的字迹。 她把这些资料转给张涛。 张涛看了之后,兴奋地打电话来:“贾总,这些资料太及时了!有几篇论文正好解决了我们遇到的问题。” 接下来的几个月,语音搜索团队边学边做。 数据从几万条积累到几十万条,模型从简单到复杂。 准确率从百分之六十二慢慢爬到百分之六十七、六十九。 但到了百分之七十,又卡住了。 “七十是个坎。”张涛在评审会上说,“再往上,需要的计算量和数据量成倍增加。 我们现有的算力不够,数据也不够。” “需要什么?”贾瀞雯问。 “至少再翻一倍的服务器,还要更多的标注数据。”张涛说,“投入可能要翻番。” 贾瀞雯算了一下。 翻番意味着把移动广告联盟的全部盈余都投进去,甚至还要从其他项目抽资源。 第(1/3)页