王小川:语言承载的知识和概念是人机交流的真正难点

辛苓| 新浪科技| 2018-09-29

　　【流媒体网】摘要：语音识别不是目的，它只是一个技术基本门槛。

　　随着国内出境游的兴起，翻译机这一产品也随之火热起来。今年3月份，搜狗发售价格为1498元的“搜狗旅行翻译宝”，就是瞄准了愈加火爆的出境旅游市场。

　　一代产品推出后搜狗发现，很多商务人士、留学生等群体也对翻译机有需求，因而对产品功能进行了升级。今年9月，搜狗推出了升级版“搜狗翻译宝Pro”，官方定价为2499元。与市面上的主要竞品相比，这款翻译硬件的功能亮点在于离线翻译与云端翻译的无差异，支持中英日韩4种语言离线互译，42种语言的在线翻译，并具备实景拍照翻译功能，可以帮助用户识别点餐、问路等各种场景下的文字信息。

　　25日，搜狗公司CEO王小川以及其他高管接受新浪科技的采访，聊了聊关于智能翻译行业与搜狗翻译宝Pro。

　　以下节选自采访实录：

　　通过试用产品，我发现二代产品在语音翻译方面比一代提高很多，可以看出你们投入了很多心血做产品升级。但是我发现拍照翻译还有提高的地方，搜狗翻译机在这方面接下来会有什么动作?

　　王小川：拍照翻译这方面，搜狗App在线的图像翻译代表了搜狗以服务器为核心能达到的技术能力高度，那个效果是搜狗比较有自信的。现在搜狗正在把相关技术移植到翻译机的图像识别里面，这个工作会在10月份完成，到时候功能的升级会在升级包里体现出来。

　　如果我对英文一点都不懂，怎样判断翻译结果是否正确?

　　王小川：最可能出现差错的地方在语音识别或者是OCR这个环节，如果识别是准确的，翻译准确度相对会高很多。所以只要屏幕上看到的中文是对的，翻过去的英文就可以放心使用。

　　更多的错误是发生在语音上面的：语音别识错一个字，翻译就是不可读的。所以我们在做一件事：让翻译有容错能力，去弥补当语音识别产生错误时对翻译的影响。把错误的语音识别结果放进翻译的模型里去，通过错误的数据训练出正确的结果。其次，在技术上从识别和翻译两个角度做优化。这方面技术比较前沿，目前大家还没有做到把语音识别和翻译结合在一起，让翻译去纠正语音识别的错误。

　　未来语音识别和翻译的应用场景会不会更多元?

　　王小川：语音识别不是目的，它只是一个技术基本门槛。在人机交流的时候把人的声音转成文字，基于理解让机器了解文字背后的意思，提供这样的服务是下一步。搜狗人工智能的两大发展方向，一是自然交互，它包括“语音”、“图像表情的理解”，二是更难的“知识计算”。

　　在以语言为核心的人机交流过程中，语音的合成和识别相对简单，更难的是理解语言承载的知识和概念，这种概念和知识是人类用一生去学习的，而且每个人的理解不一样的。

　　所以对于知识和概念的理解去做计算是比识别更复杂的事情。

　　我们要做问答系统，问答系统并不是听懂问题就可以，我们要去阅读理解互联网上的文章，找到里面的逻辑关系的词，然后给出一个答案。因此知识计算是更难的工作，而翻译还是知识计算里最简单的一件事情。以语言为核心，就是一方面做沟通的工作，另一方面是做概念的沉淀和知识计算使用，这是搜狗很努力地在做的事情。

责任编辑：路明玉

分享到：