“嘿,Kuri!想一起玩吗?”“嘿,Kuri!能讲个故事吗?”……
只要听到叫自己的名字,身高半米、看上去胖嘟嘟的机器人Kuri就会睁开眼睛跑到您的跟前,像小狗一般可爱。前不久,这款由新创公司Mayfield Robotics推出的黑白色家用机器人引起了媒体的争相报道。
“Kuri是一款社交机器人,您可以把它当成家庭的一个成员,”公司首席执行官Michael Beebe对记者介绍说。除了常见的手机应用程序控制方式外,人们可以通过一些简单的语言命令指挥它完成一些任务,比如让它在家里自动巡逻,把小狗赶下沙发,还能与小孩一起玩耍,讲故事放音乐,等等。
据有关预测,到2020年,美国每10户家庭中就有一户人家有家用机器人“入驻”。这些机器人不仅能任劳任怨地干活扫地,更重要的是具有“社交”功能,能与人简单交流,帮我们排忧解闷。
随着重出江湖的“阿尔法围棋”近日横扫多位中日韩顶尖棋手,有人评价说,人脑斗不过机器的时代已经来临!但实际上,至少在语言理解方面,机器还远远斗不过人脑。不过,这种情况正在迅速发生改变,Kuri们正越来越能听懂人类的语言。
“电脑的下一个接口是语音,”美国消费技术协会的首席经济学家肖恩·杜布拉瓦茨断言。他列出未来5大技术发展趋势,其中人机语音交互排在第一位。
不管是现在的智能手机还是个人电脑,采用的都是最早可追溯至1981年施乐(xerox)公司“施乐之星”率先采用的图形用户界面。3年后,苹果公司“偷师”“施乐之星”推出的Macintosh成为首个在商用领域取得成功的图形用户界面电脑。从这之前的文字命令发展到图形界面,这是人机交互方式的重大革命,此后个人电脑迅速普及。
自那以来,随着个人设备的运算能力日益增强,各种应用程序越来越多,图形用户界面变得日益复杂,今天图形界面被认为已经做到了极致。与此同时,从2010年左右逐渐兴起的可穿戴式设备以及其他一些非传统设备开始尝试摒弃图形用户界面,把最重要的运算功能通过无线连接交给手机或其他中枢设备。
许多人认为,图形用户界面已经接近走到了极限。那么,接下来,谁能把人类从纷繁复杂的界面窗口、工具栏以及菜单选项中拯救出来?脑电波、眼神还是语音?放到10年前,这三种方式没有一个靠谱,但今天语音似乎成为了首选项。
语音识别研究已经有好几十年的历史,但进展一直不尽如人意。比如,微软早在1994年就成立了有关研究团队,但当其研究人员2006年在给投资者面前做基于视窗操作系统的演示时,电脑竟然把“mom”(妈妈)听成了“aunt”(阿姨)。“早期版本的语音设别技术太糟糕了,”杜布拉瓦茨说。
据杜布拉瓦茨介绍,即便到了2013年,哪怕您讲话再标准,再没有背景噪音,语音识别的单词错误率依然高达25%,即每说4个词,电脑就会听错一个。但得益于深度学习与人工神经网络的发展,语音识别在过去3年获得了突飞猛进的发展,单词错误率降到了5%左右,达到了人耳的程度。
“我们在过去30个月所取得的语音识别进展比过去30年还要多,”杜布拉瓦茨说,“这就是为什么我认为语音技术会出现爆发式增长的原因。”
苹果手机用户应该比较熟悉它的语音助手Siri,微软、谷歌与亚马逊也相继推出了类似语音助手。值得一提的是,大约两年前,亚马逊第一个把它的语音助手 Alexa嵌入到智能家居中枢控制音箱Echo之中,让我们多了一个“家庭事务助理”。有了Echo,人们只用动动嘴皮子,就可以查信用卡账单、关灯、锁门,甚至叫车。
此后,谷歌不甘示弱推出了Google Home,三星和联想等也准备推出类似产品……一场由语音交互驱动的智能家居竞赛正在进行之中。现在,汽车厂商也加入进来,比如福特近来宣布与亚马逊合作,在车上安装Alexa,将来可通过Alexa帮您播放音乐、新闻,快到家时打开车库门和家中的照明、空调等。
杜布拉瓦茨说,到目前为止,全球估计已售出约500万个声控助手,今年可能还会再售出500万个。