小米公司与美高梅4688集团am于2018年4月26日在武汉签署小米-美高梅4688集团am人工智能联合实验室共建协议,双方在互惠互利基础上,充分发挥各自优势,在人工智能领域开展长期战略合作。联合实验室研究经费由小米公司提供,主要支持美高梅4688集团am相关学科结合小米公司科技创新和产业布局,加强应用基础研究,突出关键共性技术、前沿引领技术、现代工程技术、颠覆性技术创新。联合实验室管理委员会根据人工智能技术最新发展动态并结合小米公司当前业务需求,面向美高梅4688集团am科研团队发布2018-2019年度研发课题指南,计划投入研发经费400万元。项目实施起始时间为2018年7月,完成时间为2019年6月。
一、 重点关注领域
(一)机器翻译
1、中英文机器翻译:可以改进tensor2tensor项目中的Transformer翻译效果,优化Transformer inference解码速度、OOV问题。但不局限于对已有框架的改进,可以探索新的翻译架构与方法。目标:在中英互译上相对于tensor2tensor项目获得更好的翻译质量和翻译速度。
2、机器翻译离线化(手机端):离线模型需要在服务器端模型基础上进行裁剪和重训练,使得能够在最新的红米手机上运行,速度和质量接近服务器端的模型。
3、低资源语言翻译质量优化:包括但不限于利用单语语料、中间语言等方法。目标:中文向1到2种低资源语言的双向翻译上获得比经典方法更好的效果。比如中文到日、韩的翻译,质量优于直接使用低资源平行语料训练tensor2tensor项目的效果。
4、语料建设:共同建设多语言平行语料,比如英、日、韩、法、德、俄、西、印地语、国内少数民族语言等。目标:开发多语言平行语料构建平台。
(二)情感识别与计算
总体目标:通过自然语言理解、用户感情识别、用户行为分析等其他特征,实现一个更加人性化、个性化、更加自然智能的语音交互系统。6个月提供可以运行的初版,并支持可长期收集反馈,持续优化。主要内容如下:
1、用户行为建模:通过用户日志、行为、音频等数据的分析,为用户行为建模,抽象出可以量化的指标,做为线上模型的反馈,以此实现小爱的自我学习和进化。要求:实现一个用户行为模型,评测用户对语音交互的满意程度。
2、全双工语音交互系统:在语音对话中始终保持聆听状态,不需要每次交互都说出唤醒词,用户可以随时发问、连续对话,这种全双工的交互方式有着更加自然流畅的用户体验。全双工除了前端的回声消除、声纹识别等技术的支持,后台语音交互系统还要实现说话人识别、情绪识别、场景发现、上下文理解等,以此实现是否响应用户、主动结束会话session、回复内容控制、对话引导等功能。要求:实现全双工语音交互系统。
3、音乐文案自动生成:为了更好的用户音乐体验,系统不仅做到给用户提供合适的歌曲,还要结合用户情感的识别、音乐本身的理解,生成自然贴切的文案为用户介绍歌曲。要求:实现音乐文案的生成并上线。
(三)图像增强与降噪
1、极暗光,暗光高动态范围以及极高动态范围场景(备注: 逆光)手持拍摄的多帧合成的关键技术,包含帧间防抖,鬼影消除,多帧降噪,单帧降噪,高动态范围图像获取及压缩等。
2、基于单帧或多帧图像的通用场景以及特定场景(人脸,文本等)的超分辨率算法。
3、高效高精度的图像语义分割算法;中等分辨率下高效中低精度的实时视频图像语义分割算法。
上述算法需要在常规成像分辨率的前提下,同时满足移动设备低延迟,低功耗,低内存占用的要求。
(四)影像深度信息计算
1、3D照片拍摄与处理算法:现有的3D场景扫描和重建技术的使用流程和计算量都不适合在智能手机使用,目标:实现可在智能手机运行的完整3D照片原型系统,包括影像数据采集、处理与浏览等。
2、双摄/多摄拍照算法:通过多个摄像头生成精确的深度图像,或者对画质进行多摄像头之间的增强,或者利用不同焦段实现更好的变焦。
(五)任务型对话上下文自然对话生成(任务型的多意图自然语言理解和多轮对话生成)
1、基于上下文的多轮对话生成:完成query理解、对话状态跟踪、对话策略和自然语言生成等模块,当发现用户query缺少必要信息时,通过不断的追问来补齐信息,完成用户的操作。技术落地形式为实现订票垂域的开发,完成机票和火车票的预定任务。目标:通过和用户的多次对话,获取必要信息,完善和正确理解用户意图。要求:语义理解部分意图准确率95%,意图召回率95%。服务性能32核/64G内存的单机QPS达到300/s,响应时间99.5%在300ms。半年完成订机票和火车票的开发,1年内实现多轮对话状态管理模块在更多垂域的落地。
2、多意图query理解与切割系统:用户的一句话中有时会包含两件或更多的事情和意图,需要通过语义分析,识别出没有关系的子意图(如今天天气怎么样再给我放首歌,包含了播放音乐、查看天气2个意图),把用户query切成一个个具有独立子意图的query供后续NLP模块进行处理。目标:针对有多意图的用户query,将其切割成一个个具有单意图的子query。要求:多意图query召回率90%,准确率97%。半年完成多意图query切割的初版上线,召回率能达到30%,准确率95%;长期需要收集问题持续优化,扩大召回率。
(六)语音处理
1、多路音频编解码算法:研发多路音频编解码器,利用麦克风阵列的时延、相关性等信息提高压缩比,有别于传统语音编码,需尽量保留ASR系统所需的语音特征信息和环境信息。目标:12个月内完成。对某种固定阵列拓扑结构上的多路麦克风信号进行音频压缩编码,用于阵列原始信号的存储和实时上传。性能要求: 6路麦克风阵列信号编码后的码率小于80kbps,解码后的单路信号质量争取不低于OPUS 24kbps。
2、嵌入式平台算法移植优化:移植阵列前端算法至特定嵌入式平台,如ARM A53/A35/A7/M4等,确保MIPS满足算法实时运行要求。目标:6个月内完成,降低前端算法在嵌入式平台上的MIPS消耗。性能指标:浮点C算法在ARM平台运算效率提升不低于3倍。
3、阵列前端算法的客观评价体系:研究不同唤醒和识别算法下,对前端的要求,确定客观指标,形成标准标准。目标:在语音唤醒和语音识别准备率为系统目标前提下,建立对阵列前端算法的客观评价标准,并且完成测试系统的开发。
4、频域WPE:结合信号处理等相关技术,确定在典型室内场景的解混响算法方案,并验证算法的实时性,鲁棒性方面的性能。目标:降低混响对语音识别的影响,6个月内完成。性能指标:SRMA(speech to reverberation modulation energy ratio) 5~7
5、低信噪比条件下多麦克风VAD:结合麦克风阵列,在低信噪比或信干比条件下,确定可行的高鲁棒端点检测VAD算法。目标:6个月内完成。提高低信噪比和信干比条件下VAD检测准确性,配合后面的语音增强算法获得更好的增强效果。性能指标:SNR/SIR -5dB情况下,6mic阵列场景下,VAD检测准确率在95%以上。
(七)智能问答
1、阅读理解:针对开放域自动问答用户提出的问题,阅读理解模型可从结构化和非结构化知识语料中,计算问题与段落的语义相关性,抽取并生成答案。
2、答案生成:针对用户的问题,更接近人类自然语言的回复方式有助于提升用户的体验.。通过相关方法抽取答案,并结合问题,进行语义分析,生成具有人类个性化风格的同义陈述。
3、关键词提取:在给定用户query的情况下,传统的TF-IDF不适用于提取关键词信息。为了更精准的搜索出相关内容并抽取答案,需要获取每个term的主题权重信息。
4、情绪监测:从用户的query中感知用户的情绪和态度对问答系统十分重要。问答系统会根据用户的情绪和态度采取不同的回复策略。除此以外,某些query也可能涉及政治或者低俗等敏感信息,都需要在query处理阶段考虑。
5、精品知识图谱: 主要包括艺术类知识库和本体库,并能实现自动更新,以便从文本中识别现实世界里艺术领域的概念或者实体,并抽取它们之间的语义关系。使之能够辅助艺术类的搜索,实现从关键字搜索到语义搜索、从文本链接到数据链接。并且能够辅助问答、决策以及相应的常识推理。
二、申报条件
(1)以美高梅4688集团am在编教师和学生为主组成的项目研发团队。项目负责人必须为美高梅4688集团am的在编教师。
(2)具备实施项目的良好条件和研发能力。
(3)申报课题围绕本指南所列的重点方向,也可结合小米人工智能产业布局提出相关研究课题。
三、申报方式
(1)小米公司-美高梅4688集团am人工智能联合实验室项目申请书(模版附后)。
(2)美高梅4688集团am盖章的在职人员证明。
(3)和课题相关的研究基础证明材料(论文、专利等)
将材料(1)、(2)和(3)的电子版以附件方式发至联合实验管理委员会邮箱whuailab@xiaomi.com和美高梅4688集团am科研办邮箱zhhpan@whu.edu.cn,邮件主题为:XXX-联合实验室项目申请书。(XXX为项目负责人姓名)。
四、申报时限
申报截止时间: 2018年7月31日。请项目申请人于截止期之前提交项目申请书及证明材料电子版,同时提交纸版材料1份(交美高梅4688集团am科研办潘志宏(电话:68775519)、周天飞(电话:68775530))。
注意:纸版材料必须与电子版材料一致!
五、资助额度
2018年拟资助不超过10个项目,单个项目最高资助额度不超过50万元。
六、知识产权补充说明
(1)联合实验室项目所取得的研究成果,知识产权(包括专利)归出资方小米公司所有,项目完成人员享有在有关最终技术成果文件上写明技术成果完成者的权利和取得有关荣誉证书、奖励的权利。合作中的研究成果由小米公司负责申请专利。未经小米公司事先书面同意,项目承担人不得不得以任何形式向第三方进行透露,也不得向第三方转让、许可知识产权,未经小米公司许可,也不得将研究成果进行商业化使用。
(2)项目承担人、将研发成果对外公开之前,包括但不限于发表论文(包括会议论文、期刊论文、学位论文)、参加学术会议、技术交流等,应事先得到小米公司的书面同意,并及时向小米公司反馈相关信息和进展。在事先经小米公司同意的前提下,项目团队基于联合实验室项目发表论文(包括会议论文、期刊论文、学位论文等)、发表演讲报告、参加学术会议、技术交流等时,均需注明成果受小米公司资助完成,发表论文由参与完成的人员署名。
(3)未经小米公司事前书面同意,承担项目团队不得将联合实验室项目的全部或一部分再委托给他人完成。否则小米公司有权停止合作,不支付任何款项。
(4)项目提交的成果需确保能用于小米公司的商业应用,如涉及已经存在的知识产权或独立于本项目之外获得的知识产权,为确保小米及其关联方有权商业利用本项目成果,项目完成团队应就涉及的知识产权应给予小米公司非排他的、不可转让的、永久的、不可撤销的、世界范围内的、免费的许可。如果有人提出法律或行政程序(合称“侵权指控”),声称小米公司或小米公司指定的第三方使用项目研究开发成果侵犯了其所有权或知识产权等合法权益,项目团队应当负责解决,并赔偿小米公司实际损失。