大数据文摘专栏作品作者:Christopher Dossman编译:Jiaxu、fuma、云舟呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家晤面啦!AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。每周更新,做AI科研,每周从这一篇开始就够啦!本周关键词:工具检测、BERT、视频明白本周最佳研究深度学习再进一步:工具检测全回首最近,研究人员对深度学习在视觉目的检测方面的最新希望举行了全面的研究。他们回首了大量最新的工具检测事情,并系统地分析了当前的工具检测框架。
他们的研究包罗工具检测器组件、机械学习计谋、实际应用和基准评估。他们还讨论了未来的生长偏向,以促进深度学习的视觉工具检测。虽然深度学习理论一直在不停地创新,但最重要的是它们的应用。不行否认,在当今的人工智能系统中,工具检测是一项重要的技术。
例如,它被用于最先进的驾驶辅助系统(ADAS)中,该系统允许汽车识别车道或检测行人和其他物体,以提高行驶宁静。它在视频监控和图像检索应用中也很有用。
这一事情有助于以结构化、系统的方式展示当前在工具检测方面的孝敬。通过这种方式,到现在为止,人工智能社区通过深度学习获得了对工具检测的全面明白。
此外,这项事情有助于引发对未来工具检测方法和应用的研究事情。原文链接:https://arxiv.org/abs/1908.03673v1用BERT做标志息争析:更简朴、更准确美国埃默里大学(Emory University)的研究人员最近提出了一种新的模型,使用BERT作为词性标志、语法分析和语义分析任务的标志级嵌入。
这是第一个使用BERT举行语法和语义分析的项目,它比传统方法简朴得多,但同时却更准确。对于这三项任务中的每一项,研究人员都复制并简化了当前最先进的方法,提高了模型效率。
然后,他们使用BERT生成的token嵌入来评估任务的简化方法。深度学习方法通常需要大量的盘算和影象。现在看来,研究人员已经从语法、语义和多语言视角发现了BERT有趣的特性。
这项事情讲明,可以使用更简朴的模型来处置惩罚标志息争析。平均而言,在不损失精度的情况下,所提出的BERT模型比现有的性能最好的模型性能横跨2.5%。
研究人员和整小我私家工智能社区现在可以使用和革新这些模型,为未来建设强大的基准线。代码链接:https://github.com/emorynlp/bert-2019原文链接:https://arxiv.org/abs/1908.04943使用时间周期一致性(TCC)学习的视频明白为相识决当前逐帧视频跟踪中存在的问题,谷歌的研究人员提出了一种潜在的解决方案,纵然用一种名为时间周期一致性学习(TCC)的自监视学习方法。该方法使用相似序列历程中实例间的对应关系,学习适合于细粒度时间视频明白的表现形式。该模型的主要目的是学习帧编码器,使用网络架构处置惩罚图像,通过编码器将所有视频帧举行对齐,从而发生相应的嵌入。
研究讲明,每一帧嵌入都具有显著的潜力,可以实现一系列有趣的应用,包罗无监视视频对齐、少镜头行动相位分类、视频间模态传输、视频帧检索等。随着对细粒度标志的需求不停增长,这项事情刺激了对可伸缩学习模型的需求,这种模型可以明白视频,而不需要像机械人、体育分析等应用法式那样繁琐的标志历程。包罗TCC在内的代码已经公布,可以资助视频明白方面的研究人员和希望使用机械学习实现视频对齐的艺术家们更好的事情。
原文链接:https://ai.googleblog.com/2019/08/video-understanding-using-temporal.html用于异常声音检测的小型机械运转数据集NTT媒体智能实验室与日本立命馆大学互助推出了一个新的数据集“ToyADMOS”,用于机械操作声音(ADMOS)中的异常检测。为了建设一个大规模的ADMOS数据集,研究人员通过居心破坏机械来收集微型机械的异常操作声音。
ToyADMOS约莫有540小时的正常机械操作声音,包罗凌驾12,000个异常声音样本,使用采样率为48 kHz的四个麦克风收集。它由三个子数据集组成,一个用于机械状态检查,一个具有几何形状牢固任务下的机械故障诊断,一个具有移动任务下的机械故障诊断。
每个子数据集包罗凌驾180小时的正常机械操作声音和凌驾4,000个异常声音样本,使用四个麦克风以48 kHz采样率收集。ToyADMOS数据集可以资助推动ADMOS系统的设计,这为深度学习研究进入异常声音检测领域打下了良好的基础。
代码链接:https://github.com/YumaKoizumi/ToyADMOS-dataset原文链接:https://arxiv.org/abs/1908.03299通过盘算机视觉往返答问题VideoNavQA是一个新的数据集,包罗在House3D情况中生成的成对问题和视频。这一新公布的数据集能够从近乎理想的导航路径评估问答性能,同时思量比当前EQA任务实例更全面的问题荟萃。
他们在新的基准测试中,从常见的VQA方法中研究了许多模型。他们的事情开端相识了VQA气势派头的方法在这种新颖的EQA规范中的体现。VideoNavQA数据集在很大水平上有助于研究EQA类型任务的实用性,它可以资助我们更好地明白EQA领域中的可实现内容,以及情况中富厚的元素。
这项事情更像是Habitat Challenge的增补任务,其重点是导航,而纷歧定是问题回覆。原文:https://arxiv.org/abs/1908.04950其他爆款论文数据集和随之而来的挑战,勉励盘算机视觉社区解决非洲粮食宁静问题:https://arxiv.org/abs/1908.02900v1Google AI:改善语音障碍患者的ASR:https://ai.googleblog.com/2019/08/project-euphonias-personalized-speech.html基于深度学习,由语言驱动的面部心情动画:https://arxiv.org/abs/1908.03904实现语音分析中隐私掩护的框架:https://arxiv.org/abs/1908.03632Fog Robotics的现状及其应用: https://arxiv.org/abs/1908.04935 AI新闻Nvidia大幅提升BERT,53分钟完成训练,2.2毫秒发生效果:https://www.zdnet.com/article/nvidias-ai-advance-natural-language-processing-gets-faster-and-better-all-the-time/麻省理工学院使用人工智能实现分子生产自动化:https://news.mit.edu/2019/automate-molecule-production-ai-0808专栏作者先容Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。
他是深度学习系统部署方面的专家,在开发新的AI产物方面拥有富厚的履历。除了卓越的工程履历,他还教授了1000名学生相识深度学习基础。LinkedIn:https://www.linkedin.com/in/christopherdossman/。
本文来源:澳门威斯尼斯8883入口-www.sddonghe.cn