Young87

SmartCat's Blog

So happy to code my life!

游戏开发交流QQ群号60398951

当前位置:首页 >跨站数据

本周AI热点回顾:文章自动变视频、无人出租今起免费坐、YOLO v4复活

01

YOLO项目复活,大神接过衣钵!

两个月前,YOLO 之父 Joseph Redmon 表示,由于无法忍受自己工作所带来的的负面影响,决定退出计算机视觉领域。此事引发了极大的热议,当我们都以为再也没有希望的时候,YOLO v4 却悄无声息地来了。这一目标检测神器出现了新的接棒者!

本月24日,YOLO 的官方 Github 账号更新了 YOLO v4 的 arXiv 链接与开源代码链接,迅速引起了 CV 社区的关注。YOLO v4 的作者共有三位:Alexey Bochkovskiy、Chien-Yao Wang 和 Hong-Yuan Mark Liao。其中一作 Alexey Bochkovskiy 是位俄罗斯开发者,此前曾做出 YOLO 的 windows 版本。

在相关论文中,研究者对比了 YOLOv4 和当前最优目标检测器,发现 YOLOv4 在取得与 EfficientDet 同等性能的情况下,速度是 EfficientDet 的二倍!此外,与 YOLOv3 相比,新版本的 AP 和 FPS 分别提高了 10% 和 12%。

许多特征可以提高 CNN 的准确率,然而真正实行起来,还需要在大型数据集上对这些特征组合进行实际测试,并且对测试结果进行理论验证。某些特征仅在某些模型上运行,并且仅限于特定的问题,或是只能在小型数据集上运行;而另外有些特征(如批归一化和残差连接)则适用于大多数模型、任务和数据集。

那么,如何利用这些特征组合呢?

YOLOv4 使用了以下特征组合,实现了新的 SOTA 结果:

  • 加权残差连接(WRC)

  • Cross-Stage-Partial-connection,CSP

  • Cross mini-Batch Normalization,CmBN

  • 自对抗训练(Self-adversarial-training,SAT)

  • Mish 激活(Mish-activation)

  • Mosaic 数据增强

  • DropBlock 正则化

  • CIoU 损失

据介绍,YOLOv4 在 MS COCO 数据集上获得了 43.5% 的 AP 值 (65.7% AP50),在 Tesla V100 上实现了 ∼65 FPS 的实时速度。

该研究的主要贡献如下:

  1. 建立了一个高效强大的目标检测模型。它使得每个人都可以使用 1080Ti 或 2080Ti 的 GPU 来训练一个快速准确的目标检测器。

  2. 验证了当前最优 Bag-of-Freebies 和 Bag-of-Specials 目标检测方法在检测器训练过程中的影响。

  3. 修改了 SOTA 方法,使之更加高效,更适合单 GPU 训练。这些方法包括 CBN、PAN、SAM 等。

  • YOLO v4 论文:

    https://arxiv.org/abs/2004.10934

  • YOLO v4 开源代码:

    https://github.com/AlexeyAB/darknet

信息来源:机器之心

02

我什么都没做,文章就自动变成了视频?丨百度研究院出品

人工智能技术,现在可以实现自动剪视频了。只要有一篇现成的图文链接,AI就可以根据图文描述的主题,重新组织语言,自动搜寻素材,剪出一条短视频。换句话说,如果看到有意思的新闻却懒得读文章,那就把你在读的这篇文章的地址输入给AI,文章就自动变成了短视频。

而且,这个过程只需要几分钟的时间,完全无人化自动操作,你下楼买了杯咖啡,视频就自动做好了。这个“AI做视频”技术来自百度研究院,产品的名字,叫做VidPress

本质上,VidPress是做的事情是“图文转视频”,把人类写好的图文稿件重新编辑成视频:

比较之下,你会发现视频和文章的文案部分都是类似的,但视频中用到的素材却远不止文章中这么少,增加了许多人物和场景的动态镜头,而且相当契合主题。整个视频都是AI生成的,视频编辑只需要给出一篇文章的链接,过几分钟,热腾腾的视频就出锅了。

用VidPress来做视频,不需要视频编辑有任何技术背景,会复制粘贴就行。

首先,把需要改成视频的文章地址复制,粘贴到VidPress。

然后,选择用哪个声音合成,确定所需视频的长度以及分辨率。

现在,视频编辑就可以放手让AI开始工作了。

获得图文内容后,AI会借助NLP模型进行语义理解,用主题模型聚合相关新闻和素材。

之后,需要分别完成音频和图像的编辑工作。

音频方面,系统会用多种语言模型处理解析原文,生成解说词,之后借助语音合成技术变成音频。

而图像方面,原文中的图片肯定是不太够的,需要再搜寻更多视频和图片素材。素材的来源可以是视频编辑自己的素材库,也可以直接实时的用百度搜索来找素材。

有了视频素材和解说词音频文件,需要把两者合二为一。在这个任务上,百度自研了两代对齐算法,第一代对齐算法是基于段落的对齐,第二代则是基于锚点的时间轴对齐算法。

第二代对齐的算法首先需要找出解说词里观众的兴趣点,然后再将搜到的素材和这些兴趣点,进行相关度打分,综合考虑素材的来源、相似度、图片/视频内容的贴合度、内容质量等方面。

之后,得分高的素材就率先被翻牌子,放到视频时间轴里兴趣点的位置。而剩下的素材就会被填充到空隙里,最后再对整个时间轴的内容分布进行调整。

现在,AI就把视频做好了,渲染一下,就是一个完整的视频。

信息来源:量子位

03

百度PaddleHub NLP模型全面升级,推理性能提升50%以上

PaddleHub为开发者提供了飞桨生态下的各类高质量预训练模型,涵盖了图像分类、目标检测、图像生成、图像分割、语义模型、词法分析、情感分析、文本审核、视频分类、关键点检测等场景。开发者可以直接使用这些预训练模型结合PaddleHub Fine-tune API快速完成迁移学习到应用部署的全流程工作。

如今,PaddleHub经过去年一年的打磨,变得更加成熟,最新的1.6版本震撼来袭,新增五大亮点!

1. 助力抗疫,新增口罩佩戴检测模型和CT影像肺炎分割模型。

在全国人民紧张抗疫的时刻,2月13日飞桨PaddleHub开源了业界首个口罩人脸检测及分类模型。基于该模型检测设备可以在公共场所中扫描大量人脸的同时,把佩戴口罩和未佩戴口罩的人脸分别标注出来,快速识别出不重视、不注意病毒防护、心存侥幸的人员,减少公众的防疫安全隐患,同时构建更多的防疫公益应用。

 

  • 模型在线体验:

https://www.paddlepaddle.org.cn/hub/scene/maskdetect

  • 模型使用示例:

https://aistudio.baidu.com/aistudio/projectdetail/267322

2. NLP预训练模型升级,增加文本鉴黄模型,助力文本审查工作。

随着AI技术的发展,人力成本不断提高,深度学习模型在各行各业的应用领域越来越广阔,用户对于深度学习模型的应用与性能需求也在不断的增多。因此PaddleHub与时俱进,将应用较为广泛的自然语言处理(NLP)领域的模型库全面升级。


  • Porn Detection模型介绍:

https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=TextCensorship

3. 全面集成Paddle Inference原生推理库,预测性能提升50%以上。

对于工业级部署而言,要求的条件往往非常繁多而且苛刻,例如推理速度快、内存占用小等等。新版本PaddleHub内置了飞桨原生推理库Paddle Inference。通过飞桨核心框架的计算图优化技术,针对不同平台和不同应用场景深度适配和优化,具备高吞吐、低时延的特点,使飞桨模型在服务器端可完成高性能预测部署。如图6所示,与升级前相比,无论是可直接推理模型(例如LAC、Senta),还是Fine-tune后的模型(例如ERNIE),其推理性能均提升50%以上。

4. 开放预训练模块制作流程,支持开发者贡献模块至PaddleHub平台。

在过去的一年中,PaddleHub的Fine-tune API功能受到广大用户的好评。同时了解到用户对于训练好的模型如何做到通过hub.Module(name="***")实现一键加载也十分感兴趣,而且将Fine-tune后模型用于部署推理成为了很多用户的刚需。相信有不少用户希望这道封印能够消失!

现在告诉大家一个“喜大普奔”的好消息!新版本PaddleHub开放预训练模型和Fine-tune模型转化为Module的流程,并且可以使用一键加载功能。

 

  • 预训练模型转化为module教程:

https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/contribution/contri_pretrained_model.md

 

  • Fine-tune模型转化为module教程:

https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/tutorial/finetuned_model_to_module.md

5. 新增Bert Service文本向量服务,支持对任意文本获得高质量语义表示。


对句子的向量化表达提取是文本理解任务中的重要环节。Bert Service是基于Paddle Serving框架的快速模型部署远程计算服务方案,如下所示,它可以让开发者仅使用一行命令,就可将PaddleHub中丰富的语义预训练模型转换为文本向量服务。然后用户可以通过远程调用API接口的方式使任务文本转换为高质量的向量表达,完成特征提取工作。

信息来源:飞桨PaddlePaddle

04

无人出租今起免费坐,只恨不是长沙人

从今天起,出门打出租不仅不花钱,还是无人驾驶的那种。

4月19日,百度Apollo——就那个自动驾驶业务,决定在推出3周年之际,送出自己的羊毛和福利:

RoboTaxi——无人驾驶出租,人人可坐,一律免单,长沙人民率先尝鲜。

还有长沙妹子夸赞:“在长沙可以打无人车啦,太靓赛啦!”

去年,百度就在长沙率先投放了第一批RoboTaxi,而且所用车辆,均是与一汽红旗专门打造的L4量产车型。

而现在,初步运营期已过,从安全到驾驶体验都得到验证。

于是百度借着Apollo三周年之庆,给长沙——从市民到游客,只要来长沙,就能免费呼叫无人驾驶出租车:

Apollo的Robotaxi服务,正式接入百度App和百度地图两大应用,全面开放给长沙这座城市。无论是长沙本地的人民,还是来到长沙的客人们,都可以在130平方公里的范围内乘坐自动驾驶出租车出行。

与之前面向种子用户的试运营不同,现在,只要人在长沙,不需要经过报名、筛选等流程,享受自动驾驶的服务没有任何门槛。而乘客安全一样会得到保障,有安全员坐镇,并且还是免费乘坐。

这也意味着,人们期盼多年的自动驾驶,现在终于落地成真了。

这也是首个通过国民级应用向公众开放的无人驾驶出租服务。从中不仅可以看出百度Apollo的诚意——毕竟人人可坐全部免费,更能看出自信——对安全和体验的绝对信心。

信息来源:量子位

05

本周论文推荐

【ACL 2020 | 百度】Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

作者:Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

论文介绍:

本论文提出用图的形式捕捉对话转移规律作为先验信息,用于辅助开放域多轮对话策略学习。

基于图,本论文设计策略学习模型指导更加连贯和可控的多轮对话生成。首先,从对话语料库中构造一个对话图(CG),其中顶点表示“what to say”和“how to say”,边表示对话当前句与其回复句之间的自然转换。然后,本论文提出了一个基于 CG 的策略学习框架,该框架通过图形遍历进行对话流规划,学习在每轮对话时从 CG 中识别出哪个顶点和如何从该顶点来指导回复生成。

本方法可以有效地利用CG来促进对话策略学习,具体而言:

(1)可以基于它设计更有效的长期奖励;

(2)它提供高质量的候选操作;

(3)它让我们对策略有更多的控制。

本论文经过两个基准语料库上进行了实验,结果证明了本文所提框架的有效性。

END

除特别声明,本站所有文章均为原创,如需转载请以超级链接形式注明出处:SmartCat's Blog

上一篇: 23个系列分类网络,10万分类预训练模型,这是飞桨PaddleClas百宝箱

下一篇: 不会算法也可以?学啥都能参加的AI大赛来了!

精华推荐