本周AI热点回顾：文章自动变视频、无人出租今起免费坐、YOLO v4复活

日期： 2020-04-26 分类：跨站数据 434次阅读

YOLO项目复活，大神接过衣钵！

两个月前，YOLO 之父 Joseph Redmon 表示，由于无法忍受自己工作所带来的的负面影响，决定退出计算机视觉领域。此事引发了极大的热议，当我们都以为再也没有希望的时候，YOLO v4 却悄无声息地来了。这一目标检测神器出现了新的接棒者！

本月24日，YOLO 的官方 Github 账号更新了 YOLO v4 的 arXiv 链接与开源代码链接，迅速引起了 CV 社区的关注。YOLO v4 的作者共有三位：Alexey Bochkovskiy、Chien-Yao Wang 和 Hong-Yuan Mark Liao。其中一作 Alexey Bochkovskiy 是位俄罗斯开发者，此前曾做出 YOLO 的 windows 版本。

在相关论文中，研究者对比了 YOLOv4 和当前最优目标检测器，发现 YOLOv4 在取得与 EfficientDet 同等性能的情况下，速度是 EfficientDet 的二倍！此外，与 YOLOv3 相比，新版本的 AP 和 FPS 分别提高了 10% 和 12%。

许多特征可以提高 CNN 的准确率，然而真正实行起来，还需要在大型数据集上对这些特征组合进行实际测试，并且对测试结果进行理论验证。某些特征仅在某些模型上运行，并且仅限于特定的问题，或是只能在小型数据集上运行；而另外有些特征（如批归一化和残差连接）则适用于大多数模型、任务和数据集。

那么，如何利用这些特征组合呢？

YOLOv4 使用了以下特征组合，实现了新的 SOTA 结果：

加权残差连接（WRC）
Cross-Stage-Partial-connection，CSP
Cross mini-Batch Normalization，CmBN
自对抗训练（Self-adversarial-training，SAT）
Mish 激活（Mish-activation）
Mosaic 数据增强
DropBlock 正则化
CIoU 损失

据介绍，YOLOv4 在 MS COCO 数据集上获得了 43.5% 的 AP 值 (65.7% AP50)，在 Tesla V100 上实现了 ∼65 FPS 的实时速度。

该研究的主要贡献如下：

建立了一个高效强大的目标检测模型。它使得每个人都可以使用 1080Ti 或 2080Ti 的 GPU 来训练一个快速准确的目标检测器。
验证了当前最优 Bag-of-Freebies 和 Bag-of-Specials 目标检测方法在检测器训练过程中的影响。
修改了 SOTA 方法，使之更加高效，更适合单 GPU 训练。这些方法包括 CBN、PAN、SAM 等。

YOLO v4 论文：
https://arxiv.org/abs/2004.10934
YOLO v4 开源代码：
https://github.com/AlexeyAB/darknet

信息来源：机器之心

我什么都没做，文章就自动变成了视频？丨百度研究院出品

人工智能技术，现在可以实现自动剪视频了。只要有一篇现成的图文链接，AI就可以根据图文描述的主题，重新组织语言，自动搜寻素材，剪出一条短视频。换句话说，如果看到有意思的新闻却懒得读文章，那就把你在读的这篇文章的地址输入给AI，文章就自动变成了短视频。

而且，这个过程只需要几分钟的时间，完全无人化自动操作，你下楼买了杯咖啡，视频就自动做好了。这个“AI做视频”技术来自百度研究院，产品的名字，叫做VidPress。

本质上，VidPress是做的事情是“图文转视频”，把人类写好的图文稿件重新编辑成视频：

比较之下，你会发现视频和文章的文案部分都是类似的，但视频中用到的素材却远不止文章中这么少，增加了许多人物和场景的动态镜头，而且相当契合主题。整个视频都是AI生成的，视频编辑只需要给出一篇文章的链接，过几分钟，热腾腾的视频就出锅了。

用VidPress来做视频，不需要视频编辑有任何技术背景，会复制粘贴就行。

首先，把需要改成视频的文章地址复制，粘贴到VidPress。

然后，选择用哪个声音合成，确定所需视频的长度以及分辨率。

现在，视频编辑就可以放手让AI开始工作了。

获得图文内容后，AI会借助NLP模型进行语义理解，用主题模型聚合相关新闻和素材。

之后，需要分别完成音频和图像的编辑工作。

音频方面，系统会用多种语言模型处理解析原文，生成解说词，之后借助语音合成技术变成音频。

而图像方面，原文中的图片肯定是不太够的，需要再搜寻更多视频和图片素材。素材的来源可以是视频编辑自己的素材库，也可以直接实时的用百度搜索来找素材。

有了视频素材和解说词音频文件，需要把两者合二为一。在这个任务上，百度自研了两代对齐算法，第一代对齐算法是基于段落的对齐，第二代则是基于锚点的时间轴对齐算法。

第二代对齐的算法首先需要找出解说词里观众的兴趣点，然后再将搜到的素材和这些兴趣点,进行相关度打分，综合考虑素材的来源、相似度、图片/视频内容的贴合度、内容质量等方面。

之后，得分高的素材就率先被翻牌子，放到视频时间轴里兴趣点的位置。而剩下的素材就会被填充到空隙里，最后再对整个时间轴的内容分布进行调整。

现在，AI就把视频做好了，渲染一下，就是一个完整的视频。

信息来源：量子位

百度PaddleHub NLP模型全面升级，推理性能提升50%以上

PaddleHub为开发者提供了飞桨生态下的各类高质量预训练模型，涵盖了图像分类、目标检测、图像生成、图像分割、语义模型、词法分析、情感分析、文本审核、视频分类、关键点检测等场景。开发者可以直接使用这些预训练模型结合PaddleHub Fine-tune API快速完成迁移学习到应用部署的全流程工作。

如今，PaddleHub经过去年一年的打磨，变得更加成熟，最新的1.6版本震撼来袭，新增五大亮点！

1. 助力抗疫，新增口罩佩戴检测模型和CT影像肺炎分割模型。

在全国人民紧张抗疫的时刻，2月13日飞桨PaddleHub开源了业界首个口罩人脸检测及分类模型。基于该模型检测设备可以在公共场所中扫描大量人脸的同时，把佩戴口罩和未佩戴口罩的人脸分别标注出来，快速识别出不重视、不注意病毒防护、心存侥幸的人员，减少公众的防疫安全隐患，同时构建更多的防疫公益应用。

模型在线体验：

https://www.paddlepaddle.org.cn/hub/scene/maskdetect

模型使用示例：

https://aistudio.baidu.com/aistudio/projectdetail/267322

2. NLP预训练模型升级，增加文本鉴黄模型，助力文本审查工作。

随着AI技术的发展，人力成本不断提高，深度学习模型在各行各业的应用领域越来越广阔，用户对于深度学习模型的应用与性能需求也在不断的增多。因此PaddleHub与时俱进，将应用较为广泛的自然语言处理（NLP）领域的模型库全面升级。

Porn Detection模型介绍：

https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=TextCensorship

3. 全面集成Paddle Inference原生推理库，预测性能提升50%以上。

对于工业级部署而言，要求的条件往往非常繁多而且苛刻，例如推理速度快、内存占用小等等。新版本PaddleHub内置了飞桨原生推理库Paddle Inference。通过飞桨核心框架的计算图优化技术，针对不同平台和不同应用场景深度适配和优化,具备高吞吐、低时延的特点，使飞桨模型在服务器端可完成高性能预测部署。如图6所示，与升级前相比，无论是可直接推理模型（例如LAC、Senta），还是Fine-tune后的模型（例如ERNIE），其推理性能均提升50%以上。

4. 开放预训练模块制作流程，支持开发者贡献模块至PaddleHub平台。

在过去的一年中，PaddleHub的Fine-tune API功能受到广大用户的好评。同时了解到用户对于训练好的模型如何做到通过hub.Module(name="***")实现一键加载也十分感兴趣，而且将Fine-tune后模型用于部署推理成为了很多用户的刚需。相信有不少用户希望这道封印能够消失！

现在告诉大家一个“喜大普奔”的好消息！新版本PaddleHub开放预训练模型和Fine-tune模型转化为Module的流程，并且可以使用一键加载功能。

预训练模型转化为module教程：

https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/contribution/contri_pretrained_model.md

Fine-tune模型转化为module教程：

https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/tutorial/finetuned_model_to_module.md

5. 新增Bert Service文本向量服务，支持对任意文本获得高质量语义表示。

对句子的向量化表达提取是文本理解任务中的重要环节。Bert Service是基于Paddle Serving框架的快速模型部署远程计算服务方案，如下所示，它可以让开发者仅使用一行命令，就可将PaddleHub中丰富的语义预训练模型转换为文本向量服务。然后用户可以通过远程调用API接口的方式使任务文本转换为高质量的向量表达，完成特征提取工作。

信息来源：飞桨PaddlePaddle

无人出租今起免费坐，只恨不是长沙人

从今天起，出门打出租不仅不花钱，还是无人驾驶的那种。

4月19日，百度Apollo——就那个自动驾驶业务，决定在推出3周年之际，送出自己的羊毛和福利：

RoboTaxi——无人驾驶出租，人人可坐，一律免单，长沙人民率先尝鲜。

还有长沙妹子夸赞：“在长沙可以打无人车啦，太靓赛啦！”

去年，百度就在长沙率先投放了第一批RoboTaxi，而且所用车辆，均是与一汽红旗专门打造的L4量产车型。

而现在，初步运营期已过，从安全到驾驶体验都得到验证。

于是百度借着Apollo三周年之庆，给长沙——从市民到游客，只要来长沙，就能免费呼叫无人驾驶出租车：

Apollo的Robotaxi服务，正式接入百度App和百度地图两大应用，全面开放给长沙这座城市。无论是长沙本地的人民，还是来到长沙的客人们，都可以在130平方公里的范围内乘坐自动驾驶出租车出行。

与之前面向种子用户的试运营不同，现在，只要人在长沙，不需要经过报名、筛选等流程，享受自动驾驶的服务没有任何门槛。而乘客安全一样会得到保障，有安全员坐镇，并且还是免费乘坐。

这也意味着，人们期盼多年的自动驾驶，现在终于落地成真了。

这也是首个通过国民级应用向公众开放的无人驾驶出租服务。从中不仅可以看出百度Apollo的诚意——毕竟人人可坐全部免费，更能看出自信——对安全和体验的绝对信心。

信息来源：量子位

本周论文推荐

【ACL 2020 | 百度】Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

作者：Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

论文介绍：

本论文提出用图的形式捕捉对话转移规律作为先验信息，用于辅助开放域多轮对话策略学习。

基于图，本论文设计策略学习模型指导更加连贯和可控的多轮对话生成。首先，从对话语料库中构造一个对话图（CG），其中顶点表示“what to say”和“how to say”，边表示对话当前句与其回复句之间的自然转换。然后，本论文提出了一个基于 CG 的策略学习框架，该框架通过图形遍历进行对话流规划，学习在每轮对话时从 CG 中识别出哪个顶点和如何从该顶点来指导回复生成。

本方法可以有效地利用CG来促进对话策略学习，具体而言：

（1）可以基于它设计更有效的长期奖励；

（2）它提供高质量的候选操作；

（3）它让我们对策略有更多的控制。

本论文经过两个基准语料库上进行了实验，结果证明了本文所提框架的有效性。

END

除特别声明，本站所有文章均为原创，如需转载请以超级链接形式注明出处：SmartCat's Blog

上一篇： 23个系列分类网络，10万分类预训练模型，这是飞桨PaddleClas百宝箱

下一篇：不会算法也可以？学啥都能参加的AI大赛来了！

Young87

So happy to code my life!

本周AI热点回顾：文章自动变视频、无人出租今起免费坐、YOLO v4复活