youtube

这是一些可能与本次比赛有关的阅读材料。原始数据集文件：

youtube-8M：大型视频分类基准：https：//arxiv./abs/1609.08675 上届比赛：

借助Context Gating进行视频分类的可学池：https : //arxiv./abs/1706.06905 YouTube-8M视频理解挑战的猴子式解决方案：https：//arxiv./abs/1706.05150 大规模Youtube-8M视频理解的时间建模方法：arxiv./abs/1707.04555 汇总帧级功能以进行大规模视频分类：arxiv./abs/1707.00803 高效大规模视频标记的深度学习方法：arxiv./abs/1706.04572 学生老师轻量级型号：

使用较少帧进行视频分类的师生网络：arxiv./abs/1805.04668 您也可以在网站上查看所有资料：https : //research.google./youtube8m/workshop2017/index.html

PS：去年所有解决方案都应提供源代码。

比赛官方提供的数据集都是tfrecord文件，通过分析tfrecord文件得到了视频的id和标签，然后作者通过统计绘制出前25个样本最多的标签如图1.之后，作者统计每个视频的标签，与前25个标签对比，取相同的标签，再与此视频的其他标签匹配，取第一个，然后赋予新的标签名，如 Game|Video game（等同于将一系列标签出现最多的两个标签合并成一个标签）如图2. 之后作者探索了帧级数据，统计了视频的数量以及最大帧是多少。最后作者使用双向lstm（Bi-lstm）进行分类，YouTube-8M数据集包含rgb和audio，分为帧级和视频级，所以共有四种要输入的数据分别为video_rgb、video_audio、frame_rgb、fram_audio。作者创建了两个bi-lstm层，一个用于rgb一个用于audio数据。合并bi-lstm输出的帧级特征然后通过批处理华和dropout层，同样对视频级特征也进行合并，最后将合并的帧级特征和视频级特征再进行合并、批处理、dropout，最后作者创建了和训练集样本大小和维度相同的数据集进行训练。最后作者创建了随机的测试集进行测试：

综上所述，这个代码是对YouTube-8M数据集的探索，数据集可视化，统计标签以及帧级数据的最大帧，视频数量等入门操作。代码在这

youtube

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

youtube

youtube

与本文相关的文章

评论列表(0)