youtube
这是一些可能与本次比赛有关的阅读材料。 原始数据集文件:
youtube-8M:大型视频分类基准:https://arxiv./abs/1609.08675 上届比赛:
借助Context Gating进行视频分类的可学池:https : //arxiv./abs/1706.06905 YouTube-8M视频理解挑战的猴子式解决方案:https://arxiv./abs/1706.05150 大规模Youtube-8M视频理解的时间建模方法:arxiv./abs/1707.04555 汇总帧级功能以进行大规模视频分类:arxiv./abs/1707.00803 高效大规模视频标记的深度学习方法:arxiv./abs/1706.04572 学生老师轻量级型号:
使用较少帧进行视频分类的师生网络:arxiv./abs/1805.04668 您也可以在网站上查看所有资料:https : //research.google./youtube8m/workshop2017/index.html
PS:去年所有解决方案都应提供源代码。
比赛官方提供的数据集都是tfrecord文件,通过分析tfrecord文件得到了视频的id和标签,然后作者通过统计绘制出前25个样本最多的标签如图1.之后,作者统计每个视频的标签,与前25个标签对比,取相同的标签,再与此视频的其他标签匹配,取第一个,然后赋予新的标签名,如 Game|Video game(等同于将一系列标签出现最多的两个标签合并成一个标签)如图2. 之后作者探索了帧级数据,统计了视频的数量以及最大帧是多少。 最后作者使用双向lstm(Bi-lstm)进行分类,YouTube-8M数据集包含rgb和audio,分为帧级和视频级,所以共有四种要输入的数据分别为video_rgb、video_audio、frame_rgb、fram_audio。作者创建了两个bi-lstm层,一个用于rgb一个用于audio数据。合并bi-lstm输出的帧级特征然后通过批处理华和dropout层,同样对视频级特征也进行合并,最后将合并的帧级特征和视频级特征再进行合并、批处理、dropout,最后作者创建了和训练集样本大小和维度相同的数据集进行训练。 最后作者创建了随机的测试集进行测试:
综上所述,这个代码是对YouTube-8M数据集的探索,数据集可视化,统计标签以及帧级数据的最大帧,视频数量等入门操作。代码在这
youtube