【Wiki】VoxCeleb数据库audio部分注解
VoxCeleb数据库下载,简介,及年龄信息的添加方法
简介
分为VoxCeleb1 和 VoxCeleb2两个部分。
每个数据库有三个部分:
1)URLs和时间戳:包含每个youtube video的URLs和时间戳。
下载后得到一个后缀为 _txt.zip的文件,解压后,所有信息以文件夹形式呈现,文件夹名称为speaker id,示例如下:
点击进入后,得到speaker id所对应的URL信息,示例如下:
这些文件夹名为URLs的最后几位,用 https://www.youtube.com/watch?v= 补全后,能够链接到该speaker id 所指代的人的YouTube video。示例如下:https://www.youtube.com/watch?v=_raOc3-IRsw
点击文件夹进入后,得到 frame X Y W H等信息,这些信息对语音相关的算法而言,可略过。
2)Audio files:音频
3)Metadata:speakers的id、国籍、性别标签等信息。voxCeleb1中还包含speaker的全名,可以通过wikidb直接获取speaker的出生日期,但voxCeleb2没有该信息,需要通过YouTube url获取说话人的全名。
无账号下载
使用迅雷,通过添加链接的方式下载。【新建】>>【添加链接或口令】。附图如下:
Voxceleb Enrichment(增添age info)
原文
https://arxiv.org/pdf/2109.13510.pdf
原数据库不包含说话人的年龄信息,该文提出了获取speaker年龄和性别的可靠方法。其流程如下:
Code in JupyterNotebook
详细实现可参照如下链接:https://github.com/hechmik/voxceleb_enrichment_age_gender
更多推荐
所有评论(0)