国产疯狂女同互磨高潮在线看,国产羞辱调教无码的视频,国产第一页浮力影院入口,国产精品二代

您當(dāng)前的位置: 首頁(yè) > 人才培養(yǎng) > 本科生培養(yǎng) > 本科生教學(xué) > 正文

2022中國(guó)高校計(jì)算機(jī)大賽-微信大數(shù)據(jù)挑戰(zhàn)賽

發(fā)布時(shí)間:2022-04-20 15:12    瀏覽次數(shù):    來(lái)源:


賽題描述

多模態(tài)短視頻分類

多模態(tài)短視頻分類是視頻理解領(lǐng)域的基礎(chǔ)技術(shù)之一,在安全審核、推薦運(yùn)營(yíng)、內(nèi)容搜索等領(lǐng)域有著十分非常廣泛的應(yīng)用。 一條短視頻中通常包含有三種模態(tài)信息,即文本、音頻、視頻, 它們?cè)诓煌Z(yǔ)義層面的分類體系中發(fā)揮著相互促進(jìn)和補(bǔ)充的重要作用。 微信產(chǎn)品的內(nèi)容生態(tài)繁榮,創(chuàng)作者覆蓋范圍大, 導(dǎo)致短視頻數(shù)據(jù)中普遍存在著模態(tài)缺失、相關(guān)性弱、分類標(biāo)簽分布不均衡等問(wèn)題,是實(shí)際應(yīng)用中需要著重解決的技術(shù)難點(diǎn)。 本賽題要求參賽隊(duì)伍基于微信視頻號(hào)短視頻數(shù)據(jù)以及對(duì)應(yīng)的分類標(biāo)簽標(biāo)注,采用合理的機(jī)器學(xué)習(xí)技術(shù)對(duì)指定的測(cè)試短視頻進(jìn)行分類預(yù)測(cè)。

比賽分為初賽和復(fù)賽兩個(gè)階段: 初賽階段提供百萬(wàn)量級(jí)的無(wú)標(biāo)注數(shù)據(jù)和十萬(wàn)量級(jí)的有標(biāo)注數(shù)據(jù)用于訓(xùn)練; 復(fù)賽階段訓(xùn)練數(shù)據(jù)和初賽相同,主要區(qū)別是初賽階段只提供視頻抽幀特征,而復(fù)賽階段提供視頻抽幀原始圖像。 初賽階段所有訓(xùn)練數(shù)據(jù)對(duì)參賽隊(duì)伍開(kāi)放下載; 復(fù)賽階段的訓(xùn)練數(shù)據(jù)為閉源數(shù)據(jù),參賽隊(duì)伍在騰訊云TI-ONE平臺(tái)完成訓(xùn)練。

初賽將于北京時(shí)間5月20日10:00開(kāi)放,報(bào)名參賽后即可下載數(shù)據(jù)集。

賽題描述 —— 多模態(tài)短視頻分類

??多模態(tài)短視頻分類是視頻理解領(lǐng)域的基礎(chǔ)技術(shù)之一,在安全審核、推薦運(yùn)營(yíng)、內(nèi)容搜索等領(lǐng)域有著十分非常廣泛的應(yīng)用。一條短視頻中通常包含有三種模態(tài)信息,即文本、音頻、視頻,它們?cè)诓煌Z(yǔ)義層面的分類體系中發(fā)揮著相互促進(jìn)和補(bǔ)充的重要作用。微信產(chǎn)品的內(nèi)容生態(tài)繁榮,創(chuàng)作者覆蓋范圍大,導(dǎo)致短視頻數(shù)據(jù)中普遍存在著模態(tài)缺失、相關(guān)性弱、分類標(biāo)簽分布不均衡等問(wèn)題,是實(shí)際應(yīng)用中需要著重解決的技術(shù)難點(diǎn)。本賽題要求參賽隊(duì)伍基于微信視頻號(hào)短視頻數(shù)據(jù)以及對(duì)應(yīng)的分類標(biāo)簽標(biāo)注,采用合理的機(jī)器學(xué)習(xí)技術(shù)對(duì)指定的測(cè)試短視頻進(jìn)行分類預(yù)測(cè)。

一、競(jìng)賽數(shù)據(jù)

??比賽分為初賽和復(fù)賽兩個(gè)階段:初賽階段提供百萬(wàn)量級(jí)的無(wú)標(biāo)注數(shù)據(jù)和十萬(wàn)量級(jí)的有標(biāo)注數(shù)據(jù)用于訓(xùn)練;復(fù)賽階段訓(xùn)練數(shù)據(jù)和初賽相同,主要區(qū)別是初賽階段只提供視頻抽幀特征,而復(fù)賽階段提供視頻抽幀原始圖像。初賽階段所有訓(xùn)練數(shù)據(jù)對(duì)參賽隊(duì)伍開(kāi)放下載;復(fù)賽階段的訓(xùn)練數(shù)據(jù)為閉源數(shù)據(jù),參賽隊(duì)伍在騰訊云TI-ONE平臺(tái)完成訓(xùn)練。

??1. 數(shù)據(jù)格式

字段名

類型

舉例

說(shuō)明

備注

id

String

13655102198344648800

視頻唯一ID


category_id

String

2117

人工標(biāo)注的視頻分類ID

category_id 固定為4位字符:前兩位為一級(jí)分類ID,后兩位對(duì)應(yīng)一級(jí)分類下的二級(jí)分類ID。

title

String

蘇炳添刷新亞洲記錄小組第一輕松晉級(jí)百米決賽#奧運(yùn)@微信時(shí)刻

視頻標(biāo)題

可能存在空值。

frames_feature

float list

[ [0.89, 1.86, -4.67, -4.38, ...], [0.13, 1.11, -2.12, -3.24, ...], ]

視頻幀的特征

使用預(yù)訓(xùn)練模型提取的視頻幀特征。每秒抽取一幀進(jìn)行提取。每個(gè)視頻最多提供前32幀的特征,超出的部分不會(huì)被使用。

frames

String

13655102198344648800.zip

視頻幀打包的路徑

視頻幀的原始圖像。每秒抽取一幀。每個(gè)視頻最多提供前32幀圖像,用zip打包。該字段僅在復(fù)賽階段提供。

asr

String

蘇炳添小組第一蘇炳添創(chuàng)造了歷史,他成為了第一個(gè)進(jìn)入奧運(yùn)會(huì)百米飛人決戰(zhàn)的黃種人。創(chuàng)造了中國(guó)田徑新的紀(jì)錄。

視頻的音頻轉(zhuǎn)文本識(shí)別

可能存在空值。

ocr

dict list

[{"time": 0, "text": "蘇炳添創(chuàng)造新紀(jì)錄榮獲小組第一"}, ...]

視頻的OCR識(shí)別

該字段為一個(gè)列表,記錄了不同時(shí)刻的OCR識(shí)別結(jié)果。相鄰幀的重復(fù)識(shí)別已被去除。最多提供前32秒的OCR結(jié)果。可能存在空值。

字段名

類型

舉例

說(shuō)明

備注

2. 數(shù)據(jù)集


??比賽提供的數(shù)據(jù)集有三個(gè)類別:無(wú)標(biāo)注訓(xùn)練數(shù)據(jù)集、有標(biāo)注訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集。各類數(shù)據(jù)集具體包含字段如下表所示。


字段

初賽

復(fù)賽

訓(xùn)練數(shù)據(jù)集

測(cè)試數(shù)據(jù)集

訓(xùn)練數(shù)據(jù)集

測(cè)試數(shù)據(jù)集

無(wú)標(biāo)注

有標(biāo)注

無(wú)標(biāo)注

有標(biāo)注

id

category_id

×

×

×

×

title

frames_feature

×

×

×

frames

×

×

×

asr

ocr


?3. 提交結(jié)果格式


??參賽者需要提交所有測(cè)試集的category_id,具體要求如下:


1. 測(cè)試結(jié)果寫(xiě)入到一個(gè) csv 文件中進(jìn)行提交。


2. csv文件中包含兩列:id 和 category_id,中間用逗號(hào)分隔。


3. csv文件的行數(shù)應(yīng)與測(cè)試集的樣本數(shù)量相同。視頻 id 順序可以不同。


官方baseline代碼中 inference.py 有生成提交文件的樣例。

二、評(píng)估標(biāo)準(zhǔn)


??分類的評(píng)估指標(biāo)采用F1,由于有多個(gè)類別,而且類別不均衡,所以同時(shí)采用F1 micro和F1 macro,取平均值。同時(shí),分類體系包含一級(jí)分類和二級(jí)分類,在評(píng)測(cè)中會(huì)分別計(jì)算并取平均值。F1 指標(biāo)的定義與計(jì)算可以參考 sklearn 文檔。


??最終指標(biāo)為:


??(category1_f1_micro + category1_f1_macro + category2_f1_micro + category2_f1_macro) / 4


??考慮實(shí)際使用,我們希望參賽選手使用的模型是簡(jiǎn)單而高效的,不鼓勵(lì)使用超大模型和各種復(fù)雜ensemble。所以在復(fù)賽階段,我們將限定模型大小并對(duì)運(yùn)行時(shí)間做出限制,要求選手提供docker,包含測(cè)試代碼,由官方調(diào)用。

三、其他說(shuō)明

??1. 本項(xiàng)比賽全程不允許使用外部數(shù)據(jù)集。

??2. 允許使用開(kāi)源的詞典、embedding和預(yù)訓(xùn)練模型,以上數(shù)據(jù)和模型需在復(fù)賽開(kāi)始前開(kāi)源,且需通過(guò)郵件的形式報(bào)備開(kāi)源鏈接地址和md5,報(bào)備郵箱為wechat_algo@tencent.com。

比賽流程

本次大賽分為報(bào)名&組隊(duì)、初賽、復(fù)賽和決賽等四個(gè)階段。

1.報(bào)名&組隊(duì)4月26日–6月21日

參賽選手須在大賽官網(wǎng)或小程序“微信大數(shù)據(jù)挑戰(zhàn)賽”上報(bào)名并且組隊(duì)參賽。

2.初賽5月20日–6月22日

參賽隊(duì)伍可從大賽官方網(wǎng)站下載數(shù)據(jù),在本地進(jìn)行算法調(diào)試,并在線提交結(jié)果。

3.復(fù)賽7月1日–8月5日

復(fù)賽階段測(cè)試數(shù)據(jù)不可見(jiàn)且不可下載,采用docker鏡像的方式進(jìn)行提交。

4.決賽8月下旬–*

決賽將以現(xiàn)場(chǎng)答辯會(huì)的形式進(jìn)行,具體要求和安排另行通知。

獎(jiǎng)項(xiàng)設(shè)置

大賽獎(jiǎng)項(xiàng)分為初賽獎(jiǎng)項(xiàng)、復(fù)賽獎(jiǎng)項(xiàng)、決賽獎(jiǎng)項(xiàng)、在校學(xué)生隊(duì)伍獎(jiǎng)項(xiàng)和周周星獎(jiǎng)項(xiàng)。

決賽獎(jiǎng)項(xiàng)獎(jiǎng)金總額現(xiàn)金¥ 520,000

決賽第1名:獎(jiǎng)金30萬(wàn)元+證書(shū)

決賽第2名:獎(jiǎng)金10萬(wàn)元+證書(shū)

決賽第3名:獎(jiǎng)金6萬(wàn)元+證書(shū)

決賽第4-6名:獎(jiǎng)金2萬(wàn)元+證書(shū)

復(fù)賽與初賽獎(jiǎng)項(xiàng)獎(jiǎng)金總額現(xiàn)金¥ 40,000

復(fù)賽第7-10名:獎(jiǎng)金1萬(wàn)元+證書(shū)

復(fù)賽第11-30名:證書(shū)

初賽Top110:證書(shū)

在校學(xué)生隊(duì)伍獎(jiǎng)項(xiàng)

全國(guó)獎(jiǎng)證書(shū)

對(duì)復(fù)賽學(xué)生隊(duì)伍單獨(dú)排名

1-10名:全國(guó)一等獎(jiǎng)證書(shū)

11-30名:全國(guó)二等獎(jiǎng)證書(shū)

31名-:全國(guó)三等獎(jiǎng)證書(shū)

周周星獎(jiǎng)勵(lì)

紀(jì)念禮物

參賽同學(xué)請(qǐng)加新葡的京集團(tuán)4321參賽交流群QQ620388397

競(jìng)賽官方宣傳地址https://algo.weixin.qq.com/



版權(quán)所有:新葡的京集團(tuán)4321(中國(guó))有限公司 

地址:新葡的京集團(tuán)4321開(kāi)發(fā)區(qū)校區(qū)    

電話:0411-62273207