論壇
排行
專題
Collection
學(xué)院設(shè)施
登錄
加入學(xué)院
搜索
本版
用戶
每日簽到
任務(wù)中心
勛章中心
發(fā)帖際遇
貝殼夢(mèng)
PassWord
RoseTta
海龜湯之謎
邏輯訓(xùn)練場
求助專區(qū)
推理謎題數(shù)據(jù)集?
回復(fù)
推理謎題數(shù)據(jù)集?
樓主:
238086
|
查看:
2960
|
回復(fù):
8
查看:
2960
|
回復(fù):
8
[其他求助]
推理謎題數(shù)據(jù)集?
簡潔模式
238086
發(fā)表于 2023-11-8 00:12:33
廣西
|
2023-11-8 15:27編輯
|
來自小霸王手機(jī)
大家好,
我是一名自然語言處理(NLP)方向的科研人員。目前大規(guī)模語言模型(LLM)的推理能力是人工智能(AI)研究的一個(gè)熱點(diǎn)。
我曾經(jīng)了解過一些推理故事,玩過一些偵探游戲,我個(gè)人覺得推理謎題——尤其是各種信息互相矛盾/互相關(guān)聯(lián)的謎題——非常適合用來研究LLM用作agent(我也不知道怎么翻譯好)進(jìn)行鏈狀、樹狀、圖狀的復(fù)雜推理。
目前世界上的相關(guān)研究并不多,面臨最大的難處是沒有可用的開源數(shù)據(jù)集,因?yàn)椴还_的數(shù)據(jù)集會(huì)導(dǎo)致實(shí)驗(yàn)不可復(fù)現(xiàn),這在AI研究中是不被接受的:大部分LLM復(fù)雜推理的工作只能靠作者人工構(gòu)造任務(wù),如排序、24點(diǎn)等,這些小任務(wù)并不能全面反映模型的推理能力;今年初曾有一篇論文與國外偵探推理網(wǎng)站合作,用網(wǎng)站數(shù)據(jù)做了一個(gè)數(shù)據(jù)集并公開發(fā)表(名為True Detective),但形式僅限于選擇題,且故事篇幅較短(一般約200-300個(gè)詞);7月有一篇arxiv預(yù)印版論文在數(shù)據(jù)收集一節(jié)只說他們是從網(wǎng)上收集公開的謎題,但檢驗(yàn)方式?jīng)]寫清楚(實(shí)驗(yàn)結(jié)果只報(bào)了分?jǐn)?shù),文中沒寫清楚是什么分?jǐn)?shù))。
我希望大家能給我一些建議,有沒有可能找到開源的推理謎題庫?什么語言都可以,因?yàn)槲业难芯糠较蚴莔ultilinguality(多語言性?),我會(huì)用機(jī)器翻譯模型把謎題翻譯成中英法德等多種語言。
5
2
分享
140774
1
|
發(fā)表于 2023-11-8 10:22:43
廣東
一直就在想會(huì)不會(huì)有推理愛好者大神用謎題訓(xùn)練AI,還真的有人做了
之前在某發(fā)展史里聽說推理謎題是國內(nèi)論壇獨(dú)有的類型,國外推理網(wǎng)站上的題目大多就是像你說的那種一分鐘破案級(jí)別的。而且現(xiàn)在推理謎題創(chuàng)作和發(fā)表基本都分散在在論壇、社刊、公眾號(hào)和群之類,現(xiàn)成的完整謎題庫是不會(huì)有
學(xué)院的三百道官方活動(dòng)題和一些優(yōu)質(zhì)謎題不曉得能不能行,還有其他一些曾有大量謎題的論壇,就是版權(quán)有一部分屬于原作者,處理起來不知道會(huì)不會(huì)比較麻煩
@名偵探小品
考慮一下賺錢機(jī)會(huì)(bushi)?
208251
1
|
發(fā)表于 2023-11-8 16:16:02
陜西
|
2023-11-8 16:19編輯
你們對(duì)版權(quán)風(fēng)險(xiǎn)的要求,是事先就要確保題庫中的題都不侵權(quán),還是類似避風(fēng)港事后侵刪?
只是數(shù)據(jù)集的話,隔壁推理罪有個(gè)
題庫
(不少三分鐘推理題),腦殼也是個(gè)大
題庫
(里面有專門的推理故事分類),還有重量不重質(zhì)的
33IQ
,都可聯(lián)系站長尋求合作的可能。但這三個(gè),加上學(xué)院的案發(fā)現(xiàn)場邏輯學(xué)院倆板塊,細(xì)摳起來,都有不少未經(jīng)授權(quán)的轉(zhuǎn)載題,之所以還沒被刪只是還沒被人舉報(bào)罷了,直接拿去做數(shù)據(jù)集(即使他們的站長同意也)可能有第三方侵權(quán)風(fēng)險(xiǎn)。
另外,你想找廣義的puzzle題庫(包括密碼、腦筋急轉(zhuǎn)彎、謎語、圖形、數(shù)學(xué)趣題、puzzle hunt題型等),還是狹義的“偵探故事”類題庫?若是前者,
puzzling.stackexchange.com
也是不錯(cuò)的來源,而且pse社群很重版權(quán),上面的題目都是以CC-BY-SA licence with attribution required發(fā)布,且格式良好,挺適合做數(shù)據(jù)集的,不過偵探故事類題不多
107696
0
|
發(fā)表于 2023-11-8 16:23:25
廣東
|
發(fā)自
安卓客戶端
哥們厲害了,雖然我不能提供這個(gè)數(shù)據(jù)庫或者有關(guān)信息,但是很支持你的研究也很期待推理在新時(shí)代人工智能時(shí)代有新的發(fā)展
返回版塊
尚未登錄
高級(jí)模式
您需要登錄后才可以回帖
登錄
|
加入學(xué)院
回帖后跳轉(zhuǎn)到最后一頁
發(fā)表回復(fù)
分享
復(fù)制鏈接
免费人成又黄又爽又色
|
将军娇妻与公h喂奶
|
一级A片毛多多免费看
|
91女神在线观看
|
美女视频毛片
|