<dfn id="siuuq"><code id="siuuq"></code></dfn>
<menu id="siuuq"><kbd id="siuuq"></kbd></menu>
  • <menu id="siuuq"><acronym id="siuuq"></acronym></menu>
  • <menu id="siuuq"></menu>
  • <tbody id="siuuq"><nav id="siuuq"></nav></tbody>
    <li id="siuuq"></li>
    <tr id="siuuq"></tr>
    <dd id="siuuq"></dd>
  • <menu id="siuuq"></menu>
    <dfn id="siuuq"><source id="siuuq"></source></dfn><dfn id="siuuq"><dl id="siuuq"></dl></dfn>
    回復(fù) 收藏 11

    第193期謎題評(píng)分帖

    樓主: 145439 | 查看: 8907 | 回復(fù): 192

    3 | 發(fā)表于 2025-12-12 09:20:07 北京 發(fā)帖際遇
    拿AI做了一個(gè)簡(jiǎn)單的實(shí)驗(yàn),把193的謎題篇和解答篇還有滿分答案和我們自己的答案都復(fù)制到了一起,讓AI給打分,prompt如下:這個(gè)文檔里包含了謎題篇、解答篇,還有兩個(gè)答案。答案1和答案2.麻煩根據(jù)謎題篇和解答篇的內(nèi)容,對(duì)兩個(gè)答案分別進(jìn)行評(píng)分。分值是1-10分。不需要故事完全相同,但是需要和解答篇提及的核心行為和分析匹配。
    AI的回答:
    答案1評(píng)分:9/10
    優(yōu)點(diǎn):

    ? 完全正確識(shí)別出第二局是平局,且平局顯示為?
    ? 準(zhǔn)確推理出谷界和思源的數(shù)字分別是3,5,8和2,3,9
    ? 正確還原了A~F的位置:A=5, B=3, C=8, D=3, E=9, F=2
    ? 詳細(xì)復(fù)盤了六局對(duì)戰(zhàn)的全過程,與解答篇完全吻合
    ? 深入分析了第四局、第五局雙方的心理博弈,特別是第五局谷界面對(duì)的三種可能性分析(A、B、C三種情況),展現(xiàn)了對(duì)核心推理的深刻理解
    ? 邏輯鏈條完整:從規(guī)則分析→平局判定→數(shù)字推理→位置還原→對(duì)局復(fù)盤
    扣分點(diǎn):

    在"第四局"的心理分析中,有一處表述"都誤認(rèn)為對(duì)方已經(jīng)錯(cuò)了兩局"稍顯簡(jiǎn)化,實(shí)際上解答篇強(qiáng)調(diào)的是谷界認(rèn)為自己2:0領(lǐng)先,思源認(rèn)為自己2:1領(lǐng)先
    答案2評(píng)分:8.5/10
    優(yōu)點(diǎn):

    ? 完全正確識(shí)別出第二局是平局,且平局顯示為?
    ? 準(zhǔn)確推理出數(shù)字和位置:A~F為538392
    ? 用表格清晰展示了六局的結(jié)果,便于理解
    ? 正確捕捉到谷界在第四局和第五局的關(guān)鍵心理活動(dòng)
    ? 引用原文充分,論證有力
    ? 結(jié)尾總結(jié)到位:"獲得√并不代表著勝出"點(diǎn)明核心
    扣分點(diǎn):

    對(duì)第四局和第五局雙方心理博弈的分析不如答案1深入,特別是第五局谷界面臨的復(fù)雜決策過程(三種可能性)沒有詳細(xì)展開
    對(duì)"為什么思源第四局選擇用最小數(shù)"的動(dòng)機(jī)分析較簡(jiǎn)略,不如答案1從比分視角的細(xì)致解讀
    總評(píng):
    兩個(gè)答案都準(zhǔn)確掌握了核心要點(diǎn):

    平局機(jī)制(第二局3 vs 3顯示雙?)
    數(shù)字推理(谷界3,5,8;思源2,3,9)
    位置還原(A~F: 538392)
    最終比分(3:2谷界勝)
    答案1略勝一籌在于對(duì)博弈心理的深度分析,特別是第五局谷界的決策樹分析;答案2在表格呈現(xiàn)和邏輯清晰度上有優(yōu)勢(shì)。兩者都是優(yōu)秀的解答。

    這里沒有任何踩捧的意思。包括AI給的關(guān)于我們的扣分點(diǎn)我覺得也是合理的,其實(shí)和版主在其他樓回復(fù)的核心思想差不多。但是我只是很好奇這一點(diǎn)是否真的值3.5分。如果給我們8-8.5我們基本上是可以接受的。

    目前AI其實(shí)作為評(píng)分是比較成熟的,我們工作也是用AI來做evaluation。我覺得他有一個(gè)好處就是能完全以同樣的標(biāo)準(zhǔn)評(píng)判每一條回答。只要每個(gè)作者給出解答篇,再可以給出一個(gè)給分點(diǎn)的分布,其實(shí)AI能非常快速且讓大家基本沒有太大異議的給出分值。當(dāng)然如果作者本身能公布給分點(diǎn),也許我們自己也更清楚大概能得多少分。如果覺得這樣不好那也可以讓AI運(yùn)行但是不公布,給管理員這個(gè)信息。

    說實(shí)話這次是不太舒服的。第二題分?jǐn)?shù)更低但是我們能接受。不說題好壞,反正是沒對(duì)上作者的腦洞(我無論如何想不到為了不讓媽媽發(fā)現(xiàn)涮瓶子這種行為的,我覺得不是正常人)。看到答案就知道,就那樣了。但是這種題目,即使看到答案我依然覺得不會(huì)拿到這樣的成績(jī),因?yàn)榫褪莻€(gè)簡(jiǎn)單的題,沒有人要求我們說因?yàn)轭}目簡(jiǎn)單我們必須得上上難度多分析之類的。

    反正都是建議,當(dāng)然可能跟絕大多數(shù)的建議一樣沒人在乎,那就當(dāng)是吐槽吧
    1 | 發(fā)表于 2025-12-12 10:02:20 浙江| 發(fā)自安卓客戶端 發(fā)帖際遇
    求紅小雞
    3 | 發(fā)表于 2025-12-12 14:19:02 廣東| 2025-12-12 14:20編輯 發(fā)帖際遇
    重新閱讀了題目,審視了下當(dāng)時(shí)我們內(nèi)部的思路。發(fā)現(xiàn)了真正的問題所在。
    猴叔說的沒有思考【思源角度下會(huì)考慮谷界持有10的可能性】,沒錯(cuò)這個(gè)是對(duì)的。但是通過審視當(dāng)時(shí)思路發(fā)現(xiàn)了問題。
    答案是被題目本身的敘述導(dǎo)向引導(dǎo)了我們的思維,這個(gè)跟當(dāng)時(shí)沒考慮到白姐他們隊(duì)提出來的【多平局】是一樣的。
    來理一下的話就是如下:
    首先前提條件是,無論思路怎么變換,最終題目答案的數(shù)字我們是能直接引用的。那么就可以帶入到每一局里面去分析雙方思路。
    下面引用下葉雪大佬的回答
    引用
    第一局谷界5 VS思源2,谷界勝;
    第二局谷界3 VS思源3,平;
    第三局谷界8 VS思源9,思源勝;
    第四局谷界3 VS思源2,谷界勝;
    第五局谷界8 VS思源9,思源勝;
    第六局谷界5 VS思源3,谷界勝;


    那么,客觀來說,第一局的思源視角是對(duì)方出了個(gè)未知數(shù),
    第二局是對(duì)方很可能除了最小數(shù),因?yàn)樽约黑A了那么對(duì)方只有1-2,而雙方一開始都沒意識(shí)到平局,一直強(qiáng)調(diào)1和10盡量避免,所以其實(shí)她心理應(yīng)該是覺得很有可能是2。數(shù)字不能重復(fù)所以對(duì)方已經(jīng)用過最小數(shù)了(哪怕是1那也是最小數(shù))。
    第三局自己也贏了,但其實(shí)客觀視角是對(duì)方第三局輸了而已,第一局既然對(duì)方是未知數(shù),那么只要大于2就行了,完全可以是3~10之間任何數(shù),所以其實(shí)第一局對(duì)方出10也沒有問題,

    但是最大的問題來了。猴叔說的沒錯(cuò),是應(yīng)該要思考對(duì)方可能藏了個(gè)10的可能性,但是文章中的以下原文,完全引導(dǎo)了讀者的思考:

    引用
    思源(第三局):
    顯示屏上呈現(xiàn)著“正確”的結(jié)果。
    從這里來看,谷界的最大數(shù)字應(yīng)該還是比我的要小,看來之前的選擇是正確的。也就是說,我只要再贏一局便可獲得這輪的勝利——但谷界究竟是有什么樣的數(shù)字,目前看來依然不是很清楚。盡管如此,至少輪次已經(jīng)勝券在握了:既然我的最大數(shù)字比谷界的要大,后面要是再遇到像第三局這樣的情況,谷界這輪必輸無疑。


    思源認(rèn)定了第三局對(duì)方出了最大數(shù)字,且自己的最大數(shù)字要大于對(duì)方的。而且因?yàn)槲覀冏x者視角之前已經(jīng)被灌輸過【谷界最大數(shù)字為8】這個(gè)觀念,很容易就接納了思源這里的說法。
    這里不否認(rèn),沒有跳出視角是我們的鍋,但是問題點(diǎn)并不在這里。

    真正的問題在于,第三局思源已經(jīng)認(rèn)定了對(duì)方最大數(shù)字小于9,那么第四局從何談起思源思考對(duì)方有10的可能性。
    因?yàn)槟壳拔覀兊弥鄯贮c(diǎn)是【思源認(rèn)為谷界還是有可能攥著個(gè)10】,且在第四局思源視角內(nèi):
    引用
    思源(第四局):
    現(xiàn)在的情況還在我的掌控之中……倒不如說正向著好的反向發(fā)展。
    越是這種時(shí)候越是驚險(xiǎn)。即便成功就在我的眼前,我也會(huì)冷靜分析。用自己的最小數(shù)字或第二小的數(shù),騙取對(duì)方手中的最大數(shù)字。這一種情況我考慮了不下百次。
    第四局谷界多半會(huì)料定我將使用最大數(shù)字直接贏下,但其實(shí)我只是拋出了自己最小的數(shù)字。
    當(dāng)然了,結(jié)果是怎么樣的我并不能肯定,但選擇的這條路絕對(duì)是最安穩(wěn)的。
    如此一來不管輸贏,這一周期接下來最大的數(shù)字大概率會(huì)在我的手上,在雙方獲勝局?jǐn)?shù)都相同的情況下,我并不認(rèn)為谷界還可以在數(shù)字方面戰(zhàn)勝我。
    那就再等下一局吧,也就是第五局。到時(shí)候房間逆時(shí)針旋轉(zhuǎn)120度,我便會(huì)用最大數(shù)字直接宣告對(duì)手的失敗。
    不過這局對(duì)決我不直接贏下的另一個(gè)原因,也是因?yàn)槲液芟硎芘c他對(duì)決的過程——但也是時(shí)候結(jié)束了。
    “谷界,這場(chǎng)游戲最終將會(huì)是我的勝利,”看著選定數(shù)字后屏幕上的結(jié)果,我會(huì)心一笑:看來他上當(dāng)了……


    可能會(huì)說,當(dāng)然了,結(jié)果是怎么樣的我并不能肯定,但選擇的這條路絕對(duì)是最安穩(wěn)的。
    這段話難道不是在說不確定數(shù)字嗎,但是聯(lián)系前后文,也可以得出這可能是說【這一局】的結(jié)果不能肯定。
    而且可以看原文我標(biāo)紅的,思源說我并不認(rèn)為谷界在這一輪能夠在數(shù)字方面戰(zhàn)勝我,就是她仍然深信第三局的結(jié)果也就是雙方中最大數(shù)字在自己手里這一點(diǎn)。
    那么,既然思源本身并沒有這方面的疑慮,為何因?yàn)椤舅荚凑J(rèn)為谷界還是有可能攥著個(gè)10】這一點(diǎn)而扣分,這是明顯的矛盾。

    但,最后說一句,其實(shí)最終問題歸于題目本身,是可以修改一下題目,那么這方面的博弈我確實(shí)覺得挺好,也有必要去思考。
    但是如果大家都是被描述引導(dǎo),而沒有答出這一點(diǎn)的話,那是否應(yīng)該重新考慮這方面的扣分是否合理?

    另外感謝答疑的猴叔以及提供了思路的RUBP,狼叔迷弟等大佬。
    | 發(fā)表于 2025-12-12 14:40:42 北京| 發(fā)自安卓客戶端 發(fā)帖際遇
    已經(jīng)不太記得謎題內(nèi)容了賽委辛苦
    2 | 發(fā)表于 2025-12-12 15:17:24 浙江 發(fā)帖際遇
    引用
    你這么認(rèn)這個(gè)評(píng)分系統(tǒng)干什么呀
    啊 他會(huì)把人的付出給異化掉的

    每次都只是猜答案的已經(jīng)不關(guān)心評(píng)了幾分了
    | 發(fā)表于 2025-12-12 15:32:21 山東| 來自小霸王手機(jī)
    沒寫過程只寫了結(jié)論,有1分很知足了qwq
    4 | 發(fā)表于 2025-12-12 16:37:45 山東
    雖然后排可能沒人看了,但說一下為什么單單對(duì)這道題的評(píng)分產(chǎn)生疑問。

    跟題目里兩個(gè)角色的智力沒有任何關(guān)系,二人的設(shè)定就是兩個(gè)水平不行的人在智斗產(chǎn)生的這種結(jié)果,他們想到的事情、沒想到的事情、甚至像是開天眼的事情,我都假設(shè)他們就是這么一種人,開天眼了就是靈機(jī)一動(dòng)了沒想那么多可能性。

    所以我糾結(jié)的點(diǎn)不在于題目本身是否有問題,它本身就是一道非常簡(jiǎn)單的邏輯題,像是一道“一分鐘破案”,做完題目的觀感就是:這道題應(yīng)該會(huì)有很多人滿分。

    但是評(píng)分結(jié)果卻是不知道從哪個(gè)犄角旮旯里掏出一個(gè)點(diǎn),分值特別高,而且和做題人的推理流程沒什么關(guān)系。

    把做題當(dāng)作游戲收集道具通關(guān)的話,這個(gè)點(diǎn)就是一個(gè)和主線沒什么關(guān)系,不能作為實(shí)在的證據(jù)去參與推理流程的東西。

    “很多人沒注意到這點(diǎn)”有時(shí)候不代表題目和答案設(shè)置的多么好,在這道題里我認(rèn)為是因?yàn)椤八恢匾薄?br />
    當(dāng)看到這個(gè)點(diǎn)的時(shí)候,產(chǎn)生的想法不是“啊!原來我漏了這么重要的點(diǎn)”,而是“他喵的這是個(gè)什么無聊的點(diǎn)有必要寫進(jìn)答案里面嗎?”
    | 發(fā)表于 2025-12-12 21:47:51 湖南| 發(fā)自安卓客戶端
    真不錯(cuò)
    | 發(fā)表于 2025-12-13 18:33:00 浙江| 發(fā)自安卓客戶端
    數(shù)字錯(cuò)了個(gè)及格了居然,不過本來當(dāng)時(shí)想的也是猜數(shù)字奪標(biāo)也定不了勝負(fù)就沒細(xì)想了。搞了半天谷界還真贏了,中間有幾局上帝視角看他們就是在打王八拳。
    | 發(fā)表于 2025-12-14 15:28:45 廣東| 發(fā)自安卓客戶端
    可以可以,隊(duì)友很強(qiáng)
    返回版塊
    12345
    尚未登錄
    您需要登錄后才可以回帖 登錄 | 加入學(xué)院
    <dfn id="siuuq"><code id="siuuq"></code></dfn>
    <menu id="siuuq"><kbd id="siuuq"></kbd></menu>
  • <menu id="siuuq"><acronym id="siuuq"></acronym></menu>
  • <menu id="siuuq"></menu>
  • <tbody id="siuuq"><nav id="siuuq"></nav></tbody>
    <li id="siuuq"></li>
    <tr id="siuuq"></tr>
    <dd id="siuuq"></dd>
  • <menu id="siuuq"></menu>
    <dfn id="siuuq"><source id="siuuq"></source></dfn><dfn id="siuuq"><dl id="siuuq"></dl></dfn>
    www.99爱 | 小说图片视频乱伦亚洲欧美 | 日韩无码电影一区二区 | 天天搞天天搞 | 午夜精品一区二区三区AA毛片 |