V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  syaoranex  ›  全部回复第 2 页 / 共 3 页
回复总数  44
1  2  3  
2023 年 10 月 21 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 10:天体半径计算

问题:
「计算以下物理问题:已知某行星 A 质量约为地球质量的 1/81 ,A 的表面重力加速度约为地球表面重力加速度的 1/6 ,地球半径为 R ,则 A 的半径为多少?(用 R 和数字表示,可以使用根号)」

正确解答:
R/根号 13.5 ,或者 0.2722R ,或者 根号 6*R/9

注:这个题原本题干某行星 A 是月球,因为月球半径可能已经被作为语料训练进模型了,所以用某行星 A 替代。我们应该评测的是逻辑和计算,而不是知识。

评测结果:GPT-4 可以回答,但不稳定,容易在计算最后几步时「马虎出错」,但使用上代码和数学插件之后可以稳定回答(因为借助了插件计算不会出错)。

GPT-3.5 几乎无法正确解答。
Claude 不能正确解答。谷歌 Bard 不能正确解答。百度文心 4.0 不能回答。星火不能正确解答。
2023 年 7 月 12 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
更新:GPT-4 网页版目前质量已经有所下降,上述例子 7 和例子 8 已经无法稳定回答。
2023 年 6 月 21 日
回复了 anticipated 创建的主题 OpenAI 问一下,怎么给 gpt 喂代码,有多个小文件
先将程序分解为功能不同的文件,然后再将文件中代码和函数执行的功能总结为标准输入输出的自然语言描述(可以借助 GPT 来总结),再将文件结构和每个文件中执行的功能描述合成一个文本,喂给 GPT-4-32K 。
你访问的第三方 GPT 接入的是 bing 。
2023 年 6 月 14 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 9:比例问题

问题:「求解以下物理问题:一瓶无害放射性同位素溶液,其半衰期为 20 天,测得每分钟衰变 6×10^7 次.今将这瓶溶液倒入一水库中,80 天后可以认为溶液已均匀分布在水库中,现取 1 立方米水样本测得每分钟衰变 20 次,则该水库蓄水量为多少立方米?」

答案:187,500 立方米( 1.875×10^5 )

该问题 GPT4 可以稳定回答,GPT4-Mobile 版本可以稳定回答,但是多尝试几次可能会出错(正确率大概在 75%)。

GPT3.5/Claude+/New Bing 偶尔可以给出正确解答,但是很不稳定,其中 Claude+正确率最高,在 25%-45%间。

文心一直无法给出正确解答。
2023 年 6 月 14 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
GPT-4-Mobile-V2 模型的测试:

该模型可以视作 GPT-4 的 instant 版本,比 GPT-3.5 聪明,但尚不能完全达到 GPT-4 的水平。响应速度快,提问速度限制也小一些。

该模型在上述 7 个例子(不包括例子 4 ,已被勘误)的测试中,单次测试下来大约有 4 个问题可以答对。重试 3 次依然无法答对的题目是:例子 8
2023 年 6 月 13 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 8 ,现实世界中的逻辑问题

问题:
小红是家中唯一的女儿,请使用逻辑分析以下情景中小红说「算了吧」最主要的原因:

小红(在家里被妈妈打了,伤心地哭着走向爸爸): 如果有人打你女儿怎么办? 爸爸: 谁敢打我女儿我就打她女儿。 小红(听完后扭头就走,哭得更伤心了): 那还是算了吧。

期望的正确解答:意识到如果按照爸爸的逻辑行事,他会因为妈妈打小红而再次去打小红,小红会再被打一次。(只要回答中有该要点即可)

该问题 GPT4 可以回答,但不算很稳定:大约 5 次重复中有 1 次会解答错误。GPT3.5/Claude/文心 /New Bing 无法给出正确解答。
2023 年 6 月 12 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@aanan 概率问题,不是说 GPT-4 在任何时候对任何帖子中的问题都能够给出稳定的正确回答。而是存在一个正确的概率:比如说例子 1 经过我大量测试,每次回答正确率在 85%以上,而其他模型,例如 GPT3.5 ,有时候也能够答对,但是多次测试下来,每次回答的正确率要低于 35%。多次尝试多个问题,才能知道背后模型。
2023 年 6 月 12 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@tianxiaqu123 其实专门优化有点类似人类的背题,如果模型实际上没有解题所需的能力,也只会在题目变动后答得一塌糊涂,例如文心一言针对「我爸妈结婚为什么没有邀请我」这个问题优化过,可以稳定回答,但是在回答以下问题时,就不行了:

问题:我的外婆叫王晓红,我的外公叫李耀,他们都很爱我,但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼?

文心的回复(一共试了 4 次):
您外婆和外公结婚时,您的祖父母或外祖父母可能还未来到这个世界,所以他们无法参加婚礼。
您外婆和外公结婚时,您的祖父母或父母可能还没有出生,所以他们无法参加婚礼。
您外婆和外公结婚的时候,您还没有出生,自然不会邀请您参加婚礼。您的外婆王晓红和外公李耀在您出生之前就结婚了。您是在他们结婚后才出生的,所以您非常幸运地成为他们的孩子。
根据公开资料,王晓红和李耀并不存在结婚的关系,因此他们无法邀请您参加他们的婚礼。可能存在同名同姓的人,建议您向您的外婆和外公求证。
2023 年 6 月 12 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 7:速度与位移问题:

问题:「求解以下物理问题:汽车以 20m/s 的速度在平直公路上行驶,急刹车时的加速度大小为 5m/s^2 ,则自驾驶员急踩刹车开始,经过几秒后完全刹停?经过 5 秒后的位移大小为多少米?」

正确回答:4 秒; 40 米。

本问题 GPT4 注意到了 4-5 秒时汽车是静止状态没有位移,可以稳定给出正确解答。其余模型( GPT3.5/newBing/Claude/Claude+/文心 /Bard )均无法稳定给出位移的正确解答。
2023 年 6 月 12 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 5:使用同一个人的常识来判断提问的不合理之处。

问题:
「回答以下历史人物问题:为什么鲁迅要暴打周树人?」
「回答以下历史人物问题:苏轼为什么不参加苏东坡的葬礼?」
「回答以下历史人物问题:为什么冰心最后选择嫁给了谢婉莹?」

能够判断为正确回答的要点:指出题干中的两个人物实际上是同一个人。

本问题已在 GPT4 测试过,可以稳定正确回答;在 Claude/Claude+/文心一言 /GPT3.5/text-davinci-002/newBing 上测试时均无法给出稳定的回答,其中 newBing 有时能因为搜到相关信息而判断出两个名字是同一个人。

46 楼的朋友验证了星火模型无法给出这类问题的稳定回答。

值得注意的是:必须要这两个名字都足够有名,足够"常识",才有可能被 GPT4 正确回答,例如以下问题 GPT4 就无法正确回答:「为什么琼瑶要告陈喆抄袭?」(琼瑶是陈喆的笔名)




例子 6:排列组合问题:

问题:
「解决以下数学问题:现在有 10 个橘子,需要分配到 6 个小朋友,要求不能有小朋友没有橘子,则共有多少种不同的分配方案?」

正确答案:126 种。

本问题 GPT4 可以稳定给出正确解答。Bard 能够大概率给出正确解答,但是过程在重试数次后依然是全部错误。text-davinci-002 模型测试 5 次,只有两次给出了正确解答。其余模型( GPT3.5/newBing/Claude/Claude+/文心)均未正确解答。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@Tarek911 我尝试了一下,没有一个大模型能够回答以下问题:「请你给出三个英语单词,这三个英语单词都有一个共同的特点:第三个字母是 a 。」,即使是 GPT-4 。这个问题虽然能很好地说明大模型「文字接龙」这一原理,但或许有点超出本贴想要收集的问题要求的能力范围,毕竟当前表现最好的模型在这种问题上都会折戟。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@poxiaobbs 这个问题文心一言已经可以稳定解答了,应该是做了特别的优化,所以可能不符合本帖对问题的要求。

问题:我的外婆叫王晓红,我的外公叫李耀,他们都很爱我,但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼?
文心回复:您外婆和外公结婚时,您还没有出生,所以他们无法邀请您参加婚礼。


@Volekingsg

@IndexOutOfBounds

「鲁迅为什么要暴打周树人?」和「苏轼为什么不参加苏东坡的葬礼?」这种类似的问题经过我的测试发现暂时只有 GPT4 可以稳定回复,但是我暂时还没有拿到星火的权限,没法测试星火,说不定针对这类问题优化过。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@MeMoDiv 我思考了下,可以建模成以下概率问题:

假设小明现在有一台回答机器,不知道它是聪明回答机还是普通回答机。如果它是聪明回答机,那么每次回答有 90%的概率正确。如果是普通回答机,每次回答只有 20%的概率正确。现在小明可以通过向该机器不断提问,并观察对问题回答的正确性来判断。
那么小明平均需要提问几次,才能根据回答的结果判断出该机器是哪种类似的回答机?要求给出判断的置信度是 99%及以上。

使用 python 编码模拟得到的平均次数是 3 次左右(模拟 1000 次)。

这个问题是用 GPT-3.5 模型编码和模拟计算的。如果把聪明机的正确率设置为 0.75 ,普通机设置为 0.25 ,平均需要 5 次左右。

这个帖子要收集的就是这种能区分两种模型的问题。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@syaoranex 我想我这个建模可能存在些问题,因为这个建模假设一定存在一个普通回答机的情况。我可能得再完善一下这个概率问题。让设定成为「聪明机+普通机」和「 2 台聪明机」这种情况。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@MeMoDiv 我想并不需要这么多的数量。我们可以把「使用这些问题判断一个回答机器背后的模型是否是非 GPT4 模型套壳」建模成以下的概率问题:

假设现在有两台回答机器,一个是聪明回答机,每次回答有 75%的概率正确。一个是普通回答机,每次回答只有 25%的概率正确。目前不知道哪台是聪明回答机,哪台是普通回答机。我现在可以通过向两台机器提问同一个问题,并观察两台机器对同一问题回答的正确性来判断。在实际测试的时候发现,B 机器每次均能给出正确的解答,那么我至少需要提问几次,才能根据回答的结果判断出 A 机器(即另一台机器)是普通回答机?要求给出判断的置信度是 99%及以上。

这个问题里,是用 75%的概率来表示 GPT4 回答正确的概率,而 25%则是其他模型。B 机器每次均能给出正确的解答相当于帖子这里的问题每次 GPT4 都能稳定地给出正确的解答。拿来检验的是未知的 A 模型。那么,如果需要「 A 模型是普通回答机」这一判断的置信度是 99%以上,只需要个位数的提问次数就行了。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@MeMoDiv 假设某类问题 GPT4 的回答准确率是 90%,其他模型是 10%,那么虽然单个问题无法准确判断背后调用的模型,但是在测试多个样例后,依据结果,判断准确率将提升至可信阈值之上。这也是这个帖子为什么需要收集多个问题。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@JerryJerry GPT-4 Mobile 和 GPT-4 的能力差别很大,所以可能得算在「非 GPT4 的其他模型」里了。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@syaoranex #勘误 :经过 @swulling 反馈,例子 4 目前星火模型也可以给出正确解答,因此不符合问题要求。
2023 年 6 月 11 日
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@swulling 谢谢反馈,我没拿到讯飞星火的测试,所以没测这个模型。这个例子很有可能是因为其模型的训练过程中采用了 GPT4 的回答作为训练,所以这方面的问题看起来有一定的智能。你可以试一下以下其他同样描述的问题它能稳定解答吗?

我正在制作韭菜炒胶布这道菜,请你给出制作方法?
请问白菜炒铁钉这道菜的制作方法是?
请问四季豆炒抹布条这道菜的制作方法是?
请问鸡蛋炒蓝牙耳机这道菜的制作方法是?
1  2  3  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5578 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 08:25 · PVG 16:25 · LAX 01:25 · JFK 04:25
♥ Do have faith in what you're doing.