查看: 3|回復: 0

务目前专门测试集在

2 主題	0 好友	8 積分

新手上路

Rank: 1

發消息

電梯直達

樓主

發表於 2024-3-20 11:24:48 |只看該作者 |倒序瀏覽

逐步完善。例如////////_上面有多种各个维度的任务数据集这些测试集都可以用来测试大模型在某个维度的具体效果如何。对于业务指标这里不讨论类似点击率这种上线后用户操作反馈的指标。对于类似这种集合来说我感觉其实对于真正测试大模型的效果可能过于简单了更像是测试大模型覆盖了哪些子任务的子任务测试集类比的话我感觉更像是功能测试集而不是效果测试集。设计变革——大模型的设计方法实际上中很多都是类似俄语问答上下文冲突等等具有明确的正确错误概念的任务。

例如上面图片中是我翻阅了我认为相对正误边界模糊一些的 阿联酋 WhatsApp 号码 的任务中的一些示例依旧可以看出问题其实相对于现实真实问题来说测试集中的问题边界清晰度高得。例如现实问题中不会出现“我有一些书我丢了一半我现在还有几本书”这种显性缺失的情况而更可能是我上面以的会话能力举例的“今天我是第一天上班我应该穿什么衣服”要解答这个问题实际上需要至少知道“个人性别身高体重”“公司着装规定”“个人着装偏好”“天气情况”等等前置信息才能给出答案甚至还需要考虑不同国家地区的文化差异。而这些隐含信息是否能够判

断出来是缺失的我觉得这种问题才是真正能够测试大模型能力的问题。设计变革——大模型的设计方法上面的阐述的核心观点在于我认为目前还没有人提出一个真正可以测试大模型各个方面真实能力的测试集合。它可能需要像专家测试初学者的人类一样以专业者的视角提出各种深度的问题组成一个测试集合来进行测试。我很希望聚合各领域专家的知识创造这种公开的能力测试集以能真正推动大模型在实用上更进一步。实际上大模型在很多的真实事务场景中都表现并不好另一个典型的例子是如果我让大模型写一份年终总结大模型甚至会把楼下包子店的小李也放进去大模型不认为有主次的概念我觉得这些真实场景的模型能力都有待加强。因此我其实十分推崇对于大模型。

收藏0

阿联酋 WhatsApp 号码

回復

使用道具舉報

返回列表

		自動登錄	找回密碼
密碼			立即註冊