昆仑万维:天工大模型在权威推理榜单Benchmark GSM8K 测试中大幅领先GPT-3.5
【昆仑万维:天工大模型在权威推理榜单Benchmark GSM8K 测试中大幅领先GPT-3.5】财联社10月19日电,昆仑万维在互动平台表示,天工AI助手的手机APP已开启内测。日前,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一;在权威推理榜单Benchmark GSM8K 测试中,天工大模型以80%的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),推理能力达到全球领先水平;此外,在基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT的测试中,天工大模型文理兼顾,跻身中文闭源模型第一梯队。