分享

用 R 复刻了一张图,附代码

 ml_Py 2024-11-15 发布于河南

大家好,我是章北海

现在市面上再有大模型发布,很难掀起大波澜了,尤其是国内百模大战背景下。

前几天看到阿里开源了通义千问 Coder 系列的 6 款 Qwen-2.5-Coder 模型。

说是编程能力又大幅提升了,甚至超越 GPT-4o

由于阿里没有给我广告费,我就不吹嘘它如何牛逼了。

倒是感觉官方这张图很有漂亮

既然大模型都这么能打了,那能不能复刻这张图呢?

我找了 GPT-4o、Claude-3-opus、Claude-3.5-sonnet-20241022 这几位经常被超越的loser

结果并不理想

我还试了号称很难打的其他几个,不提名字了,效果更差,懒得再深入了

Claude sonet 241022

然后优化了提示词,让其先抽取并整理好数据再用 python 绘制极坐标图,效果好点了:

不过 Python 的天花板貌似也止于此了

想要更漂亮,害得上 R

用 GPT-4o 复刻结果如下:

调整一下图例、去掉背景色

再上 PS,或许就完整复刻官方那张图了

代码如下:

# 加载必要的库
library(ggplot2)
library(tidyr)
library(dplyr)

# 数据准备
data <- data.frame(
  Benchmark = c("HumanEval""MBPP""EvalPlus Average""MultiPL-E""McEval"
                "LiveCodeBench""CRUXEval-O""BigCodeBench",
                "AiderPass@2""Spider""BIRD-SQL""CodeArena"),
  Qwen2.5_Coder_32B_Instruct = c(92.790.286.379.465.931.483.438.373.785.158.468.9),
  DeepSeek_Coder_V2_Instruct = c(88.489.283.879.962.927.975.136.372.981.351.957.4),
  DeepSeek_Coder_33B_Instruct = c(79.381.274.969.254.321.350.629.859.473.845.616.8),
  CodeStral_22B = c(78.173.373.570.250.522.663.529.851.176.646.221.7),
  GPT_4o_2024_08.06 = c(92.186.884.479.165.834.689.237.671.479.854.269.1)
)

# 数据转换为长格式
data_long <- data %>%
  pivot_longer(cols = -Benchmark, names_to = "Model", values_to = "Score")

# 绘制极坐标图
ggplot(data_long, aes(x = Benchmark, y = Score, fill = Model)) +
  geom_bar(stat = "identity", position = "dodge") +
  coord_polar() +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    legend.position = "bottom",
    legend.text = element_text(size = 8),
    plot.title = element_text(hjust = 0.5)
  ) +
  guides(fill = guide_legend(nrow = 2)) +  # 设置图例为两行
  labs(title = "Benchmark Scores by Model",
       fill = "Model")

Claude-3-opus 表现也不俗

最后生成图形如下:

最后说一句

由于用的比较少,我本地没再安装 RRstudio

https:// 可以创建 Rstudio 空间,和本地没区别,感兴趣可以去试试。

为了避免被喷,再说一下,其实也测试了 Qwen2.5Deepseek

deepseek 就不放了,他绘制了一幅条形图

至此

如有收获,敬请点个 【在看】,感谢

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多