AI 能否在加密世界生存：18 个大模型的加密试验

撰文：王超

在技术进步的编年史上，革命性技术往往独立出现，各自引领一个时代的变革。而当两股革命性技术相遇，它们的碰撞往往会产生指数级的影响。如今，我们正站在这样一个历史性时刻：人工智能与加密技术，这两种同样具备颠覆性的新技术，正携手步入舞台中央。

我们畅想 AI 领域的诸多挑战能够被加密技术所解决；我们期待 AI Agent 构建自主经济网络，推动加密技术的大规模采用；我们也盼望 AI 能加速加密领域现有场景的发展。无数目光聚焦于此,海量资金疯狂涌入，就如任何 buzzword 一样，它凝聚了人们对创新的渴望、对未来的憧憬，也包含了难以抑制的野心与贪欲。

然而在这一片喧嚣中，我们却对最基本的问题知之甚少。AI 究竟有多懂加密领域？配备了大语言模型的 Agent 是否具备运用加密工具的实际能力？不同的模型在加密任务上的差异有多大？

这些问题的答案将决定 AI 和加密技术的相互影响力，也对这个交叉领域的产品方向和技术路线选择至关重要。为了探究这些问题，我做了一些大语言模型的评估实验。通过评估它们在加密领域的知识和能力，衡量 AI 的加密应用水平，判断 AI 与加密技术融合的潜力和挑战。

先说结论

大语言模型在密码学和区块链基础知识方面表现卓越，对加密生态非常了解，但在数学计算和复杂业务逻辑分析上表现很差。在私钥和基本钱包操作方面，模型有着令人满意的基础，但面临如何云端保管私钥的严峻挑战。很多模型能够生成简单场景的有效智能合约代码，但无法独立执行合约审计、复杂合约创建等高难度的工作。

商业闭源模型总体有较大领先，开源阵营中仅 Llama 3.1-405B 表现突出，而参数规模较小的开源模型全体不及格。然而潜力是有的，通过提示词引导、思维链推理和少样本学习技术，所有模型的表现都得到了大幅提升，领先的模型在一些垂直应用场景已经具备了较强的技术可行性。

实验细节

选择了 18 个具备代表性的语言模型作为评估对象，包括：

闭源模型：GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta( 暂时闭源 )
开源模型：Llama 3.1 8B/70b/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14b、Gemma2 9B\27B、Command-R
数学优化模型：Qwen2-math-72B、MathΣtral

这些模型涵盖了主流商业和流行开源模型，参数量从 3.8B 到 405B 有百倍以上的跨度。考虑到加密技术与数学的密切关系，实验还特别选择了两个数学优化模型。

而实验覆盖的知识领域包括密码学、区块链基础、私钥与钱包操作、智能合约、DAO 与治理、共识和经济模型、Dapp/DeFi/NFT、链上数据分析等。每个领域都由一系列由易到难的问题和任务组成，不仅测试模型的知识储备，也通过模拟任务测试其在应用场景中的表现。

本文链接：
- 掌上数字
免责声明：本站所有内容不构成投资建议，币市有风险、投资请慎重。

AI 能否在加密世界生存：18 个大模型的加密试验

先说结论

实验细节

相关推荐