260619 期｜北京的 AI 工厂

19 items in 7 sections

今日洞察

今天的新增收藏集中在三个方向：一是模型能力继续向网络攻防、科学研究和开源权重推进；二是 AI 产品化正在从工具体验走向企业部署、超级 App 和行业工作流；三是基础设施、资本结构和工程纪律正在成为判断 AI 项目能否落地的关键变量。建议先扫 Anthropic 的安全评测组，再看医疗/科研组和 GLM-5.2 相关条目，最后用 FDE、AI 支付宝与工程纪律文章校准落地视角。

🛡️ AI 安全与网络攻防

今天最值得慢读的是模型能力分层、安全审计和大规模 agent 生态风险。

Anthropic 用新基准测量模型开发漏洞的能力订阅专享

anthropic.com / blog ★★★★☆ · 🍅

Anthropic 的 exploit evals 显示 Mythos Preview 在多个漏洞开发 benchmark 上明显领先，甚至在部分任务中达到可执行利用链。文章的价值在于把“模型会写攻击代码”拆成可量化的能力阶梯。

Anthropic blog
N-day 漏洞窗口正在被 AI 压缩到小时级订阅专享

anthropic.com / blog ★★★★☆ · 🍅

这项研究评估大模型对已披露未修补漏洞的利用开发加速效果，结论是传统月度补丁节奏正在失效。它把防守侧的优先级推向更快修补、内存安全语言和结构性缓解。

blog
LLM ATT&CK Navigator 描绘代理化网络威胁订阅专享

anthropic.com / blog ★★★★★ · 🍅

Anthropic 基于 832 个被封禁恶意账号，把 AI 参与的攻击映射到 MITRE ATT&CK 框架。最值得注意的是风险从单点技术能力转向自主编排能力，Claude Code 与 MCP 组合成为高风险案例。

Anthropic blog

🧬 AI 科学与医疗

这一组作为主线之外的补充，帮助保持问题视野和素材多样性。

LifeSciBench 用真实科研任务评估生命科学 AI 订阅专享

openai.com / blog ★★★★☆ · 🍅

OpenAI 发布 LifeSciBench，用专家审核的真实生命科学研究任务评估 AI 系统。它提供了一个重要信号：科研 AI 的评价正在从考试题转向任务决策和研究流程。

OpenAI blog
医院正在迎来 AI 接管知识工作的临界点订阅专享

theatlantic.com / blog ★★★★☆ · 🍅

The Atlantic 从医院场景讨论 AI 何时在知识型医疗任务中超过专家。它适合和 LifeSciBench、AI 化学家案例一起看，理解医疗 AI 从评测、科研到临床工作流的连续谱。

blog
近自主 AI 化学家改进药物反应路线订阅专享

openai.com / blog ★★★★★ · 🍅

OpenAI 与 Molecule.one 的案例展示 AI 化学家如何在药物化学中优化一个关键反应。重点不是一次 demo，而是闭环实验、候选方案生成和专业验证如何共同推进科研自动化。

OpenAI blog

📡 AI 基建与模型竞赛

今天最值得慢读的是模型能力分层、安全审计和大规模 agent 生态风险。

北京 AI 工厂把算力供给推向工业化订阅专享

关注前沿科技 / 公众号 ★★★☆☆ · 🍅

这篇文章把北京新建 AI 工厂的目标拆成算力、Token 产能和成本下降三条线，适合观察城市级 AI 基建如何从概念变成生产能力。重点不是单点模型，而是算力供给、推理成本和产业组织方式的同步变化。

ai 硬件公众号
Simon Willison 视角下的 GLM-5.2 开源权重实力订阅专享

simonwillison.net / blog ★★★★☆ · 🍅

Simon Willison 记录 GLM-5.2 的参数规模、上下文、榜单表现和输出 token 消耗。相比榜单新闻，这篇更适合从实际使用成本和开发者体验判断模型价值。

agent skills blog
GLM-5.2 登顶 Artificial Analysis 开源权重榜订阅专享

artificialanalysis.ai / blog ★★★★☆ · 🍅

Artificial Analysis 把 GLM-5.2 放到开放权重模型领先位置，说明中国开源权重模型继续在性能榜单上逼近前沿。可与 Simon Willison 的条目对读，分别看 benchmark 与开发者视角。

blog

💼 AI 产品化与商业

这些条目提供平台公司、算力链条和资本市场的背景判断。

AI 时代电商竞争重新回到分发与履约订阅专享

Ben Thompson / blog ★★★★★ · 🍅

Ben Thompson 访谈从电商、推荐、杂货和自动驾驶谈 AI 对商业模式的影响，核心问题是 AI 是否改变需求分发和交易闭环。长文适合慢读，用来校准 AI 产品化中的 bear case 与渠道价值。

blog
AI 转型的瓶颈首先是组织与人订阅专享

关注前沿科技 / 公众号 ★★★★★ · 🍅

文章提醒企业 AI 转型不能只买工具和模型，真正难点在于人的工作方式、协作边界和主动改变意愿。它适合作为判断 AI 项目落地风险的组织侧清单。

公众号
泄露财务文件揭示 OpenAI 的巨额亏损订阅专享

arstechnica.com / blog ★★★★★ · 🍅

Ars Technica 报道 OpenAI 仍在大规模亏损，适合放进 AI 商业化的资金结构语境里看。它提醒我们，模型能力、收入增长和资本消耗之间还没有自然闭环。

OpenAI blog
Liblib 母公司融资显示中国 AI 应用开始出现大标的订阅专享

latepost.com / blog ★★★★★ · 🍅

LatePost 报道 Liblib 母公司完成近 3 亿美元融资，并形成创作者工具矩阵。它是观察国内 AI 应用从 PMF 质疑走向资本认可的重要样本。

blog
AI 支付宝把超级 App 推向 Agent OS 竞争订阅专享

ifanr.com / blog ★★★★★ · 🍅

爱范儿体验 AI 版支付宝，展示语音点餐、收能量等跨场景操作。它适合观察超级 App 如何把 agent 能力嵌入既有入口，而不是另起一个 AI 应用。

blog

🔧 开发者工具与工程实践

这一组集中展示 coding agent 正在变成可观测、可审计、可封装的工程系统。

AI 让工程纪律更重要而不是更少订阅专享

charitydotwtf.substack.com / blog ★★★★☆ · 🍅

Charity Majors 强调 AI 编程并不会减少工程基本功，反而要求更强的测试、可观测性、代码审查和系统边界感。这篇适合作为所有 vibe coding 讨论的纠偏读物。

blog
Insomnia 是面向多协议 API 调试的开源客户端订阅专享

github.com / blog ★★★☆☆ · 🍅

Kong/insomnia 支持 REST、GraphQL、WebSocket、SSE 和 gRPC，并提供本地、云端和 Git 存储选项。它适合作为开发者工具箱里的 API 调试入口。

blog
Matt Pocock 公开自己的 Claude Skills 目录订阅专享

https://github.com/mattpocock/ / blog ★★★★☆ · 🍅

这个 GitHub 仓库展示个人如何组织 Claude skill 目录，适合参考本地 agent/skill 工作流的文件结构和复用方式。它是今天开发者工具组里最直接可迁移的实践样本。

Anthropic blog

🌍 科技社会与认知

这一组作为主线之外的补充，帮助保持问题视野和素材多样性。

人脑为什么低估超级富豪财富规模订阅专享

scientificamerican.com / blog ★★★☆☆ · 🍅

Scientific American 用认知偏差解释人类如何低估万亿级财富的数量级。它虽然不是 AI 主线，但可以作为理解财富集中、资本叙事和公众感知落差的背景材料。

blog

📖 延展阅读：历史库推荐

基于今日主题，从你的 Readwise 万篇历史库中语义检索，推荐以下值得重读的经典内容。

2025 AI 年度回顾中的开源权重与 agent 工作流订阅专享

deeplearning.ai / blog ★★★★☆ · 🍅

今天 GLM-5.2 和 GLM-5 都围绕开源权重与 agentic engineering，这篇年度回顾能提供更长时间尺度的模型竞争背景。

blog

今日洞察

🛡️ AI 安全与网络攻防

Anthropic 用新基准测量模型开发漏洞的能力 订阅专享

N-day 漏洞窗口正在被 AI 压缩到小时级 订阅专享

LLM ATT&CK Navigator 描绘代理化网络威胁 订阅专享

🧬 AI 科学与医疗

LifeSciBench 用真实科研任务评估生命科学 AI 订阅专享

医院正在迎来 AI 接管知识工作的临界点 订阅专享

近自主 AI 化学家改进药物反应路线 订阅专享

📡 AI 基建与模型竞赛

北京 AI 工厂把算力供给推向工业化 订阅专享

Simon Willison 视角下的 GLM-5.2 开源权重实力 订阅专享

GLM-5.2 登顶 Artificial Analysis 开源权重榜 订阅专享

💼 AI 产品化与商业

AI 时代电商竞争重新回到分发与履约 订阅专享

AI 转型的瓶颈首先是组织与人 订阅专享

泄露财务文件揭示 OpenAI 的巨额亏损 订阅专享

Liblib 母公司融资显示中国 AI 应用开始出现大标的 订阅专享

AI 支付宝把超级 App 推向 Agent OS 竞争 订阅专享

🔧 开发者工具与工程实践

AI 让工程纪律更重要而不是更少 订阅专享

Insomnia 是面向多协议 API 调试的开源客户端 订阅专享

Matt Pocock 公开自己的 Claude Skills 目录 订阅专享

🌍 科技社会与认知

人脑为什么低估超级富豪财富规模 订阅专享

📖 延展阅读：历史库推荐

2025 AI 年度回顾中的开源权重与 agent 工作流 订阅专享

Anthropic 用新基准测量模型开发漏洞的能力订阅专享

N-day 漏洞窗口正在被 AI 压缩到小时级订阅专享

LLM ATT&CK Navigator 描绘代理化网络威胁订阅专享

医院正在迎来 AI 接管知识工作的临界点订阅专享

近自主 AI 化学家改进药物反应路线订阅专享

北京 AI 工厂把算力供给推向工业化订阅专享

Simon Willison 视角下的 GLM-5.2 开源权重实力订阅专享

GLM-5.2 登顶 Artificial Analysis 开源权重榜订阅专享

AI 时代电商竞争重新回到分发与履约订阅专享

AI 转型的瓶颈首先是组织与人订阅专享

泄露财务文件揭示 OpenAI 的巨额亏损订阅专享

Liblib 母公司融资显示中国 AI 应用开始出现大标的订阅专享

AI 支付宝把超级 App 推向 Agent OS 竞争订阅专享

AI 让工程纪律更重要而不是更少订阅专享

Insomnia 是面向多协议 API 调试的开源客户端订阅专享

Matt Pocock 公开自己的 Claude Skills 目录订阅专享

人脑为什么低估超级富豪财富规模订阅专享

2025 AI 年度回顾中的开源权重与 agent 工作流订阅专享