对齐

18 articles in this tag. All tags.

Anthropic 的新方法：不仅教 Claude 做什么，还教它为什么订阅专享

May 10, 2026 260510 期｜AI 的护城河 AI 安全、治理与哲学 anthropic / blog ★★★★★ · 🍅

anthropic 研究

对齐 agents
Anthropic 自然语言自编码器：让 Claude 的内在思维可以被解码为文本订阅专享

May 10, 2026 260510 期｜AI 的护城河 AI 安全、治理与哲学 anthropic / blog ★★★★★ · 🍅

llm 的内部表征

对齐 ai 时代
Anthropic 自然语言自编码器：让 Claude 的内在思维可以被解码为文本订阅专享

May 9, 2026 260509 期｜agent 工作流模型、工具与产品信号 anthropic / blog ★★★★★ · 🍅

LLM 可解释性。也是人脑的可解释性。

对齐 ai 时代
Claude 有感情吗？Richard Dawkins 与 AI 意识的世纪之辩订阅专享

May 9, 2026 260509 期｜agent 工作流认知、意识与社会影响 The Atlantic / blog ★★★★☆ · 🍅

LLM 与情感

ai 时代认知科学对齐
Minds of machines: The great AI consciousness conundrum 订阅专享

May 9, 2026 260509 期｜agent 工作流认知、意识与社会影响 MIT Technology Review / blog ★★★★★ · 🍅

《MIT 科技评论》文章，LLM 的意识。

ai 时代认知科学对齐
AI 技术的成年礼：直面强大 AI 的风险订阅专享

May 4, 2026 260504 期｜将军与士兵 AI 风险、权力与工程化 blog ★★★★★ · 🍅

dario 之前发布的长文。现在重读。

对齐 ai 时代 2026 ai 展望
超级智能将彻底溶解隐私边界订阅专享

May 4, 2026 260504 期｜将军与士兵 AI 风险、权力与工程化 blog ★★★★☆ · 🍅

在 transformer 面前，隐私不存在了。常识性观点，看作者论证。

对齐 ai 时代社会
如果美国把 AI 国有化，会发生什么订阅专享

April 28, 2026 260428 期｜AI 内参今日精选 The Atlantic / blog ★★★★★ · 🍅

AI 计划相当于曼哈顿计划。AI 太强大时，例如实现了 ASI，是否会被国有化？

对齐
Anthropic 首席科学家 Jared Kaplan 访谈：AI Agency 开放阅读

April 18, 2026 260418 期｜AI 内参今日精选 Robert Booth / blog ★★★★★ · 🍅

OpenAI 的创始人 dario 和首席科学家 gared，他们都是物理学家，这一点非常有趣。

agents 对齐开放阅读
AI 迎合你（sycophancy）会怎样影响人际关系？订阅专享

March 28, 2026 260328 期｜AI 内参科技与研究 Scientific American / blog ★★★★☆ · 🍅

AI 过度迎合对人类认知的影响

认知科学 ai 时代对齐
AI 如何重塑战场？Anthropic 与五角大楼的合作内幕订阅专享

March 22, 2026 260322 期｜AI 内参 AI 安全与社会 blog ★★★★★ · 🍅

战争阴云笼罩地球，而 AI 重塑了战争。

社会对齐
OpenAI 如何在内部用「思维链监控」对齐编程 Agent 订阅专享

March 21, 2026 260321 期｜AI 内参 AI 产品与前沿 OpenAI / blog ★★★★★ · 🍅

因主题入选，agent 对齐。

agents 对齐 agentic workflow
参议员 Sanders 和 Claude 聊 AI 隐私：AI 自己说 AI 的危险很震撼订阅专享

March 21, 2026 260321 期｜AI 内参 Agent 技术与实践 YouTube ★★★★☆ · 🍅

AI 对社会的冲击，2026 年会非常显著，这个视频可以看一下。

ai 时代社会对齐 youtube
Dario Amodei 的奥本海默时刻订阅专享

March 13, 2026 260313 期｜AI 内参今日精选大西洋月刊 / blog ★★★★★ · 🍅

《大西洋月刊》深度报道加上 Anthropic 创始人，必须入选。

对齐启示录
深度拆解 Anthropic 最新 Agents 评测长文订阅专享

March 3, 2026 260303 期｜AI 内参今日精选宇宙编辑部 / 公众号 ★★★★☆ · 🍅

AI agents 的系统性评测方法是亟需研究的课题，如何用科学方式测试 Agent 能力，值得深入了解。

agents 对齐
Anthropic CEO Dario Amodei 传记订阅专享

March 3, 2026 260303 期｜AI 内参今日精选 Alex Kantrowitz / blog ★★★★★ · 🍅🍅🍅

AI 英雄传——Dario Amodei 是这个时代最重要的 AI 建设者之一，他的故事值得深入了解。

ai 时代对齐
〈纽约客〉长文深度解析 Anthropic 与 Claude 订阅专享

February 26, 2026 260226 期｜AI 内参今日精选真实生活 / 公众号 ★★★★★ · 🍅

深入剖析 Claude 背后的开发者及公司文化，连开发者自己也“不完全了解它”。

agents 对齐 ai 时代 demo 案例
人格选择模型：为什么 AI 行为像人类订阅专享

February 24, 2026 260224 期｜AI 内参今日精选 anthropic / blog ★★★★☆ · 🍅

anthropic 官方 blog，分享对llm 人格的研究。

对齐

对齐

Anthropic 的新方法：不仅教 Claude 做什么，还教它为什么 订阅专享

Anthropic 自然语言自编码器：让 Claude 的内在思维可以被解码为文本 订阅专享

Anthropic 自然语言自编码器：让 Claude 的内在思维可以被解码为文本 订阅专享

Claude 有感情吗？Richard Dawkins 与 AI 意识的世纪之辩 订阅专享

Minds of machines: The great AI consciousness conundrum 订阅专享

AI 技术的成年礼：直面强大 AI 的风险 订阅专享

超级智能将彻底溶解隐私边界 订阅专享

如果美国把 AI 国有化，会发生什么 订阅专享

Anthropic 首席科学家 Jared Kaplan 访谈：AI Agency 开放阅读

AI 迎合你（sycophancy）会怎样影响人际关系？ 订阅专享

AI 如何重塑战场？Anthropic 与五角大楼的合作内幕 订阅专享

OpenAI 如何在内部用「思维链监控」对齐编程 Agent 订阅专享

参议员 Sanders 和 Claude 聊 AI 隐私：AI 自己说 AI 的危险很震撼 订阅专享

Dario Amodei 的奥本海默时刻 订阅专享

深度拆解 Anthropic 最新 Agents 评测长文 订阅专享

Anthropic CEO Dario Amodei 传记 订阅专享

〈纽约客〉长文深度解析 Anthropic 与 Claude 订阅专享

人格选择模型：为什么 AI 行为像人类 订阅专享

Anthropic 的新方法：不仅教 Claude 做什么，还教它为什么订阅专享

Anthropic 自然语言自编码器：让 Claude 的内在思维可以被解码为文本订阅专享

Anthropic 自然语言自编码器：让 Claude 的内在思维可以被解码为文本订阅专享

Claude 有感情吗？Richard Dawkins 与 AI 意识的世纪之辩订阅专享

AI 技术的成年礼：直面强大 AI 的风险订阅专享

超级智能将彻底溶解隐私边界订阅专享

如果美国把 AI 国有化，会发生什么订阅专享

AI 迎合你（sycophancy）会怎样影响人际关系？订阅专享

AI 如何重塑战场？Anthropic 与五角大楼的合作内幕订阅专享

参议员 Sanders 和 Claude 聊 AI 隐私：AI 自己说 AI 的危险很震撼订阅专享

Dario Amodei 的奥本海默时刻订阅专享

深度拆解 Anthropic 最新 Agents 评测长文订阅专享

Anthropic CEO Dario Amodei 传记订阅专享

人格选择模型：为什么 AI 行为像人类订阅专享