Chousei's 数字花园

  • Home
  • Articles
  • Privacy
  • Contact
DeepSeek-V4 如何让"百万 token 上下文"从不可能变成现实
技术解读

DeepSeek-V4 如何让"百万 token 上下文"从不可能变成现实

DeepSeek-V4 通过 CSA/HCA 混合注意力、mHC 流形约束超连接、Muon 优化器三大核心技术创新,在 100 万 token 上下文场景下实现推理成本降至上一代的 27%、缓存占用降至 10% 的突破。

2026-05-08 01:41
DeepSeek-V4 的后训练揭秘:让一个模型同时成为数学家、程序员和Agent
技术解读

DeepSeek-V4 的后训练揭秘:让一个模型同时成为数学家、程序员和Agent

为什么一个AI模型同时擅长数学、编程、工具调用和写作这么难?DeepSeek-V4用两阶段后训练框架回答了这个问题——先让数学、编程、Agent、指令跟随各自独立成专家,再用逆向KL散度蒸馏把它们合为一体。详解专家独立训练+OPD全词汇表蒸馏的技术逻辑。

2026-05-06 04:54
蚂蚁灵光 App 上线体验世界模型功能:业界首个移动端世界模型AGI产品
AI

蚂蚁灵光 App 上线体验世界模型功能:业界首个移动端世界模型AGI产品

4月27日,蚂蚁灵光App正式上线业界首个移动端世界模型功能,用户上传图片即可在手机上探索3D世界。

2026-04-27 04:19
深度解读 DeepSeek-V4:三项核心技术创新
技术解读

深度解读 DeepSeek-V4:三项核心技术创新

深入解析 DeepSeek-V4 的 CSA/HCA 混合注意力、mHC 流形约束超连接、Muon 优化器三项核心技术突破,探讨其如何实现百万 Token 上下文与极致效率的平衡

2026-04-24 06:39
DeepSeek V4 重磅发布:打破闭源垄断,百万上下文成标配
AI

DeepSeek V4 重磅发布:打破闭源垄断,百万上下文成标配

DeepSeek-V4 正式发布,带来 Pro 和 Flash 两个版本。V4-Pro 对标顶级闭源模型,Agent 能力比肩 Opus 4.6;V4-Flash 则是性价比之选。百万上下文成为标配,下半年将支持华为算力。

2026-04-24 05:02
1

文章分类

  • AI 11
  • 新闻 15
  • 技术解读 7
  • 动漫 1
  • 游戏 1
  • 经济 0
  • 体育 0
  • 旅游 0
  • 教育 0
  • 文化 1
  • 商业 0
  • 健康 1
  • 科技 2

标签云

美食 1 Apple 2 科技 21 新闻 15 AI 31 创业 3 新能源 1 半导体 1 OpenAI 2 DeepSeek 5 大模型 5 长上下文 1 蚂蚁集团 1 研究 0 医疗 2 健康 3 技术解读 4 AI安全 6 开源 5 GitHub 1 动漫 0 二次元 0 日本 0 动画 0 春季番 0 游戏 1 显卡 1 Nvidia 1 DLSS 1 苹果 1 英伟达 1 Cloudflare 1 Intel 1 网络安全 1 观点 1 随笔 1 物联网安全 1 热点解读 1 Anthropic 0 Claude 0 开发者 0 SpaceX 1 Google 1 美国医保 1 AI交互 0 3D打印 1 科技争议 1 社区 1 Linux 1 漏洞 1 云计算 1

Chousei's 数字花园

这里是 Chousei 的数字花园,记录了他的技术思考和生活经验。

Navigation

  • Home
  • Articles
  • Privacy
  • Contact

Contact

  • Email: admin<at>yesiam.monster
  • GitHub

© 2026 Chousei. All rights reserved.