首頁
影片
頻道
食衣住行
全部
34699
DIY
2214
衣著
621
妝扮
1070
車
4468
房屋
2133
社會
6188
政論
79
美食
5916
烹飪
9945
新聞
199
環保
395
點心
1471
休閒娛樂
全部
97162
ASMR
150
小說
3270
戶外
1474
日常
5311
卡通
1410
民俗
2108
休閒
1340
收藏
909
明星
5058
玩具
1460
美女
906
音樂
8612
旅遊
1210
神秘
2041
配音
590
偶戲
832
動漫
7287
開箱
754
新奇
919
運動
2712
遊戲
11870
電視劇
12183
電影
6312
漫畫
940
綜藝
6735
劇場
1247
廣播
506
趣味
4587
寵物
1897
魔術
2532
教學知識
全部
53697
3C
1828
人物
498
人際
149
心靈
2244
文化
1428
文學
848
生物
188
地理
773
宇宙
405
兒童
1391
兩性
1480
命理
1406
宗教
4300
法律
547
知識
2826
科學
2069
軍武
1404
財經
6972
健康
4905
動物
2220
教育
2817
軟體
1242
植物
343
園藝
3126
演講
366
綜合
1905
歷史
2224
職場
496
雜談
1134
藝術
1490
攝影
673
我要推薦
回上一頁
DeepSeek V4是怎么训练出来的?73页PPT深入解析
144
2026-04-24
7
花叔
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 ...
說明
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 02:03 Pro对标顶级,Flash是价格屠夫 05:00 擅长做题,品位差一截 07:25 1.6T MoE架构拆解 12:00 MHC残差连接防梯度爆炸 14:50 粗筛细筛读百万上下文 19:00 Muon优化器反向思路 23:00 专家训练+蒸馏新范式
01:47
來學華語SUNO對話歌曲:第一課我要到臺灣去
06:46
全面禁止下載|全球第1例AI音樂版權和解案剛剛告終|Udio,Suno等或迎來重大變革。AI音樂費用、版權、分潤規則可能重寫
06:57
人物照片也能冒煙?!Canva煙霧特效教學🔥超簡單步驟學起來
18:31
EP-KV02. 零基礎也能創作AI短片【基礎篇】Kling AI 2.1 圖轉影音提示語生成情境與架構
01:47
想P图一样P视频!一句话生成AI特效视频效果,现在AI太离谱了
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei