首頁
影片
頻道
食衣住行
全部
34682
DIY
2222
衣著
624
妝扮
1075
車
4473
房屋
2140
社會
6209
政論
72
美食
5806
烹飪
10000
新聞
193
環保
399
點心
1469
休閒娛樂
全部
97510
ASMR
153
小說
3282
戶外
1475
日常
5334
卡通
1420
民俗
2108
休閒
1345
收藏
913
明星
5079
玩具
1469
美女
911
音樂
8646
旅遊
1213
神秘
2045
配音
593
偶戲
817
動漫
7319
開箱
758
新奇
921
運動
2723
遊戲
11914
電視劇
12217
電影
6350
漫畫
944
綜藝
6761
劇場
1247
廣播
508
趣味
4604
寵物
1905
魔術
2536
教學知識
全部
53882
3C
1835
人物
484
人際
149
心靈
2254
文化
1439
文學
854
生物
189
地理
773
宇宙
407
兒童
1399
兩性
1484
命理
1416
宗教
4316
法律
546
知識
2840
科學
2074
軍武
1408
財經
6988
健康
4919
動物
2233
教育
2826
軟體
1244
植物
343
園藝
3147
演講
365
綜合
1916
歷史
2234
職場
493
雜談
1138
藝術
1497
攝影
672
我要推薦
回上一頁
DeepSeek V4是怎么训练出来的?73页PPT深入解析
144
2026-04-24
7
花叔
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 ...
說明
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 02:03 Pro对标顶级,Flash是价格屠夫 05:00 擅长做题,品位差一截 07:25 1.6T MoE架构拆解 12:00 MHC残差连接防梯度爆炸 14:50 粗筛细筛读百万上下文 19:00 Muon优化器反向思路 23:00 专家训练+蒸馏新范式
17:30
【4,000人實測】AI懶人工具+SORA2 一鍵自動生影片:新手也能衝上YouTube被動收入?
00:48
一分鐘教你用CapCut 自動產生繁體中文字幕 #capcut #剪映技巧
04:08
最佳稳定科学上网机场,轻松跑分28万,KTM Cloud超多流量,Gmeini,ChatGPT等主流流媒体!
06:53
【Sora2】 電腦也能用!最強的 AI 影片工具來了!影片內附序號!Laichu
03:41
免费开源,全平台文件互传,不用数据线也能轻松传文件,让苹果、安卓、MacOS、Windows无缝互传丨科技猎奇
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei