首頁
影片
頻道
食衣住行
全部
32330
DIY
2056
衣著
581
妝扮
1001
車
4146
房屋
1975
社會
5721
政論
98
美食
5466
烹飪
9294
新聞
204
環保
389
點心
1399
休閒娛樂
全部
91237
ASMR
156
小說
3347
戶外
1373
日常
4921
卡通
1302
民俗
1940
休閒
1245
收藏
846
明星
4896
玩具
1357
美女
962
音樂
8103
旅遊
1113
神秘
1893
配音
554
偶戲
787
動漫
6799
開箱
713
新奇
855
運動
2475
遊戲
11060
電視劇
11393
電影
5953
漫畫
870
綜藝
6278
劇場
1159
廣播
474
趣味
4304
寵物
1745
魔術
2364
教學知識
全部
50076
3C
1687
人物
468
人際
139
心靈
2117
文化
1339
文學
759
生物
175
地理
721
宇宙
422
兒童
1280
兩性
1443
命理
1291
宗教
4021
法律
510
知識
2547
科學
1934
軍武
1362
財經
6416
健康
4538
動物
2100
教育
2661
軟體
1152
植物
337
園藝
2846
演講
339
綜合
1781
歷史
2134
職場
481
雜談
1066
藝術
1387
攝影
623
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.47萬
2026-01-14
329
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
04:40
Obs174|Note Annotations:筆記整理的秘密武器:筆記註釋-重點標記,快速回顧重點
05:24
macOS Tahoe Beta 5&6:有哪些吸引人的变化?
03:07
為什麼YouTube喜歡「低努力內容」
26:14
0成本复制百万销售漏斗,让竞争对手为你打工(2025最新!)
18:36
YouTube 新手教程:上传视频后要避免的 10 个操作错误,油管创作者必看!
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei