首頁
影片
頻道
食衣住行
全部
26699
DIY
1746
衣著
465
妝扮
863
車
3423
房屋
1613
社會
4619
政論
84
美食
4527
烹飪
7647
新聞
191
環保
345
點心
1176
休閒娛樂
全部
76230
ASMR
145
小說
3018
戶外
1189
日常
4113
卡通
1073
民俗
1559
休閒
1040
收藏
682
明星
4051
玩具
1144
美女
853
音樂
6794
旅遊
1043
神秘
1576
配音
465
偶戲
678
動漫
5846
開箱
576
新奇
780
運動
2006
遊戲
8985
電視劇
9361
電影
4878
漫畫
718
綜藝
5081
劇場
949
廣播
415
趣味
3721
寵物
1499
魔術
1992
教學知識
全部
42063
3C
1426
人物
418
人際
115
心靈
1775
文化
1151
文學
618
生物
151
地理
687
宇宙
346
兒童
990
兩性
1257
命理
1098
宗教
3376
法律
383
知識
2076
科學
1648
軍武
1109
財經
5313
健康
3777
動物
1709
教育
2214
軟體
1001
植物
272
園藝
2566
演講
322
綜合
1551
歷史
1787
職場
414
雜談
912
藝術
1088
攝影
513
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.42萬
2026-01-14
325
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
00:43
TIKTOK莫名其妙需要知道的事
00:00
週六放鬆遊戲分享一下 The Boba Teashop
01:50
臺灣文化教材課文MV:臺灣路邊攤
28:38
高质量家宽住宅IP推荐,tiktok直播运营、跨境电商养号、数字移民必备,AT&T美国电信运营商住宅IP,Socks代理、自建住宅多ip节点、RDP远程桌面住宅IP
08:28
【Manus AI】太神...每天省1小時!破解網站擋爬蟲,實測最強資料蒐集器 Browser Operator (送Pro帳號體驗)|Laichu
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei