首頁
影片
頻道
食衣住行
全部
26699
DIY
1746
衣著
465
妝扮
863
車
3423
房屋
1613
社會
4619
政論
84
美食
4527
烹飪
7647
新聞
191
環保
345
點心
1176
休閒娛樂
全部
76230
ASMR
145
小說
3018
戶外
1189
日常
4113
卡通
1073
民俗
1559
休閒
1040
收藏
682
明星
4051
玩具
1144
美女
853
音樂
6794
旅遊
1043
神秘
1576
配音
465
偶戲
678
動漫
5846
開箱
576
新奇
780
運動
2006
遊戲
8985
電視劇
9361
電影
4878
漫畫
718
綜藝
5081
劇場
949
廣播
415
趣味
3721
寵物
1499
魔術
1992
教學知識
全部
42063
3C
1426
人物
418
人際
115
心靈
1775
文化
1151
文學
618
生物
151
地理
687
宇宙
346
兒童
990
兩性
1257
命理
1098
宗教
3376
法律
383
知識
2076
科學
1648
軍武
1109
財經
5313
健康
3777
動物
1709
教育
2214
軟體
1001
植物
272
園藝
2566
演講
322
綜合
1551
歷史
1787
職場
414
雜談
912
藝術
1088
攝影
513
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.42萬
2026-01-14
325
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
04:31
TIKTOK躺平式发力,现阶段我要做的。
08:41
普通人只用这一个AI工具ChatArt,就能做出爆款短视频!|0经验也能靠它开启自媒体副业之路#ChatArt #imyfone
05:32
2026最强机场推荐!全场5折,拉满千兆宽带,实测最高52万kbps速度!秒开8K,含美/土原生节点,支持几乎全部主流流媒体!
17:24
如何用 GA 追蹤 AI 流量數據?一個小指令,ChatGPT、Claude、Germini 一網打盡!
02:28
Obs180|Obsidian互動式評分 Interactive Ratings外掛,簡化+美化評等操作
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei