Reto的学习日记

Reto的学习日记 https://monolith-server.1554790871.workers.dev 在AI Infra，Video Generation，Multimodal LLMs，World Models等领域的学习小记 zh-CN Fri, 08 May 2026 13:13:34 GMT Nano-vLLM 学习教程 https://monolith-server.1554790871.workers.dev/posts/nano-vllm-i1yfhck0po3v https://monolith-server.1554790871.workers.dev/posts/nano-vllm-i1yfhck0po3v > 面向 AI Researcher 的 vLLM 最小运行逻辑导览 > > 代码仓库：`GeeeekExplorer/nano-vllm`，约 1,383 行 Python，实现了 vLLM 的离线批推理核心路径。本教程按照 README 中的 **Key Features** 展开，逐一对照代码讲解。 Fri, 08 May 2026 09:13:54 GMT Nano-vLLM-Omni 学习教程 https://monolith-server.1554790871.workers.dev/posts/nano-vllm-omni-i1yfhck0po3v https://monolith-server.1554790871.workers.dev/posts/nano-vllm-omni-i1yfhck0po3v > 面向 AI Researcher 的 vLLM-Omni 最小可运行路径导读。 > > 本文以 `README.md` 中的 **Key Features** 为主线，结合真实源码片段，把 `request -> scheduler -> runner -> pipeline` 这条扩散模型推理链路拆开讲清楚。读完之后你应该能： > > 1. 复现 `OmniLLM.generate()` 的调用路径； > 2. 理解为什么扩散模型的"engine"和 LLM 的"engine"形状相似； > 3. 快速改造出自己的调度器或 pipeline 适配器。 Fri, 08 May 2026 09:11:47 GMT DeepSeek-V4技术细节解析 https://monolith-server.1554790871.workers.dev/posts/research-06c8ede4 https://monolith-server.1554790871.workers.dev/posts/research-06c8ede4 三大核心架构升级： 1. 混合注意力架构（CSA + HCA）——提升长上下文效率 2. 流形约束超连接（mHC）——增强残差连接 3. Muon 优化器——更快收敛、更稳定训练 Thu, 30 Apr 2026 04:22:10 GMT Tuna系列模型技术深度解析报告 https://monolith-server.1554790871.workers.dev/posts/tuna-8bfb47ef https://monolith-server.1554790871.workers.dev/posts/tuna-8bfb47ef Tuna 系列探索了**统一视觉表示**的多种形态，从有编码器到无编码器，逐步简化架构的同时提升性能。 Thu, 30 Apr 2026 02:50:20 GMT 音画同步生成_最新进展与NeurIPS研究方向 https://monolith-server.1554790871.workers.dev/posts/neurips-25426f98 https://monolith-server.1554790871.workers.dev/posts/neurips-25426f98 > **研究目标**：梳理 LTX-2.3（2026年3月）之后更新的开源音视频联合生成（Joint Audio-Video Generation, JAVG）方法，并提出面向 NeurIPS 2026/2027 的可行研究方向 Mon, 20 Apr 2026 07:10:33 GMT GRN: Generative Refinement Networks for Visual Synthesis — 技术深度解析 https://monolith-server.1554790871.workers.dev/posts/grn-229338e3 https://monolith-server.1554790871.workers.dev/posts/grn-229338e3 GRN 提出了一种**区别于扩散模型和自回归模型的第三条视觉生成范式**——通过分层二值量化(HBQ)实现近无损离散化，通过全局精炼机制逐步完善输出，通过熵引导采样实现复杂度感知的自适应步数生成。 Mon, 20 Apr 2026 06:35:47 GMT V-JEPA_2.1_vs_Marble_技术调研报告 https://monolith-server.1554790871.workers.dev/posts/v-jepa-2-1-vs-marble-28ff29d5 https://monolith-server.1554790871.workers.dev/posts/v-jepa-2-1-vs-marble-28ff29d5 V-JEPA 2.1 做了什么？输入输出是什么？怎么训练的？优势在哪里？和 Marble 的区别是什么？ Fri, 10 Apr 2026 08:25:06 GMT JEPA 范式世界模型技术发展深度解析：从理论构想到具身智能实践 https://monolith-server.1554790871.workers.dev/posts/jepa-3bb372ab https://monolith-server.1554790871.workers.dev/posts/jepa-3bb372ab JEPA、联合嵌入预测架构、世界模型、自监督学习、V-JEPA、具身智能、表示学习、物理直觉 Mon, 30 Mar 2026 11:19:41 GMT VGGT与4D视觉重建生成领域综合技术报告 https://monolith-server.1554790871.workers.dev/posts/vggt4d-8dc0fbc6 https://monolith-server.1554790871.workers.dev/posts/vggt4d-8dc0fbc6 以 CVPR 2025 Best Paper VGGT 为核心，系统梳理从 3D 前馈重建到 4D 动态场景重建与生成的技术演进脉络，涵盖 17 篇近期代表性工作。 Wed, 18 Mar 2026 06:41:04 GMT FastGS_CVPR2026_技术深度解析 https://monolith-server.1554790871.workers.dev/posts/fastgs-cvpr2026-be51a787 https://monolith-server.1554790871.workers.dev/posts/fastgs-cvpr2026-be51a787 Tue, 17 Mar 2026 06:38:16 GMT World_Labs_Marble技术深度解析 https://monolith-server.1554790871.workers.dev/posts/world-labs-marble-45d16ea8 https://monolith-server.1554790871.workers.dev/posts/world-labs-marble-45d16ea8 Tue, 17 Mar 2026 04:02:05 GMT Genie系列世界模型技术演进深度解析 https://monolith-server.1554790871.workers.dev/posts/genie-6be0fc40 https://monolith-server.1554790871.workers.dev/posts/genie-6be0fc40 Mon, 16 Mar 2026 12:55:01 GMT NeRF与3D_Gaussian_Splatting技术详解 https://monolith-server.1554790871.workers.dev/posts/nerf3d-gaussian-splatting-d45c69ca https://monolith-server.1554790871.workers.dev/posts/nerf3d-gaussian-splatting-d45c69ca Thu, 12 Mar 2026 08:46:15 GMT 视觉-语言-动作（VLA）模型技术发展与未来趋势 https://monolith-server.1554790871.workers.dev/posts/vla-technical-report-0c3705a2 https://monolith-server.1554790871.workers.dev/posts/vla-technical-report-0c3705a2 Thu, 12 Mar 2026 08:22:12 GMT 世界模型技术发展与未来趋势技术报告 https://monolith-server.1554790871.workers.dev/posts/doc-2baf7663 https://monolith-server.1554790871.workers.dev/posts/doc-2baf7663 Thu, 12 Mar 2026 07:56:17 GMT 视频生成领域近期进展技术报告 https://monolith-server.1554790871.workers.dev/posts/doc-25ded6dc https://monolith-server.1554790871.workers.dev/posts/doc-25ded6dc Tue, 10 Mar 2026 09:42:37 GMT