Now I Get It：科学论文转交互式网页的工程实践

科学论文往往晦涩难懂，尤其是数学公式、模拟结果和复杂推理过程。对于非专业读者，理解一篇论文可能需要数小时甚至几天。nowigetit.us 项目提供了一个创新解决方案：上传 PDF 文件，即可生成一个交互式网页，用通俗语言解释论文内容，并融入可编辑方程、嵌入式模拟和逐步展开的解释。这种 “论文到网页” 的转换，不仅降低了阅读门槛，还大大提升了学习效率。本文将剖析其核心技术原理，并给出可落地的工程参数与实现清单，帮助开发者构建类似系统。

系统架构概述

nowigetit.us 的核心是一个无服务器架构：前端负责 PDF 上传，后端使用 LLM（大语言模型）处理生成静态 HTML 页面，最终通过 CDN 托管分享。整个流程包括安全检查、内容提取、AI 生成和发布四个阶段。根据项目 GitHub 痕迹，其前端静态文件部署在 AWS S3 + CloudFront，域名通过 Route 53 管理。这种设计确保高可用性和低成本，适合处理突发流量。

关键优势在于 “静态生成”：LLM 不实时渲染，而是预生成完整的交互 HTML，避免了动态服务器压力。证据显示，生成页面存储在云端画廊中，用户可随时访问。

PDF/LaTeX 解析模块

首先，需要可靠地从 PDF 或 LaTeX 源中提取结构化内容。推荐使用 PyMuPDF 或 pdfplumber 处理 PDF，支持文本、公式（LaTeX）和图像提取。针对 LaTeX，可用 textract 或直接解析 .tex 文件。

落地参数：

文件大小阈值：10MB（nowigetit 限制），超过则提示裁剪参考文献。
提取精度：优先 OCR 公式（Tesseract + Mathpix API），准确率 >95%。
结构化输出：JSON 格式 {sections: [{title, text, equations: [], figures: []}]}。

示例清单：

安装 pymupdf: pip install pymupdf
提取代码：

import fitz  # PyMuPDF
doc = fitz.open("paper.pdf")
content = []
for page in doc:
    content.append(page.get_text())

公式检测：集成 Mathpix，API 调用预算 <0.01 USD / 页。

此步确保 LLM 输入干净，避免噪声导致幻觉。

LLM 驱动的内容生成与交互注入

核心是 prompt 工程：将提取内容喂给 LLM（如 GPT-4o 或 Claude 3.5），要求生成 HTML 模板，注入交互元素。

Prompt 模板示例：

基于以下论文内容，用通俗语言解释。输出纯 HTML：
- 每个公式用 <div class="editable-eq">KaTeX 公式</div>，支持编辑。
- 模拟用 iframe 嵌入 Desmos/GeoGebra。
- 推理用 <details><summary>步骤1</summary>...</details>。
结构：标题 + 摘要解释 + 逐节分解 + 互动区。

生成输出直接是自包含 HTML，无需后处理。

证据：nowigetit 显示输入 / 输出 tokens 和总成本，表明使用 OpenAI/Anthropic API，单篇处理～50k-200k tokens，成本～0.5-2 USD。

优化参数：

模型选择：Claude-3.5-sonnet（长上下文，STEM 强），温度 0.3（一致性）。
上下文窗口：128k tokens，截断非核心节。
重试机制：若生成失败（>5min），点击 “Recreate” 重跑，限 2 次。
幻觉防护：后置校验 prompt，“验证事实一致性”。

交互组件集成

为实现 angle_brief 所述功能，注入以下 web 技术：

可编辑方程：MathQuill + KaTeX。
- 用户点击公式，MathQuill 输入 LaTeX，实时渲染。
- 参数：渲染延迟 <200ms，移动端触屏支持。
```
<div id="editable-math" class="mathquill-editable"></div>
<script src="https://cdn.jsdelivr.net/npm/mathquill@0.10.1/mathquill.min.js"></script>
```
嵌入模拟：根据论文图表，LLM 生成 Desmos（数学绘图）或 Plotly（数据可视化）链接。
- 示例：物理模拟用 p5.js 画布，用户拖拽参数。
- 阈值：模拟复杂度 <10 变量，避免卡顿。
逐步解释：HTML5 或 Alpine.js accordion。
- 展开动画 300ms，支持打印友好模式。

这些组件无需服务器，纯前端 JS，确保页面 <2MB 加载快。

部署与监控

后端：Lambda + SQS 队列处理上传，生成后上传 S3。

队列深度阈值：>10 则限流。
CDN：CloudFront，TTL 1h，缓存命中 >90%。

监控清单：

Datadog/Prometheus：tokens 使用率、生成时长（目标 <5min）。
成本警报：日总 >50 USD 暂停。
用户反馈：页面嵌入 thumbs up/down，LLM 微调数据集。

回滚策略：若 LLM 输出异常，fallback 到纯文本总结。

实际案例与扩展

想象一篇量子计算论文：原 PDF 公式密集，转换后网页允许编辑薛定谔方程参数，实时模拟波函数演化；点击 “步骤” 展开证明过程。这种交互让初学者 “now I get it”。

扩展：支持 LaTeX 输入、多语言（LLM translate）、协作编辑（Yjs + CRDT）。

通过以上参数，开发者可在周末搭建 MVP，成本 <100 USD / 月。

资料来源：

主站：nowigetit.us
HN 讨论：news.ycombinator.com/item?id=47195123
GitHub 痕迹：github.com/jbdamask/scratch
FAQ：nowigetit.us/faq.html

（正文字数：约 1250 字）