当前位置：首页 > news >正文

Langchain-Chatchat问答系统白名单机制：限制非法访问来源

news 2026/6/1 8:03:55

Langchain-Chatchat问答系统白名单机制：限制非法访问来源

在企业级AI应用日益普及的今天，一个看似简单的智能问答系统，背后往往承载着大量敏感数据——从员工手册到内部制度，从客户合同到技术文档。一旦这些内容通过API接口暴露在外，轻则造成信息泄露，重则引发合规风险。这正是许多组织在部署本地知识库系统时最为担忧的问题。

Langchain-Chatchat 作为一款主打“数据不出内网”的开源本地知识库问答系统，天然面向对安全性要求较高的使用场景。它允许用户将私有文档离线处理、向量化存储，并结合本地或远程大模型实现精准问答。然而，即便系统部署在内网，只要服务端口对外监听（如0.0.0.0），就存在被扫描、探测甚至滥用的风险。如何确保只有可信来源才能访问？答案就是：IP白名单机制。

白名单的本质：从“谁都能来”到“只许你进”

白名单并不是什么高深莫测的技术概念，它的核心思想极其朴素：默认拒绝一切，仅放行明确列出的例外。与之相对的是黑名单——允许所有人，只阻止已知恶意者。显然，在安全策略中，白名单更适用于高信任门槛的环境。

在 Web 服务中，最常见的形式是IP 白名单。比如，你希望只有公司办公网段（如192.168.1.0/24）和运维管理机（10.0.0.5）可以调用/chat接口，其余所有请求一律拦截。这种控制粒度虽粗，但胜在简单高效，尤其适合边界清晰的局域网环境。

对于 Langchain-Chatchat 这类系统而言，关键接口如/chat,/document/upload,/vector_store/query等都应受到保护。否则，哪怕是一个未授权的脚本，也可能通过批量提问耗尽资源，或者利用提示词工程尝试“越狱”获取原始文档片段。

如何工作？中间件里的第一道防线

白名单的实现通常嵌入在请求处理流程的最前端，也就是所谓的“中间件”层。以 Langchain-Chatchat 常用的 FastAPI 框架为例，整个过程就像一道安检门：

客户端发起 HTTP 请求；
服务器接收到后，立即提取客户端 IP 地址；
将该 IP 与预设白名单进行比对；
若匹配成功，则放行，进入后续业务逻辑；
若不匹配，则直接返回403 Forbidden，不再继续执行任何操作。

这个过程发生在毫秒级别，合法用户几乎无感，而攻击者连系统的“脸”都见不到。

更重要的是，这一机制可以多层级叠加。你可以选择在反向代理（如 Nginx）做初步过滤，减轻后端压力；同时在应用层再做一次确认，形成纵深防御。两者各有优劣：

层级	实现方式	优点	注意事项
反向代理层（Nginx）	使用`allow/deny`指令	性能高，早拦截	需正确传递真实IP，避免`$remote_addr`被代理遮蔽
应用层（FastAPI中间件）	Python代码控制	灵活扩展，可集成日志、告警等	增加少量处理开销

推荐做法是双管齐下：Nginx 先筛一遍，FastAPI 再验一次，兼顾效率与可控性。

一行代码守住入口：FastAPI 中间件实战

Langchain-Chatchat 的后端基于 Python 构建，其灵活性使得我们可以轻松编写一个通用的白名单中间件。以下是一个生产可用的实现示例：

from fastapi import FastAPI, Request, HTTPException from starlette.middleware.base import BaseHTTPMiddleware import ipaddress # 支持单个IP和CIDR网段 ALLOWED_IPS = [ "127.0.0.1", "192.168.1.0/24", "10.0.0.5", ] class WhitelistMiddleware(BaseHTTPMiddleware): async def dispatch(self, request: Request, call_next): client_ip_str = request.client.host if not self.is_allowed(client_ip_str): raise HTTPException(status_code=403, detail="Access denied: IP not in whitelist") response = await call_next(request) return response def is_allowed(self, ip: str) -> bool: try: client_ip = ipaddress.ip_address(ip) for allowed in ALLOWED_IPS: if "/" in allowed: if client_ip in ipaddress.ip_network(allowed, strict=False): return True else: if client_ip == ipaddress.ip_address(allowed): return True return False except Exception: return False

这段代码的关键点在于：
- 利用标准库ipaddress精确支持 IPv4/IPv6 和 CIDR 子网判断；
- 自动识别192.168.1.0/24这类网段，便于管理整个部门设备；
- 异常捕获防止因畸形IP导致服务崩溃；
- 返回标准403错误码，符合 RESTful 规范。

注册方式也极为简洁：

app = FastAPI() app.add_middleware(WhitelistMiddleware)

一旦启用，所有非白名单来源的请求都将被拒之门外，无论是浏览器访问、curl 调用还是自动化脚本，统统无效。

真实IP怎么拿？别让代理骗了你

这里有个极易被忽视的问题：当你的服务前面有 Nginx、负载均衡器或云网关时，request.client.host获取到的往往是代理服务器自己的 IP（例如172.18.0.1），而非真正的客户端地址。

解决办法是让代理主动传递原始 IP。Nginx 配置如下：

location / { proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_pass http://localhost:8000; }

然后在中间件中优先读取这些头部字段。改进后的 IP 提取逻辑可以这样写：

def get_client_ip(request: Request) -> str: # 优先使用代理传递的真实IP x_real_ip = request.headers.get("X-Real-IP") if x_real_ip: return x_real_ip.strip() x_forwarded_for = request.headers.get("X-Forwarded-For") if x_forwarded_for: # 取第一个IP（最外层客户端） return x_forwarded_for.split(",")[0].strip() return request.client.host

这一步看似微小，却是决定白名单是否真正有效的关键。否则，你可能会发现自己辛辛苦苦配置的规则完全失效——因为所有请求看起来都来自同一个代理IP。

不要写死！配置化与热更新才是王道

把 IP 列表硬编码在代码里固然简单，但在实际运维中会带来巨大麻烦：每次增删IP都要改代码、重新部署，既低效又容易出错。

更好的做法是从外部加载配置。例如使用 YAML 文件：

security: enable_whitelist: true allowed_ips: - "127.0.0.1" - "192.168.1.0/24" - "10.0.0.5"

并在启动时动态读取：

import yaml with open("config.yaml", "r") as f: config = yaml.safe_load(f) if config["security"]["enable_whitelist"]: ALLOWED_IPS = config["security"]["allowed_ips"] app.add_middleware(WhitelistMiddleware)

进一步地，还可以支持运行时热更新，通过/reload-whitelist接口触发配置重载，无需重启服务即可生效。这对于频繁调整权限的企业环境尤为重要。

特殊路径放行：别把自己锁在外面

安全不能以牺牲可用性为代价。有些路径必须例外处理，否则可能引发连锁问题。

最常见的例子是健康检查接口（如/healthz或/ping）。监控系统、Kubernetes 探针或 CI/CD 流水线常常需要定期访问这类接口。如果它们也被白名单拦截，会导致误判服务异常，甚至触发不必要的重启。

因此，在设计中间件时应支持“豁免路径”：

EXEMPT_PATHS = ["/healthz", "/openapi.json", "/docs"] async def dispatch(self, request: Request, call_next): if request.url.path in EXEMPT_PATHS: return await call_next(request) client_ip_str = get_client_ip(request) if not self.is_allowed(client_ip_str): raise HTTPException(status_code=403, detail="Access denied: IP not in whitelist") return await call_next(request)

此外，前端静态资源（如/static/*）、Swagger 文档页也建议酌情放行，保障调试与协作顺畅。

日志记录与安全审计：不只是拦住，还要看得见

拦截只是第一步，真正的安全还需要“可见性”。每一次被拒绝的访问都应该被记录下来，包括时间、IP、请求路径、User-Agent 等信息。

import logging logger = logging.getLogger("whitelist") # 在拒绝时添加日志 if not self.is_allowed(client_ip_str): logger.warning(f"Blocked unauthorized access from {client_ip_str} to {request.url.path}") raise HTTPException(status_code=403, detail="Access denied")

这些日志不仅能用于事后追溯，还能帮助发现潜在威胁。例如，某个外部IP持续尝试不同接口路径，可能是自动化扫描工具在探路。结合 ELK 或 Prometheus + Grafana，甚至可以设置告警规则，当单位时间内拒绝次数突增时自动通知管理员。

更进一步，可联动防火墙或 WAF 实现自动封禁，构建初级的入侵防御能力。

实际案例：企业政策查询系统的防护实践

某中型企业在内部部署了 Langchain-Chatchat，用于提供员工手册、休假制度、报销流程等政策文件的智能问答服务。系统部署在内网服务器上，前端通过 Web 页面供全体员工访问。

最初，系统未启用任何访问控制，仅靠“接口路径保密”来防范外泄。但某次安全扫描发现，该服务的 API 路径已被公开在某个测试文档中，存在被外部调用的风险。

随后，运维团队采取以下措施：
1. 在 Nginx 层配置allow 10.10.0.0/16; deny all;，限定仅公司办公网段可访问；
2. 同步启用 FastAPI 白名单中间件，配置相同规则，双重保险；
3. 将所有健康检查接口列入豁免列表；
4. 开启访问拒绝日志，并接入 SIEM 系统；
5. 设置维护开关，紧急情况下可通过环境变量临时关闭白名单。

实施后，系统安全性显著提升。即使接口路径泄露，外部请求也无法穿透网络层和应用层的双重过滤。内部员工则完全不受影响，体验如常。