Node.js 服务 CPU 占用高的诊断与调优

大家好，我是33blog的技术作者。最近在维护一个Node.js线上服务时，遇到了CPU占用率持续偏高的问题。经过一番排查和优化，终于让服务稳定下来。今天就把这次实战经验分享给大家，希望能帮助遇到类似问题的同学。

1. 快速定位问题进程

当我发现服务器CPU使用率异常时，首先使用系统命令快速定位问题进程：

# 查看CPU占用最高的进程
top -c

# 或者使用更直观的htop（需要安装）
htop

# 找到Node.js进程后，记录其PID
ps aux | grep node

在实际操作中，我发现一个Node.js进程长期占用90%以上的CPU，这明显不正常。

2. 生成和分析CPU性能分析文件

使用Node.js内置的性能分析工具生成CPU快照：

# 对运行中的Node.js进程生成性能分析文件
node --prof-process isolate-0xnnnnnnn-v8.log > processed.txt

或者更简单的方式，在代码中直接生成分析文件：

const profiler = require('v8-profiler-node8');
const fs = require('fs');

// 开始性能分析
profiler.startProfiling('CPU Profile');

// 运行一段时间后停止并保存
setTimeout(() => {
  const profile = profiler.stopProfiling('CPU Profile');
  profile.export()
    .pipe(fs.createWriteStream(`cpu-profile-${Date.now()}.cpuprofile`))
    .on('finish', () => profile.delete());
}, 30000);

3. 使用Chrome DevTools分析性能数据

将生成的.cpuprofile文件导入Chrome DevTools：

# 打开Chrome浏览器，进入开发者工具
# 选择Performance标签页，点击"Load profile"加载分析文件

通过分析，我发现问题出在一个递归函数没有正确的终止条件，导致了无限循环。

4. 内存泄漏检测

有时候CPU问题与内存泄漏相关，使用heapdump检测内存使用：

const heapdump = require('heapdump');

// 在怀疑有内存泄漏的地方手动生成堆快照
function takeHeapSnapshot() {
  heapdump.writeSnapshot(`./heapdump-${Date.now()}.heapsnapshot`);
}

// 或者设置定时自动生成
setInterval(takeHeapSnapshot, 60000);

5. 代码层面的优化实践

根据分析结果，我进行了以下优化：

// 优化前：有问题的递归函数
function processData(data) {
  // 缺少终止条件！
  return processData(transform(data));
}

// 优化后：添加终止条件和缓存
const cache = new Map();
function processDataOptimized(data, depth = 0) {
  if (depth > 1000) {
    throw new Error('Max recursion depth exceeded');
  }
  
  if (cache.has(data)) {
    return cache.get(data);
  }
  
  const result = transform(data);
  cache.set(data, result);
  
  return processDataOptimized(result, depth + 1);
}

6. 生产环境监控和告警

为了防止问题再次发生，我设置了监控告警：

const os = require('os');

// 监控CPU使用率
setInterval(() => {
  const cpus = os.cpus();
  const totalIdle = cpus.reduce((acc, cpu) => acc + cpu.times.idle, 0);
  const totalTick = cpus.reduce((acc, cpu) => {
    return acc + Object.values(cpu.times).reduce((a, b) => a + b);
  }, 0);
  
  const idle = totalIdle / cpus.length;
  const total = totalTick / cpus.length;
  const usage = (1 - idle / total) * 100;
  
  if (usage > 80) {
    // 触发告警
    console.error(`High CPU usage detected: ${usage.toFixed(2)}%`);
  }
}, 5000);

踩坑总结

在这次排查过程中，我学到了几个重要经验：

性能分析文件要在大负载下生成，才能反映真实问题
递归函数一定要有明确的终止条件
缓存机制能显著减少重复计算
生产环境一定要有完善的监控告警

经过这些优化，服务的CPU使用率从90%+降到了正常的20%-30%。希望这篇文章对大家有所帮助，如果遇到类似问题，不妨按照这个流程来排查。

静夜 • 11-10回复

太实用了！刚遇到类似问题，马上试试这些方法。

飞驰环球 • 11-16回复

递归没终止条件真是经典坑啊，我也踩过 😅

DynamicDiva • 11-17回复

CPU监控那段能再细说说吗？告警怎么对接企业微信？

瓦罐 • 11-17回复

90%降到30%？效果也太猛了吧，作者牛！

梧桐听雨 • 12-06回复

看完立刻去检查代码里的递归，瑟瑟发抖中…

QuietStorm • 12-25回复

催更！下次能不能讲讲内存泄漏的实战排查？

Node.js 服务 CPU 占用高的诊断与调优