about blog github

14 May 2026
技术决策随笔

之前有人问起,如果现在重新设计过去做过的 GPU 调度系统,我会怎么做。当时的回答是:肯定不会从0开始再开发一个调度系统了,时间成本和维护成本都不划算。更好的做法是直接在社区里找一个能满足大致需求的方案,说不定连二次开发都不需要。于是就想随便写点东西,权当总结与思考吧。

功能

选择的技术框架是否满足核心需求,是否支持二次开发和未来扩展。以前选型往往只盯着当前的功能列表,后来才意识到,扩展性决定了系统能走多远。好的框架不会把你框死,而是在你需要自定义策略时,留有合理的切入点和插件机制。

性能

性能是否能支撑当下的规模,有什么性能瓶颈。除了吞吐和延迟这些直观指标,还要关注高负载下系统自身的资源消耗。如果框架本身比较重,可能业务还没到瓶颈,维护这套系统本身就变成了一个大问题。

成本

搭建这套系统的成本如何,学习曲线和开发时间都需要考虑,后期的维护成本同样不能忽略。引入一个新框架看似省事,但如果团队要花大量时间排查问题、阅读源码来填坑,隐性成本其实非常高。

社区和生态

社区活跃度如何,文档是否完善,生态的工具链是否齐全。遇到问题时,是否有足够多的参考案例和解答渠道,这直接影响到解决问题的效率。成熟的生态往往能大幅降低集成成本和踩坑概率。

团队能力

当前团队有多少人熟悉这个技术栈,多久能在团队里推广开,学习成本是否够低。技术决策不能脱离团队的实际状况,再好的工具如果没人会用、没人愿意维护,最后也只能闲置。



LEo at 00:12

about blog github