如何运用.NET技术和服务器支撑起世界第50大网站-下篇-润壤网络

如何运用.NET技术和服务器支撑起世界第50大网站-下篇

网站编辑：小润 | 发表时间：2019-02-02 20:25:16

结合服务器、数据库等环节设计，润壤网络润壤再续讲在开发测试环节如何运用编码、缓存等技术来完成生成效率和运行效率。

编码

流程

大部分程序员都是远程工作，自己选择编码地点

编译非常快

然后运行少量的测试

一旦编译成功，代码即转移至开发交付准备服务器

通过功能开关隐藏新功能

在相同硬件上作为其他站点测试运行

然后转移至 Meta.stackoverflow 测试，每天有上千个程序员在使用，一个很好的测试环境

如果通过则上线，在更广大的社区进行测试

大量使用静态类和方法，为了更简单及更好的性能

编码过程非常简单，因为复杂的部分被打包到库里，这些库被开源和维护。.Net 项目数量很低，因为使用了社区共享的部分代码。

开发者同时使用 2 到 3 个显示器，多个屏幕可以显著提高生产效率。

缓存

缓存一切

5 个等级的缓存

1 级是网络级缓存，缓存在浏览器、CDN 以及代理服务器中。

2 级由 .Net 框架 HttpRuntime.Cache 完成，在每台服务器的内存中。

3 级 Redis，分布式内存键值存储，在多个支撑同一个站点的服务器上共享缓存项。

4 级 SQL Server Cache，整个数据库，所有数据都被放到内存中。

5 级 SSD。通常只在 SQL Server 预热后才生效。

举个例子，每个帮助页面都进行了缓存，访问一个页面的代码非常简单：

使用了静态的方法和类。从 OOP 角度来看确实很糟，但是非常快并有利于简洁编码。

缓存由 Redis 和 Dapper 支撑，一个微型 ORM

为了解决垃圾收集问题，模板中 1 个类只使用 1 个副本，被建立和保存在缓存中。监测一切，包括 GC 操。据统计显示，间接层增加 GC 压力达到了某个程度时会显著的降低性能。

CDN Hit 。鉴于查询字符串基于文件内容进行哈希，只在有新建立时才会被再次取出。每天 3000 万到 5000 万 Hit，带宽大约为 300GB 到 600GB。

CDN 不是用来应对 CPU 或I/O负载，而是帮助用户更快的获得答案

部署

每天 5 次部署，不去建立过大的应用。主要因为

可以直接的监视性能

尽可能最小化建立，可以工作才是重点

产品建立后再通过强大的脚本拷贝到各个网页层，每个服务器的步骤是：

通过 POST 通知 HAProxy 下架某台服务器

延迟 IIS 结束现有请求（大约 5 秒）

停止网站（通过同一个 PSSession 结束所有下游）

Robocopy 文件

开启网站

通过另一个 POST 做 HAProxy Re-enable

几乎所有部署都是通过 puppet 或 DSC，升级通常只是大幅度调整 RAID 阵列并通过 PXE boot 安装，这样做非常快速。

协作

团队

SRE （System Reliability Engineering）：5 人

Core Dev（Q&A site）6-7 人

Core Dev Mobile：6 人

Careers 团队专门负责 SO Careers 产品开发：7 人

Devops 和开发者结合的非常紧密

团队间变化很大

大部分员工远程工作

办公室主要用于销售，Denver 和 London 除外

一切平等，些许偏向纽约工作者，因为面对面有助于工作交流，但是在线工作影响也并不大

对比可以在同一个办公室办公，他们更偏向热爱产品及有才华的工程师，他们可以很好的衡量利弊

许多人因为家庭而选择远程工作，纽约是不错，但是生活并不宽松

办公室设立在曼哈顿，那是个人才的诞生地。数据中心不能太偏，因为经常会涉及升级

打造一个强大团队，偏爱极客。早期的微软就聚集了大量极客，因此他们征服了整个世界

Stack Overflow 社区也是个招聘的地点，他们在那寻找热爱编码、乐于助人及热爱交流的人才。

编制预算

预算是项目的基础。钱只花在为新项目建立基础设施上，如此低利用率的 web server 还是 3 年前数据中心建立时购入。

测试

快速迭代和遗弃

许多测试都是发布队伍完成的。开发拥有一个同样的 SQL 服务器，并且运行在相同的 Web 层，因此性能测试并不会糟糕。

非常少的测试。Stack Overflow 并没有进行太多的单元测试，因为他们使用了大量的静态代码，还有一个非常活跃的社区。

基础设施改变。鉴于所有东西都有双份，所以每个旧配置都有备份，并使用了一个快速故障恢复机制。比如，keepalived 可以在负载均衡器中快速回退。

对比定期维护，他们更愿意依赖冗余系统。SQL 备份用一个专门的服务器进行测试，只为了可以重存储。计划做每两个月一次的全数据中心故障恢复，或者使用完全只读的第二数据中心。

每次新功能发布都做单元测试、集成测试盒 UI 测试，这就意味着可以预知输入的产品功能测试后就会推送到孵化网站，即 meta.stackexchange（原 meta.stackoverflow）。

监视/日志

当下正在考虑使用 http://logstash.net/做日志管理，目前使用了一个专门的服务将 syslog UDP 传输到 SQL 数据库中。网页中为计时添加 header，这样就可以通过 HAProxy 来捕获并且融合到 syslog 传输中。

Opserver 和 Realog 用于显示测量结果。Realog 是一个日志展示系统，由 Kyle Brandt 和 Matt Jibson 使用 Go 建立。

日志通过 HAProxy 负载均衡器借助 syslog 完成，而不是 IIS，因为其功能比 IIS 更丰富。

关于云

还是老生常谈，硬件永远比开发者和有效率的代码便宜。基于木桶效应，速度肯定受限于某个短板，现有的云服务基本上都存在容量和性能限制。

如果从开始就使用云来建设 SO 说不定也会达到现在的水准。但毫无疑问的是，如果达到同样的性能，使用云的成本将远远高于自建数据中心。

性能至上

StackOverflow 是个重度的性能控，主页加载的时间永远控制在 50 毫秒内，当下的响应时间是 28 毫秒。

程序员热衷于降低页面加载时间以及提高用户体验。

每个独立的网络提交都予以计时和记录，这种计量可以弄清楚提升性能需要修改的地方。

如此低资源利用率的主要原因就是高效的代码。web server 的 CPU 平均利用率在5% 到 15% 之间，内存使用为 15.5 GB，网络传输在 20 Mb/s到 40 Mb/s。SQL 服务器的 CPU 使用率在5% 到 10% 之间，内存使用是 365GB，网络传输为 100 Mb/s到 200 Mb/s。这可以带来 3 个好处：给升级留下很大的空间；在严重错误发生时可以保持服务可用；在需要时可以快速回档。

学到的知识

1. 为什么使用 MS 产品的同时还使用 Redis？什么好用用什么，不要做无必要的系统之争，比如 C# 在 Windows 机器上运行最好，我们使用 IIS；Redis 在*nix 机器上可以得到充分发挥，我们使用*nix。

2. Overkill 即策略。平常的利用率并不能代表什么，当某些特定的事情发生时，比如备份、重建等完全可以将资源使用拉满。

3. 坚固的 SSD。所有数据库都建立在 SSD 之上，这样可以获得 0 延时。

4. 了解你的读写负载。

5. 高效的代码意味着更少的主机。只有新项目上线时才会因为特殊需求增加硬件，通常情况下是添加内存，但在此之外，高效的代码就意味着 0 硬件添加。所以经常只讨论两个问题：为存储增加新的 SSD；为新项目增加硬件。

6. 不要害怕定制化。SO 在 Tag 上使用复杂查询，因此专门开发了所需的 Tag Engine。

7. 只做必须做的事情。之所以不需要测试是因为有一个活跃的社区支撑，比如，开发者不用担心出现“Square Wheel”效应，如果开发者可以制作一个更更轻量级的组件，那就替代吧。

8. 注重硬件知识，比如 IL。一些代码使用 IL 而不是C#。聚焦 SQL 查询计划。使用 web server 的内存转储究竟做了些什么。探索，比如为什么一个 split 会产生 2GB 的垃圾。

9. 切勿官僚作风。总有一些新的工具是你需要的，比如，一个编辑器，新版本的 Visual Studio，降低提升过程中的一切阻力。

10. 垃圾回收驱动编程。SO 在减少垃圾回收成本上做了很多努力，跳过类似 TDD 的实践，避免抽象层，使用静态方法。虽然极端，但是确实打造出非常高效的代码。

11. 高效代码的价值远远超出你想象，它可以让硬件跑的更快，降低资源使用，切记让代码更容易被程序员理解。

关键字：

上一篇 .NET中常见的内存泄露问题——GC、委托事件和弱引用下一篇粗谈栅格化系统以及PS参考线插件GUIDEGUIDE的应用

网站分类

案例新闻常见问题网站建设新闻资讯行业新闻网站托管运营建站教程