CategoryResourceRepost/极客时间专栏/左耳听风/弹力设计/47 | 弹力设计篇之“重试设计”.md
louzefeng d3828a7aee mod
2024-07-11 05:50:32 +00:00

200 lines
11 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<audio id="audio" title="47 | 弹力设计篇之“重试设计”" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/62/b9/6263aa4f5afe1b6bfcd0f7b8b2f7b7b9.mp3"></audio>
关于重试,这个模式应该是一个很普遍的设计模式了。当我们把单体应用服务化,尤其是微服务化,本来在一个进程内的函数调用就成了远程调用,这样就会涉及到网络上的问题。
网络上有很多的各式各样的组件如DNS服务、网卡、交换机、路由器、负载均衡等设备这些设备都不一定是稳定的。在数据传输的整个过程中只要任何一个环节出了问题最后都会影响系统的稳定性。
# 重试的场景
所以,我们需要一个重试的机制。但是,我们需要明白的是,**“重试”的语义是我们认为这个故障是暂时的,而不是永久的,所以,我们会去重试**。
我认为,设计重试时,我们需要定义出什么情况下需要重试,例如,调用超时、被调用端返回了某种可以重试的错误(如繁忙中、流控中、维护中、资源不足等)。
而对于一些别的错误则最好不要重试比如业务级的错误如没有权限、或是非法数据等错误技术上的错误HTTP的503等这种原因可能是触发了代码的bug重试下去没有意义
# 重试的策略
关于重试的设计,一般来说,都需要有个重试的最大值,经过一段时间不断的重试后,就没有必要再重试了,应该报故障了。在重试过程中,每一次重试失败时都应该休息一会儿再重试,这样可以避免因为重试过快而导致网络上的负担加重。
在重试的设计中我们一般都会引入Exponential Backoff的策略也就是所谓的&quot;指数级退避&quot;。在这种情况下每一次重试所需要的休息时间都会成倍增加。这种机制主要是用来让被调用方能够有更多的时间来从容处理我们的请求。这其实和TCP的拥塞控制有点像。
如果我们写成代码应该是下面这个样子。
首先我们定义一个调用返回的枚举类型其中包括了5种返回错误——成功SUCCESS、维护中NOT_READY、流控中TOO_BUSY、没有资源NO_RESOURCE、系统错误SERVER_ERROR。
```
public enum Results {
SUCCESS,
NOT_READY,
TOO_BUSY,
NO_RESOURCE,
SERVER_ERROR
}
```
接下来我们定义一个Exponential Backoff的函数其返回2的指数。这样每多一次重试就需要多等一段时间。如第一次等200ms第二次要400ms第三次要等800ms……
```
public static long getWaitTimeExp(int retryCount) {
long waitTime = ((long) Math.pow(2, retryCount) );
return waitTime;
}
```
下面是真正的重试逻辑。我们可以看到,在成功的情况下,以及不属于我们定义的错误下,我们是不需要重试的,而两次重试间需要等的时间是以指数上升的。
```
public static void doOperationAndWaitForResult() {
// Do some asynchronous operation.
long token = asyncOperation();
int retries = 0;
boolean retry = false;
do {
// Get the result of the asynchronous operation.
Results result = getAsyncOperationResult(token);
if (Results.SUCCESS == result) {
retry = false;
} else if ( (Results.NOT_READY == result) ||
(Results.TOO_BUSY == result) ||
(Results.NO_RESOURCE == result) ||
(Results.SERVER_ERROR == result) ) {
retry = true;
} else {
retry = false;
}
if (retry) {
long waitTime = Math.min(getWaitTimeExp(retries), MAX_WAIT_INTERVAL);
// Wait for the next Retry.
Thread.sleep(waitTime);
}
} while (retry &amp;&amp; (retries++ &lt; MAX_RETRIES));
}
```
上面的代码是非常基本的重试代码没有什么新鲜的我们来看看Spring中所支持的一些重试策略。
# Spring的重试策略
[Spring Retry](https://github.com/spring-projects/spring-retry) 是一个单独实现重试功能的项目我们可以通过Annotation的方式使用。具体如下。
```
@Service
public interface MyService {
@Retryable(
value = { SQLException.class },
maxAttempts = 2,
backoff = @Backoff(delay = 5000))
void retryService(String sql) throws SQLException;
...
}
```
配置 @Retryable 注解,只对 SQLException 的异常进行重试重试两次每次延时5000ms。相关的细节可以看相应的文档。我在这里只想让你看一下Spring有哪些重试的策略。
<li>
NeverRetryPolicy只允许调用RetryCallback一次不允许重试。
</li>
<li>
AlwaysRetryPolicy允许无限重试直到成功此方式逻辑不当会导致死循环。
</li>
<li>
SimpleRetryPolicy固定次数重试策略默认重试最大次数为3次RetryTemplate默认使用的策略。
</li>
<li>
TimeoutRetryPolicy超时时间重试策略默认超时时间为1秒在指定的超时时间内允许重试。
</li>
<li>
CircuitBreakerRetryPolicy有熔断功能的重试策略需设置3个参数openTimeout、resetTimeout和delegate关于熔断会在后面描述。
</li>
<li>
CompositeRetryPolicy组合重试策略。有两种组合方式乐观组合重试策略是指只要有一个策略允许重试即可以悲观组合重试策略是指只要有一个策略不允许重试即不可以。但不管哪种组合方式组合中的每一个策略都会执行。
</li>
关于Backoff的策略如下。
<li>
NoBackOffPolicy无退避算法策略即当重试时是立即重试
</li>
<li>
FixedBackOffPolicy固定时间的退避策略需设置参数sleeper和backOffPeriodsleeper指定等待策略默认是Thread.sleep即线程休眠backOffPeriod指定休眠时间默认1秒。
</li>
<li>
UniformRandomBackOffPolicy随机时间退避策略需设置sleeper、minBackOffPeriod和maxBackOffPeriod。该策略在[minBackOffPeriod, maxBackOffPeriod]之间取一个随机休眠时间minBackOffPeriod默认为500毫秒maxBackOffPeriod默认为1500毫秒。
</li>
<li>
ExponentialBackOffPolicy指数退避策略需设置参数sleeper、initialInterval、maxInterval和multiplier。initialInterval指定初始休眠时间默认为100毫秒。maxInterval指定最大休眠时间默认为30秒。multiplier指定乘数即下一次休眠时间为当前休眠时间*multiplier。
</li>
<li>
ExponentialRandomBackOffPolicy随机指数退避策略引入随机乘数之前说过固定乘数可能会引起很多服务同时重试导致DDos使用随机休眠时间来避免这种情况。
</li>
# 重试设计的重点
重试的设计重点主要如下:
<li>
要确定什么样的错误下需要重试;
</li>
<li>
重试的时间和重试的次数。这种在不同的情况下要有不同的考量。有时候,而对一些不是很重要的问题时,我们应该更快失败而不是重试一段时间若干次。比如一个前端的交互需要用到后端的服务。这种情况下,在面对错误的时候,应该快速失败报错(比如:网络错误请重试)。而面对其它的一些错误,比如流控,那么应该使用指数退避的方式,以避免造成更多的流量。
</li>
<li>
如果超过重试次数,或是一段时间,那么重试就没有意义了。这个时候,说明这个错误不是一个短暂的错误,那么我们对于新来的请求,就没有必要再进行重试了,这个时候对新的请求直接返回错误就好了。但是,这样一来,如果后端恢复了,我们怎么知道呢,此时需要使用我们的熔断设计了。这个在后面会说。
</li>
<li>
重试还需要考虑被调用方是否有幂等的设计。如果没有,那么重试是不安全的,可能会导致一个相同的操作被执行多次。
</li>
<li>
重试的代码比较简单也比较通用完全可以不用侵入到业务代码中。这里有两个模式。一个是代码级的像Java那样可以使用Annotation的方式在Spring中你可以用到这样的注解如果没有注解也可以包装在底层库或是SDK库中不需要让上层业务感知到。另外一种是走Service Mesh的方式关于Service Mesh的方式我会在后面的文章中介绍
</li>
<li>
对于有事务相关的操作。我们可能会希望能重试成功,而不至于走业务补偿那样的复杂的回退流程。对此,我们可能需要一个比较长的时间来做重试,但是我们需要保存请求的上下文,这可能对程序的运行有比较大的开销,因此,有一些设计会先把这样的上下文暂存在本机或是数据库中,然后腾出资源来做别的事,过一会再回来把之前的请求从存储中捞出来重试。
</li>
# 小结
好了我们来总结一下今天分享的主要内容。首先我讲了重试的场景比如流控但并不是所有的失败场景都适合重试。接着我讲了重试的策略包括简单的指数退避策略和Spring实现的多种策略。
这些策略可以用Java的Annotation来实现或者用Service Mesh的方式从而不必写在业务逻辑里。最后我总结了重试设计的重点。下篇文章中我们讲述熔断设计。希望对你有帮助。
也欢迎你分享一下你实现过哪些场景下的重试?所采用的策略是什么?实现的过程中遇到过哪些坑?
文末给出了《分布式系统设计模式》系列文章的目录,希望你能在这个列表里找到自己感兴趣的内容。
<li>弹力设计篇
<ul>
- [认识故障和弹力设计](https://time.geekbang.org/column/article/3912)
- [隔离设计Bulkheads](https://time.geekbang.org/column/article/3917)
- [异步通讯设计Asynchronous](https://time.geekbang.org/column/article/3926)
- [幂等性设计Idempotency](https://time.geekbang.org/column/article/4050)
- [服务的状态State](https://time.geekbang.org/column/article/4086)
- [补偿事务Compensating Transaction](https://time.geekbang.org/column/article/4087)
- [重试设计Retry](https://time.geekbang.org/column/article/4121)
- [熔断设计Circuit Breaker](https://time.geekbang.org/column/article/4241)
- [限流设计Throttle](https://time.geekbang.org/column/article/4245)
- [降级设计degradation](https://time.geekbang.org/column/article/4252)
- [弹力设计总结](https://time.geekbang.org/column/article/4253)
- [分布式锁Distributed Lock](https://time.geekbang.org/column/article/5175)
- [配置中心Configuration Management](https://time.geekbang.org/column/article/5819)
- [边车模式Sidecar](https://time.geekbang.org/column/article/5909)
- [服务网格Service Mesh](https://time.geekbang.org/column/article/5920)
- [网关模式Gateway](https://time.geekbang.org/column/article/6086)
- [部署升级策略](https://time.geekbang.org/column/article/6283)
- [缓存Cache](https://time.geekbang.org/column/article/6282)
- [异步处理Asynchronous](https://time.geekbang.org/column/article/7036)
- [数据库扩展](https://time.geekbang.org/column/article/7045)
- [秒杀Flash Sales](https://time.geekbang.org/column/article/7047)
- [边缘计算Edge Computing](https://time.geekbang.org/column/article/7086)