「Go语言面试题」11 - Go中的调度器(Scheduler)是如何工作的？GMP模型是什么？

Go语言因其简洁而强大的并发模型闻名于世，其核心秘诀就在于语言层面内置的并发调度器。它高效地管理着成千上万个Goroutine，让“高并发”从复杂的线程管理变成了简单的go关键字。这一切背后的功臣，就是GMP模型。

一、为什么需要Go自己的调度器？

在传统语言中，我们直接使用操作系统线程（Thread）来实现并发。但线程太重了：

创建和销毁开销大：涉及大量的内核操作，消耗CPU和内存。
上下文切换成本高：线程切换需要保存/恢复大量寄存器、内存页表等状态，同样需要陷入内核。
内存占用大：默认线程栈大小通常是MB级别（如Linux默认8MB），大量线程会耗尽内存。

如果几万个Goroutine直接映射到几万个OS线程上，系统资源将瞬间被压垮。因此，Go需要实现一个用户态的调度器，它在用户态完成 Goroutine 的调度、切换和管理，只在必要时才与OS线程交互，从而极大地降低了开销。

二、GMP模型：调度器的核心设计

GMP是Go调度器实现的三要素，理解了它们就理解了调度器的精髓。

G - Goroutine（协程）
- 是什么：Go中的轻量级用户态线程，是Go并发的基本执行单元。
- 特点：初始栈很小（通常2KB），动态伸缩。创建和销毁的代价极低。我们编写的go func(){...}就是创建一个G。
M - Machine（机器线程）
- 是什么：代表着真正的OS内核线程。是执行G的实体。
- 特点：M本身不做调度，它只是负责与操作系统交互，从P那里获取G并执行。M的数量默认上限是10000，但通常由runtime.GOMAXPROCS和实际阻塞调用决定。
P - Processor（处理器）
- 是什么：承上启下的关键组件，可以看作是一个“本地Goroutine队列管理器”和所需的上下文环境。
- 特点：P的数量默认等于当前机器的CPU逻辑核心数（可通过GOMAXPROCS设置）。P的数量决定了系统最大同时运行的G数量（并行数）。每个P维护着一个本地的Goroutine运行队列（LRQ）。

三者的关系可以用一个生动的比喻来理解：

想象一个高效的工厂（Go Runtime）：

P (Processor) 是一个工作台。工厂里有GOMAXPROCS个这样的工作台。

M (Machine) 是一个工人。工人必须在工作台前才能干活。

G (Goroutine) 是待加工的生产任务。

调度器（厂长）的职责是：

让每个工人(M) 都找到一个工作台(P) 坐下（P与M绑定）。

工人(M)从自己工作台(P)的私有任务队列(LRQ) 里取出一个任务(G)开始加工（执行）。

如果私有队列空了，工人不会闲着，会去全局任务队列(GRQ)或者其他工作台那里“偷”一批任务过来执行（Work-Stealing机制）。

如果任务(G)执行时发生了阻塞（如系统调用、 channel操作），厂长会安排这个工人(M)带着阻塞的任务(G)暂时离开工作台(P)去处理别的事（防止阻塞其他任务）。同时，厂长会叫一个新的工人(M’)来接管这个空闲的工作台(P)，继续执行队列里的其他任务(G)，最大化利用资源。

三、调度器的工作机制与策略

Go调度器并非简单轮转，它采用了多种智能策略来保证高效和公平。

1. 抢占式调度（Preemption） 早期的Go调度器是协作式的，一个G不主动让出CPU，就会一直执行。现代Go调度器实现了基于信号的抢占。一个G最多执行10ms，就会被调度器强制中断，防止其他G“饿死”。

2. 工作窃取（Work-Stealing） 这是保证高效的核心算法。当一个P的本地运行队列为空时，它不会空转，而是：

首先从全局运行队列（GRQ）获取G。
如果全局队列也为空，它会随机选择另一个P，并从其本地队列中“偷走”一半的G。这有效地平衡了各个P之间的负载。

3. 系统调用管理（Syscall） 这是GMP模型最巧妙的设计之一。

阻塞性系统调用：当G执行了一个会阻塞M的系统调用（如文件IO）时，调度器会将当前的M和G解绑，让这个M带着G去执行系统调用。同时，调度器会立刻创建一个新的M（或从休眠M池中取一个）来接管刚才那个P，继续执行P本地队列里的其他G。
非阻塞性系统调用：如网络IO（netpoll），调度器会使用异步接口。当G等待网络数据时，它会被挂起，M则可以去执行其他G。数据到达后，G会被重新唤醒并放入队列。Go的标准库正是对网络IO进行了封装，使其变为非阻塞，从而实现了极高的并发性能。

四、代码示例与现象观察

我们通过一个简单的程序来观察GMP数量的变化和调度行为。

package main

import (
	"fmt"
	"runtime"
	"sync"
	"time"
)

func main() {
    // 设置使用2个CPU逻辑核心，即P的数量为2
    runtime.GOMAXPROCS(2)

    var wg sync.WaitGroup
    wg.Add(10)

    for i := 0; i < 10; i++ {
        go func(id int) {
            defer wg.Done()
            total := 0
            // 模拟一些计算工作
            for i := 0; i < 100000000; i++ {
                total += i
            }
            fmt.Printf("Goroutine %d done. (NumGoroutine: %d)\n", id, runtime.NumGoroutine())
        }(i)
    }

    // 在主goroutine中观察调度信息
    go func() {
        for i := 0; i < 5; i++ {
            // NumGoroutine 返回当前存在的G数量
            fmt.Printf("Current number of goroutines: %d\n", runtime.NumGoroutine())
            time.Sleep(100 * time.Millisecond)
        }
    }()

    wg.Wait()
    fmt.Println("All goroutines finished.")
}

运行这个程序，你可以观察到：

尽管创建了10个G，但由于GOMAXPROCS=2，同一时刻最多只有2个G在并行执行（各占用一个CPU核心）。
runtime.NumGoroutine()的数量会从11（main + 监控go + 10个任务go）开始，随着任务完成逐渐减少。
调度器会自动在2个P之间调度这10个G，你看到的输出顺序是不确定的。

要更深入地观察GMP，可以使用强大的调试工具 go tool trace。

五、总结与要点

核心思想：Go通过在用户态实现调度器，用少量的OS线程(M) 调度大量的Goroutine(G)，并通过Processor(P) 来管理和上下文切换，极大地降低了并发编程的开销和复杂度。
高效秘诀：Work-Stealing 保证了CPU忙闲均衡；对网络IO的非阻塞化处理和阻塞系统调用时的M/P分离机制，避免了线程大量阻塞，最大化利用了系统资源。
性能提示：Go程序的并行性能由GOMAXPROCS（P的数量）决定，通常设置为CPU逻辑核心数。盲目开大量Goroutine不一定更快，反而可能增加调度负担。

GMP模型是Go语言成为云计算、网络服务等领域首选语言的基石。理解它，不仅能让你在面试中脱颖而出，更能让你写出真正高效、可靠的Go并发程序。

如有疑问关注公众号给我留言

「Go语言面试题」10 - Go中的互斥锁(Mutex)和读写锁(RWMutex)有什么区别？「Go语言面试题」12 - 什么是Go中的逃逸分析(Escape Analysis)？它对程序性能有什么影响？

Go 编程语言之旅

archive