Kernel Exploring
  • 前言
  • 支持
  • 老司机带你探索内核编译系统
    • 编译出你的第一个内核
    • 内核编译中的小目标
    • 可能是kbuild中最直接的小目标 – help
    • 使用了一个kbuild函数的目标 – cscope
    • 内核中单个.o文件的编译过程
    • 根目录vmlinux的编译过程
    • 启动镜像bzImage的前世今生
    • setup.bin的诞生记
    • 真假vmlinux–由vmlinux.bin揭开的秘密
    • bzImage的全貌
    • kbuild系统浅析
  • 启动时的小秘密
    • INIT_CALLS的秘密
    • 内核参数
  • 内核加载全流程
    • bootloader如何加载bzImage
    • 内核压缩与解压
    • 内核加载的几个阶段
    • 保护模式内核代码赏析
  • 内存管理
    • 内核页表成长记
      • 未解压时的内核页表
      • 内核早期的页表
      • cleanup_highmap之后的页表
      • 映射完整物理地址
      • 启用init_level4_pgt
    • 自底而上话内存
      • e820从硬件获取内存分布
      • 原始内存分配器--memblock
      • 页分配器
        • 寻找页结构体的位置
        • 眼花的页结构体
        • Node-Zone-Page
        • 传说的伙伴系统
        • Compound Page
        • GFP的功效
        • 页分配器的用户们
      • slub分配器
        • slub的理念
        • 图解slub
      • 内存管理的不同粒度
      • 挑战和进化
        • 扩展性的设计和实现
        • 减少竞争 per_cpu_pageset
        • 海量内存
        • 延迟初始化
        • 内存热插拔
        • 连续内存分配器
    • 虚拟内存空间
      • 页表和缺页中断
      • 虚拟地址空间的管家--vma
      • 匿名反向映射的前世今生
      • 图解匿名反向映射
      • THP和mapcount之间的恩恩怨怨
      • 透明大页的玄机
      • NUMA策略
      • numa balance
      • 老版vma
    • 内存的回收再利用
      • 水线
      • Big Picture
      • 手动触发回收
      • Page Fram Reclaim Algorithm
      • swapfile原理使用和演进
    • 内存隔离
      • memcg初始化
      • 限制memcg大小
      • 对memcg记账
    • 通用
      • 常用全局变量
      • 常用转换
    • 测试
      • 功能测试
      • 性能测试
  • 中断和异常
    • 从IDT开始
    • 中断?异常?有什么区别
    • 系统调用的实现
    • 异常向量表的设置
    • 中断向量和中断函数
    • APIC
    • 时钟中断
    • 软中断
    • 中断、软中断、抢占和多处理器
  • 设备模型
    • 总线
    • 驱动
    • 设备
    • 绑定
  • nvdimm初探
    • 使用手册
    • 上帝视角
    • nvdimm_bus
    • nvdimm
    • nd_region
    • nd_namespace_X
    • nd_dax
      • dev_dax
  • KVM
    • 内存虚拟化
      • Qemu内存模型
      • KVM内存管理
  • cgroup
    • 使用cgroup控制进程cpu和内存
    • cgroup文件系统
    • cgroup层次结构
    • cgroup和进程的关联
    • cgroup数据统计
  • 同步机制
    • 内存屏障
    • RCU
  • Trace/Profie/Debug
    • ftrace的使用
    • 探秘ftrace
    • 内核热补丁的黑科技
    • eBPF初探
    • TraceEvent
    • Drgn
  • 内核中的数据结构
    • 双链表
    • 优先级队列
    • 哈希表
    • xarray
    • B树
    • Maple Tree
    • Interval Tree
  • Tools
  • Good To Read
    • 内核自带文档
    • 内存相关
    • 下载社区邮件
Powered by GitBook
On this page
  • 不断成长
  • 页表成长大汇总

Was this helpful?

  1. 内存管理

内核页表成长记

Previous内存管理Next未解压时的内核页表

Last updated 3 years ago

Was this helpful?

内存管理重要的组成部分是虚拟地址和物理地址之间的映射关系。从物理设备上看这部分的功能由页表(page table)实现。

页表本身是存储在物理内存中的一块内存空间,操作系统按照硬件规范填写相应地址形成树状结构。而硬件则根据这个树状结构实现虚拟地址到物理地址的映射。

Intel的手册上写的非常详细,我就截取一张图做示例。

每个进程都有自己的页表,虽然用户空间的映射依赖进程自身,但所有进程都共享同样的内核页表空间。所以探究内核页表结构是加深内核页表运行机制的方式之一。

然而你知道么,内核页表并非一蹴而就,而是经过了几个步骤才最终成为我们想要的样子。就好像你得先飞升上仙,才能够飞升上神。这是一个道理。

不断成长

人是不断成长的,内核页表也一样。下面我们来看看它成长过程中经历的几个过程。

内核刚加载时,还是压缩后的状态。这时候内核就有一张非常简陋的页表。直接映射了4G空间。

内核解压缩完之后,就换掉了那张简陋的页表。这张页表在编译时就已经有了大概的雏形。不过只映射了内核空间。这时候虚拟机地址已经和物理地址不一样了。

而出于某些原因,内核只留下了_text到_brk_end这段空间的映射。其余的映射都清零了。

只映射了内核的空间肯定是不够的,否则内核怎么访问其他的系统内存呢?所以接着内核就映射了系统上的所有物理地址。

所有的准备工作做完,最后又切换了一次。从early_level4_pgt切换到了init_level4_pgt。对了,这个就是那个init进程的空间了。

这个图和上面的是一样的,没有变化。关键变化在cr3的内容,而不是页表本身。

页表成长大汇总

    /* use pgtable
     * arch/x86/boot/compressed/head_64.S
     */
    leal	pgtable(%ebx), %eax
    movl	%eax, %cr3

    /* use early_level4_pgt
     * arch/x86/kernel/head_64.S
     */
    movq	$(early_level4_pgt - __START_KERNEL_map), %rax
    addq	phys_base(%rip), %rax
    movq	%rax, %cr3

    /* set init_level4_pgt kernel high mapping */
    x86_64_start_kernel()
        init_level4_pgt[511] = early_level4_pgt[511];

    start_kernel()
        setup_arch()
            /* cleanup highmap */
            cleanup_highmap()
            init_mem_mapping()
                /* map whole memory space */
                memory_map_top_down()
                /* switch to init_level4_pgt */
                load_cr3(swapper_pg_dir);

基本这是我已知的页表变化的内容,整理成这样的调用顺序,或许会帮助你更好的理解。

整个内核页表中还有其他映射的部分,比如page的映射和pcpu变量的映射,但因为很难用图描述,就没有放在本系列当中。当然肯定还有我并没有研究透彻的部分,不过我相信现有的内容也足够大家对内核页表有个较为感性的认识了。

好了,先到这里,休息休息~

未解压时的内核页表
内核早期的页表
cleanup_highmap之后的页表
映射完整物理地址
启用init_level4_pgt
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述