K8sController-Job(批处理任务)

基于K8s 1.31

主要配置和工作机制

apiVersion: batch/v1
kind: Job
metadata:
  name: hello
spec:
  # 可以并行任务数量，默认1
  parallelism: 3
  completions: 3
  # Pod完成模式，NonIndexed（数量达到completions推出，默认），Indexed
  # Indexed模式：会被设置为Pod服务名
  # - 设置Pod名称：<Job Name>-<索引序号>-<随机字符串>
  # - 设置Annotation "batch.kubernetes.io/job-completion-index": <索引序号>
  # - 设置Label "batch.kubernetes.io/job-completion-index": <索引序号>，从K8s v1.28 需要开启PodIndexLabel特性门控
  # - 在容器内注入环境变量JOB_COMPLETION_INDEX，值为索引序号
  # - 与一个Headless Service搭配使用，Pod网络访问域名将被设置为<$(job_name)-$(index)>.<headless-service-name>，并且设置正确的DNS记录
  completionMode: NonIndexed
  # 失败任务的最大重试次数上限
  backoffLimit: 4
  # K8s v1.28 开始支持，Pod失效时候，支持Ignore、FailJob、Count或FailIndex
  podFailurePolicy:
    rules:
      - action: FailJob
  # K8s v1.28 开始支持，Pod失效时候,替换策略
  podReplacementPolicy: OnPodFailure
  # K8s v1.27 引入手动设置标签选择器
  manualSelector: true
  template:
    spec:
      restartPolicy: Never
      containers:
        - name: hello
          image: busybox
          command:
            - /bin/sh
            - -c
            - date; echo Hello from the Kubernetes cluster

并行处理机制和常用模式

Job适用于3种形式运行的Job

单个一次性任务：通常一个Job只启动一个Pod，除非Pod异常，才会重启该Pod，一旦该Pod正常结束，Job将完成
具有指定完成数量的并行任务，并行任务会启动多个Pod
带有工作队列的并行任务：任务队列的方式并行Pod需要一个独立的Queue，工作项都在一个Queue中存放，不能设置Job的Spec.completions参数，Job此刻有以下的特性
1. 多个Pod之间必须能够协调好分别处理哪个工作项，或者需要借助外部服务来确定
2. 每个Pod都能确定其他Pod是否完成工作，进而确定Job是否完成
3. 如果某个Pod正常结束，则Job不会再启动新的Pod
4. 如果一个Pod成功结束，则此时应该不存在其他Pod还在工作的情况，它们应该处于即将结束、退出的状态

在并行运行的情况下，实际运行的Pod数量可能为parallelism设置的略大或者略小，可能原因如下：

对于具有指定完成的并行数量（completions>0），实际运行的Pod数量不会超过未完成的剩余数量，如果parallelism比cmpletions的值大，系统会忽略parallelism的设置
对于带有工作队列的并行任务，只要有一个Pod成功结束，就不会创建新的Pod，并且剩下的Pod开始自动退出流程
在Job工作负载控制器没有即使响应，实际运行的Pod数量可能略少
当Job Controller在某些情况下无法创建Pod（资源不足），可能略少
Job Controller因为同一个Pod失败次数太多而不再创建新的Pod
在某个Pod处于优雅终止的过程中，需要消耗更多时间Pod才能终止，实际运行Pod数量可能略多

Pod失效时的处理机制

对于Job的Pod的restartPolicy只能被设置为Never和OnFailed，不能被设置为Always

K8s为了更好的控制Pod失效之后，设置了一些新的配置，失效策略（podFailurePolicy）、失效次数上限（backoffLimit）、每个索引失效的次数上限（backoffLimitPerIndex）等机制

使用Pod失效次数上限（backoffLimit）控制Pod终止时机

在某些场景下，看你要求Pod在不断失败经过有限的重试次数就不再尝试，而是将Job置为失败的情况，可以通过设置backoffLimit进行控制，默认值为6。在Pod失效后，Job Controller会重建Pod，而重试间隔从10s开始，后一次是前一次的2倍，最长时间为6min

判断Job处于失败的计算逻辑：以下俩个值之一达到用backoffLimit设置的次数，系统就设置Job的状态为失败，并且删除一直失败的Pod

status.phase=”Failed”时的Pod数量
restartPolicy=OnFailure时，status.phase=”Pending”或”Running”的Pod，其中容器的重启次数

使用每个索引的失效次数上限（backoffLimitPerIndex）控制器何时终止带索引的Job

从K8s 1.28开始，引入了针对带索引的Job的失效次数上限设置，需要开启K8s各个服务的JobBackoffLimitPerIndex的特性门控启用，该特性到v1.29版进入到Beta

使用该特性：必须设置completionMode=Indexed,Pod的restartPolicy：Never

容器计算逻辑：当环境变量JOB_COMPLETOP_INDEX为基数异常退出，偶数正常退出

Pod失效策略

从K8s v1.25版本开始，引入了Pod失效策略（podFailurePolicy），使用用户可以根据某些条件更好的控制失效时的处理方式，该机制在v1.26进入Beta，需要开启特性门控JobPodFailurePolicy特性门控

常见的应用场景：

根据特定的退出码立刻终止Job无需重试
忽略某些干扰因素（例如优先级抢占、被驱逐）等导致的Pod失效，不应收到基于backoffLimit的失效次数重试

spec
	  # K8s v1.28 开始支持，Pod失效时候，支持Ignore、FailJob、Count或FailIndex
  podFailurePolicy:
    # 按照顺序对多个规则进行评估，一旦某个规则匹配，则立即停止评估后续规则
    rules:
      # FailJob: 立即终止Job并且标记为Failed，同时停止全部未终止的Pod
      # Ignore: 重建一个新的Pod，同时不计入backoffLimit
      # FailIndex： 在使用索引的情况下，将失效索引的Pod设置为不再重试
      - action: FailJob
        # onPodConditions:根据Pod的情况，采用什么样子的action
        # onExitCode: 根据Pod退出码，采用什么样子的action
        onPodConditions:
          - type: Disrupted
            status: "true"

在使用Pod失效策略的时候，Job Controller 只对于失效阶段的Pod进行规则匹配，不考试Succeeded或者Terminating的Pod

从K8s的V1.27版中，kubelet会将已经删除的Pod转换到终止阶段（Failed或者Succeeded），转换为失效阶段的Pod将也被Pod失效策略纳入考虑

Pod替换策略

从K8s v1.28引入新的Pod替换策略（podReplacementPolicy)机制，用于管理创建替换Pod对时间，该特性v1.29版本上处于Beta通过开启JobPodReplacementPolicy特性门控进行启用

在默认情况下，在Pod失效和停止中时，Job Controller会立刻创建一个新的替换Pod。Pod 替换策略允许用户通过控制器延迟来创建新的替换Pod，例如，设置pod ReplacementPolicy=Failed来表示只在Pod完全失效（statsu.phase=Failed)才让系统替换Pod

Failed：失效Pod处于失效状态，重建替换Pod
TerminatingOrFailed：失效Pod处于停止中和失效状态，重建替换Pod，这是系统默认的策略

从K8s v1.28版本后，在启用Pod失效策略机制时，Job Controller会判断仅当Pod为失效状态，才重建新的替换Pod。如果设置Pod替换策略，只允许设置podReplacementPolicy=Failed

Job的终止和清理机制

Job在结束之后，不会创建新的Pod，通常也不会删除已经结束的Pod。保留结束的Pod，可以提供用户执行查看容器日志、排查勘误等操作

从K8s v1.20开始，引入了ttlSecondsAfterFinished字段，用于设置TTL Controller机制，到v1.22阶段进入到Stable阶段

spec
  # Pod最长运行时间，单位s
  activeDeadlineSeconds: 2
  # 用于设置TTL Controller自动清理机制
  ttlSecondsAfterFinished: 10

Job的挂起与恢复

K8s从开始，引入一个新的刮起的特性，通过一个新字段suspend，暂停对Pod得创建操作，在v1.24进入Stable

需要挂起Job，只需要设计suspend=true，如果初始化设置了pod suspend=true，那吗创建Pod之后处于挂起

文章作者: Joohwan.

文章链接: https://piwriw.github.io/2025/03/15/cloud/k8s/job/K8sController-Job(批处理任务)/

k8s cloud K8s源码 job

赞助

alipay

相关推荐

2024-11-02

K8s工作负载-Job

K8s工作负载-Job 基于1.25 什么是JobJob会创建一个或多个Pod，并持续重试Pod的执行，直至指定数量的Pod成功终止随着Pod成功终止，Job会记录成功的Pod个数，Pod到达指定数量，Job终止删除Job，会删除Job的所有Pod JobSpec Ref:https://github.com/kubernetes/api/blob/f7b7ea4f0fcc6cb8c8dd42eb46a94c7e163d1b9d/batch/v1/types.go#L206 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311411511611711811912...

2025-03-17

K8sController-CronJob(定时任务)

K8sController-CronJob(定时任务) 基于K8s v1.31 Cron Job支持用于每隔一段时间创建定期运行的批处理任务 CronJob定时表达式12345678910# ┌───────────── 分钟 (0 - 59)# │ ┌───────────── 小时 (0 - 23)# │ │ ┌───────────── 月的某天 (1 - 31)# │ │ │ ┌───────────── 月份 (1 - 12)# │ │ │ │ ┌───────────── 周的某天 (0 - 6)（周日到周六）# │ │ │ │ │ 或者是 sun，mon，tue，web，thu，fri，sat# │ │ │ │ │# │ │ │ │ │# * * * * *Minutes Hours DayofMonth Month DayofWeek Minutes: , - * / 或者0-59的整数 Hours： , - * / 或者0-23的整数 DayofMonth： , - * /...

2024-12-16

K8s-kubelet(HTTP服务接口)

K8s-kubelet(HTTP服务接口) 基于1.25 kubelet通过HTTP Server对外暴露API，为了确保接口安全，kubelet按照安全等级从低到高顺序支持3种HTTP Server，分别是healthz server、readonly server和kubelet core server 一级类目二级类目 Path路径描述 Default Handlerers healthz /healthz 检查kubelet是否健康，重点检查syncLoop是否持续在规定时间内完成。检查syncLoop四因为其他组件故障会间接导致syncLoop不能执行成功 Default Handlerers pods /pods 读取当前节点运行的Pod列表（通过PodManager获取） Default Handlerers stats /stats/summary 读取资源使用状态 Default Handlerers metrics /metrics 读取kubelet监控指标数据 Defaul...

2024-12-15

K8s-kubelet(PLEG核心原理)

K8s-kubelet(PLEG核心原理) 基于1.25 PLEG是kubelet的一个重要组件，负责监控kubelet管理的节点运行的Pod的生命周期，并生成于生命周期相关的事件 PLEG产生原因在K8s中，kubelet负责维护和管理每个节点上的Pod，不断的调谐Pod的状态以使得符合Spec。为了实现这个目标，kubelet同时需要支持对Pod Spec和Container Status 的事件监听。对于前者kubelet通过watch不同源的对PodSpec事件实现，对于后者，PLEG之前，不断需要Pod处理协程不断的周期性拉取最新状态，尝试了大量轮询压力。在kubeletv1.2.0版本引入了PLEG，目标是改善kubelet的可拓展性减少不必要的处理操作（当状态为发生变化时，不执行无效的调谐操作）减少对底层容器运行的并发请求，以减轻容器运行时的压力 PLEG架构设计PLEG主要包含俩个核心工作，一是感受容器变化，生成Pod事件，俩是维持一份最新的Pod Status Cache数据供其他组件读取。 kubelet同时接收俩个方向的事件，Pod S...

2024-12-14

K8s-kubelet(Cgroup资源隔离以及垃圾回收原理)

K8s-kubelet(Cgroup资源隔离以及垃圾回收原理) 基于1.25 什么是Cgroup资源隔离kubelet基于cgroup限制Pod资源使用。cgroup是Linux内核的一个重要功能，用来限制、控制和分离一个进程组的资源（CPU、内存、磁盘I/O） kubelet在创建Pod时，会将其配置的cgroups parent目录传递给容器运行时，使容器运行时创建的进程都会限制到kubelet配置父级cgroup之下。 kubelet负责维护Pod、QoS、Node级别的cgroup配置 Container级别的cgroup直接交给容器运行时实现 cgroup的层级结构 kubelet采用了四级cgroups层级架构存储 Node Level cgroup 为了保证系统运行的稳定性，kubelet支持为系统守护进程预留资源，避免Pod占用整个系统资源，造成系统卡死或者崩溃。默认情况下，kube-reserved和system-reserved不会启用。但是启用之后，需要注意守护进程添加了cgroup之后，可能导致配置的上限太小，导致守护进程资源不足退...

2024-12-13

K8s-kubelet(Pod生命周期管理)

K8s-kubelet(Pod生命周期管理) 基于1.25 kubelet以Pod为基本处理单元，负责Pod从创建到消亡的整个生命周期在1.21中Unknown状态已经被标记为弃用。 CRIkubelet通过CRI RPC管理容器的生命周期，执行容器的lifecycle hook和 startup/liveness/readiness的健康检查，同时根据Pod的重启策略在容器失败退出后自动重启容器，CRI是kubelet管理Pod和容器的基础 Ref:https://github.com/kubernetes/cri-api/blob/2c8d015e0d408208ca8843c1d6e2e2fce1e5dd94/pkg/apis/runtime/v1/api.proto#L34 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717...