doxygen/AMDGPUTargetMachine_8cpp_source.html

//===-- AMDGPUTargetMachine.cpp - TargetMachine for hw codegen targets-----===//

//

// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.

// See https://llvm.org/LICENSE.txt for license information.

// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception

//

//===----------------------------------------------------------------------===//

//

/// \file

/// This file contains both AMDGPU target machine and the CodeGen pass builder.

/// The AMDGPU target machine contains all of the hardware specific information

/// needed to emit code for SI+ GPUs in the legacy pass manager pipeline. The

/// CodeGen pass builder handles the pass pipeline for new pass manager.

//

//===----------------------------------------------------------------------===//


#include "AMDGPUTargetMachine.h"

#include "AMDGPU.h"

#include "AMDGPUAliasAnalysis.h"

#include "AMDGPUBarrierLatency.h"

#include "AMDGPUCoExecSchedStrategy.h"

#include "AMDGPUCtorDtorLowering.h"

#include "AMDGPUExportClustering.h"

#include "AMDGPUExportKernelRuntimeHandles.h"

#include "AMDGPUHazardLatency.h"

#include "AMDGPUIGroupLP.h"

#include "AMDGPUISelDAGToDAG.h"

#include "AMDGPULowerVGPREncoding.h"

#include "AMDGPUMacroFusion.h"

#include "AMDGPUNextUseAnalysis.h"

#include "AMDGPUPerfHintAnalysis.h"

#include "AMDGPUPreloadKernArgProlog.h"

#include "AMDGPUPrepareAGPRAlloc.h"

#include "AMDGPURemoveIncompatibleFunctions.h"

#include "AMDGPUReserveWWMRegs.h"

#include "AMDGPUResourceUsageAnalysis.h"

#include "AMDGPUSplitModule.h"

#include "AMDGPUTargetObjectFile.h"

#include "AMDGPUTargetTransformInfo.h"

#include "AMDGPUUnifyDivergentExitNodes.h"

#include "AMDGPUWaitSGPRHazards.h"

#include "GCNDPPCombine.h"

#include "GCNIterativeScheduler.h"

#include "GCNNSAReassign.h"

#include "GCNPreRALongBranchReg.h"

#include "GCNPreRAOptimizations.h"

#include "GCNRewritePartialRegUses.h"

#include "GCNSchedStrategy.h"

#include "GCNVOPDUtils.h"

#include "R600.h"

#include "R600TargetMachine.h"

#include "SIFixSGPRCopies.h"

#include "SIFixVGPRCopies.h"

#include "SIFoldOperands.h"

#include "SIFormMemoryClauses.h"

#include "SILoadStoreOptimizer.h"

#include "SILowerControlFlow.h"

#include "SILowerSGPRSpills.h"

#include "SILowerWWMCopies.h"

#include "SIMachineFunctionInfo.h"

#include "SIMachineScheduler.h"

#include "SIOptimizeExecMasking.h"

#include "SIOptimizeExecMaskingPreRA.h"

#include "SIOptimizeVGPRLiveRange.h"

#include "SIPeepholeSDWA.h"

#include "SIPostRABundler.h"

#include "SIPreAllocateWWMRegs.h"

#include "SIShrinkInstructions.h"

#include "SIWholeQuadMode.h"

#include "TargetInfo/AMDGPUTargetInfo.h"

#include "Utils/AMDGPUBaseInfo.h"

#include "llvm/Analysis/CGSCCPassManager.h"

#include "llvm/Analysis/CallGraphSCCPass.h"

#include "llvm/Analysis/KernelInfo.h"

#include "llvm/Analysis/UniformityAnalysis.h"

#include "llvm/CodeGen/AtomicExpand.h"

#include "llvm/CodeGen/BranchRelaxation.h"

#include "llvm/CodeGen/DeadMachineInstructionElim.h"

#include "llvm/CodeGen/EarlyIfConversion.h"

#include "llvm/CodeGen/GlobalISel/CSEInfo.h"

#include "llvm/CodeGen/GlobalISel/IRTranslator.h"

#include "llvm/CodeGen/GlobalISel/InstructionSelect.h"

#include "llvm/CodeGen/GlobalISel/Legalizer.h"

#include "llvm/CodeGen/GlobalISel/Localizer.h"

#include "llvm/CodeGen/GlobalISel/RegBankSelect.h"

#include "llvm/CodeGen/MIRParser/MIParser.h"

#include "llvm/CodeGen/MachineCSE.h"

#include "llvm/CodeGen/MachineLICM.h"

#include "llvm/CodeGen/MachineScheduler.h"

#include "llvm/CodeGen/Passes.h"

#include "llvm/CodeGen/PostRAHazardRecognizer.h"

#include "llvm/CodeGen/RegAllocRegistry.h"

#include "llvm/CodeGen/TargetPassConfig.h"

#include "llvm/IR/DiagnosticInfo.h"

#include "llvm/IR/IntrinsicsAMDGPU.h"

#include "llvm/IR/Module.h"

#include "llvm/IR/PassManager.h"

#include "llvm/IR/PatternMatch.h"

#include "llvm/InitializePasses.h"

#include "llvm/MC/TargetRegistry.h"

#include "llvm/Passes/CodeGenPassBuilder.h"

#include "llvm/Passes/PassBuilder.h"

#include "llvm/Support/Compiler.h"

#include "llvm/Support/FormatVariadic.h"

#include "llvm/Transforms/HipStdPar/HipStdPar.h"

#include "llvm/Transforms/IPO.h"

#include "llvm/Transforms/IPO/AlwaysInliner.h"

#include "llvm/Transforms/IPO/ExpandVariadics.h"

#include "llvm/Transforms/IPO/GlobalDCE.h"

#include "llvm/Transforms/IPO/Internalize.h"

#include "llvm/Transforms/Scalar.h"

#include "llvm/Transforms/Scalar/EarlyCSE.h"

#include "llvm/Transforms/Scalar/FlattenCFG.h"

#include "llvm/Transforms/Scalar/GVN.h"

#include "llvm/Transforms/Scalar/InferAddressSpaces.h"

#include "llvm/Transforms/Scalar/LICM.h"

#include "llvm/Transforms/Scalar/LoopDataPrefetch.h"

#include "llvm/Transforms/Scalar/LoopPassManager.h"

#include "llvm/Transforms/Scalar/NaryReassociate.h"

#include "llvm/Transforms/Scalar/SeparateConstOffsetFromGEP.h"

#include "llvm/Transforms/Scalar/Sink.h"

#include "llvm/Transforms/Scalar/StraightLineStrengthReduce.h"

#include "llvm/Transforms/Scalar/StructurizeCFG.h"

#include "llvm/Transforms/Utils.h"

#include "llvm/Transforms/Utils/FixIrreducible.h"

#include "llvm/Transforms/Utils/LCSSA.h"

#include "llvm/Transforms/Utils/LowerSwitch.h"

#include "llvm/Transforms/Utils/SimplifyLibCalls.h"

#include "llvm/Transforms/Utils/UnifyLoopExits.h"

#include "llvm/Transforms/Vectorize/LoadStoreVectorizer.h"

#include <optional>


using namespace llvm;

using namespace llvm::PatternMatch;


namespace {

//===----------------------------------------------------------------------===//

// AMDGPU CodeGen Pass Builder interface.

//===----------------------------------------------------------------------===//


class AMDGPUCodeGenPassBuilder

    : public CodeGenPassBuilder<AMDGPUCodeGenPassBuilder, GCNTargetMachine> {

  using Base = CodeGenPassBuilder<AMDGPUCodeGenPassBuilder, GCNTargetMachine>;


public:

  AMDGPUCodeGenPassBuilder(GCNTargetMachine &TM,

                           const CGPassBuilderOption &Opts,

                           PassInstrumentationCallbacks *PIC);


  void addIRPasses(PassManagerWrapper &PMW) const;

  void addCodeGenPrepare(PassManagerWrapper &PMW) const;

  void addPreISel(PassManagerWrapper &PMW) const;

  void addILPOpts(PassManagerWrapper &PMWM) const;

  void addAsmPrinterBegin(PassManagerWrapper &PMW) const;

  void addAsmPrinter(PassManagerWrapper &PMW) const;

  void addAsmPrinterEnd(PassManagerWrapper &PMW) const;

  Error addInstSelector(PassManagerWrapper &PMW) const;

  void addPreRewrite(PassManagerWrapper &PMW) const;

  void addMachineSSAOptimization(PassManagerWrapper &PMW) const;

  void addPostRegAlloc(PassManagerWrapper &PMW) const;

  void addPreEmitPass(PassManagerWrapper &PMWM) const;

  void addPreEmitRegAlloc(PassManagerWrapper &PMW) const;

  Error addRegAssignmentFast(PassManagerWrapper &PMW) const;

  Error addRegAssignmentOptimized(PassManagerWrapper &PMW) const;

  void addPreRegAlloc(PassManagerWrapper &PMW) const;

  Error addFastRegAlloc(PassManagerWrapper &PMW) const;

  Error addOptimizedRegAlloc(PassManagerWrapper &PMW) const;

  void addPreSched2(PassManagerWrapper &PMW) const;

  void addPostBBSections(PassManagerWrapper &PMW) const;


private:

  Error validateRegAllocOptions() const;


public:

  /// Check if a pass is enabled given \p Opt option. The option always

  /// overrides defaults if explicitly used. Otherwise its default will be used

  /// given that a pass shall work at an optimization \p Level minimum.

  bool isPassEnabled(const cl::opt<bool> &Opt,

                     CodeGenOptLevel Level = CodeGenOptLevel::Default) const;

  void addEarlyCSEOrGVNPass(PassManagerWrapper &PMW) const;

  void addStraightLineScalarOptimizationPasses(PassManagerWrapper &PMW) const;

};


class SGPRRegisterRegAlloc : public RegisterRegAllocBase<SGPRRegisterRegAlloc> {

public:

  SGPRRegisterRegAlloc(const char *N, const char *D, FunctionPassCtor C)

    : RegisterRegAllocBase(N, D, C) {}

};


class VGPRRegisterRegAlloc : public RegisterRegAllocBase<VGPRRegisterRegAlloc> {

public:

  VGPRRegisterRegAlloc(const char *N, const char *D, FunctionPassCtor C)

    : RegisterRegAllocBase(N, D, C) {}

};


class WWMRegisterRegAlloc : public RegisterRegAllocBase<WWMRegisterRegAlloc> {

public:

  WWMRegisterRegAlloc(const char *N, const char *D, FunctionPassCtor C)

      : RegisterRegAllocBase(N, D, C) {}

};


static bool onlyAllocateSGPRs(const TargetRegisterInfo &TRI,

                              const MachineRegisterInfo &MRI,

                              const Register Reg) {

  const TargetRegisterClass *RC = MRI.getRegClass(Reg);

  return static_cast<const SIRegisterInfo &>(TRI).isSGPRClass(RC);

}


static bool onlyAllocateVGPRs(const TargetRegisterInfo &TRI,

                              const MachineRegisterInfo &MRI,

                              const Register Reg) {

  const TargetRegisterClass *RC = MRI.getRegClass(Reg);

  return !static_cast<const SIRegisterInfo &>(TRI).isSGPRClass(RC);

}


static bool onlyAllocateWWMRegs(const TargetRegisterInfo &TRI,

                                const MachineRegisterInfo &MRI,

                                const Register Reg) {

  const SIMachineFunctionInfo *MFI =

      MRI.getMF().getInfo<SIMachineFunctionInfo>();

  const TargetRegisterClass *RC = MRI.getRegClass(Reg);

  return !static_cast<const SIRegisterInfo &>(TRI).isSGPRClass(RC) &&

         MFI->checkFlag(Reg, AMDGPU::VirtRegFlag::WWM_REG);

}


/// -{sgpr|wwm|vgpr}-regalloc=... command line option.

static FunctionPass *useDefaultRegisterAllocator() { return nullptr; }


/// A dummy default pass factory indicates whether the register allocator is

/// overridden on the command line.

static llvm::once_flag InitializeDefaultSGPRRegisterAllocatorFlag;

static llvm::once_flag InitializeDefaultVGPRRegisterAllocatorFlag;

static llvm::once_flag InitializeDefaultWWMRegisterAllocatorFlag;


static SGPRRegisterRegAlloc

defaultSGPRRegAlloc("default",

                    "pick SGPR register allocator based on -O option",

                    useDefaultRegisterAllocator);


static cl::opt<SGPRRegisterRegAlloc::FunctionPassCtor, false,

               RegisterPassParser<SGPRRegisterRegAlloc>>

SGPRRegAlloc("sgpr-regalloc", cl::Hidden, cl::init(&useDefaultRegisterAllocator),

             cl::desc("Register allocator to use for SGPRs"));


static cl::opt<VGPRRegisterRegAlloc::FunctionPassCtor, false,

               RegisterPassParser<VGPRRegisterRegAlloc>>

VGPRRegAlloc("vgpr-regalloc", cl::Hidden, cl::init(&useDefaultRegisterAllocator),

             cl::desc("Register allocator to use for VGPRs"));


static cl::opt<WWMRegisterRegAlloc::FunctionPassCtor, false,

               RegisterPassParser<WWMRegisterRegAlloc>>

    WWMRegAlloc("wwm-regalloc", cl::Hidden,

                cl::init(&useDefaultRegisterAllocator),

                cl::desc("Register allocator to use for WWM registers"));


// New pass manager register allocator options for AMDGPU

static cl::opt<RegAllocType, false, RegAllocTypeParser> SGPRRegAllocNPM(

    "sgpr-regalloc-npm", cl::Hidden, cl::init(RegAllocType::Default),

    cl::desc("Register allocator for SGPRs (new pass manager)"));


static cl::opt<RegAllocType, false, RegAllocTypeParser> VGPRRegAllocNPM(

    "vgpr-regalloc-npm", cl::Hidden, cl::init(RegAllocType::Default),

    cl::desc("Register allocator for VGPRs (new pass manager)"));


static cl::opt<RegAllocType, false, RegAllocTypeParser> WWMRegAllocNPM(

    "wwm-regalloc-npm", cl::Hidden, cl::init(RegAllocType::Default),

    cl::desc("Register allocator for WWM registers (new pass manager)"));


/// Check if the given RegAllocType is supported for AMDGPU NPM register

/// allocation. Only Fast and Greedy are supported; Basic and PBQP are not.

static Error checkRegAllocSupported(RegAllocType RAType, StringRef RegName) {

  if (RAType == RegAllocType::Basic || RAType == RegAllocType::PBQP) {

    return make_error<StringError>(

        Twine("unsupported register allocator '") +

            (RAType == RegAllocType::Basic ? "basic" : "pbqp") + "' for " +

            RegName + " registers",

        inconvertibleErrorCode());

  }

  return Error::success();

}


Error AMDGPUCodeGenPassBuilder::validateRegAllocOptions() const {

  // 1. Generic --regalloc-npm is not supported for AMDGPU.

  if (Opt.RegAlloc != RegAllocType::Unset) {

    return make_error<StringError>(

        "-regalloc-npm not supported for amdgcn. Use -sgpr-regalloc-npm, "

        "-vgpr-regalloc-npm, and -wwm-regalloc-npm",

        inconvertibleErrorCode());

  }


  // 2. Legacy PM regalloc options are not compatible with NPM.

  if (SGPRRegAlloc.getNumOccurrences() > 0 ||

      VGPRRegAlloc.getNumOccurrences() > 0 ||

      WWMRegAlloc.getNumOccurrences() > 0) {

    return make_error<StringError>(

        "-sgpr-regalloc, -vgpr-regalloc, and -wwm-regalloc are legacy PM "

        "options. Use -sgpr-regalloc-npm, -vgpr-regalloc-npm, and "

        "-wwm-regalloc-npm with the new pass manager",

        inconvertibleErrorCode());

  }


  // 3. Only Fast and Greedy allocators are supported for AMDGPU.

  if (auto Err = checkRegAllocSupported(SGPRRegAllocNPM, "SGPR"))

    return Err;

  if (auto Err = checkRegAllocSupported(WWMRegAllocNPM, "WWM"))

    return Err;

  if (auto Err = checkRegAllocSupported(VGPRRegAllocNPM, "VGPR"))

    return Err;


  return Error::success();

}


static void initializeDefaultSGPRRegisterAllocatorOnce() {

  RegisterRegAlloc::FunctionPassCtor Ctor = SGPRRegisterRegAlloc::getDefault();


  if (!Ctor) {

    Ctor = SGPRRegAlloc;

    SGPRRegisterRegAlloc::setDefault(SGPRRegAlloc);

  }

}


static void initializeDefaultVGPRRegisterAllocatorOnce() {

  RegisterRegAlloc::FunctionPassCtor Ctor = VGPRRegisterRegAlloc::getDefault();


  if (!Ctor) {

    Ctor = VGPRRegAlloc;

    VGPRRegisterRegAlloc::setDefault(VGPRRegAlloc);

  }

}


static void initializeDefaultWWMRegisterAllocatorOnce() {

  RegisterRegAlloc::FunctionPassCtor Ctor = WWMRegisterRegAlloc::getDefault();


  if (!Ctor) {

    Ctor = WWMRegAlloc;

    WWMRegisterRegAlloc::setDefault(WWMRegAlloc);

  }

}


static FunctionPass *createBasicSGPRRegisterAllocator() {

  return createBasicRegisterAllocator(onlyAllocateSGPRs);

}


static FunctionPass *createGreedySGPRRegisterAllocator() {

  return createGreedyRegisterAllocator(onlyAllocateSGPRs);

}


static FunctionPass *createFastSGPRRegisterAllocator() {

  return createFastRegisterAllocator(onlyAllocateSGPRs, false);

}


static FunctionPass *createBasicVGPRRegisterAllocator() {

  return createBasicRegisterAllocator(onlyAllocateVGPRs);

}


static FunctionPass *createGreedyVGPRRegisterAllocator() {

  return createGreedyRegisterAllocator(onlyAllocateVGPRs);

}


static FunctionPass *createFastVGPRRegisterAllocator() {

  return createFastRegisterAllocator(onlyAllocateVGPRs, true);

}


static FunctionPass *createBasicWWMRegisterAllocator() {

  return createBasicRegisterAllocator(onlyAllocateWWMRegs);

}


static FunctionPass *createGreedyWWMRegisterAllocator() {

  return createGreedyRegisterAllocator(onlyAllocateWWMRegs);

}


static FunctionPass *createFastWWMRegisterAllocator() {

  return createFastRegisterAllocator(onlyAllocateWWMRegs, false);

}


static SGPRRegisterRegAlloc basicRegAllocSGPR(

  "basic", "basic register allocator", createBasicSGPRRegisterAllocator);

static SGPRRegisterRegAlloc greedyRegAllocSGPR(

  "greedy", "greedy register allocator", createGreedySGPRRegisterAllocator);


static SGPRRegisterRegAlloc fastRegAllocSGPR(

  "fast", "fast register allocator", createFastSGPRRegisterAllocator);


static VGPRRegisterRegAlloc basicRegAllocVGPR(

  "basic", "basic register allocator", createBasicVGPRRegisterAllocator);

static VGPRRegisterRegAlloc greedyRegAllocVGPR(

  "greedy", "greedy register allocator", createGreedyVGPRRegisterAllocator);


static VGPRRegisterRegAlloc fastRegAllocVGPR(

  "fast", "fast register allocator", createFastVGPRRegisterAllocator);

static WWMRegisterRegAlloc basicRegAllocWWMReg("basic",

                                               "basic register allocator",

                                               createBasicWWMRegisterAllocator);

static WWMRegisterRegAlloc

    greedyRegAllocWWMReg("greedy", "greedy register allocator",

                         createGreedyWWMRegisterAllocator);

static WWMRegisterRegAlloc fastRegAllocWWMReg("fast", "fast register allocator",

                                              createFastWWMRegisterAllocator);


static bool isLTOPreLink(ThinOrFullLTOPhase Phase) {

  return Phase == ThinOrFullLTOPhase::FullLTOPreLink ||

         Phase == ThinOrFullLTOPhase::ThinLTOPreLink;

}

} // anonymous namespace


static cl::opt<bool>

EnableEarlyIfConversion("amdgpu-early-ifcvt", cl::Hidden,

                        cl::desc("Run early if-conversion"),

                        cl::init(false));


static cl::opt<bool>

OptExecMaskPreRA("amdgpu-opt-exec-mask-pre-ra", cl::Hidden,

            cl::desc("Run pre-RA exec mask optimizations"),

            cl::init(true));


static cl::opt<bool>

    LowerCtorDtor("amdgpu-lower-global-ctor-dtor",

                  cl::desc("Lower GPU ctor / dtors to globals on the device."),

                  cl::init(true), cl::Hidden);


// Option to disable vectorizer for tests.

static cl::opt<bool> EnableLoadStoreVectorizer(

  "amdgpu-load-store-vectorizer",

  cl::desc("Enable load store vectorizer"),

  cl::init(true),

  cl::Hidden);


// Option to control global loads scalarization

static cl::opt<bool> ScalarizeGlobal(

  "amdgpu-scalarize-global-loads",

  cl::desc("Enable global load scalarization"),

  cl::init(true),

  cl::Hidden);


// Option to run internalize pass.

static cl::opt<bool> InternalizeSymbols(

  "amdgpu-internalize-symbols",

  cl::desc("Enable elimination of non-kernel functions and unused globals"),

  cl::init(false),

  cl::Hidden);


// Option to inline all early.

static cl::opt<bool> EarlyInlineAll(

  "amdgpu-early-inline-all",

  cl::desc("Inline all functions early"),

  cl::init(false),

  cl::Hidden);


static cl::opt<bool> RemoveIncompatibleFunctions(

    "amdgpu-enable-remove-incompatible-functions", cl::Hidden,

    cl::desc("Enable removal of functions when they"

             "use features not supported by the target GPU"),

    cl::init(true));


static cl::opt<bool> EnableSDWAPeephole(

  "amdgpu-sdwa-peephole",

  cl::desc("Enable SDWA peepholer"),

  cl::init(true));


static cl::opt<bool> EnableDPPCombine(

  "amdgpu-dpp-combine",

  cl::desc("Enable DPP combiner"),

  cl::init(true));


// Enable address space based alias analysis

static cl::opt<bool> EnableAMDGPUAliasAnalysis("enable-amdgpu-aa", cl::Hidden,

  cl::desc("Enable AMDGPU Alias Analysis"),

  cl::init(true));


// Enable lib calls simplifications

static cl::opt<bool> EnableLibCallSimplify(

  "amdgpu-simplify-libcall",

  cl::desc("Enable amdgpu library simplifications"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool> EnableLowerKernelArguments(

  "amdgpu-ir-lower-kernel-arguments",

  cl::desc("Lower kernel argument loads in IR pass"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool> EnableRegReassign(

  "amdgpu-reassign-regs",

  cl::desc("Enable register reassign optimizations on gfx10+"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool> OptVGPRLiveRange(

    "amdgpu-opt-vgpr-liverange",

    cl::desc("Enable VGPR liverange optimizations for if-else structure"),

    cl::init(true), cl::Hidden);


static cl::opt<ScanOptions> AMDGPUAtomicOptimizerStrategy(

    "amdgpu-atomic-optimizer-strategy",

    cl::desc("Select DPP or Iterative strategy for scan"),

    cl::init(ScanOptions::Iterative),

    cl::values(

        clEnumValN(ScanOptions::DPP, "DPP", "Use DPP operations for scan"),

        clEnumValN(ScanOptions::Iterative, "Iterative",

                   "Use Iterative approach for scan"),

        clEnumValN(ScanOptions::None, "None", "Disable atomic optimizer")));


// Enable Mode register optimization

static cl::opt<bool> EnableSIModeRegisterPass(

  "amdgpu-mode-register",

  cl::desc("Enable mode register pass"),

  cl::init(true),

  cl::Hidden);


// Enable GFX11+ s_delay_alu insertion

static cl::opt<bool>

    EnableInsertDelayAlu("amdgpu-enable-delay-alu",

                         cl::desc("Enable s_delay_alu insertion"),

                         cl::init(true), cl::Hidden);


// Enable GFX11+ VOPD

static cl::opt<bool>

    EnableVOPD("amdgpu-enable-vopd",

               cl::desc("Enable VOPD, dual issue of VALU in wave32"),

               cl::init(true), cl::Hidden);


// Option is used in lit tests to prevent deadcoding of patterns inspected.

static cl::opt<bool>

EnableDCEInRA("amdgpu-dce-in-ra",

    cl::init(true), cl::Hidden,

    cl::desc("Enable machine DCE inside regalloc"));


static cl::opt<bool> EnableSetWavePriority("amdgpu-set-wave-priority",

                                           cl::desc("Adjust wave priority"),

                                           cl::init(false), cl::Hidden);


static cl::opt<bool> EnableScalarIRPasses(

  "amdgpu-scalar-ir-passes",

  cl::desc("Enable scalar IR passes"),

  cl::init(true),

  cl::Hidden);


static cl::opt<bool> EnableLowerExecSync(

    "amdgpu-enable-lower-exec-sync",

    cl::desc("Enable lowering of execution synchronization."), cl::init(true),

    cl::Hidden);


static cl::opt<bool>

    EnableSwLowerLDS("amdgpu-enable-sw-lower-lds",

                     cl::desc("Enable lowering of lds to global memory pass "

                              "and asan instrument resulting IR."),

                     cl::init(true), cl::Hidden);


static cl::opt<bool, true> EnableObjectLinking(

    "amdgpu-enable-object-linking",

    cl::desc("Enable object linking for cross-TU LDS and ABI support"),

    cl::location(AMDGPUTargetMachine::EnableObjectLinking), cl::init(false),

    cl::Hidden);


static cl::opt<bool, true> EnableLowerModuleLDS(

    "amdgpu-enable-lower-module-lds", cl::desc("Enable lower module lds pass"),

    cl::location(AMDGPUTargetMachine::EnableLowerModuleLDS), cl::init(true),

    cl::Hidden);


static cl::opt<bool> EnablePreRAOptimizations(

    "amdgpu-enable-pre-ra-optimizations",

    cl::desc("Enable Pre-RA optimizations pass"), cl::init(true),

    cl::Hidden);


static cl::opt<bool> EnablePromoteKernelArguments(

    "amdgpu-enable-promote-kernel-arguments",

    cl::desc("Enable promotion of flat kernel pointer arguments to global"),

    cl::Hidden, cl::init(true));


static cl::opt<bool> EnableImageIntrinsicOptimizer(

    "amdgpu-enable-image-intrinsic-optimizer",

    cl::desc("Enable image intrinsic optimizer pass"), cl::init(true),

    cl::Hidden);


static cl::opt<bool>

    EnableLoopPrefetch("amdgpu-loop-prefetch",

                       cl::desc("Enable loop data prefetch on AMDGPU"),

                       cl::Hidden, cl::init(false));


static cl::opt<std::string>

    AMDGPUSchedStrategy("amdgpu-sched-strategy",

                        cl::desc("Select custom AMDGPU scheduling strategy."),

                        cl::Hidden, cl::init(""));


// Scheduler selection is consulted both when creating the scheduler and from

// overrideSchedPolicy(), so keep the attribute and global command line handling

// in one helper.


StringRef llvm::AMDGPU::getSchedStrategy(const Function &F) {

  Attribute SchedStrategyAttr = F.getFnAttribute("amdgpu-sched-strategy");

  if (SchedStrategyAttr.isValid())

    return SchedStrategyAttr.getValueAsString();


  if (!AMDGPUSchedStrategy.empty())

    return AMDGPUSchedStrategy;


  return "";

}


static void


diagnoseUnsupportedCoExecSchedulerSelection(const Function &F,

                                            const GCNSubtarget &ST) {

  if (ST.hasGFX1250Insts())

    return;


  F.getContext().diagnose(DiagnosticInfoUnsupported(

      F, "'amdgpu-sched-strategy'='coexec' is only supported for gfx1250",

      DiagnosticLocation(), DS_Warning));

}


static bool useNoopPostScheduler(const Function &F) {

  Attribute PostSchedStrategyAttr =

      F.getFnAttribute("amdgpu-post-sched-strategy");

  return PostSchedStrategyAttr.isValid() &&

         PostSchedStrategyAttr.getValueAsString() == "nop";

}


static cl::opt<bool> EnableRewritePartialRegUses(

    "amdgpu-enable-rewrite-partial-reg-uses",

    cl::desc("Enable rewrite partial reg uses pass"), cl::init(true),

    cl::Hidden);


static cl::opt<bool> EnableHipStdPar(

  "amdgpu-enable-hipstdpar",

  cl::desc("Enable HIP Standard Parallelism Offload support"), cl::init(false),

  cl::Hidden);


static cl::opt<bool>

    EnableAMDGPUAttributor("amdgpu-attributor-enable",

                           cl::desc("Enable AMDGPUAttributorPass"),

                           cl::init(true), cl::Hidden);


static cl::opt<bool> NewRegBankSelect(

    "new-reg-bank-select",

    cl::desc("Run amdgpu-regbankselect and amdgpu-regbanklegalize instead of "

             "regbankselect"),

    cl::init(false), cl::Hidden);


static cl::opt<bool> HasClosedWorldAssumption(

    "amdgpu-link-time-closed-world",

    cl::desc("Whether has closed-world assumption at link time"),

    cl::init(false), cl::Hidden);


static cl::opt<bool> EnableUniformIntrinsicCombine(

    "amdgpu-enable-uniform-intrinsic-combine",

    cl::desc("Enable/Disable the Uniform Intrinsic Combine Pass"),

    cl::init(true), cl::Hidden);


extern "C" LLVM_ABI LLVM_EXTERNAL_VISIBILITY void LLVMInitializeAMDGPUTarget() {

  // Register the target

  RegisterTargetMachine<R600TargetMachine> X(getTheR600Target());

  RegisterTargetMachine<GCNTargetMachine> Y(getTheGCNTarget());


  PassRegistry *PR = PassRegistry::getPassRegistry();

  initializeR600ClauseMergePassPass(*PR);

  initializeR600ControlFlowFinalizerPass(*PR);

  initializeR600PacketizerPass(*PR);

  initializeR600ExpandSpecialInstrsPassPass(*PR);

  initializeR600VectorRegMergerPass(*PR);

  initializeR600EmitClauseMarkersPass(*PR);

  initializeR600MachineCFGStructurizerPass(*PR);

  initializeGlobalISel(*PR);

  initializeAMDGPUAsmPrinterPass(*PR);

  initializeAMDGPUDAGToDAGISelLegacyPass(*PR);

  initializeAMDGPUPrepareAGPRAllocLegacyPass(*PR);

  initializeGCNDPPCombineLegacyPass(*PR);

  initializeSILowerI1CopiesLegacyPass(*PR);

  initializeAMDGPUGlobalISelDivergenceLoweringPass(*PR);

  initializeAMDGPURegBankSelectPass(*PR);

  initializeAMDGPURegBankLegalizePass(*PR);

  initializeSILowerWWMCopiesLegacyPass(*PR);

  initializeAMDGPUMarkLastScratchLoadLegacyPass(*PR);

  initializeSILowerSGPRSpillsLegacyPass(*PR);

  initializeSIFixSGPRCopiesLegacyPass(*PR);

  initializeSIFixVGPRCopiesLegacyPass(*PR);

  initializeSIFoldOperandsLegacyPass(*PR);

  initializeSIPeepholeSDWALegacyPass(*PR);

  initializeSIShrinkInstructionsLegacyPass(*PR);

  initializeSIOptimizeExecMaskingPreRALegacyPass(*PR);

  initializeSIOptimizeVGPRLiveRangeLegacyPass(*PR);

  initializeAMDGPUNextUseAnalysisLegacyPassPass(*PR);

  initializeAMDGPUNextUseAnalysisPrinterLegacyPassPass(*PR);

  initializeSILoadStoreOptimizerLegacyPass(*PR);

  initializeAMDGPUCtorDtorLoweringLegacyPass(*PR);

  initializeAMDGPUAlwaysInlinePass(*PR);

  initializeAMDGPULowerExecSyncLegacyPass(*PR);

  initializeAMDGPUSwLowerLDSLegacyPass(*PR);

  initializeAMDGPUAnnotateUniformValuesLegacyPass(*PR);

  initializeAMDGPUAtomicOptimizerPass(*PR);

  initializeAMDGPULowerKernelArgumentsPass(*PR);

  initializeAMDGPUPromoteKernelArgumentsPass(*PR);

  initializeAMDGPULowerKernelAttributesPass(*PR);

  initializeAMDGPUExportKernelRuntimeHandlesLegacyPass(*PR);

  initializeAMDGPUPostLegalizerCombinerPass(*PR);

  initializeAMDGPUPreLegalizerCombinerPass(*PR);

  initializeAMDGPURegBankCombinerPass(*PR);

  initializeAMDGPUPromoteAllocaPass(*PR);

  initializeAMDGPUCodeGenPreparePass(*PR);

  initializeAMDGPULateCodeGenPrepareLegacyPass(*PR);

  initializeAMDGPURemoveIncompatibleFunctionsLegacyPass(*PR);

  initializeAMDGPULowerModuleLDSLegacyPass(*PR);

  initializeAMDGPULowerBufferFatPointersPass(*PR);

  initializeAMDGPULowerIntrinsicsLegacyPass(*PR);

  initializeAMDGPUReserveWWMRegsLegacyPass(*PR);

  initializeAMDGPURewriteAGPRCopyMFMALegacyPass(*PR);

  initializeAMDGPURewriteOutArgumentsPass(*PR);

  initializeAMDGPURewriteUndefForPHILegacyPass(*PR);

  initializeSIAnnotateControlFlowLegacyPass(*PR);

  initializeAMDGPUInsertDelayAluLegacyPass(*PR);

  initializeAMDGPULowerVGPREncodingLegacyPass(*PR);

  initializeSIInsertHardClausesLegacyPass(*PR);

  initializeSIInsertWaitcntsLegacyPass(*PR);

  initializeSIModeRegisterLegacyPass(*PR);

  initializeSIWholeQuadModeLegacyPass(*PR);

  initializeSILowerControlFlowLegacyPass(*PR);

  initializeSIPreEmitPeepholeLegacyPass(*PR);

  initializeSILateBranchLoweringLegacyPass(*PR);

  initializeSIMemoryLegalizerLegacyPass(*PR);

  initializeSIOptimizeExecMaskingLegacyPass(*PR);

  initializeSIPreAllocateWWMRegsLegacyPass(*PR);

  initializeSIFormMemoryClausesLegacyPass(*PR);

  initializeSIPostRABundlerLegacyPass(*PR);

  initializeGCNCreateVOPDLegacyPass(*PR);

  initializeAMDGPUUnifyDivergentExitNodesLegacyPass(*PR);

  initializeAMDGPUAAWrapperPassPass(*PR);

  initializeAMDGPUExternalAAWrapperPass(*PR);

  initializeAMDGPUImageIntrinsicOptimizerPass(*PR);

  initializeAMDGPUPrintfRuntimeBindingPass(*PR);

  initializeAMDGPUResourceUsageAnalysisWrapperPassPass(*PR);

  initializeGCNNSAReassignLegacyPass(*PR);

  initializeGCNPreRAOptimizationsLegacyPass(*PR);

  initializeGCNPreRALongBranchRegLegacyPass(*PR);

  initializeGCNRewritePartialRegUsesLegacyPass(*PR);

  initializeGCNRegPressurePrinterPass(*PR);

  initializeAMDGPUPreloadKernArgPrologLegacyPass(*PR);

  initializeAMDGPUWaitSGPRHazardsLegacyPass(*PR);

  initializeAMDGPUPreloadKernelArgumentsLegacyPass(*PR);

  initializeAMDGPUUniformIntrinsicCombineLegacyPass(*PR);

}


static std::unique_ptr<TargetLoweringObjectFile> createTLOF(const Triple &TT) {

  return std::make_unique<AMDGPUTargetObjectFile>();

}


static ScheduleDAGInstrs *createSIMachineScheduler(MachineSchedContext *C) {

  return new SIScheduleDAGMI(C);

}


static ScheduleDAGInstrs *


createGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  ScheduleDAGMILive *DAG =

    new GCNScheduleDAGMILive(C, std::make_unique<GCNMaxOccupancySchedStrategy>(C));

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::Initial));

  DAG->addMutation(createAMDGPUMacroFusionDAGMutation());

  DAG->addMutation(createAMDGPUExportClusteringDAGMutation());

  DAG->addMutation(createAMDGPUBarrierLatencyDAGMutation(C->MF));

  DAG->addMutation(createAMDGPUHazardLatencyDAGMutation(C->MF));

  return DAG;

}


static ScheduleDAGInstrs *


createGCNMaxILPMachineScheduler(MachineSchedContext *C) {

  ScheduleDAGMILive *DAG =

      new GCNScheduleDAGMILive(C, std::make_unique<GCNMaxILPSchedStrategy>(C));

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::Initial));

  return DAG;

}


static ScheduleDAGInstrs *


createGCNMaxMemoryClauseMachineScheduler(MachineSchedContext *C) {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  ScheduleDAGMILive *DAG = new GCNScheduleDAGMILive(

      C, std::make_unique<GCNMaxMemoryClauseSchedStrategy>(C));

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  DAG->addMutation(createAMDGPUExportClusteringDAGMutation());

  DAG->addMutation(createAMDGPUBarrierLatencyDAGMutation(C->MF));

  DAG->addMutation(createAMDGPUHazardLatencyDAGMutation(C->MF));

  return DAG;

}


static ScheduleDAGInstrs *


createIterativeGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  auto *DAG = new GCNIterativeScheduler(

      C, GCNIterativeScheduler::SCHEDULE_LEGACYMAXOCCUPANCY);

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::Initial));

  return DAG;

}


static ScheduleDAGInstrs *createMinRegScheduler(MachineSchedContext *C) {

  auto *DAG = new GCNIterativeScheduler(

      C, GCNIterativeScheduler::SCHEDULE_MINREGFORCED);

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::Initial));

  return DAG;

}


static ScheduleDAGInstrs *


createIterativeILPMachineScheduler(MachineSchedContext *C) {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  auto *DAG = new GCNIterativeScheduler(C, GCNIterativeScheduler::SCHEDULE_ILP);

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  DAG->addMutation(createAMDGPUMacroFusionDAGMutation());

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::Initial));

  return DAG;

}


static MachineSchedRegistry

SISchedRegistry("si", "Run SI's custom scheduler",

                createSIMachineScheduler);


static MachineSchedRegistry

GCNMaxOccupancySchedRegistry("gcn-max-occupancy",

                             "Run GCN scheduler to maximize occupancy",

                             createGCNMaxOccupancyMachineScheduler);


static MachineSchedRegistry

    GCNMaxILPSchedRegistry("gcn-max-ilp", "Run GCN scheduler to maximize ilp",

                           createGCNMaxILPMachineScheduler);


static MachineSchedRegistry GCNMaxMemoryClauseSchedRegistry(

    "gcn-max-memory-clause", "Run GCN scheduler to maximize memory clause",

    createGCNMaxMemoryClauseMachineScheduler);


static MachineSchedRegistry IterativeGCNMaxOccupancySchedRegistry(

    "gcn-iterative-max-occupancy-experimental",

    "Run GCN scheduler to maximize occupancy (experimental)",

    createIterativeGCNMaxOccupancyMachineScheduler);


static MachineSchedRegistry GCNMinRegSchedRegistry(

    "gcn-iterative-minreg",

    "Run GCN iterative scheduler for minimal register usage (experimental)",

    createMinRegScheduler);


static MachineSchedRegistry GCNILPSchedRegistry(

    "gcn-iterative-ilp",

    "Run GCN iterative scheduler for ILP scheduling (experimental)",

    createIterativeILPMachineScheduler);


LLVM_READNONE


static StringRef getGPUOrDefault(const Triple &TT, StringRef GPU) {

  if (!GPU.empty())

    return GPU;


  // Need to default to a target with flat support for HSA.

  if (TT.isAMDGCN())

    return TT.getOS() == Triple::AMDHSA ? "generic-hsa" : "generic";


  return "r600";

}


static Reloc::Model getEffectiveRelocModel() {

  // The AMDGPU toolchain only supports generating shared objects, so we

  // must always use PIC.

  return Reloc::PIC_;

}


AMDGPUTargetMachine::AMDGPUTargetMachine(const Target &T, const Triple &TT,

                                         StringRef CPU, StringRef FS,

                                         const TargetOptions &Options,

                                         std::optional<Reloc::Model> RM,

                                         std::optional<CodeModel::Model> CM,

                                         CodeGenOptLevel OptLevel)

    : CodeGenTargetMachineImpl(

          T, TT.computeDataLayout(), TT, getGPUOrDefault(TT, CPU), FS, Options,

          getEffectiveRelocModel(), getEffectiveCodeModel(CM, CodeModel::Small),

          OptLevel),

      TLOF(createTLOF(getTargetTriple())) {

  initAsmInfo();

  if (TT.isAMDGCN()) {

    if (getMCSubtargetInfo().checkFeatures("+wavefrontsize64"))

      MRI.reset(llvm::createGCNMCRegisterInfo(AMDGPUDwarfFlavour::Wave64));

    else if (getMCSubtargetInfo().checkFeatures("+wavefrontsize32"))

      MRI.reset(llvm::createGCNMCRegisterInfo(AMDGPUDwarfFlavour::Wave32));

  }

}


bool AMDGPUTargetMachine::EnableFunctionCalls = false;

bool AMDGPUTargetMachine::EnableObjectLinking = false;

bool AMDGPUTargetMachine::EnableLowerModuleLDS = true;


AMDGPUTargetMachine::~AMDGPUTargetMachine() = default;


StringRef AMDGPUTargetMachine::getGPUName(const Function &F) const {

  Attribute GPUAttr = F.getFnAttribute("target-cpu");

  return GPUAttr.isValid() ? GPUAttr.getValueAsString() : getTargetCPU();

}


StringRef AMDGPUTargetMachine::getFeatureString(const Function &F) const {

  Attribute FSAttr = F.getFnAttribute("target-features");


  return FSAttr.isValid() ? FSAttr.getValueAsString()

                          : getTargetFeatureString();

}


llvm::ScheduleDAGInstrs *


AMDGPUTargetMachine::createMachineScheduler(MachineSchedContext *C) const {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  ScheduleDAGMILive *DAG = createSchedLive(C);

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  return DAG;

}


/// Predicate for Internalize pass.


static bool mustPreserveGV(const GlobalValue &GV) {

  if (const Function *F = dyn_cast<Function>(&GV))

    return F->isDeclaration() || F->getName().starts_with("__asan_") ||

           F->getName().starts_with("__sanitizer_") ||

           AMDGPU::isEntryFunctionCC(F->getCallingConv());


  GV.removeDeadConstantUsers();

  return !GV.use_empty();

}


void AMDGPUTargetMachine::registerDefaultAliasAnalyses(AAManager &AAM) {

  if (EnableAMDGPUAliasAnalysis)

    AAM.registerFunctionAnalysis<AMDGPUAA>();

}


static Expected<ScanOptions>


parseAMDGPUAtomicOptimizerStrategy(StringRef Params) {

  if (Params.empty())

    return ScanOptions::Iterative;

  Params.consume_front("strategy=");

  auto Result = StringSwitch<std::optional<ScanOptions>>(Params)

                    .Case("dpp", ScanOptions::DPP)

                    .Cases({"iterative", ""}, ScanOptions::Iterative)

                    .Case("none", ScanOptions::None)

                    .Default(std::nullopt);

  if (Result)

    return *Result;

  return make_error<StringError>("invalid parameter", inconvertibleErrorCode());

}


Expected<AMDGPUAttributorOptions>


parseAMDGPUAttributorPassOptions(StringRef Params) {

  AMDGPUAttributorOptions Result;

  while (!Params.empty()) {

    StringRef ParamName;

    std::tie(ParamName, Params) = Params.split(';');

    if (ParamName == "closed-world") {

      Result.IsClosedWorld = true;

    } else {

      return make_error<StringError>(

          formatv("invalid AMDGPUAttributor pass parameter '{0}' ", ParamName)

              .str(),

          inconvertibleErrorCode());

    }

  }

  return Result;

}


void AMDGPUTargetMachine::registerPassBuilderCallbacks(PassBuilder &PB) {


#define GET_PASS_REGISTRY "AMDGPUPassRegistry.def"

#include "llvm/Passes/TargetPassRegistry.inc"


  PB.registerPipelineParsingCallback(

      [this](StringRef Name, CGSCCPassManager &PM,

             ArrayRef<PassBuilder::PipelineElement> Pipeline) {

        if (Name == "amdgpu-attributor-cgscc" && getTargetTriple().isAMDGCN()) {

          PM.addPass(AMDGPUAttributorCGSCCPass(

              *static_cast<GCNTargetMachine *>(this)));

          return true;

        }

        return false;

      });


  PB.registerScalarOptimizerLateEPCallback(

      [](FunctionPassManager &FPM, OptimizationLevel Level) {

        if (Level == OptimizationLevel::O0)

          return;


        FPM.addPass(InferAddressSpacesPass());

      });


  PB.registerVectorizerEndEPCallback(

      [](FunctionPassManager &FPM, OptimizationLevel Level) {

        if (Level == OptimizationLevel::O0)

          return;


        FPM.addPass(InferAddressSpacesPass());

      });


  PB.registerPipelineEarlySimplificationEPCallback(

      [this](ModulePassManager &PM, OptimizationLevel Level,

             ThinOrFullLTOPhase Phase) {

        if (!isLTOPreLink(Phase) && getTargetTriple().isAMDGCN()) {

          // When we are not using -fgpu-rdc, we can run accelerator code

          // selection relatively early, but still after linking to prevent

          // eager removal of potentially reachable symbols.

          if (EnableHipStdPar) {

            PM.addPass(HipStdParMathFixupPass());

            PM.addPass(HipStdParAcceleratorCodeSelectionPass());

          }


          PM.addPass(AMDGPUPrintfRuntimeBindingPass());

        }


        if (Level == OptimizationLevel::O0)

          return;


        // We don't want to run internalization at per-module stage.

        if (InternalizeSymbols && !isLTOPreLink(Phase)) {

          PM.addPass(InternalizePass(mustPreserveGV));

          PM.addPass(GlobalDCEPass());

        }


        if (EarlyInlineAll && !EnableFunctionCalls)

          PM.addPass(AMDGPUAlwaysInlinePass());

      });


  PB.registerPeepholeEPCallback(

      [](FunctionPassManager &FPM, OptimizationLevel Level) {

        if (Level == OptimizationLevel::O0)

          return;


        FPM.addPass(AMDGPUUseNativeCallsPass());

        if (EnableLibCallSimplify)

          FPM.addPass(AMDGPUSimplifyLibCallsPass());


        if (EnableUniformIntrinsicCombine)

          FPM.addPass(AMDGPUUniformIntrinsicCombinePass());

      });


  PB.registerCGSCCOptimizerLateEPCallback(

      [this](CGSCCPassManager &PM, OptimizationLevel Level) {

        if (Level == OptimizationLevel::O0)

          return;


        FunctionPassManager FPM;


        // Add promote kernel arguments pass to the opt pipeline right before

        // infer address spaces which is needed to do actual address space

        // rewriting.

        if (Level.getSpeedupLevel() > OptimizationLevel::O1.getSpeedupLevel() &&

            EnablePromoteKernelArguments)

          FPM.addPass(AMDGPUPromoteKernelArgumentsPass());


        // Add infer address spaces pass to the opt pipeline after inlining

        // but before SROA to increase SROA opportunities.

        FPM.addPass(InferAddressSpacesPass());


        // This should run after inlining to have any chance of doing

        // anything, and before other cleanup optimizations.

        FPM.addPass(AMDGPULowerKernelAttributesPass());


        // Promote alloca to vector before SROA and loop unroll. If we

        // manage to eliminate allocas before unroll we may choose to unroll

        // less.

        FPM.addPass(AMDGPUPromoteAllocaToVectorPass(*this));


        PM.addPass(createCGSCCToFunctionPassAdaptor(std::move(FPM)));

      });


  // FIXME: Why is AMDGPUAttributor not in CGSCC?

  PB.registerOptimizerLastEPCallback([this](ModulePassManager &MPM,

                                            OptimizationLevel Level,

                                            ThinOrFullLTOPhase Phase) {

    if (Level != OptimizationLevel::O0) {

      if (!isLTOPreLink(Phase)) {

        if (EnableAMDGPUAttributor && getTargetTriple().isAMDGCN()) {

          AMDGPUAttributorOptions Opts;

          MPM.addPass(AMDGPUAttributorPass(*this, Opts, Phase));

        }

      }

    }

  });


  PB.registerFullLinkTimeOptimizationLastEPCallback(

      [this](ModulePassManager &PM, OptimizationLevel Level) {

        // When we are using -fgpu-rdc, we can only run accelerator code

        // selection after linking to prevent, otherwise we end up removing

        // potentially reachable symbols that were exported as external in other

        // modules.

        if (EnableHipStdPar) {

          PM.addPass(HipStdParMathFixupPass());

          PM.addPass(HipStdParAcceleratorCodeSelectionPass());

        }

        // We want to support the -lto-partitions=N option as "best effort".

        // For that, we need to lower LDS earlier in the pipeline before the

        // module is partitioned for codegen.

        if (EnableLowerExecSync)

          PM.addPass(AMDGPULowerExecSyncPass());

        if (EnableSwLowerLDS)

          PM.addPass(AMDGPUSwLowerLDSPass(*this));

        if (EnableLowerModuleLDS)

          PM.addPass(AMDGPULowerModuleLDSPass(*this));

        if (Level != OptimizationLevel::O0) {

          // We only want to run this with O2 or higher since inliner and SROA

          // don't run in O1.

          if (Level != OptimizationLevel::O1) {

            PM.addPass(

                createModuleToFunctionPassAdaptor(InferAddressSpacesPass()));

          }

          // Do we really need internalization in LTO?

          if (InternalizeSymbols) {

            PM.addPass(InternalizePass(mustPreserveGV));

            PM.addPass(GlobalDCEPass());

          }

          if (EnableAMDGPUAttributor && getTargetTriple().isAMDGCN()) {

            AMDGPUAttributorOptions Opt;

            if (HasClosedWorldAssumption)

              Opt.IsClosedWorld = true;

            PM.addPass(AMDGPUAttributorPass(

                *this, Opt, ThinOrFullLTOPhase::FullLTOPostLink));

          }

        }

        if (!NoKernelInfoEndLTO) {

          FunctionPassManager FPM;

          FPM.addPass(KernelInfoPrinter(this));

          PM.addPass(createModuleToFunctionPassAdaptor(std::move(FPM)));

        }

      });


  PB.registerRegClassFilterParsingCallback(

      [](StringRef FilterName) -> RegAllocFilterFunc {

        if (FilterName == "sgpr")

          return onlyAllocateSGPRs;

        if (FilterName == "vgpr")

          return onlyAllocateVGPRs;

        if (FilterName == "wwm")

          return onlyAllocateWWMRegs;

        return nullptr;

      });

}


bool AMDGPUTargetMachine::isNoopAddrSpaceCast(unsigned SrcAS,

                                              unsigned DestAS) const {

  return AMDGPU::isFlatGlobalAddrSpace(SrcAS) &&

         AMDGPU::isFlatGlobalAddrSpace(DestAS);

}


unsigned AMDGPUTargetMachine::getAssumedAddrSpace(const Value *V) const {

  if (auto *Arg = dyn_cast<Argument>(V);

      Arg &&

      AMDGPU::isModuleEntryFunctionCC(Arg->getParent()->getCallingConv()) &&

      !Arg->hasByRefAttr())

    return AMDGPUAS::GLOBAL_ADDRESS;


  const auto *LD = dyn_cast<LoadInst>(V);

  if (!LD) // TODO: Handle invariant load like constant.

    return AMDGPUAS::UNKNOWN_ADDRESS_SPACE;


  // It must be a generic pointer loaded.

  assert(V->getType()->getPointerAddressSpace() == AMDGPUAS::FLAT_ADDRESS);


  const auto *Ptr = LD->getPointerOperand();

  if (Ptr->getType()->getPointerAddressSpace() != AMDGPUAS::CONSTANT_ADDRESS)

    return AMDGPUAS::UNKNOWN_ADDRESS_SPACE;

  // For a generic pointer loaded from the constant memory, it could be assumed

  // as a global pointer since the constant memory is only populated on the

  // host side. As implied by the offload programming model, only global

  // pointers could be referenced on the host side.

  return AMDGPUAS::GLOBAL_ADDRESS;

}


std::pair<const Value *, unsigned>


AMDGPUTargetMachine::getPredicatedAddrSpace(const Value *V) const {

  if (auto *II = dyn_cast<IntrinsicInst>(V)) {

    switch (II->getIntrinsicID()) {

    case Intrinsic::amdgcn_is_shared:

      return std::pair(II->getArgOperand(0), AMDGPUAS::LOCAL_ADDRESS);

    case Intrinsic::amdgcn_is_private:

      return std::pair(II->getArgOperand(0), AMDGPUAS::PRIVATE_ADDRESS);

    default:

      break;

    }

    return std::pair(nullptr, -1);

  }

  // Check the global pointer predication based on

  // (!is_share(p) && !is_private(p)). Note that logic 'and' is commutative and

  // the order of 'is_shared' and 'is_private' is not significant.

  Value *Ptr;

  if (match(

          const_cast<Value *>(V),

          m_c_And(m_Not(m_Intrinsic<Intrinsic::amdgcn_is_shared>(m_Value(Ptr))),

                  m_Not(m_Intrinsic<Intrinsic::amdgcn_is_private>(

                      m_Deferred(Ptr))))))

    return std::pair(Ptr, AMDGPUAS::GLOBAL_ADDRESS);


  return std::pair(nullptr, -1);

}


unsigned


AMDGPUTargetMachine::getAddressSpaceForPseudoSourceKind(unsigned Kind) const {

  switch (Kind) {

  case PseudoSourceValue::Stack:

  case PseudoSourceValue::FixedStack:

    return AMDGPUAS::PRIVATE_ADDRESS;

  case PseudoSourceValue::ConstantPool:

  case PseudoSourceValue::GOT:

  case PseudoSourceValue::JumpTable:

  case PseudoSourceValue::GlobalValueCallEntry:

  case PseudoSourceValue::ExternalSymbolCallEntry:

    return AMDGPUAS::CONSTANT_ADDRESS;

  }

  return AMDGPUAS::FLAT_ADDRESS;

}


bool AMDGPUTargetMachine::splitModule(

    Module &M, unsigned NumParts,

    function_ref<void(std::unique_ptr<Module> MPart)> ModuleCallback) {

  // FIXME(?): Would be better to use an already existing Analysis/PassManager,

  // but all current users of this API don't have one ready and would need to

  // create one anyway. Let's hide the boilerplate for now to keep it simple.


  LoopAnalysisManager LAM;

  FunctionAnalysisManager FAM;

  CGSCCAnalysisManager CGAM;

  ModuleAnalysisManager MAM;


  PassBuilder PB(this);

  PB.registerModuleAnalyses(MAM);

  PB.registerFunctionAnalyses(FAM);

  PB.crossRegisterProxies(LAM, FAM, CGAM, MAM);


  ModulePassManager MPM;

  MPM.addPass(AMDGPUSplitModulePass(NumParts, ModuleCallback));

  MPM.run(M, MAM);

  return true;

}


//===----------------------------------------------------------------------===//

// GCN Target Machine (SI+)

//===----------------------------------------------------------------------===//


GCNTargetMachine::GCNTargetMachine(const Target &T, const Triple &TT,

                                   StringRef CPU, StringRef FS,

                                   const TargetOptions &Options,

                                   std::optional<Reloc::Model> RM,

                                   std::optional<CodeModel::Model> CM,

                                   CodeGenOptLevel OL, bool JIT)

    : AMDGPUTargetMachine(T, TT, CPU, FS, Options, RM, CM, OL) {}


enum class OOBFlagValue {

  Any = 0,

  Relaxed = 1,

  Strict = 2,

};


/// Returns the OOB mode encoded by a module flag.

/// An absent flag defaults to Any.


static OOBFlagValue getOOBFlagValue(const Module &M, StringRef FlagName) {

  const auto *Flag =

      mdconst::dyn_extract_or_null<ConstantInt>(M.getModuleFlag(FlagName));

  if (!Flag)

    return OOBFlagValue::Any;

  return static_cast<OOBFlagValue>(Flag->getZExtValue());

}


const TargetSubtargetInfo *


GCNTargetMachine::getSubtargetImpl(const Function &F) const {

  StringRef GPU = getGPUName(F);

  StringRef FS = getFeatureString(F);


  const Module &M = *F.getParent();

  OOBFlagValue BufOOB = getOOBFlagValue(M, AMDGPUOOBMode::BufferFlag);

  OOBFlagValue TBufOOB = getOOBFlagValue(M, AMDGPUOOBMode::TBufferFlag);

  bool BufRelaxed = BufOOB == OOBFlagValue::Relaxed;

  bool TBufRelaxed = TBufOOB == OOBFlagValue::Relaxed;

  SmallString<128> SubtargetKey(GPU);

  SubtargetKey.append(FS);

  if (BufRelaxed)

    SubtargetKey.append(",buf-oob=1");

  if (TBufRelaxed)

    SubtargetKey.append(",tbuf-oob=1");


  auto &I = SubtargetMap[SubtargetKey];

  if (!I) {

    // This needs to be done before we create a new subtarget since any

    // creation will depend on the TM and the code generation flags on the

    // function that reside in TargetOptions.

    resetTargetOptions(F);

    I = std::make_unique<GCNSubtarget>(TargetTriple, GPU, FS, *this, BufRelaxed,

                                       TBufRelaxed);

  }


  I->setScalarizeGlobalBehavior(ScalarizeGlobal);


  return I.get();

}


TargetTransformInfo


GCNTargetMachine::getTargetTransformInfo(const Function &F) const {

  return TargetTransformInfo(std::make_unique<GCNTTIImpl>(this, F));

}


Error GCNTargetMachine::buildCodeGenPipeline(

    ModulePassManager &MPM, ModuleAnalysisManager &MAM, raw_pwrite_stream &Out,

    raw_pwrite_stream *DwoOut, CodeGenFileType FileType,

    const CGPassBuilderOption &Opts, MCContext &Ctx,

    PassInstrumentationCallbacks *PIC) {

  AMDGPUCodeGenPassBuilder CGPB(*this, Opts, PIC);

  return CGPB.buildPipeline(MPM, MAM, Out, DwoOut, FileType, Ctx);

}


ScheduleDAGInstrs *


GCNTargetMachine::createMachineScheduler(MachineSchedContext *C) const {

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  if (ST.enableSIScheduler())

    return createSIMachineScheduler(C);


  StringRef SchedStrategy = AMDGPU::getSchedStrategy(C->MF->getFunction());


  if (SchedStrategy == "max-ilp")

    return createGCNMaxILPMachineScheduler(C);


  if (SchedStrategy == "max-memory-clause")

    return createGCNMaxMemoryClauseMachineScheduler(C);


  if (SchedStrategy == "iterative-ilp")

    return createIterativeILPMachineScheduler(C);


  if (SchedStrategy == "iterative-minreg")

    return createMinRegScheduler(C);


  if (SchedStrategy == "iterative-maxocc")

    return createIterativeGCNMaxOccupancyMachineScheduler(C);


  if (SchedStrategy == "coexec") {

    diagnoseUnsupportedCoExecSchedulerSelection(C->MF->getFunction(), ST);

    return createGCNCoExecMachineScheduler(C);

  }


  return createGCNMaxOccupancyMachineScheduler(C);

}


ScheduleDAGInstrs *


GCNTargetMachine::createPostMachineScheduler(MachineSchedContext *C) const {

  if (useNoopPostScheduler(C->MF->getFunction()))

    return createGCNNoopPostMachineScheduler(C);


  ScheduleDAGMI *DAG =

      new GCNPostScheduleDAGMILive(C, std::make_unique<PostGenericScheduler>(C),

                                   /*RemoveKillFlags=*/true);

  const GCNSubtarget &ST = C->MF->getSubtarget<GCNSubtarget>();

  DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));

  if (ST.shouldClusterStores())

    DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));

  DAG->addMutation(createIGroupLPDAGMutation(AMDGPU::SchedulingPhase::PostRA));

  if ((EnableVOPD.getNumOccurrences() ||

       getOptLevel() >= CodeGenOptLevel::Less) &&

      EnableVOPD)

    DAG->addMutation(createVOPDPairingMutation());

  DAG->addMutation(createAMDGPUExportClusteringDAGMutation());

  DAG->addMutation(createAMDGPUBarrierLatencyDAGMutation(C->MF));

  DAG->addMutation(createAMDGPUHazardLatencyDAGMutation(C->MF));

  return DAG;

}


//===----------------------------------------------------------------------===//

// AMDGPU Legacy Pass Setup

//===----------------------------------------------------------------------===//


std::unique_ptr<CSEConfigBase> llvm::AMDGPUPassConfig::getCSEConfig() const {

  return getStandardCSEConfigForOpt(TM->getOptLevel());

}


namespace {


class GCNPassConfig final : public AMDGPUPassConfig {

public:

  GCNPassConfig(TargetMachine &TM, PassManagerBase &PM)

      : AMDGPUPassConfig(TM, PM) {

    substitutePass(&PostRASchedulerID, &PostMachineSchedulerID);

  }


  GCNTargetMachine &getGCNTargetMachine() const {

    return getTM<GCNTargetMachine>();

  }


  bool addPreISel() override;

  void addMachineSSAOptimization() override;

  bool addILPOpts() override;

  bool addInstSelector() override;

  bool addIRTranslator() override;

  void addPreLegalizeMachineIR() override;

  bool addLegalizeMachineIR() override;

  void addPreRegBankSelect() override;

  bool addRegBankSelect() override;

  void addPreGlobalInstructionSelect() override;

  bool addGlobalInstructionSelect() override;

  void addPreRegAlloc() override;

  void addFastRegAlloc() override;

  void addOptimizedRegAlloc() override;


  FunctionPass *createSGPRAllocPass(bool Optimized);

  FunctionPass *createVGPRAllocPass(bool Optimized);

  FunctionPass *createWWMRegAllocPass(bool Optimized);

  FunctionPass *createRegAllocPass(bool Optimized) override;


  bool addRegAssignAndRewriteFast() override;

  bool addRegAssignAndRewriteOptimized() override;


  bool addPreRewrite() override;

  void addPostRegAlloc() override;

  void addPreSched2() override;

  void addPreEmitPass() override;

  void addPostBBSections() override;

};


} // end anonymous namespace


AMDGPUPassConfig::AMDGPUPassConfig(TargetMachine &TM, PassManagerBase &PM)

    : TargetPassConfig(TM, PM) {

  // Exceptions and StackMaps are not supported, so these passes will never do

  // anything.

  disablePass(&StackMapLivenessID);

  disablePass(&FuncletLayoutID);

  // Garbage collection is not supported.

  disablePass(&GCLoweringID);

  disablePass(&ShadowStackGCLoweringID);

}


void AMDGPUPassConfig::addEarlyCSEOrGVNPass() {

  if (getOptLevel() == CodeGenOptLevel::Aggressive)

    addPass(createGVNPass());

  else

    addPass(createEarlyCSEPass());

}


void AMDGPUPassConfig::addStraightLineScalarOptimizationPasses() {

  if (isPassEnabled(EnableLoopPrefetch, CodeGenOptLevel::Aggressive))

    addPass(createLoopDataPrefetchPass());

  addPass(createSeparateConstOffsetFromGEPPass());

  // ReassociateGEPs exposes more opportunities for SLSR. See

  // the example in reassociate-geps-and-slsr.ll.

  addPass(createStraightLineStrengthReducePass());

  // SeparateConstOffsetFromGEP and SLSR creates common expressions which GVN or

  // EarlyCSE can reuse.

  addEarlyCSEOrGVNPass();

  // Run NaryReassociate after EarlyCSE/GVN to be more effective.

  addPass(createNaryReassociatePass());

  // NaryReassociate on GEPs creates redundant common expressions, so run

  // EarlyCSE after it.

  addPass(createEarlyCSEPass());

}


void AMDGPUPassConfig::addIRPasses() {

  const AMDGPUTargetMachine &TM = getAMDGPUTargetMachine();


  if (RemoveIncompatibleFunctions && TM.getTargetTriple().isAMDGCN())

    addPass(createAMDGPURemoveIncompatibleFunctionsPass(&TM));


  // There is no reason to run these.

  disablePass(&StackMapLivenessID);

  disablePass(&FuncletLayoutID);

  disablePass(&PatchableFunctionID);


  if (TM.getTargetTriple().isAMDGCN())

    addPass(createAMDGPUPrintfRuntimeBinding());


  if (LowerCtorDtor)

    addPass(createAMDGPUCtorDtorLoweringLegacyPass());


  if (TM.getTargetTriple().isAMDGCN() &&

      isPassEnabled(EnableImageIntrinsicOptimizer))

    addPass(createAMDGPUImageIntrinsicOptimizerPass(&TM));


  if (EnableUniformIntrinsicCombine)

    addPass(createAMDGPUUniformIntrinsicCombineLegacyPass());


  // This can be disabled by passing ::Disable here or on the command line

  // with --expand-variadics-override=disable.

  addPass(createExpandVariadicsPass(ExpandVariadicsMode::Lowering));


  // Function calls are not supported, so make sure we inline everything.

  addPass(createAMDGPUAlwaysInlinePass());

  addPass(createAlwaysInlinerLegacyPass());


  // Handle uses of OpenCL image2d_t, image3d_t and sampler_t arguments.

  if (TM.getTargetTriple().getArch() == Triple::r600)

    addPass(createR600OpenCLImageTypeLoweringPass());


  // Make enqueued block runtime handles externally visible.

  addPass(createAMDGPUExportKernelRuntimeHandlesLegacyPass());


  // Lower special LDS accesses.

  if (EnableLowerExecSync)

    addPass(createAMDGPULowerExecSyncLegacyPass());


  // Lower LDS accesses to global memory pass if address sanitizer is enabled.

  if (EnableSwLowerLDS)

    addPass(createAMDGPUSwLowerLDSLegacyPass(&TM));


  // Runs before PromoteAlloca so the latter can account for function uses

  if (EnableLowerModuleLDS) {

    addPass(createAMDGPULowerModuleLDSLegacyPass(&TM));

  }


  // Run atomic optimizer before Atomic Expand

  if ((TM.getTargetTriple().isAMDGCN()) &&

      (TM.getOptLevel() >= CodeGenOptLevel::Less) &&

      (AMDGPUAtomicOptimizerStrategy != ScanOptions::None)) {

    addPass(createAMDGPUAtomicOptimizerPass(AMDGPUAtomicOptimizerStrategy));

  }


  addPass(createAtomicExpandLegacyPass());


  if (TM.getOptLevel() > CodeGenOptLevel::None) {

    addPass(createAMDGPUPromoteAlloca());


    if (isPassEnabled(EnableScalarIRPasses))

      addStraightLineScalarOptimizationPasses();


    if (EnableAMDGPUAliasAnalysis) {

      addPass(createAMDGPUAAWrapperPass());

      addPass(createExternalAAWrapperPass([](Pass &P, Function &,

                                             AAResults &AAR) {

        if (auto *WrapperPass = P.getAnalysisIfAvailable<AMDGPUAAWrapperPass>())

          AAR.addAAResult(WrapperPass->getResult());

        }));

    }


    if (TM.getTargetTriple().isAMDGCN()) {

      // TODO: May want to move later or split into an early and late one.

      addPass(createAMDGPUCodeGenPreparePass());

    }


    // Try to hoist loop invariant parts of divisions AMDGPUCodeGenPrepare may

    // have expanded.

    if (TM.getOptLevel() > CodeGenOptLevel::Less)

      addPass(createLICMPass());

  }


  TargetPassConfig::addIRPasses();


  // EarlyCSE is not always strong enough to clean up what LSR produces. For

  // example, GVN can combine

  //

  //   %0 = add %a, %b

  //   %1 = add %b, %a

  //

  // and

  //

  //   %0 = shl nsw %a, 2

  //   %1 = shl %a, 2

  //

  // but EarlyCSE can do neither of them.

  if (isPassEnabled(EnableScalarIRPasses))

    addEarlyCSEOrGVNPass();

}


void AMDGPUPassConfig::addCodeGenPrepare() {

  if (TM->getTargetTriple().isAMDGCN() &&

      TM->getOptLevel() > CodeGenOptLevel::None)

    addPass(createAMDGPUPreloadKernelArgumentsLegacyPass(TM));


  if (TM->getTargetTriple().isAMDGCN() && EnableLowerKernelArguments)

    addPass(createAMDGPULowerKernelArgumentsPass());


  TargetPassConfig::addCodeGenPrepare();


  if (isPassEnabled(EnableLoadStoreVectorizer))

    addPass(createLoadStoreVectorizerPass());


  if (TM->getTargetTriple().isAMDGCN()) {

    // This lowering has been placed after codegenprepare to take advantage of

    // address mode matching (which is why it isn't put with the LDS lowerings).

    // It could be placed anywhere before uniformity annotations (an analysis

    // that it changes by splitting up fat pointers into their components)

    // but has been put before switch lowering and CFG flattening so that those

    // passes can run on the more optimized control flow this pass creates in

    // many cases.

    addPass(createAMDGPULowerBufferFatPointersPass());

    addPass(createAMDGPULowerIntrinsicsLegacyPass());

  }


  // LowerSwitch pass may introduce unreachable blocks that can

  // cause unexpected behavior for subsequent passes. Placing it

  // here seems better that these blocks would get cleaned up by

  // UnreachableBlockElim inserted next in the pass flow.

  addPass(createLowerSwitchPass());

}


bool AMDGPUPassConfig::addPreISel() {

  if (TM->getOptLevel() > CodeGenOptLevel::None)

    addPass(createFlattenCFGPass());

  return false;

}


bool AMDGPUPassConfig::addInstSelector() {

  addPass(createAMDGPUISelDag(getAMDGPUTargetMachine(), getOptLevel()));

  return false;

}


bool AMDGPUPassConfig::addGCPasses() {

  // Do nothing. GC is not supported.

  return false;

}


//===----------------------------------------------------------------------===//

// GCN Legacy Pass Setup

//===----------------------------------------------------------------------===//


bool GCNPassConfig::addPreISel() {

  AMDGPUPassConfig::addPreISel();


  if (TM->getOptLevel() > CodeGenOptLevel::None) {

    addPass(createSinkingPass());

    addPass(createAMDGPULateCodeGenPrepareLegacyPass());

  }


  // Merge divergent exit nodes. StructurizeCFG won't recognize the multi-exit

  // regions formed by them.

  addPass(&AMDGPUUnifyDivergentExitNodesID);

  addPass(createFixIrreduciblePass());

  addPass(createUnifyLoopExitsPass());

  addPass(createStructurizeCFGPass(false)); // true -> SkipUniformRegions


  addPass(createAMDGPUAnnotateUniformValuesLegacy());

  addPass(createSIAnnotateControlFlowLegacyPass());

  // TODO: Move this right after structurizeCFG to avoid extra divergence

  // analysis. This depends on stopping SIAnnotateControlFlow from making

  // control flow modifications.

  addPass(createAMDGPURewriteUndefForPHILegacyPass());


  // SDAG requires LCSSA, GlobalISel does not. Disable LCSSA for -global-isel

  // with -new-reg-bank-select and without any of the fallback options.

  if (!getCGPassBuilderOption().EnableGlobalISelOption ||

      !isGlobalISelAbortEnabled() || !NewRegBankSelect)

    addPass(createLCSSAPass());


  if (TM->getOptLevel() > CodeGenOptLevel::Less)

    addPass(&AMDGPUPerfHintAnalysisLegacyID);


  return false;

}


void GCNPassConfig::addMachineSSAOptimization() {

  TargetPassConfig::addMachineSSAOptimization();


  // We want to fold operands after PeepholeOptimizer has run (or as part of

  // it), because it will eliminate extra copies making it easier to fold the

  // real source operand. We want to eliminate dead instructions after, so that

  // we see fewer uses of the copies. We then need to clean up the dead

  // instructions leftover after the operands are folded as well.

  //

  // XXX - Can we get away without running DeadMachineInstructionElim again?

  addPass(&SIFoldOperandsLegacyID);

  if (EnableDPPCombine)

    addPass(&GCNDPPCombineLegacyID);

  addPass(&SILoadStoreOptimizerLegacyID);

  if (isPassEnabled(EnableSDWAPeephole)) {

    addPass(&SIPeepholeSDWALegacyID);

    addPass(&EarlyMachineLICMID);

    addPass(&MachineCSELegacyID);

    addPass(&SIFoldOperandsLegacyID);

  }

  addPass(&DeadMachineInstructionElimID);

  addPass(createSIShrinkInstructionsLegacyPass());

}


bool GCNPassConfig::addILPOpts() {

  if (EnableEarlyIfConversion)

    addPass(&EarlyIfConverterLegacyID);


  TargetPassConfig::addILPOpts();

  return false;

}


bool GCNPassConfig::addInstSelector() {

  AMDGPUPassConfig::addInstSelector();

  addPass(&SIFixSGPRCopiesLegacyID);

  addPass(createSILowerI1CopiesLegacyPass());

  return false;

}


bool GCNPassConfig::addIRTranslator() {

  addPass(new IRTranslator(getOptLevel()));

  return false;

}


void GCNPassConfig::addPreLegalizeMachineIR() {

  bool IsOptNone = getOptLevel() == CodeGenOptLevel::None;

  addPass(createAMDGPUPreLegalizeCombiner(IsOptNone));

  addPass(new Localizer());

}


bool GCNPassConfig::addLegalizeMachineIR() {

  addPass(new Legalizer());

  return false;

}


void GCNPassConfig::addPreRegBankSelect() {

  bool IsOptNone = getOptLevel() == CodeGenOptLevel::None;

  addPass(createAMDGPUPostLegalizeCombiner(IsOptNone));

  addPass(createAMDGPUGlobalISelDivergenceLoweringPass());

}


bool GCNPassConfig::addRegBankSelect() {

  if (NewRegBankSelect) {

    addPass(createAMDGPURegBankSelectPass());

    addPass(createAMDGPURegBankLegalizePass());

  } else {

    addPass(new RegBankSelect());

  }

  return false;

}


void GCNPassConfig::addPreGlobalInstructionSelect() {

  bool IsOptNone = getOptLevel() == CodeGenOptLevel::None;

  addPass(createAMDGPURegBankCombiner(IsOptNone));

}


bool GCNPassConfig::addGlobalInstructionSelect() {

  addPass(new InstructionSelect(getOptLevel()));

  return false;

}


void GCNPassConfig::addFastRegAlloc() {

  // FIXME: We have to disable the verifier here because of PHIElimination +

  // TwoAddressInstructions disabling it.


  // This must be run immediately after phi elimination and before

  // TwoAddressInstructions, otherwise the processing of the tied operand of

  // SI_ELSE will introduce a copy of the tied operand source after the else.

  insertPass(&PHIEliminationID, &SILowerControlFlowLegacyID);


  insertPass(&TwoAddressInstructionPassID, &SIWholeQuadModeID);


  TargetPassConfig::addFastRegAlloc();

}


void GCNPassConfig::addPreRegAlloc() {

  if (getOptLevel() != CodeGenOptLevel::None)

    addPass(&AMDGPUPrepareAGPRAllocLegacyID);

}


void GCNPassConfig::addOptimizedRegAlloc() {

  if (EnableDCEInRA)

    insertPass(&DetectDeadLanesID, &DeadMachineInstructionElimID);


  // FIXME: when an instruction has a Killed operand, and the instruction is

  // inside a bundle, seems only the BUNDLE instruction appears as the Kills of

  // the register in LiveVariables, this would trigger a failure in verifier,

  // we should fix it and enable the verifier.

  if (OptVGPRLiveRange)

    insertPass(&LiveVariablesID, &SIOptimizeVGPRLiveRangeLegacyID);


  // This must be run immediately after phi elimination and before

  // TwoAddressInstructions, otherwise the processing of the tied operand of

  // SI_ELSE will introduce a copy of the tied operand source after the else.

  insertPass(&PHIEliminationID, &SILowerControlFlowLegacyID);


  if (EnableRewritePartialRegUses)

    insertPass(&RenameIndependentSubregsID, &GCNRewritePartialRegUsesID);


  if (isPassEnabled(EnablePreRAOptimizations))

    insertPass(&MachineSchedulerID, &GCNPreRAOptimizationsID);


  // Allow the scheduler to run before SIWholeQuadMode inserts exec manipulation

  // instructions that cause scheduling barriers.

  insertPass(&MachineSchedulerID, &SIWholeQuadModeID);


  if (OptExecMaskPreRA)

    insertPass(&MachineSchedulerID, &SIOptimizeExecMaskingPreRAID);


  // This is not an essential optimization and it has a noticeable impact on

  // compilation time, so we only enable it from O2.

  if (TM->getOptLevel() > CodeGenOptLevel::Less)

    insertPass(&MachineSchedulerID, &SIFormMemoryClausesID);


  TargetPassConfig::addOptimizedRegAlloc();

}


bool GCNPassConfig::addPreRewrite() {

  if (EnableRegReassign)

    addPass(&GCNNSAReassignID);


  addPass(&AMDGPURewriteAGPRCopyMFMALegacyID);

  return true;

}


FunctionPass *GCNPassConfig::createSGPRAllocPass(bool Optimized) {

  // Initialize the global default.

  llvm::call_once(InitializeDefaultSGPRRegisterAllocatorFlag,

                  initializeDefaultSGPRRegisterAllocatorOnce);


  RegisterRegAlloc::FunctionPassCtor Ctor = SGPRRegisterRegAlloc::getDefault();

  if (Ctor != useDefaultRegisterAllocator)

    return Ctor();


  if (Optimized)

    return createGreedyRegisterAllocator(onlyAllocateSGPRs);


  return createFastRegisterAllocator(onlyAllocateSGPRs, false);

}


FunctionPass *GCNPassConfig::createVGPRAllocPass(bool Optimized) {

  // Initialize the global default.

  llvm::call_once(InitializeDefaultVGPRRegisterAllocatorFlag,

                  initializeDefaultVGPRRegisterAllocatorOnce);


  RegisterRegAlloc::FunctionPassCtor Ctor = VGPRRegisterRegAlloc::getDefault();

  if (Ctor != useDefaultRegisterAllocator)

    return Ctor();


  if (Optimized)

    return createGreedyVGPRRegisterAllocator();


  return createFastVGPRRegisterAllocator();

}


FunctionPass *GCNPassConfig::createWWMRegAllocPass(bool Optimized) {

  // Initialize the global default.

  llvm::call_once(InitializeDefaultWWMRegisterAllocatorFlag,

                  initializeDefaultWWMRegisterAllocatorOnce);


  RegisterRegAlloc::FunctionPassCtor Ctor = WWMRegisterRegAlloc::getDefault();

  if (Ctor != useDefaultRegisterAllocator)

    return Ctor();


  if (Optimized)

    return createGreedyWWMRegisterAllocator();


  return createFastWWMRegisterAllocator();

}


FunctionPass *GCNPassConfig::createRegAllocPass(bool Optimized) {

  llvm_unreachable("should not be used");

}


static const char RegAllocOptNotSupportedMessage[] =

    "-regalloc not supported with amdgcn. Use -sgpr-regalloc, -wwm-regalloc, "

    "and -vgpr-regalloc";


bool GCNPassConfig::addRegAssignAndRewriteFast() {

  if (!usingDefaultRegAlloc())

    reportFatalUsageError(RegAllocOptNotSupportedMessage);


  addPass(&GCNPreRALongBranchRegID);


  addPass(createSGPRAllocPass(false));


  // Equivalent of PEI for SGPRs.

  addPass(&SILowerSGPRSpillsLegacyID);


  // To Allocate wwm registers used in whole quad mode operations (for shaders).

  addPass(&SIPreAllocateWWMRegsLegacyID);


  // For allocating other wwm register operands.

  addPass(createWWMRegAllocPass(false));


  addPass(&SILowerWWMCopiesLegacyID);

  addPass(&AMDGPUReserveWWMRegsLegacyID);


  // For allocating per-thread VGPRs.

  addPass(createVGPRAllocPass(false));


  return true;

}


bool GCNPassConfig::addRegAssignAndRewriteOptimized() {

  if (!usingDefaultRegAlloc())

    reportFatalUsageError(RegAllocOptNotSupportedMessage);


  addPass(&GCNPreRALongBranchRegID);


  addPass(createSGPRAllocPass(true));


  // Commit allocated register changes. This is mostly necessary because too

  // many things rely on the use lists of the physical registers, such as the

  // verifier. This is only necessary with allocators which use LiveIntervals,

  // since FastRegAlloc does the replacements itself.

  addPass(createVirtRegRewriter(false));


  // At this point, the sgpr-regalloc has been done and it is good to have the

  // stack slot coloring to try to optimize the SGPR spill stack indices before

  // attempting the custom SGPR spill lowering.

  addPass(&StackSlotColoringID);


  // Equivalent of PEI for SGPRs.

  addPass(&SILowerSGPRSpillsLegacyID);


  // To Allocate wwm registers used in whole quad mode operations (for shaders).

  addPass(&SIPreAllocateWWMRegsLegacyID);


  // For allocating other whole wave mode registers.

  addPass(createWWMRegAllocPass(true));

  addPass(&SILowerWWMCopiesLegacyID);

  addPass(createVirtRegRewriter(false));

  addPass(&AMDGPUReserveWWMRegsLegacyID);


  // For allocating per-thread VGPRs.

  addPass(createVGPRAllocPass(true));


  addPreRewrite();

  addPass(&VirtRegRewriterID);


  addPass(&AMDGPUMarkLastScratchLoadID);


  return true;

}


void GCNPassConfig::addPostRegAlloc() {

  addPass(&SIFixVGPRCopiesID);

  if (getOptLevel() > CodeGenOptLevel::None)

    addPass(&SIOptimizeExecMaskingLegacyID);

  TargetPassConfig::addPostRegAlloc();

}


void GCNPassConfig::addPreSched2() {

  if (TM->getOptLevel() > CodeGenOptLevel::None)

    addPass(createSIShrinkInstructionsLegacyPass());

  addPass(&SIPostRABundlerLegacyID);

}


void GCNPassConfig::addPreEmitPass() {

  if (isPassEnabled(EnableVOPD, CodeGenOptLevel::Less))

    addPass(&GCNCreateVOPDID);

  addPass(createSIMemoryLegalizerPass());

  addPass(createSIInsertWaitcntsPass());


  addPass(createSIModeRegisterPass());


  if (getOptLevel() > CodeGenOptLevel::None)

    addPass(&SIInsertHardClausesID);


  addPass(&SILateBranchLoweringPassID);

  if (isPassEnabled(EnableSetWavePriority, CodeGenOptLevel::Less))

    addPass(createAMDGPUSetWavePriorityPass());

  if (getOptLevel() > CodeGenOptLevel::None)

    addPass(&SIPreEmitPeepholeID);

  // The hazard recognizer that runs as part of the post-ra scheduler does not

  // guarantee to be able handle all hazards correctly. This is because if there

  // are multiple scheduling regions in a basic block, the regions are scheduled

  // bottom up, so when we begin to schedule a region we don't know what

  // instructions were emitted directly before it.

  //

  // Here we add a stand-alone hazard recognizer pass which can handle all

  // cases.

  addPass(&PostRAHazardRecognizerID);


  addPass(&AMDGPUWaitSGPRHazardsLegacyID);


  addPass(&AMDGPULowerVGPREncodingLegacyID);


  if (isPassEnabled(EnableInsertDelayAlu, CodeGenOptLevel::Less))

    addPass(&AMDGPUInsertDelayAluID);


  addPass(&BranchRelaxationPassID);

}


void GCNPassConfig::addPostBBSections() {

  // We run this later to avoid passes like livedebugvalues and BBSections

  // having to deal with the apparent multi-entry functions we may generate.

  addPass(createAMDGPUPreloadKernArgPrologLegacyPass());

}


TargetPassConfig *GCNTargetMachine::createPassConfig(PassManagerBase &PM) {

  return new GCNPassConfig(*this, PM);

}


void GCNTargetMachine::registerMachineRegisterInfoCallback(

    MachineFunction &MF) const {

  SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  MF.getRegInfo().addDelegate(MFI);

}


MachineFunctionInfo *GCNTargetMachine::createMachineFunctionInfo(

    BumpPtrAllocator &Allocator, const Function &F,

    const TargetSubtargetInfo *STI) const {

  return SIMachineFunctionInfo::create<SIMachineFunctionInfo>(

      Allocator, F, static_cast<const GCNSubtarget *>(STI));

}


yaml::MachineFunctionInfo *GCNTargetMachine::createDefaultFuncInfoYAML() const {

  return new yaml::SIMachineFunctionInfo();

}


yaml::MachineFunctionInfo *


GCNTargetMachine::convertFuncInfoToYAML(const MachineFunction &MF) const {

  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  return new yaml::SIMachineFunctionInfo(

      *MFI, *MF.getSubtarget<GCNSubtarget>().getRegisterInfo(), MF);

}


bool GCNTargetMachine::parseMachineFunctionInfo(

    const yaml::MachineFunctionInfo &MFI_, PerFunctionMIParsingState &PFS,

    SMDiagnostic &Error, SMRange &SourceRange) const {

  const yaml::SIMachineFunctionInfo &YamlMFI =

      static_cast<const yaml::SIMachineFunctionInfo &>(MFI_);

  MachineFunction &MF = PFS.MF;

  SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();


  if (MFI->initializeBaseYamlFields(YamlMFI, MF, PFS, Error, SourceRange))

    return true;


  if (MFI->Occupancy == 0) {

    // Fixup the subtarget dependent default value.

    MFI->Occupancy = ST.getOccupancyWithWorkGroupSizes(MF).second;

  }


  auto parseRegister = [&](const yaml::StringValue &RegName, Register &RegVal) {

    Register TempReg;

    if (parseNamedRegisterReference(PFS, TempReg, RegName.Value, Error)) {

      SourceRange = RegName.SourceRange;

      return true;

    }

    RegVal = TempReg;


    return false;

  };


  auto parseOptionalRegister = [&](const yaml::StringValue &RegName,

                                   Register &RegVal) {

    return !RegName.Value.empty() && parseRegister(RegName, RegVal);

  };


  if (parseOptionalRegister(YamlMFI.VGPRForAGPRCopy, MFI->VGPRForAGPRCopy))

    return true;


  if (parseOptionalRegister(YamlMFI.SGPRForEXECCopy, MFI->SGPRForEXECCopy))

    return true;


  if (parseOptionalRegister(YamlMFI.LongBranchReservedReg,

                            MFI->LongBranchReservedReg))

    return true;


  auto diagnoseRegisterClass = [&](const yaml::StringValue &RegName) {

    // Create a diagnostic for a the register string literal.

    const MemoryBuffer &Buffer =

        *PFS.SM->getMemoryBuffer(PFS.SM->getMainFileID());

    Error = SMDiagnostic(*PFS.SM, SMLoc(), Buffer.getBufferIdentifier(), 1,

                         RegName.Value.size(), SourceMgr::DK_Error,

                         "incorrect register class for field", RegName.Value,

                         {}, {});

    SourceRange = RegName.SourceRange;

    return true;

  };


  if (parseRegister(YamlMFI.ScratchRSrcReg, MFI->ScratchRSrcReg) ||

      parseRegister(YamlMFI.FrameOffsetReg, MFI->FrameOffsetReg) ||

      parseRegister(YamlMFI.StackPtrOffsetReg, MFI->StackPtrOffsetReg))

    return true;


  if (MFI->ScratchRSrcReg != AMDGPU::PRIVATE_RSRC_REG &&

      !AMDGPU::SGPR_128RegClass.contains(MFI->ScratchRSrcReg)) {

    return diagnoseRegisterClass(YamlMFI.ScratchRSrcReg);

  }


  if (MFI->FrameOffsetReg != AMDGPU::FP_REG &&

      !AMDGPU::SGPR_32RegClass.contains(MFI->FrameOffsetReg)) {

    return diagnoseRegisterClass(YamlMFI.FrameOffsetReg);

  }


  if (MFI->StackPtrOffsetReg != AMDGPU::SP_REG &&

      !AMDGPU::SGPR_32RegClass.contains(MFI->StackPtrOffsetReg)) {

    return diagnoseRegisterClass(YamlMFI.StackPtrOffsetReg);

  }


  for (const auto &YamlReg : YamlMFI.WWMReservedRegs) {

    Register ParsedReg;

    if (parseRegister(YamlReg, ParsedReg))

      return true;


    MFI->reserveWWMRegister(ParsedReg);

  }


  for (const auto &[_, Info] : PFS.VRegInfosNamed) {

    MFI->setFlag(Info->VReg, Info->Flags);

  }

  for (const auto &[_, Info] : PFS.VRegInfos) {

    MFI->setFlag(Info->VReg, Info->Flags);

  }


  for (const auto &YamlRegStr : YamlMFI.SpillPhysVGPRS) {

    Register ParsedReg;

    if (parseRegister(YamlRegStr, ParsedReg))

      return true;

    MFI->SpillPhysVGPRs.push_back(ParsedReg);

  }


  auto parseAndCheckArgument = [&](const std::optional<yaml::SIArgument> &A,

                                   const TargetRegisterClass &RC,

                                   ArgDescriptor &Arg, unsigned UserSGPRs,

                                   unsigned SystemSGPRs) {

    // Skip parsing if it's not present.

    if (!A)

      return false;


    if (A->IsRegister) {

      Register Reg;

      if (parseNamedRegisterReference(PFS, Reg, A->RegisterName.Value, Error)) {

        SourceRange = A->RegisterName.SourceRange;

        return true;

      }

      if (!RC.contains(Reg))

        return diagnoseRegisterClass(A->RegisterName);

      Arg = ArgDescriptor::createRegister(Reg);

    } else

      Arg = ArgDescriptor::createStack(A->StackOffset);

    // Check and apply the optional mask.

    if (A->Mask)

      Arg = ArgDescriptor::createArg(Arg, *A->Mask);


    MFI->NumUserSGPRs += UserSGPRs;

    MFI->NumSystemSGPRs += SystemSGPRs;

    return false;

  };


  if (YamlMFI.ArgInfo &&

      (parseAndCheckArgument(YamlMFI.ArgInfo->PrivateSegmentBuffer,

                             AMDGPU::SGPR_128RegClass,

                             MFI->ArgInfo.PrivateSegmentBuffer, 4, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->DispatchPtr,

                             AMDGPU::SReg_64RegClass, MFI->ArgInfo.DispatchPtr,

                             2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->QueuePtr, AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.QueuePtr, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->KernargSegmentPtr,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.KernargSegmentPtr, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->DispatchID,

                             AMDGPU::SReg_64RegClass, MFI->ArgInfo.DispatchID,

                             2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->FlatScratchInit,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.FlatScratchInit, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->PrivateSegmentSize,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.PrivateSegmentSize, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->LDSKernelId,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.LDSKernelId, 0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupIDX,

                             AMDGPU::SGPR_32RegClass, MFI->ArgInfo.WorkGroupIDX,

                             0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupIDY,

                             AMDGPU::SGPR_32RegClass, MFI->ArgInfo.WorkGroupIDY,

                             0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupIDZ,

                             AMDGPU::SGPR_32RegClass, MFI->ArgInfo.WorkGroupIDZ,

                             0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkGroupInfo,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.WorkGroupInfo, 0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->PrivateSegmentWaveByteOffset,

                             AMDGPU::SGPR_32RegClass,

                             MFI->ArgInfo.PrivateSegmentWaveByteOffset, 0, 1) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->ImplicitArgPtr,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.ImplicitArgPtr, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->ImplicitBufferPtr,

                             AMDGPU::SReg_64RegClass,

                             MFI->ArgInfo.ImplicitBufferPtr, 2, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkItemIDX,

                             AMDGPU::VGPR_32RegClass,

                             MFI->ArgInfo.WorkItemIDX, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkItemIDY,

                             AMDGPU::VGPR_32RegClass,

                             MFI->ArgInfo.WorkItemIDY, 0, 0) ||

       parseAndCheckArgument(YamlMFI.ArgInfo->WorkItemIDZ,

                             AMDGPU::VGPR_32RegClass,

                             MFI->ArgInfo.WorkItemIDZ, 0, 0)))

    return true;


  // Parse FirstKernArgPreloadReg separately, since it's a Register,

  // not ArgDescriptor.

  if (YamlMFI.ArgInfo && YamlMFI.ArgInfo->FirstKernArgPreloadReg) {

    const yaml::SIArgument &A = *YamlMFI.ArgInfo->FirstKernArgPreloadReg;


    if (!A.IsRegister) {

      // For stack arguments, we don't have RegisterName.SourceRange,

      // but we should have some location info from the YAML parser

      const MemoryBuffer &Buffer =

          *PFS.SM->getMemoryBuffer(PFS.SM->getMainFileID());

      // Create a minimal valid source range

      SMLoc Loc = SMLoc::getFromPointer(Buffer.getBufferStart());

      SMRange Range(Loc, Loc);


      Error = SMDiagnostic(

          *PFS.SM, Loc, Buffer.getBufferIdentifier(), 1, 0, SourceMgr::DK_Error,

          "firstKernArgPreloadReg must be a register, not a stack location", "",

          {}, {});


      SourceRange = Range;

      return true;

    }


    Register Reg;

    if (parseNamedRegisterReference(PFS, Reg, A.RegisterName.Value, Error)) {

      SourceRange = A.RegisterName.SourceRange;

      return true;

    }


    if (!AMDGPU::SGPR_32RegClass.contains(Reg))

      return diagnoseRegisterClass(A.RegisterName);


    MFI->ArgInfo.FirstKernArgPreloadReg = Reg;

    MFI->NumUserSGPRs += YamlMFI.NumKernargPreloadSGPRs;

  }


  if (ST.hasFeature(AMDGPU::FeatureDX10ClampAndIEEEMode)) {

    MFI->Mode.IEEE = YamlMFI.Mode.IEEE;

    MFI->Mode.DX10Clamp = YamlMFI.Mode.DX10Clamp;

  }


  // FIXME: Move proper support for denormal-fp-math into base MachineFunction

  MFI->Mode.FP32Denormals.Input = YamlMFI.Mode.FP32InputDenormals

                                      ? DenormalMode::IEEE

                                      : DenormalMode::PreserveSign;

  MFI->Mode.FP32Denormals.Output = YamlMFI.Mode.FP32OutputDenormals

                                       ? DenormalMode::IEEE

                                       : DenormalMode::PreserveSign;


  MFI->Mode.FP64FP16Denormals.Input = YamlMFI.Mode.FP64FP16InputDenormals

                                          ? DenormalMode::IEEE

                                          : DenormalMode::PreserveSign;

  MFI->Mode.FP64FP16Denormals.Output = YamlMFI.Mode.FP64FP16OutputDenormals

                                           ? DenormalMode::IEEE

                                           : DenormalMode::PreserveSign;


  if (YamlMFI.HasInitWholeWave)

    MFI->setInitWholeWave();


  return false;

}


//===----------------------------------------------------------------------===//

// AMDGPU CodeGen Pass Builder interface.

//===----------------------------------------------------------------------===//


AMDGPUCodeGenPassBuilder::AMDGPUCodeGenPassBuilder(

    GCNTargetMachine &TM, const CGPassBuilderOption &Opts,

    PassInstrumentationCallbacks *PIC)

    : CodeGenPassBuilder(TM, Opts, PIC) {

  Opt.MISchedPostRA = true;

  Opt.RequiresCodeGenSCCOrder = true;

  // Exceptions and StackMaps are not supported, so these passes will never do

  // anything.

  // Garbage collection is not supported.

  disablePass<StackMapLivenessPass, FuncletLayoutPass, PatchableFunctionPass,

              ShadowStackGCLoweringPass, GCLoweringPass>();

}


void AMDGPUCodeGenPassBuilder::addIRPasses(PassManagerWrapper &PMW) const {

  if (RemoveIncompatibleFunctions && TM.getTargetTriple().isAMDGCN()) {

    flushFPMsToMPM(PMW);

    addModulePass(AMDGPURemoveIncompatibleFunctionsPass(TM), PMW);

  }


  flushFPMsToMPM(PMW);


  if (TM.getTargetTriple().isAMDGCN())

    addModulePass(AMDGPUPrintfRuntimeBindingPass(), PMW);


  if (LowerCtorDtor)

    addModulePass(AMDGPUCtorDtorLoweringPass(), PMW);


  if (isPassEnabled(EnableImageIntrinsicOptimizer))

    addFunctionPass(AMDGPUImageIntrinsicOptimizerPass(TM), PMW);


  if (EnableUniformIntrinsicCombine)

    addFunctionPass(AMDGPUUniformIntrinsicCombinePass(), PMW);

  // This can be disabled by passing ::Disable here or on the command line

  // with --expand-variadics-override=disable.

  flushFPMsToMPM(PMW);

  addModulePass(ExpandVariadicsPass(ExpandVariadicsMode::Lowering), PMW);


  addModulePass(AMDGPUAlwaysInlinePass(), PMW);

  addModulePass(AlwaysInlinerPass(), PMW);


  addModulePass(AMDGPUExportKernelRuntimeHandlesPass(), PMW);


  if (EnableLowerExecSync)

    addModulePass(AMDGPULowerExecSyncPass(), PMW);


  if (EnableSwLowerLDS)

    addModulePass(AMDGPUSwLowerLDSPass(TM), PMW);


  // Runs before PromoteAlloca so the latter can account for function uses

  if (EnableLowerModuleLDS)

    addModulePass(AMDGPULowerModuleLDSPass(TM), PMW);


  // Run atomic optimizer before Atomic Expand

  if (TM.getOptLevel() >= CodeGenOptLevel::Less &&

      (AMDGPUAtomicOptimizerStrategy != ScanOptions::None))

    addFunctionPass(

        AMDGPUAtomicOptimizerPass(TM, AMDGPUAtomicOptimizerStrategy), PMW);


  addFunctionPass(AtomicExpandPass(TM), PMW);


  if (TM.getOptLevel() > CodeGenOptLevel::None) {

    addFunctionPass(AMDGPUPromoteAllocaPass(TM), PMW);

    if (isPassEnabled(EnableScalarIRPasses))

      addStraightLineScalarOptimizationPasses(PMW);


    // TODO: Handle EnableAMDGPUAliasAnalysis


    // TODO: May want to move later or split into an early and late one.

    addFunctionPass(AMDGPUCodeGenPreparePass(TM), PMW);


    // Try to hoist loop invariant parts of divisions AMDGPUCodeGenPrepare may

    // have expanded.

    if (TM.getOptLevel() > CodeGenOptLevel::Less) {

      addFunctionPass(createFunctionToLoopPassAdaptor(LICMPass(LICMOptions()),

                                                      /*UseMemorySSA=*/true),

                      PMW);

    }

  }


  Base::addIRPasses(PMW);


  // EarlyCSE is not always strong enough to clean up what LSR produces. For

  // example, GVN can combine

  //

  //   %0 = add %a, %b

  //   %1 = add %b, %a

  //

  // and

  //

  //   %0 = shl nsw %a, 2

  //   %1 = shl %a, 2

  //

  // but EarlyCSE can do neither of them.

  if (isPassEnabled(EnableScalarIRPasses))

    addEarlyCSEOrGVNPass(PMW);

}


void AMDGPUCodeGenPassBuilder::addCodeGenPrepare(

    PassManagerWrapper &PMW) const {

  if (TM.getOptLevel() > CodeGenOptLevel::None) {

    flushFPMsToMPM(PMW);

    addModulePass(AMDGPUPreloadKernelArgumentsPass(TM), PMW);

  }


  if (EnableLowerKernelArguments)

    addFunctionPass(AMDGPULowerKernelArgumentsPass(TM), PMW);


  Base::addCodeGenPrepare(PMW);


  if (isPassEnabled(EnableLoadStoreVectorizer))

    addFunctionPass(LoadStoreVectorizerPass(), PMW);


  // This lowering has been placed after codegenprepare to take advantage of

  // address mode matching (which is why it isn't put with the LDS lowerings).

  // It could be placed anywhere before uniformity annotations (an analysis

  // that it changes by splitting up fat pointers into their components)

  // but has been put before switch lowering and CFG flattening so that those

  // passes can run on the more optimized control flow this pass creates in

  // many cases.

  flushFPMsToMPM(PMW);

  addModulePass(AMDGPULowerBufferFatPointersPass(TM), PMW);

  flushFPMsToMPM(PMW);

  requireCGSCCOrder(PMW);


  addModulePass(AMDGPULowerIntrinsicsPass(TM), PMW);


  // LowerSwitch pass may introduce unreachable blocks that can cause unexpected

  // behavior for subsequent passes. Placing it here seems better that these

  // blocks would get cleaned up by UnreachableBlockElim inserted next in the

  // pass flow.

  addFunctionPass(LowerSwitchPass(), PMW);

}


void AMDGPUCodeGenPassBuilder::addPreISel(PassManagerWrapper &PMW) const {


  if (TM.getOptLevel() > CodeGenOptLevel::None) {

    addFunctionPass(FlattenCFGPass(), PMW);

    addFunctionPass(SinkingPass(), PMW);

    addFunctionPass(AMDGPULateCodeGenPreparePass(TM), PMW);

  }


  // Merge divergent exit nodes. StructurizeCFG won't recognize the multi-exit

  // regions formed by them.


  addFunctionPass(AMDGPUUnifyDivergentExitNodesPass(), PMW);

  addFunctionPass(FixIrreduciblePass(), PMW);

  addFunctionPass(UnifyLoopExitsPass(), PMW);

  addFunctionPass(StructurizeCFGPass(/*SkipUniformRegions=*/false), PMW);


  addFunctionPass(AMDGPUAnnotateUniformValuesPass(), PMW);


  addFunctionPass(SIAnnotateControlFlowPass(TM), PMW);


  // TODO: Move this right after structurizeCFG to avoid extra divergence

  // analysis. This depends on stopping SIAnnotateControlFlow from making

  // control flow modifications.

  addFunctionPass(AMDGPURewriteUndefForPHIPass(), PMW);


  if (!getCGPassBuilderOption().EnableGlobalISelOption ||

      !isGlobalISelAbortEnabled() || !NewRegBankSelect)

    addFunctionPass(LCSSAPass(), PMW);


  if (TM.getOptLevel() > CodeGenOptLevel::Less) {

    flushFPMsToMPM(PMW);

    addModulePass(AMDGPUPerfHintAnalysisPass(TM), PMW);

  }


  // FIXME: Why isn't this queried as required from AMDGPUISelDAGToDAG, and why

  // isn't this in addInstSelector?

  addFunctionPass(RequireAnalysisPass<UniformityInfoAnalysis, Function>(), PMW,

                  /*Force=*/true);

}


void AMDGPUCodeGenPassBuilder::addILPOpts(PassManagerWrapper &PMW) const {

  if (EnableEarlyIfConversion)

    addMachineFunctionPass(EarlyIfConverterPass(), PMW);


  Base::addILPOpts(PMW);

}


void AMDGPUCodeGenPassBuilder::addAsmPrinterBegin(

    PassManagerWrapper &PMW) const {

  // TODO: Add AsmPrinterBegin

}


void AMDGPUCodeGenPassBuilder::addAsmPrinter(PassManagerWrapper &PMW) const {

  // TODO: Add AsmPrinter.

}


void AMDGPUCodeGenPassBuilder::addAsmPrinterEnd(PassManagerWrapper &PMW) const {

  // TODO: Add AsmPrinterEnd

}


Error AMDGPUCodeGenPassBuilder::addInstSelector(PassManagerWrapper &PMW) const {

  addMachineFunctionPass(AMDGPUISelDAGToDAGPass(TM), PMW);

  addMachineFunctionPass(SIFixSGPRCopiesPass(), PMW);

  addMachineFunctionPass(SILowerI1CopiesPass(), PMW);

  return Error::success();

}


void AMDGPUCodeGenPassBuilder::addPreRewrite(PassManagerWrapper &PMW) const {

  if (EnableRegReassign) {

    addMachineFunctionPass(GCNNSAReassignPass(), PMW);

  }


  addMachineFunctionPass(AMDGPURewriteAGPRCopyMFMAPass(), PMW);

}


void AMDGPUCodeGenPassBuilder::addMachineSSAOptimization(

    PassManagerWrapper &PMW) const {

  Base::addMachineSSAOptimization(PMW);


  addMachineFunctionPass(SIFoldOperandsPass(), PMW);

  if (EnableDPPCombine) {

    addMachineFunctionPass(GCNDPPCombinePass(), PMW);

  }

  addMachineFunctionPass(SILoadStoreOptimizerPass(), PMW);

  if (isPassEnabled(EnableSDWAPeephole)) {

    addMachineFunctionPass(SIPeepholeSDWAPass(), PMW);

    addMachineFunctionPass(EarlyMachineLICMPass(), PMW);

    addMachineFunctionPass(MachineCSEPass(), PMW);

    addMachineFunctionPass(SIFoldOperandsPass(), PMW);

  }

  addMachineFunctionPass(DeadMachineInstructionElimPass(), PMW);

  addMachineFunctionPass(SIShrinkInstructionsPass(), PMW);

}


Error AMDGPUCodeGenPassBuilder::addFastRegAlloc(PassManagerWrapper &PMW) const {

  insertPass<PHIEliminationPass>(SILowerControlFlowPass());


  insertPass<TwoAddressInstructionPass>(SIWholeQuadModePass());


  return Base::addFastRegAlloc(PMW);

}


Error AMDGPUCodeGenPassBuilder::addRegAssignmentFast(

    PassManagerWrapper &PMW) const {

  if (auto Err = validateRegAllocOptions())

    return Err;


  addMachineFunctionPass(GCNPreRALongBranchRegPass(), PMW);


  // SGPR allocation - default to fast at -O0.

  if (SGPRRegAllocNPM == RegAllocType::Greedy)

    addMachineFunctionPass(RAGreedyPass({onlyAllocateSGPRs, "sgpr"}), PMW);

  else

    addMachineFunctionPass(RegAllocFastPass({onlyAllocateSGPRs, "sgpr", false}),

                           PMW);


  // Equivalent of PEI for SGPRs.

  addMachineFunctionPass(SILowerSGPRSpillsPass(), PMW);


  // To Allocate wwm registers used in whole quad mode operations (for shaders).

  addMachineFunctionPass(SIPreAllocateWWMRegsPass(), PMW);


  // WWM allocation - default to fast at -O0.

  if (WWMRegAllocNPM == RegAllocType::Greedy)

    addMachineFunctionPass(RAGreedyPass({onlyAllocateWWMRegs, "wwm"}), PMW);

  else

    addMachineFunctionPass(

        RegAllocFastPass({onlyAllocateWWMRegs, "wwm", false}), PMW);


  addMachineFunctionPass(SILowerWWMCopiesPass(), PMW);

  addMachineFunctionPass(AMDGPUReserveWWMRegsPass(), PMW);


  // VGPR allocation - default to fast at -O0.

  if (VGPRRegAllocNPM == RegAllocType::Greedy)

    addMachineFunctionPass(RAGreedyPass({onlyAllocateVGPRs, "vgpr"}), PMW);

  else

    addMachineFunctionPass(RegAllocFastPass({onlyAllocateVGPRs, "vgpr"}), PMW);


  return Error::success();

}


Error AMDGPUCodeGenPassBuilder::addOptimizedRegAlloc(

    PassManagerWrapper &PMW) const {

  if (EnableDCEInRA)

    insertPass<DetectDeadLanesPass>(DeadMachineInstructionElimPass());


  // FIXME: when an instruction has a Killed operand, and the instruction is

  // inside a bundle, seems only the BUNDLE instruction appears as the Kills of

  // the register in LiveVariables, this would trigger a failure in verifier,

  // we should fix it and enable the verifier.

  if (OptVGPRLiveRange)

    insertPass<RequireAnalysisPass<LiveVariablesAnalysis, MachineFunction>>(

        SIOptimizeVGPRLiveRangePass());


  // This must be run immediately after phi elimination and before

  // TwoAddressInstructions, otherwise the processing of the tied operand of

  // SI_ELSE will introduce a copy of the tied operand source after the else.

  insertPass<PHIEliminationPass>(SILowerControlFlowPass());


  if (EnableRewritePartialRegUses)

    insertPass<RenameIndependentSubregsPass>(GCNRewritePartialRegUsesPass());


  if (isPassEnabled(EnablePreRAOptimizations))

    insertPass<MachineSchedulerPass>(GCNPreRAOptimizationsPass());


  // Allow the scheduler to run before SIWholeQuadMode inserts exec manipulation

  // instructions that cause scheduling barriers.

  insertPass<MachineSchedulerPass>(SIWholeQuadModePass());


  if (OptExecMaskPreRA)

    insertPass<MachineSchedulerPass>(SIOptimizeExecMaskingPreRAPass());


  // This is not an essential optimization and it has a noticeable impact on

  // compilation time, so we only enable it from O2.

  if (TM.getOptLevel() > CodeGenOptLevel::Less)

    insertPass<MachineSchedulerPass>(SIFormMemoryClausesPass());


  return Base::addOptimizedRegAlloc(PMW);

}


void AMDGPUCodeGenPassBuilder::addPreRegAlloc(PassManagerWrapper &PMW) const {

  if (getOptLevel() != CodeGenOptLevel::None)

    addMachineFunctionPass(AMDGPUPrepareAGPRAllocPass(), PMW);

}


Error AMDGPUCodeGenPassBuilder::addRegAssignmentOptimized(

    PassManagerWrapper &PMW) const {

  if (auto Err = validateRegAllocOptions())

    return Err;


  addMachineFunctionPass(GCNPreRALongBranchRegPass(), PMW);


  // SGPR allocation - default to greedy at -O1 and above.

  if (SGPRRegAllocNPM == RegAllocType::Fast)

    addMachineFunctionPass(RegAllocFastPass({onlyAllocateSGPRs, "sgpr", false}),

                           PMW);

  else

    addMachineFunctionPass(RAGreedyPass({onlyAllocateSGPRs, "sgpr"}), PMW);


  // Commit allocated register changes. This is mostly necessary because too

  // many things rely on the use lists of the physical registers, such as the

  // verifier. This is only necessary with allocators which use LiveIntervals,

  // since FastRegAlloc does the replacements itself.

  addMachineFunctionPass(VirtRegRewriterPass(false), PMW);


  // At this point, the sgpr-regalloc has been done and it is good to have the

  // stack slot coloring to try to optimize the SGPR spill stack indices before

  // attempting the custom SGPR spill lowering.

  addMachineFunctionPass(StackSlotColoringPass(), PMW);


  // Equivalent of PEI for SGPRs.

  addMachineFunctionPass(SILowerSGPRSpillsPass(), PMW);


  // To Allocate wwm registers used in whole quad mode operations (for shaders).

  addMachineFunctionPass(SIPreAllocateWWMRegsPass(), PMW);


  // WWM allocation - default to greedy at -O1 and above.

  if (WWMRegAllocNPM == RegAllocType::Fast)

    addMachineFunctionPass(

        RegAllocFastPass({onlyAllocateWWMRegs, "wwm", false}), PMW);

  else

    addMachineFunctionPass(RAGreedyPass({onlyAllocateWWMRegs, "wwm"}), PMW);

  addMachineFunctionPass(SILowerWWMCopiesPass(), PMW);

  addMachineFunctionPass(VirtRegRewriterPass(false), PMW);

  addMachineFunctionPass(AMDGPUReserveWWMRegsPass(), PMW);


  // VGPR allocation - default to greedy at -O1 and above.

  if (VGPRRegAllocNPM == RegAllocType::Fast)

    addMachineFunctionPass(RegAllocFastPass({onlyAllocateVGPRs, "vgpr"}), PMW);

  else

    addMachineFunctionPass(RAGreedyPass({onlyAllocateVGPRs, "vgpr"}), PMW);


  addPreRewrite(PMW);

  addMachineFunctionPass(VirtRegRewriterPass(true), PMW);


  addMachineFunctionPass(AMDGPUMarkLastScratchLoadPass(), PMW);

  return Error::success();

}


void AMDGPUCodeGenPassBuilder::addPostRegAlloc(PassManagerWrapper &PMW) const {

  addMachineFunctionPass(SIFixVGPRCopiesPass(), PMW);

  if (TM.getOptLevel() > CodeGenOptLevel::None)

    addMachineFunctionPass(SIOptimizeExecMaskingPass(), PMW);

  Base::addPostRegAlloc(PMW);

}


void AMDGPUCodeGenPassBuilder::addPreSched2(PassManagerWrapper &PMW) const {

  if (TM.getOptLevel() > CodeGenOptLevel::None)

    addMachineFunctionPass(SIShrinkInstructionsPass(), PMW);

  addMachineFunctionPass(SIPostRABundlerPass(), PMW);

}


void AMDGPUCodeGenPassBuilder::addPostBBSections(

    PassManagerWrapper &PMW) const {

  // We run this later to avoid passes like livedebugvalues and BBSections

  // having to deal with the apparent multi-entry functions we may generate.

  addMachineFunctionPass(AMDGPUPreloadKernArgPrologPass(), PMW);

}


void AMDGPUCodeGenPassBuilder::addPreEmitPass(PassManagerWrapper &PMW) const {

  if (isPassEnabled(EnableVOPD, CodeGenOptLevel::Less)) {

    addMachineFunctionPass(GCNCreateVOPDPass(), PMW);

  }


  addMachineFunctionPass(SIMemoryLegalizerPass(), PMW);

  addMachineFunctionPass(SIInsertWaitcntsPass(), PMW);


  addMachineFunctionPass(SIModeRegisterPass(), PMW);


  if (TM.getOptLevel() > CodeGenOptLevel::None)

    addMachineFunctionPass(SIInsertHardClausesPass(), PMW);


  addMachineFunctionPass(SILateBranchLoweringPass(), PMW);


  if (isPassEnabled(EnableSetWavePriority, CodeGenOptLevel::Less))

    addMachineFunctionPass(AMDGPUSetWavePriorityPass(), PMW);


  if (TM.getOptLevel() > CodeGenOptLevel::None)

    addMachineFunctionPass(SIPreEmitPeepholePass(), PMW);


  // The hazard recognizer that runs as part of the post-ra scheduler does not

  // guarantee to be able handle all hazards correctly. This is because if there

  // are multiple scheduling regions in a basic block, the regions are scheduled

  // bottom up, so when we begin to schedule a region we don't know what

  // instructions were emitted directly before it.

  //

  // Here we add a stand-alone hazard recognizer pass which can handle all

  // cases.

  addMachineFunctionPass(PostRAHazardRecognizerPass(), PMW);

  addMachineFunctionPass(AMDGPUWaitSGPRHazardsPass(), PMW);

  addMachineFunctionPass(AMDGPULowerVGPREncodingPass(), PMW);


  if (isPassEnabled(EnableInsertDelayAlu, CodeGenOptLevel::Less)) {

    addMachineFunctionPass(AMDGPUInsertDelayAluPass(), PMW);

  }


  addMachineFunctionPass(BranchRelaxationPass(), PMW);

}


bool AMDGPUCodeGenPassBuilder::isPassEnabled(const cl::opt<bool> &Opt,

                                             CodeGenOptLevel Level) const {

  if (Opt.getNumOccurrences())

    return Opt;

  if (TM.getOptLevel() < Level)

    return false;

  return Opt;

}


void AMDGPUCodeGenPassBuilder::addEarlyCSEOrGVNPass(

    PassManagerWrapper &PMW) const {

  if (TM.getOptLevel() == CodeGenOptLevel::Aggressive)

    addFunctionPass(GVNPass(), PMW);

  else

    addFunctionPass(EarlyCSEPass(), PMW);

}


void AMDGPUCodeGenPassBuilder::addStraightLineScalarOptimizationPasses(

    PassManagerWrapper &PMW) const {

  if (isPassEnabled(EnableLoopPrefetch, CodeGenOptLevel::Aggressive))

    addFunctionPass(LoopDataPrefetchPass(), PMW);


  addFunctionPass(SeparateConstOffsetFromGEPPass(), PMW);


  // ReassociateGEPs exposes more opportunities for SLSR. See

  // the example in reassociate-geps-and-slsr.ll.

  addFunctionPass(StraightLineStrengthReducePass(), PMW);


  // SeparateConstOffsetFromGEP and SLSR creates common expressions which GVN or

  // EarlyCSE can reuse.

  addEarlyCSEOrGVNPass(PMW);


  // Run NaryReassociate after EarlyCSE/GVN to be more effective.

  addFunctionPass(NaryReassociatePass(), PMW);


  // NaryReassociate on GEPs creates redundant common expressions, so run

  // EarlyCSE after it.

  addFunctionPass(EarlyCSEPass(), PMW);

}

Phase
aarch64 falkor hwpf fix Falkor HW Prefetch Fix Late Phase
Definition AArch64FalkorHWPFFix.cpp:222

assert
assert(UImm &&(UImm !=~static_cast< T >(0)) &&"Invalid immediate!")

EnableEarlyIfConversion
static cl::opt< bool > EnableEarlyIfConversion("aarch64-enable-early-ifcvt", cl::Hidden, cl::desc("Run early if-conversion"), cl::init(true))

createTLOF
static std::unique_ptr< TargetLoweringObjectFile > createTLOF(const Triple &TT)
Definition AArch64TargetMachine.cpp:301

AMDGPUAliasAnalysis.h
This is the AMGPU address space based alias analysis pass.

AMDGPUBarrierLatency.h

AMDGPUBaseInfo.h

AMDGPUCoExecSchedStrategy.h
Coexecution-focused scheduling strategy for AMDGPU.

AMDGPUCtorDtorLowering.h

AMDGPUExportClustering.h

AMDGPUExportKernelRuntimeHandles.h

AMDGPUHazardLatency.h

AMDGPUIGroupLP.h

AMDGPUISelDAGToDAG.h
Defines an instruction selector for the AMDGPU target.

AMDGPULowerVGPREncoding.h

AMDGPUMacroFusion.h

AMDGPUNextUseAnalysis.h

AMDGPUPerfHintAnalysis.h
Analyzes if a function potentially memory bound and if a kernel kernel may benefit from limiting numb...

AMDGPUPreloadKernArgProlog.h

AMDGPUPrepareAGPRAlloc.h

AMDGPURemoveIncompatibleFunctions.h

AMDGPUReserveWWMRegs.h

AMDGPUResourceUsageAnalysis.h
Analyzes how many registers and other resources are used by functions.

AMDGPUSplitModule.h

AMDGPUTargetInfo.h

EnableDCEInRA
static cl::opt< bool > EnableDCEInRA("amdgpu-dce-in-ra", cl::init(true), cl::Hidden, cl::desc("Enable machine DCE inside regalloc"))

EnableLowerModuleLDS
static cl::opt< bool, true > EnableLowerModuleLDS("amdgpu-enable-lower-module-lds", cl::desc("Enable lower module lds pass"), cl::location(AMDGPUTargetMachine::EnableLowerModuleLDS), cl::init(true), cl::Hidden)

GCNMaxMemoryClauseSchedRegistry
static MachineSchedRegistry GCNMaxMemoryClauseSchedRegistry("gcn-max-memory-clause", "Run GCN scheduler to maximize memory clause", createGCNMaxMemoryClauseMachineScheduler)

getEffectiveRelocModel
static Reloc::Model getEffectiveRelocModel()
Definition AMDGPUTargetMachine.cpp:863

EnableUniformIntrinsicCombine
static cl::opt< bool > EnableUniformIntrinsicCombine("amdgpu-enable-uniform-intrinsic-combine", cl::desc("Enable/Disable the Uniform Intrinsic Combine Pass"), cl::init(true), cl::Hidden)

SISchedRegistry
static MachineSchedRegistry SISchedRegistry("si", "Run SI's custom scheduler", createSIMachineScheduler)

createIterativeILPMachineScheduler
static ScheduleDAGInstrs * createIterativeILPMachineScheduler(MachineSchedContext *C)
Definition AMDGPUTargetMachine.cpp:808

EarlyInlineAll
static cl::opt< bool > EarlyInlineAll("amdgpu-early-inline-all", cl::desc("Inline all functions early"), cl::init(false), cl::Hidden)

getOOBFlagValue
static OOBFlagValue getOOBFlagValue(const Module &M, StringRef FlagName)
Returns the OOB mode encoded by a module flag.
Definition AMDGPUTargetMachine.cpp:1257

EnableSwLowerLDS
static cl::opt< bool > EnableSwLowerLDS("amdgpu-enable-sw-lower-lds", cl::desc("Enable lowering of lds to global memory pass " "and asan instrument resulting IR."), cl::init(true), cl::Hidden)

EnableLowerKernelArguments
static cl::opt< bool > EnableLowerKernelArguments("amdgpu-ir-lower-kernel-arguments", cl::desc("Lower kernel argument loads in IR pass"), cl::init(true), cl::Hidden)

EnableObjectLinking
static cl::opt< bool, true > EnableObjectLinking("amdgpu-enable-object-linking", cl::desc("Enable object linking for cross-TU LDS and ABI support"), cl::location(AMDGPUTargetMachine::EnableObjectLinking), cl::init(false), cl::Hidden)

createGCNMaxILPMachineScheduler
static ScheduleDAGInstrs * createGCNMaxILPMachineScheduler(MachineSchedContext *C)
Definition AMDGPUTargetMachine.cpp:767

EnableSDWAPeephole
static cl::opt< bool > EnableSDWAPeephole("amdgpu-sdwa-peephole", cl::desc("Enable SDWA peepholer"), cl::init(true))

GCNMinRegSchedRegistry
static MachineSchedRegistry GCNMinRegSchedRegistry("gcn-iterative-minreg", "Run GCN iterative scheduler for minimal register usage (experimental)", createMinRegScheduler)

diagnoseUnsupportedCoExecSchedulerSelection
static void diagnoseUnsupportedCoExecSchedulerSelection(const Function &F, const GCNSubtarget &ST)
Definition AMDGPUTargetMachine.cpp:602

EnableImageIntrinsicOptimizer
static cl::opt< bool > EnableImageIntrinsicOptimizer("amdgpu-enable-image-intrinsic-optimizer", cl::desc("Enable image intrinsic optimizer pass"), cl::init(true), cl::Hidden)

HasClosedWorldAssumption
static cl::opt< bool > HasClosedWorldAssumption("amdgpu-link-time-closed-world", cl::desc("Whether has closed-world assumption at link time"), cl::init(false), cl::Hidden)

useNoopPostScheduler
static bool useNoopPostScheduler(const Function &F)
Definition AMDGPUTargetMachine.cpp:612

createGCNMaxMemoryClauseMachineScheduler
static ScheduleDAGInstrs * createGCNMaxMemoryClauseMachineScheduler(MachineSchedContext *C)
Definition AMDGPUTargetMachine.cpp:775

EnableSIModeRegisterPass
static cl::opt< bool > EnableSIModeRegisterPass("amdgpu-mode-register", cl::desc("Enable mode register pass"), cl::init(true), cl::Hidden)

AMDGPUSchedStrategy
static cl::opt< std::string > AMDGPUSchedStrategy("amdgpu-sched-strategy", cl::desc("Select custom AMDGPU scheduling strategy."), cl::Hidden, cl::init(""))

EnableDPPCombine
static cl::opt< bool > EnableDPPCombine("amdgpu-dpp-combine", cl::desc("Enable DPP combiner"), cl::init(true))

IterativeGCNMaxOccupancySchedRegistry
static MachineSchedRegistry IterativeGCNMaxOccupancySchedRegistry("gcn-iterative-max-occupancy-experimental", "Run GCN scheduler to maximize occupancy (experimental)", createIterativeGCNMaxOccupancyMachineScheduler)

EnableSetWavePriority
static cl::opt< bool > EnableSetWavePriority("amdgpu-set-wave-priority", cl::desc("Adjust wave priority"), cl::init(false), cl::Hidden)

LowerCtorDtor
static cl::opt< bool > LowerCtorDtor("amdgpu-lower-global-ctor-dtor", cl::desc("Lower GPU ctor / dtors to globals on the device."), cl::init(true), cl::Hidden)

OptExecMaskPreRA
static cl::opt< bool > OptExecMaskPreRA("amdgpu-opt-exec-mask-pre-ra", cl::Hidden, cl::desc("Run pre-RA exec mask optimizations"), cl::init(true))

EnablePromoteKernelArguments
static cl::opt< bool > EnablePromoteKernelArguments("amdgpu-enable-promote-kernel-arguments", cl::desc("Enable promotion of flat kernel pointer arguments to global"), cl::Hidden, cl::init(true))

LLVMInitializeAMDGPUTarget
LLVM_ABI LLVM_EXTERNAL_VISIBILITY void LLVMInitializeAMDGPUTarget()
Definition AMDGPUTargetMachine.cpp:650

EnableRewritePartialRegUses
static cl::opt< bool > EnableRewritePartialRegUses("amdgpu-enable-rewrite-partial-reg-uses", cl::desc("Enable rewrite partial reg uses pass"), cl::init(true), cl::Hidden)

EnableLibCallSimplify
static cl::opt< bool > EnableLibCallSimplify("amdgpu-simplify-libcall", cl::desc("Enable amdgpu library simplifications"), cl::init(true), cl::Hidden)

GCNMaxILPSchedRegistry
static MachineSchedRegistry GCNMaxILPSchedRegistry("gcn-max-ilp", "Run GCN scheduler to maximize ilp", createGCNMaxILPMachineScheduler)

InternalizeSymbols
static cl::opt< bool > InternalizeSymbols("amdgpu-internalize-symbols", cl::desc("Enable elimination of non-kernel functions and unused globals"), cl::init(false), cl::Hidden)

EnableAMDGPUAttributor
static cl::opt< bool > EnableAMDGPUAttributor("amdgpu-attributor-enable", cl::desc("Enable AMDGPUAttributorPass"), cl::init(true), cl::Hidden)

getGPUOrDefault
static LLVM_READNONE StringRef getGPUOrDefault(const Triple &TT, StringRef GPU)
Definition AMDGPUTargetMachine.cpp:852

parseAMDGPUAttributorPassOptions
Expected< AMDGPUAttributorOptions > parseAMDGPUAttributorPassOptions(StringRef Params)
Definition AMDGPUTargetMachine.cpp:949

EnableAMDGPUAliasAnalysis
static cl::opt< bool > EnableAMDGPUAliasAnalysis("enable-amdgpu-aa", cl::Hidden, cl::desc("Enable AMDGPU Alias Analysis"), cl::init(true))

parseAMDGPUAtomicOptimizerStrategy
static Expected< ScanOptions > parseAMDGPUAtomicOptimizerStrategy(StringRef Params)
Definition AMDGPUTargetMachine.cpp:934

createMinRegScheduler
static ScheduleDAGInstrs * createMinRegScheduler(MachineSchedContext *C)
Definition AMDGPUTargetMachine.cpp:800

EnableHipStdPar
static cl::opt< bool > EnableHipStdPar("amdgpu-enable-hipstdpar", cl::desc("Enable HIP Standard Parallelism Offload support"), cl::init(false), cl::Hidden)

EnableInsertDelayAlu
static cl::opt< bool > EnableInsertDelayAlu("amdgpu-enable-delay-alu", cl::desc("Enable s_delay_alu insertion"), cl::init(true), cl::Hidden)

createIterativeGCNMaxOccupancyMachineScheduler
static ScheduleDAGInstrs * createIterativeGCNMaxOccupancyMachineScheduler(MachineSchedContext *C)
Definition AMDGPUTargetMachine.cpp:789

EnableLoadStoreVectorizer
static cl::opt< bool > EnableLoadStoreVectorizer("amdgpu-load-store-vectorizer", cl::desc("Enable load store vectorizer"), cl::init(true), cl::Hidden)

mustPreserveGV
static bool mustPreserveGV(const GlobalValue &GV)
Predicate for Internalize pass.
Definition AMDGPUTargetMachine.cpp:918

EnableLoopPrefetch
static cl::opt< bool > EnableLoopPrefetch("amdgpu-loop-prefetch", cl::desc("Enable loop data prefetch on AMDGPU"), cl::Hidden, cl::init(false))

NewRegBankSelect
static cl::opt< bool > NewRegBankSelect("new-reg-bank-select", cl::desc("Run amdgpu-regbankselect and amdgpu-regbanklegalize instead of " "regbankselect"), cl::init(false), cl::Hidden)

RemoveIncompatibleFunctions
static cl::opt< bool > RemoveIncompatibleFunctions("amdgpu-enable-remove-incompatible-functions", cl::Hidden, cl::desc("Enable removal of functions when they" "use features not supported by the target GPU"), cl::init(true))

EnableScalarIRPasses
static cl::opt< bool > EnableScalarIRPasses("amdgpu-scalar-ir-passes", cl::desc("Enable scalar IR passes"), cl::init(true), cl::Hidden)

EnableRegReassign
static cl::opt< bool > EnableRegReassign("amdgpu-reassign-regs", cl::desc("Enable register reassign optimizations on gfx10+"), cl::init(true), cl::Hidden)

OptVGPRLiveRange
static cl::opt< bool > OptVGPRLiveRange("amdgpu-opt-vgpr-liverange", cl::desc("Enable VGPR liverange optimizations for if-else structure"), cl::init(true), cl::Hidden)

createSIMachineScheduler
static ScheduleDAGInstrs * createSIMachineScheduler(MachineSchedContext *C)
Definition AMDGPUTargetMachine.cpp:746

OOBFlagValue
OOBFlagValue
Definition AMDGPUTargetMachine.cpp:1249

OOBFlagValue::Strict
@ Strict
Definition AMDGPUTargetMachine.cpp:1252

OOBFlagValue::Relaxed
@ Relaxed
Definition AMDGPUTargetMachine.cpp:1251

OOBFlagValue::Any
@ Any
Definition AMDGPUTargetMachine.cpp:1250

EnablePreRAOptimizations
static cl::opt< bool > EnablePreRAOptimizations("amdgpu-enable-pre-ra-optimizations", cl::desc("Enable Pre-RA optimizations pass"), cl::init(true), cl::Hidden)

AMDGPUAtomicOptimizerStrategy
static cl::opt< ScanOptions > AMDGPUAtomicOptimizerStrategy("amdgpu-atomic-optimizer-strategy", cl::desc("Select DPP or Iterative strategy for scan"), cl::init(ScanOptions::Iterative), cl::values(clEnumValN(ScanOptions::DPP, "DPP", "Use DPP operations for scan"), clEnumValN(ScanOptions::Iterative, "Iterative", "Use Iterative approach for scan"), clEnumValN(ScanOptions::None, "None", "Disable atomic optimizer")))

EnableVOPD
static cl::opt< bool > EnableVOPD("amdgpu-enable-vopd", cl::desc("Enable VOPD, dual issue of VALU in wave32"), cl::init(true), cl::Hidden)

createGCNMaxOccupancyMachineScheduler
static ScheduleDAGInstrs * createGCNMaxOccupancyMachineScheduler(MachineSchedContext *C)
Definition AMDGPUTargetMachine.cpp:751

EnableLowerExecSync
static cl::opt< bool > EnableLowerExecSync("amdgpu-enable-lower-exec-sync", cl::desc("Enable lowering of execution synchronization."), cl::init(true), cl::Hidden)

GCNILPSchedRegistry
static MachineSchedRegistry GCNILPSchedRegistry("gcn-iterative-ilp", "Run GCN iterative scheduler for ILP scheduling (experimental)", createIterativeILPMachineScheduler)

ScalarizeGlobal
static cl::opt< bool > ScalarizeGlobal("amdgpu-scalarize-global-loads", cl::desc("Enable global load scalarization"), cl::init(true), cl::Hidden)

RegAllocOptNotSupportedMessage
static const char RegAllocOptNotSupportedMessage[]
Definition AMDGPUTargetMachine.cpp:1837

GCNMaxOccupancySchedRegistry
static MachineSchedRegistry GCNMaxOccupancySchedRegistry("gcn-max-occupancy", "Run GCN scheduler to maximize occupancy", createGCNMaxOccupancyMachineScheduler)

AMDGPUTargetMachine.h
The AMDGPU TargetMachine interface definition for hw codegen targets.

AMDGPUTargetObjectFile.h
This file declares the AMDGPU-specific subclass of TargetLoweringObjectFile.

AMDGPUTargetTransformInfo.h
This file a TargetTransformInfoImplBase conforming object specific to the AMDGPU target machine.

AMDGPUUnifyDivergentExitNodes.h

AMDGPUWaitSGPRHazards.h

AMDGPU.h

AlwaysInliner.h
Provides passes to inlining "always_inline" functions.

AtomicExpand.h

X
#define X(NUM, ENUM, NAME)
Definition ELF.h:853

BranchRelaxation.h

A
static GCRegistry::Add< ErlangGC > A("erlang", "erlang-compatible garbage collector")

D
static GCRegistry::Add< StatepointGC > D("statepoint-example", "an example strategy for statepoint")

CGSCCPassManager.h
This header provides classes for managing passes over SCCs of the call graph.

CSEInfo.h
Provides analysis for continuously CSEing during GISel passes.

CallGraphSCCPass.h

CodeGenPassBuilder.h
Interfaces for producing common pass manager configurations.

Passes.h

clEnumValN
#define clEnumValN(ENUMVAL, FLAGNAME, DESC)
Definition CommandLine.h:687

Compiler.h

LLVM_READNONE
#define LLVM_READNONE
Definition Compiler.h:315

LLVM_ABI
#define LLVM_ABI
Definition Compiler.h:213

LLVM_EXTERNAL_VISIBILITY
#define LLVM_EXTERNAL_VISIBILITY
Definition Compiler.h:132

Legalizer
DXIL Legalizer
Definition DXILLegalizePass.cpp:588

DeadMachineInstructionElim.h

DiagnosticInfo.h

EarlyCSE.h
This file provides the interface for a simple, fast CSE pass.

EarlyIfConversion.h

ExpandVariadics.h

FixIrreducible.h

FlattenCFG.h

FormatVariadic.h

GCNDPPCombine.h

GCNIterativeScheduler.h
This file defines the class GCNIterativeScheduler, which uses an iterative approach to find a best sc...

GCNNSAReassign.h

GCNPreRALongBranchReg.h

GCNPreRAOptimizations.h

GCNRewritePartialRegUses.h

GCNSchedStrategy.h

GCNVOPDUtils.h

GVN.h
This file provides the interface for LLVM's Global Value Numbering pass which eliminates fully redund...

GlobalDCE.h

_
#define _
Definition HexagonMCCodeEmitter.cpp:46

HipStdPar.h
AcceleratorCodeSelection - Identify all functions reachable from a kernel, removing those that are un...

IPO.h

IRTranslator.h
This file declares the IRTranslator pass.

Module.h
Module.h This file contains the declarations for the Module class.

PassManager.h
This header defines various interfaces for pass management in LLVM.

InferAddressSpaces.h

InitializePasses.h

InstructionSelect.h

Internalize.h

KernelInfo.h

LCSSA.h

LICM.h

RegName
#define RegName(no)

Legalizer.h

LoadStoreVectorizer.h

Localizer.h

LoopDataPrefetch.h
This file provides the interface for LLVM's Loop Data Prefetching Pass.

LoopPassManager.h
This header provides classes for managing a pipeline of passes over loops in LLVM IR.

LowerSwitch.h

F
#define F(x, y, z)
Definition MD5.cpp:54

I
#define I(x, y, z)
Definition MD5.cpp:57

MIParser.h

MachineCSE.h

MachineLICM.h

MachineScheduler.h

Reg
Register Reg
Definition MachineSink.cpp:2126

TRI
Register const TargetRegisterInfo * TRI
Definition MachineSink.cpp:2127

T
#define T
Definition Mips16ISelLowering.cpp:282

Range
ConstantRange Range(APInt(BitWidth, Low), APInt(BitWidth, High))

II
uint64_t IntrinsicInst * II
Definition NVVMIntrRange.cpp:46

NaryReassociate.h

P
#define P(N)

CGAM
CGSCCAnalysisManager CGAM
Definition PassBuilderBindings.cpp:62

LAM
LoopAnalysisManager LAM
Definition PassBuilderBindings.cpp:60

FAM
FunctionAnalysisManager FAM
Definition PassBuilderBindings.cpp:61

MAM
ModuleAnalysisManager MAM
Definition PassBuilderBindings.cpp:63

PIC
PassInstrumentationCallbacks PIC
Definition PassBuilderBindings.cpp:57

PB
PassBuilder PB(Machine, PassOpts->PTO, std::nullopt, &PIC)

isLTOPreLink
static bool isLTOPreLink(ThinOrFullLTOPhase Phase)
Definition PassBuilderPipelines.cpp:443

PatternMatch.h

PostRAHazardRecognizer.h

R600TargetMachine.h
The AMDGPU TargetMachine interface definition for hw codegen targets.

R600.h

RegAllocRegistry.h

RegBankSelect.h
This file describes the interface of the MachineFunctionPass responsible for assigning the generic vi...

SIFixSGPRCopies.h

SIFixVGPRCopies.h

SIFoldOperands.h

SIFormMemoryClauses.h

SILoadStoreOptimizer.h

SILowerControlFlow.h

SILowerSGPRSpills.h

SILowerWWMCopies.h

getTM
const GCNTargetMachine & getTM(const GCNSubtarget *STI)
Definition SIMachineFunctionInfo.cpp:43

SIMachineFunctionInfo.h

SIMachineScheduler.h
SI Machine Scheduler interface.

SIOptimizeExecMaskingPreRA.h

SIOptimizeExecMasking.h

SIOptimizeVGPRLiveRange.h

SIPeepholeSDWA.h

SIPostRABundler.h

SIPreAllocateWWMRegs.h

SIShrinkInstructions.h

SIWholeQuadMode.h

contains
static bool contains(SmallPtrSetImpl< ConstantExpr * > &Cache, ConstantExpr *Expr, Constant *C)
Definition Value.cpp:483

Scalar.h

SeparateConstOffsetFromGEP.h

SimplifyLibCalls.h

Sink.h

StraightLineStrengthReduce.h

StructurizeCFG.h

Y
static TableGen::Emitter::Opt Y("gen-skeleton-entry", EmitSkeleton, "Generate example skeleton entry")

useDefaultRegisterAllocator
static FunctionPass * useDefaultRegisterAllocator()
-regalloc=... command line option.
Definition TargetPassConfig.cpp:1107

EnableGlobalISelOption
static cl::opt< cl::boolOrDefault > EnableGlobalISelOption("global-isel", cl::Hidden, cl::desc("Enable the \"global\" instruction selector"))

TargetPassConfig.h
Target-Independent Code Generator Pass Configuration Options pass.

TargetPassRegistry.inc

TargetRegistry.h

Utils.h

UniformityAnalysis.h
LLVM IR instance of the generic uniformity analysis.

UnifyLoopExits.h

createTLOF
static std::unique_ptr< TargetLoweringObjectFile > createTLOF()
Definition VETargetMachine.cpp:51

llvm::AAManager
A manager for alias analyses.
Definition AliasAnalysis.h:1016

llvm::AAManager::registerFunctionAnalysis
void registerFunctionAnalysis()
Register a specific AA result.
Definition AliasAnalysis.h:1021

llvm::AAResults
Definition AliasAnalysis.h:319

llvm::AAResults::addAAResult
void addAAResult(AAResultT &AAResult)
Register a specific AA result.
Definition AliasAnalysis.h:328

llvm::AMDGPUAAWrapperPass
Legacy wrapper pass to provide the AMDGPUAAResult object.
Definition AMDGPUAliasAnalysis.h:61

llvm::AMDGPUAA
Analysis pass providing a never-invalidated alias analysis result.
Definition AMDGPUAliasAnalysis.h:47

llvm::AMDGPUAnnotateUniformValuesPass
Definition AMDGPU.h:410

llvm::AMDGPUAttributorCGSCCPass
Definition AMDGPU.h:389

llvm::AMDGPUAttributorPass
Definition AMDGPU.h:373

llvm::AMDGPUCodeGenPreparePass
Definition AMDGPU.h:339

llvm::AMDGPUCtorDtorLoweringPass
Lower llvm.global_ctors and llvm.global_dtors to special kernels.
Definition AMDGPUCtorDtorLowering.h:19

llvm::AMDGPUExportKernelRuntimeHandlesPass
Definition AMDGPUExportKernelRuntimeHandles.h:16

llvm::AMDGPUISelDAGToDAGPass
Definition AMDGPUISelDAGToDAG.h:318

llvm::AMDGPULateCodeGenPreparePass
Definition AMDGPU.h:349

llvm::AMDGPULowerKernelArgumentsPass
Definition AMDGPU.h:359

llvm::AMDGPULowerVGPREncodingPass
Definition AMDGPULowerVGPREncoding.h:17

llvm::AMDGPUMachineFunctionInfo::setInitWholeWave
void setInitWholeWave()
Definition AMDGPUMachineFunctionInfo.h:103

llvm::AMDGPUMarkLastScratchLoadPass
Definition AMDGPU.h:436

llvm::AMDGPUPassConfig
Definition AMDGPUTargetMachine.h:131

llvm::AMDGPUPassConfig::getAMDGPUTargetMachine
AMDGPUTargetMachine & getAMDGPUTargetMachine() const
Definition AMDGPUTargetMachine.h:135

llvm::AMDGPUPassConfig::getCSEConfig
std::unique_ptr< CSEConfigBase > getCSEConfig() const override
Returns the CSEConfig object to use for the current optimization level.
Definition AMDGPUTargetMachine.cpp:1368

llvm::AMDGPUPassConfig::isPassEnabled
bool isPassEnabled(const cl::opt< bool > &Opt, CodeGenOptLevel Level=CodeGenOptLevel::Default) const
Check if a pass is enabled given Opt option.
Definition AMDGPUTargetMachine.h:152

llvm::AMDGPUPassConfig::addPreISel
bool addPreISel() override
Methods with trivial inline returns are convenient points in the common codegen pass pipeline where t...
Definition AMDGPUTargetMachine.cpp:1589

llvm::AMDGPUPassConfig::addInstSelector
bool addInstSelector() override
addInstSelector - This method should install an instruction selector pass, which converts from LLVM c...
Definition AMDGPUTargetMachine.cpp:1595

llvm::AMDGPUPassConfig::addGCPasses
bool addGCPasses() override
addGCPasses - Add late codegen passes that analyze code for garbage collection.
Definition AMDGPUTargetMachine.cpp:1600

llvm::AMDGPUPassConfig::addStraightLineScalarOptimizationPasses
void addStraightLineScalarOptimizationPasses()
Definition AMDGPUTargetMachine.cpp:1435

llvm::AMDGPUPassConfig::AMDGPUPassConfig
AMDGPUPassConfig(TargetMachine &TM, PassManagerBase &PM)
Definition AMDGPUTargetMachine.cpp:1417

llvm::AMDGPUPassConfig::addIRPasses
void addIRPasses() override
Add common target configurable passes that perform LLVM IR to IR transforms following machine indepen...
Definition AMDGPUTargetMachine.cpp:1452

llvm::AMDGPUPassConfig::addEarlyCSEOrGVNPass
void addEarlyCSEOrGVNPass()
Definition AMDGPUTargetMachine.cpp:1428

llvm::AMDGPUPassConfig::addCodeGenPrepare
void addCodeGenPrepare() override
Add pass to prepare the LLVM IR for code generation.
Definition AMDGPUTargetMachine.cpp:1557

llvm::AMDGPUPreloadKernArgPrologPass
Definition AMDGPUPreloadKernArgProlog.h:17

llvm::AMDGPUPreloadKernelArgumentsPass
Definition AMDGPU.h:400

llvm::AMDGPUPrepareAGPRAllocPass
Definition AMDGPUPrepareAGPRAlloc.h:16

llvm::AMDGPURemoveIncompatibleFunctionsPass
Definition AMDGPURemoveIncompatibleFunctions.h:17

llvm::AMDGPUReserveWWMRegsPass
Definition AMDGPUReserveWWMRegs.h:16

llvm::AMDGPURewriteAGPRCopyMFMAPass
Definition AMDGPU.h:591

llvm::AMDGPURewriteUndefForPHIPass
Definition AMDGPU.h:514

llvm::AMDGPUSetWavePriorityPass
Definition AMDGPU.h:471

llvm::AMDGPUSplitModulePass
Splits the module M into N linkable partitions.
Definition AMDGPUSplitModule.h:23

llvm::AMDGPUTargetMachine
Definition AMDGPUTargetMachine.h:34

llvm::AMDGPUTargetMachine::TLOF
std::unique_ptr< TargetLoweringObjectFile > TLOF
Definition AMDGPUTargetMachine.h:36

llvm::AMDGPUTargetMachine::getAddressSpaceForPseudoSourceKind
unsigned getAddressSpaceForPseudoSourceKind(unsigned Kind) const override
getAddressSpaceForPseudoSourceKind - Given the kind of memory (e.g.
Definition AMDGPUTargetMachine.cpp:1199

llvm::AMDGPUTargetMachine::getSubtargetImpl
const TargetSubtargetInfo * getSubtargetImpl() const

llvm::AMDGPUTargetMachine::registerDefaultAliasAnalyses
void registerDefaultAliasAnalyses(AAManager &) override
Allow the target to register alias analyses with the AAManager for use with the new pass manager.
Definition AMDGPUTargetMachine.cpp:928

llvm::AMDGPUTargetMachine::~AMDGPUTargetMachine
~AMDGPUTargetMachine() override

llvm::AMDGPUTargetMachine::getPredicatedAddrSpace
std::pair< const Value *, unsigned > getPredicatedAddrSpace(const Value *V) const override
If the specified predicate checks whether a generic pointer falls within a specified address space,...
Definition AMDGPUTargetMachine.cpp:1172

llvm::AMDGPUTargetMachine::getFeatureString
StringRef getFeatureString(const Function &F) const
Definition AMDGPUTargetMachine.cpp:900

llvm::AMDGPUTargetMachine::createMachineScheduler
ScheduleDAGInstrs * createMachineScheduler(MachineSchedContext *C) const override
Create an instance of ScheduleDAGInstrs to be run within the standard MachineScheduler pass for this ...
Definition AMDGPUTargetMachine.cpp:908

llvm::AMDGPUTargetMachine::EnableFunctionCalls
static bool EnableFunctionCalls
Definition AMDGPUTargetMachine.h:42

llvm::AMDGPUTargetMachine::AMDGPUTargetMachine
AMDGPUTargetMachine(const Target &T, const Triple &TT, StringRef CPU, StringRef FS, const TargetOptions &Options, std::optional< Reloc::Model > RM, std::optional< CodeModel::Model > CM, CodeGenOptLevel OL)
Definition AMDGPUTargetMachine.cpp:869

llvm::AMDGPUTargetMachine::isNoopAddrSpaceCast
bool isNoopAddrSpaceCast(unsigned SrcAS, unsigned DestAS) const override
Returns true if a cast between SrcAS and DestAS is a noop.
Definition AMDGPUTargetMachine.cpp:1141

llvm::AMDGPUTargetMachine::registerPassBuilderCallbacks
void registerPassBuilderCallbacks(PassBuilder &PB) override
Allow the target to modify the pass pipeline.
Definition AMDGPUTargetMachine.cpp:966

llvm::AMDGPUTargetMachine::EnableLowerModuleLDS
static bool EnableLowerModuleLDS
Definition AMDGPUTargetMachine.h:44

llvm::AMDGPUTargetMachine::getGPUName
StringRef getGPUName(const Function &F) const
Definition AMDGPUTargetMachine.cpp:895

llvm::AMDGPUTargetMachine::getAssumedAddrSpace
unsigned getAssumedAddrSpace(const Value *V) const override
If the specified generic pointer could be assumed as a pointer to a specific address space,...
Definition AMDGPUTargetMachine.cpp:1147

llvm::AMDGPUTargetMachine::splitModule
bool splitModule(Module &M, unsigned NumParts, function_ref< void(std::unique_ptr< Module > MPart)> ModuleCallback) override
Entry point for module splitting.
Definition AMDGPUTargetMachine.cpp:1214

llvm::AMDGPUTargetMachine::EnableObjectLinking
static bool EnableObjectLinking
Definition AMDGPUTargetMachine.h:43

llvm::AMDGPUUnifyDivergentExitNodesPass
Definition AMDGPUUnifyDivergentExitNodes.h:29

llvm::AMDGPUWaitSGPRHazardsPass
Definition AMDGPUWaitSGPRHazards.h:17

llvm::AlwaysInlinerPass
Inlines functions marked as "always_inline".
Definition AlwaysInliner.h:33

llvm::Any
Definition Any.h:28

llvm::ArrayRef
Represent a constant reference to an array (0 or more elements consecutively in memory),...
Definition ArrayRef.h:40

llvm::AtomicExpandPass
Definition AtomicExpand.h:19

llvm::Attribute
Functions, function parameters, and return types can have attributes to indicate how they should be t...
Definition Attributes.h:105

llvm::Attribute::getValueAsString
LLVM_ABI StringRef getValueAsString() const
Return the attribute's value as a string.
Definition Attributes.cpp:405

llvm::Attribute::isValid
bool isValid() const
Return true if the attribute is any kind of attribute.
Definition Attributes.h:261

llvm::BranchRelaxationPass
Definition BranchRelaxation.h:17

llvm::CodeGenPassBuilder
This class provides access to building LLVM's passes.
Definition CodeGenPassBuilder.h:176

llvm::CodeGenTargetMachineImpl::CodeGenTargetMachineImpl
CodeGenTargetMachineImpl(const Target &T, StringRef DataLayoutString, const Triple &TT, StringRef CPU, StringRef FS, const TargetOptions &Options, Reloc::Model RM, CodeModel::Model CM, CodeGenOptLevel OL)
Definition CodeGenTargetMachineImpl.cpp:96

llvm::CodeGenTargetMachineImpl::initAsmInfo
void initAsmInfo()
Definition CodeGenTargetMachineImpl.cpp:49

llvm::Constant::removeDeadConstantUsers
LLVM_ABI void removeDeadConstantUsers() const
If there are any dead constant users dangling off of this constant, remove them.
Definition Constants.cpp:762

llvm::DeadMachineInstructionElimPass
Definition DeadMachineInstructionElim.h:17

llvm::DiagnosticInfoUnsupported
Diagnostic information for unsupported feature in backend.
Definition DiagnosticInfo.h:1103

llvm::DiagnosticLocation
Definition DiagnosticInfo.h:328

llvm::EarlyIfConverterPass
Definition EarlyIfConversion.h:17

llvm::EarlyMachineLICMPass
Definition MachineLICM.h:24

llvm::Error
Lightweight error class with error context and mandatory checking.
Definition Error.h:159

llvm::Error::success
static ErrorSuccess success()
Create a success value.
Definition Error.h:336

llvm::ExpandVariadicsPass
Definition ExpandVariadics.h:26

llvm::Expected
Tagged union holding either a T or a Error.
Definition Error.h:485

llvm::FunctionPass
FunctionPass class - This class is used to implement most global optimizations.
Definition Pass.h:314

llvm::Function
Definition Function.h:65

llvm::GCLoweringPass
LowerIntrinsics - This pass rewrites calls to the llvm.gcread or llvm.gcwrite intrinsics,...
Definition GCMetadata.h:229

llvm::GCNCreateVOPDPass
Definition AMDGPU.h:429

llvm::GCNDPPCombinePass
Definition GCNDPPCombine.h:15

llvm::GCNIterativeScheduler
Definition GCNIterativeScheduler.h:29

llvm::GCNIterativeScheduler::SCHEDULE_MINREGFORCED
@ SCHEDULE_MINREGFORCED
Definition GCNIterativeScheduler.h:35

llvm::GCNIterativeScheduler::SCHEDULE_ILP
@ SCHEDULE_ILP
Definition GCNIterativeScheduler.h:37

llvm::GCNIterativeScheduler::SCHEDULE_LEGACYMAXOCCUPANCY
@ SCHEDULE_LEGACYMAXOCCUPANCY
Definition GCNIterativeScheduler.h:36

llvm::GCNNSAReassignPass
Definition GCNNSAReassign.h:15

llvm::GCNPostScheduleDAGMILive
Definition GCNSchedStrategy.h:790

llvm::GCNPreRALongBranchRegPass
Definition GCNPreRALongBranchReg.h:16

llvm::GCNPreRAOptimizationsPass
Definition GCNPreRAOptimizations.h:16

llvm::GCNRewritePartialRegUsesPass
Definition GCNRewritePartialRegUses.h:16

llvm::GCNScheduleDAGMILive
Definition GCNSchedStrategy.h:260

llvm::GCNSubtarget
Definition GCNSubtarget.h:45

llvm::GCNSubtarget::getRegisterInfo
const SIRegisterInfo * getRegisterInfo() const override
Definition GCNSubtarget.h:134

llvm::GCNTargetMachine
Definition AMDGPUTargetMachine.h:83

llvm::GCNTargetMachine::getTargetTransformInfo
TargetTransformInfo getTargetTransformInfo(const Function &F) const override
Get a TargetTransformInfo implementation for the target.
Definition AMDGPUTargetMachine.cpp:1298

llvm::GCNTargetMachine::createPostMachineScheduler
ScheduleDAGInstrs * createPostMachineScheduler(MachineSchedContext *C) const override
Similar to createMachineScheduler but used when postRA machine scheduling is enabled.
Definition AMDGPUTargetMachine.cpp:1343

llvm::GCNTargetMachine::createMachineScheduler
ScheduleDAGInstrs * createMachineScheduler(MachineSchedContext *C) const override
Create an instance of ScheduleDAGInstrs to be run within the standard MachineScheduler pass for this ...
Definition AMDGPUTargetMachine.cpp:1312

llvm::GCNTargetMachine::registerMachineRegisterInfoCallback
void registerMachineRegisterInfoCallback(MachineFunction &MF) const override
Definition AMDGPUTargetMachine.cpp:1968

llvm::GCNTargetMachine::parseMachineFunctionInfo
bool parseMachineFunctionInfo(const yaml::MachineFunctionInfo &, PerFunctionMIParsingState &PFS, SMDiagnostic &Error, SMRange &SourceRange) const override
Parse out the target's MachineFunctionInfo from the YAML reprsentation.
Definition AMDGPUTargetMachine.cpp:1992

llvm::GCNTargetMachine::convertFuncInfoToYAML
yaml::MachineFunctionInfo * convertFuncInfoToYAML(const MachineFunction &MF) const override
Allocate and initialize an instance of the YAML representation of the MachineFunctionInfo.
Definition AMDGPUTargetMachine.cpp:1986

llvm::GCNTargetMachine::createDefaultFuncInfoYAML
yaml::MachineFunctionInfo * createDefaultFuncInfoYAML() const override
Allocate and return a default initialized instance of the YAML representation for the MachineFunction...
Definition AMDGPUTargetMachine.cpp:1981

llvm::GCNTargetMachine::buildCodeGenPipeline
Error buildCodeGenPipeline(ModulePassManager &MPM, ModuleAnalysisManager &MAM, raw_pwrite_stream &Out, raw_pwrite_stream *DwoOut, CodeGenFileType FileType, const CGPassBuilderOption &Opts, MCContext &Ctx, PassInstrumentationCallbacks *PIC) override
Definition AMDGPUTargetMachine.cpp:1302

llvm::GCNTargetMachine::createPassConfig
TargetPassConfig * createPassConfig(PassManagerBase &PM) override
Create a pass configuration object to be used by addPassToEmitX methods for generating a pipeline of ...
Definition AMDGPUTargetMachine.cpp:1964

llvm::GCNTargetMachine::GCNTargetMachine
GCNTargetMachine(const Target &T, const Triple &TT, StringRef CPU, StringRef FS, const TargetOptions &Options, std::optional< Reloc::Model > RM, std::optional< CodeModel::Model > CM, CodeGenOptLevel OL, bool JIT)
Definition AMDGPUTargetMachine.cpp:1241

llvm::GCNTargetMachine::createMachineFunctionInfo
MachineFunctionInfo * createMachineFunctionInfo(BumpPtrAllocator &Allocator, const Function &F, const TargetSubtargetInfo *STI) const override
Create the target's instance of MachineFunctionInfo.
Definition AMDGPUTargetMachine.cpp:1974

llvm::GVNPass
The core GVN pass object.
Definition GVN.h:131

llvm::GlobalDCEPass
Pass to remove unused function declarations.
Definition GlobalDCE.h:38

llvm::GlobalValue
Definition GlobalValue.h:49

llvm::HipStdParAcceleratorCodeSelectionPass
Definition HipStdPar.h:29

llvm::HipStdParMathFixupPass
Definition HipStdPar.h:41

llvm::IRTranslator
Definition IRTranslator.h:66

llvm::InstructionSelect
This pass is responsible for selecting generic machine instructions to target-specific instructions.
Definition InstructionSelect.h:36

llvm::InternalizePass
A pass that internalizes all functions and variables other than those that must be preserved accordin...
Definition Internalize.h:37

llvm::KernelInfoPrinter
Definition KernelInfo.h:24

llvm::LCSSAPass
Converts loops into loop-closed SSA form.
Definition LCSSA.h:38

llvm::LICMPass
Performs Loop Invariant Code Motion Pass.
Definition LICM.h:66

llvm::LoadStoreVectorizerPass
Definition LoadStoreVectorizer.h:20

llvm::Localizer
This pass implements the localization mechanism described at the top of this file.
Definition Localizer.h:43

llvm::LoopDataPrefetchPass
An optimization pass inserting data prefetches in loops.
Definition LoopDataPrefetch.h:24

llvm::MCContext
Context object for machine code objects.
Definition MCContext.h:83

llvm::MachineCSEPass
Definition MachineCSE.h:16

llvm::MachineFunction
Definition MachineFunction.h:294

llvm::MachineFunction::getSubtarget
const TargetSubtargetInfo & getSubtarget() const
getSubtarget - Return the subtarget for which this machine code is being compiled.
Definition MachineFunction.h:788

llvm::MachineFunction::getRegInfo
MachineRegisterInfo & getRegInfo()
getRegInfo - Return information about the registers currently in use.
Definition MachineFunction.h:798

llvm::MachineFunction::getInfo
Ty * getInfo()
getInfo - Keep track of various per-function pieces of information for backends that would like to do...
Definition MachineFunction.h:884

llvm::MachineRegisterInfo
MachineRegisterInfo - Keep track of information for virtual and physical registers,...
Definition MachineRegisterInfo.h:53

llvm::MachineRegisterInfo::getRegClass
const TargetRegisterClass * getRegClass(Register Reg) const
Return the register class of the specified virtual register.
Definition MachineRegisterInfo.h:648

llvm::MachineRegisterInfo::addDelegate
void addDelegate(Delegate *delegate)
Definition MachineRegisterInfo.h:171

llvm::MachineRegisterInfo::getMF
const MachineFunction & getMF() const
Definition MachineRegisterInfo.h:189

llvm::MachineSchedRegistry
MachineSchedRegistry provides a selection of available machine instruction schedulers.
Definition MachineScheduler.h:166

llvm::MemoryBuffer
This interface provides simple read-only access to a block of memory, and provides simple methods for...
Definition MemoryBuffer.h:52

llvm::MemoryBuffer::getBufferIdentifier
virtual StringRef getBufferIdentifier() const
Return an identifier for this buffer, typically the filename it was read from.
Definition MemoryBuffer.h:77

llvm::MemoryBuffer::getBufferStart
const char * getBufferStart() const
Definition MemoryBuffer.h:67

llvm::Module
A Module instance is used to store all the information related to an LLVM module.
Definition Module.h:67

llvm::NaryReassociatePass
Definition NaryReassociate.h:101

llvm::OptimizationLevel
Definition OptimizationLevel.h:23

llvm::OptimizationLevel::O0
static LLVM_ABI const OptimizationLevel O0
Disable as many optimizations as possible.
Definition OptimizationLevel.h:36

llvm::OptimizationLevel::O1
static LLVM_ABI const OptimizationLevel O1
Optimize quickly without destroying debuggability.
Definition OptimizationLevel.h:52

llvm::PassBuilder
This class provides access to building LLVM's passes.
Definition PassBuilder.h:114

llvm::PassInstrumentationCallbacks
This class manages callbacks registration, as well as provides a way for PassInstrumentation to pass ...
Definition PassInstrumentation.h:74

llvm::PassManagerWrapper
Definition CodeGenPassBuilder.h:158

llvm::PassManager::addPass
LLVM_ATTRIBUTE_MINSIZE std::enable_if_t<!std::is_same_v< PassT, PassManager > > addPass(PassT &&Pass)
Definition PassManager.h:220

llvm::PassManager::run
PreservedAnalyses run(IRUnitT &IR, AnalysisManagerT &AM, ExtraArgTs... ExtraArgs)
Run all of the passes in this manager over the given unit of IR.
Definition PassManagerImpl.h:28

llvm::PassRegistry
PassRegistry - This class manages the registration and intitialization of the pass subsystem as appli...
Definition PassRegistry.h:38

llvm::PassRegistry::getPassRegistry
static LLVM_ABI PassRegistry * getPassRegistry()
getPassRegistry - Access the global registry object, which is automatically initialized at applicatio...
Definition PassRegistry.cpp:23

llvm::Pass
Pass interface - Implemented by all 'passes'.
Definition Pass.h:99

llvm::PatchableFunctionPass
Definition PatchableFunction.h:17

llvm::PostRAHazardRecognizerPass
Definition PostRAHazardRecognizer.h:17

llvm::PseudoSourceValue::GOT
@ GOT
Definition PseudoSourceValue.h:37

llvm::PseudoSourceValue::Stack
@ Stack
Definition PseudoSourceValue.h:36

llvm::PseudoSourceValue::GlobalValueCallEntry
@ GlobalValueCallEntry
Definition PseudoSourceValue.h:41

llvm::PseudoSourceValue::JumpTable
@ JumpTable
Definition PseudoSourceValue.h:38

llvm::PseudoSourceValue::ExternalSymbolCallEntry
@ ExternalSymbolCallEntry
Definition PseudoSourceValue.h:42

llvm::PseudoSourceValue::ConstantPool
@ ConstantPool
Definition PseudoSourceValue.h:39

llvm::PseudoSourceValue::FixedStack
@ FixedStack
Definition PseudoSourceValue.h:40

llvm::RegAllocFastPass
Definition RegAllocFast.h:17

llvm::RegBankSelect
This pass implements the reg bank selector pass used in the GlobalISel pipeline.
Definition RegBankSelect.h:91

llvm::RegisterPassParser
RegisterPassParser class - Handle the addition of new machine passes.
Definition MachinePassRegistry.h:138

llvm::RegisterRegAllocBase
RegisterRegAllocBase class - Track the registration of register allocators.
Definition RegAllocRegistry.h:30

llvm::RegisterRegAllocBase< RegisterRegAlloc >::FunctionPassCtor
FunctionPass *(*)() FunctionPassCtor
Definition RegAllocRegistry.h:32

llvm::Register
Wrapper class representing virtual and physical registers.
Definition Register.h:20

llvm::SIAnnotateControlFlowPass
Definition AMDGPU.h:521

llvm::SIFixSGPRCopiesPass
Definition SIFixSGPRCopies.h:16

llvm::SIFixVGPRCopiesPass
Definition SIFixVGPRCopies.h:15

llvm::SIFoldOperandsPass
Definition SIFoldOperands.h:15

llvm::SIFormMemoryClausesPass
Definition SIFormMemoryClauses.h:16

llvm::SIInsertHardClausesPass
Definition AMDGPU.h:450

llvm::SIInsertWaitcntsPass
Definition AMDGPU.h:443

llvm::SILateBranchLoweringPass
Definition AMDGPU.h:457

llvm::SILoadStoreOptimizerPass
Definition SILoadStoreOptimizer.h:17

llvm::SILowerControlFlowPass
Definition SILowerControlFlow.h:16

llvm::SILowerI1CopiesPass
Definition AMDGPU.h:95

llvm::SILowerSGPRSpillsPass
Definition SILowerSGPRSpills.h:16

llvm::SILowerWWMCopiesPass
Definition SILowerWWMCopies.h:16

llvm::SIMachineFunctionInfo
This class keeps track of the SPI_SP_INPUT_ADDR config register, which tells the hardware which inter...
Definition SIMachineFunctionInfo.h:418

llvm::SIMachineFunctionInfo::initializeBaseYamlFields
bool initializeBaseYamlFields(const yaml::SIMachineFunctionInfo &YamlMFI, const MachineFunction &MF, PerFunctionMIParsingState &PFS, SMDiagnostic &Error, SMRange &SourceRange)
Definition SIMachineFunctionInfo.cpp:783

llvm::SIMachineFunctionInfo::setFlag
void setFlag(Register Reg, uint8_t Flag)
Definition SIMachineFunctionInfo.h:789

llvm::SIMachineFunctionInfo::checkFlag
bool checkFlag(Register Reg, uint8_t Flag) const
Definition SIMachineFunctionInfo.h:795

llvm::SIMachineFunctionInfo::reserveWWMRegister
void reserveWWMRegister(Register Reg)
Definition SIMachineFunctionInfo.h:667

llvm::SIMemoryLegalizerPass
Definition AMDGPU.h:423

llvm::SIModeRegisterPass
Definition AMDGPU.h:416

llvm::SIOptimizeExecMaskingPass
Definition SIOptimizeExecMasking.h:16

llvm::SIOptimizeExecMaskingPreRAPass
Definition SIOptimizeExecMaskingPreRA.h:16

llvm::SIOptimizeVGPRLiveRangePass
Definition SIOptimizeVGPRLiveRange.h:16

llvm::SIPeepholeSDWAPass
Definition SIPeepholeSDWA.h:16

llvm::SIPostRABundlerPass
Definition SIPostRABundler.h:15

llvm::SIPreAllocateWWMRegsPass
Definition SIPreAllocateWWMRegs.h:17

llvm::SIPreEmitPeepholePass
Definition AMDGPU.h:464

llvm::SIRegisterInfo
Definition SIRegisterInfo.h:40

llvm::SIScheduleDAGMI
Definition SIMachineScheduler.h:425

llvm::SIShrinkInstructionsPass
Definition SIShrinkInstructions.h:17

llvm::SIWholeQuadModePass
Definition SIWholeQuadMode.h:15

llvm::SMDiagnostic
Instances of this class encapsulate one diagnostic report, allowing printing to a raw_ostream as a ca...
Definition SourceMgr.h:303

llvm::SMLoc
Represents a location in source code.
Definition SMLoc.h:22

llvm::SMLoc::getFromPointer
static SMLoc getFromPointer(const char *Ptr)
Definition SMLoc.h:35

llvm::SMRange
Represents a range in source code.
Definition SMLoc.h:47

llvm::ScheduleDAGInstrs
A ScheduleDAG for scheduling lists of MachineInstr.
Definition ScheduleDAGInstrs.h:118

llvm::ScheduleDAGMILive
ScheduleDAGMILive is an implementation of ScheduleDAGInstrs that schedules machine instructions while...
Definition MachineScheduler.h:429

llvm::ScheduleDAGMI
ScheduleDAGMI is an implementation of ScheduleDAGInstrs that simply schedules machine instructions ac...
Definition MachineScheduler.h:314

llvm::ScheduleDAGMI::addMutation
void addMutation(std::unique_ptr< ScheduleDAGMutation > Mutation)
Add a postprocessing step to the DAG builder.
Definition MachineScheduler.h:363

llvm::ScheduleDAG::TII
const TargetInstrInfo * TII
Target instruction information.
Definition ScheduleDAG.h:586

llvm::ScheduleDAG::TRI
const TargetRegisterInfo * TRI
Target processor register info.
Definition ScheduleDAG.h:587

llvm::SeparateConstOffsetFromGEPPass
Definition SeparateConstOffsetFromGEP.h:17

llvm::ShadowStackGCLoweringPass
Definition ShadowStackGCLowering.h:17

llvm::SinkingPass
Move instructions into successor blocks when possible.
Definition Sink.h:24

llvm::SmallString
SmallString - A SmallString is just a SmallVector with methods and accessors that make it work better...
Definition SmallString.h:26

llvm::SmallString::append
void append(StringRef RHS)
Append from a StringRef.
Definition SmallString.h:68

llvm::SourceMgr::getMainFileID
unsigned getMainFileID() const
Definition SourceMgr.h:151

llvm::SourceMgr::DK_Error
@ DK_Error
Definition SourceMgr.h:40

llvm::SourceMgr::getMemoryBuffer
const MemoryBuffer * getMemoryBuffer(unsigned i) const
Definition SourceMgr.h:144

llvm::StackSlotColoringPass
Definition StackSlotColoring.h:17

llvm::StraightLineStrengthReducePass
Definition StraightLineStrengthReduce.h:17

llvm::StringRef
Represent a constant reference to a string, i.e.
Definition StringRef.h:56

llvm::StringRef::split
std::pair< StringRef, StringRef > split(char Separator) const
Split into two substrings around the first occurrence of a separator character.
Definition StringRef.h:730

llvm::StringRef::empty
constexpr bool empty() const
Check if the string is empty.
Definition StringRef.h:141

llvm::StringRef::consume_front
bool consume_front(char Prefix)
Returns true if this StringRef has the given prefix and removes that prefix.
Definition StringRef.h:655

llvm::StringSwitch
A switch()-like statement whose cases are string literals.
Definition StringSwitch.h:47

llvm::StringSwitch::Default
R Default(T Value)
Definition StringSwitch.h:134

llvm::StringSwitch::Cases
StringSwitch & Cases(std::initializer_list< StringLiteral > CaseStrings, T Value)
Definition StringSwitch.h:88

llvm::TargetMachine
Primary interface to the complete machine description for the target machine.
Definition TargetMachine.h:83

llvm::TargetMachine::getOptLevel
CodeGenOptLevel getOptLevel() const
Returns the optimization level: None, Less, Default, or Aggressive.
Definition TargetMachine.h:289

llvm::TargetMachine::TargetTriple
Triple TargetTriple
Triple string, CPU name, and target feature strings the TargetMachine instance is created with.
Definition TargetMachine.h:102

llvm::TargetMachine::getTargetTriple
const Triple & getTargetTriple() const
Definition TargetMachine.h:132

llvm::TargetMachine::RM
Reloc::Model RM
Definition TargetMachine.h:106

llvm::TargetMachine::getMCSubtargetInfo
const MCSubtargetInfo & getMCSubtargetInfo() const
Definition TargetMachine.h:244

llvm::TargetMachine::getTargetFeatureString
StringRef getTargetFeatureString() const
Definition TargetMachine.h:134

llvm::TargetMachine::getTargetCPU
StringRef getTargetCPU() const
Definition TargetMachine.h:133

llvm::TargetMachine::STI
std::unique_ptr< const MCSubtargetInfo > STI
Definition TargetMachine.h:115

llvm::TargetMachine::Options
TargetOptions Options
Definition TargetMachine.h:124

llvm::TargetMachine::resetTargetOptions
void resetTargetOptions(const Function &F) const
Reset the target options based on the function's attributes.
Definition TargetMachine.cpp:155

llvm::TargetMachine::MRI
std::unique_ptr< const MCRegisterInfo > MRI
Definition TargetMachine.h:113

llvm::TargetMachine::OptLevel
CodeGenOptLevel OptLevel
Definition TargetMachine.h:109

llvm::TargetOptions
Definition TargetOptions.h:119

llvm::TargetPassConfig
Target-Independent Code Generator Pass Configuration Options.
Definition TargetPassConfig.h:84

llvm::TargetPassConfig::TM
TargetMachine * TM
Definition TargetPassConfig.h:122

llvm::TargetPassConfig::addCodeGenPrepare
virtual void addCodeGenPrepare()
Add pass to prepare the LLVM IR for code generation.
Definition TargetPassConfig.cpp:964

llvm::TargetPassConfig::addILPOpts
virtual bool addILPOpts()
Add passes that optimize instruction level parallelism for out-of-order targets.
Definition TargetPassConfig.h:377

llvm::TargetPassConfig::addPostRegAlloc
virtual void addPostRegAlloc()
This method may be implemented by targets that want to run passes after register allocation pass pipe...
Definition TargetPassConfig.h:424

llvm::TargetPassConfig::getOptLevel
CodeGenOptLevel getOptLevel() const
Definition TargetPassConfig.cpp:637

llvm::TargetPassConfig::addOptimizedRegAlloc
virtual void addOptimizedRegAlloc()
addOptimizedRegAlloc - Add passes related to register allocation.
Definition TargetPassConfig.cpp:1483

llvm::TargetPassConfig::addIRPasses
virtual void addIRPasses()
Add common target configurable passes that perform LLVM IR to IR transforms following machine indepen...
Definition TargetPassConfig.cpp:846

llvm::TargetPassConfig::addFastRegAlloc
virtual void addFastRegAlloc()
addFastRegAlloc - Add the minimum set of target-independent passes that are required for fast registe...
Definition TargetPassConfig.cpp:1473

llvm::TargetPassConfig::addMachineSSAOptimization
virtual void addMachineSSAOptimization()
addMachineSSAOptimization - Add standard passes that optimize machine instructions in SSA form.
Definition TargetPassConfig.cpp:1327

llvm::TargetPassConfig::disablePass
void disablePass(AnalysisID PassID)
Allow the target to disable a specific standard pass by default.
Definition TargetPassConfig.h:220

llvm::TargetPassConfig::addPass
AnalysisID addPass(AnalysisID PassID)
Utilities for targets to add passes to the pass manager.
Definition TargetPassConfig.cpp:774

llvm::TargetPassConfig::TargetPassConfig
TargetPassConfig(TargetMachine &TM, PassManagerBase &PM)
Definition TargetPassConfig.cpp:606

llvm::TargetRegisterClass
Definition TargetRegisterInfo.h:45

llvm::TargetRegisterInfo
TargetRegisterInfo base class - We assume that the target defines a static array of TargetRegisterDes...
Definition TargetRegisterInfo.h:242

llvm::TargetSubtargetInfo
TargetSubtargetInfo - Generic base class for all target subtargets.
Definition TargetSubtargetInfo.h:66

llvm::TargetTransformInfo
This pass provides access to the codegen interfaces that are needed for IR-level transformations.
Definition TargetTransformInfo.h:268

llvm::Target
Target - Wrapper for Target specific information.
Definition TargetRegistry.h:148

llvm::Triple
Triple - Helper class for working with autoconf configuration names.
Definition Triple.h:47

llvm::Triple::AMDHSA
@ AMDHSA
Definition Triple.h:236

llvm::Triple::r600
@ r600
Definition Triple.h:76

llvm::Twine
Twine - A lightweight data structure for efficiently representing the concatenation of temporary valu...
Definition Twine.h:82

llvm::UnifyLoopExitsPass
Definition UnifyLoopExits.h:16

llvm::Value
LLVM Value Representation.
Definition Value.h:75

llvm::Value::use_empty
bool use_empty() const
Definition Value.h:346

llvm::VirtRegRewriterPass
Definition VirtRegMap.h:241

llvm::cl::Option::getNumOccurrences
int getNumOccurrences() const
Definition CommandLine.h:400

llvm::cl::opt
Definition CommandLine.h:1454

llvm::function_ref
An efficient, type-erasing, non-owning reference to a callable.
Definition STLFunctionalExtras.h:37

llvm::legacy::PassManagerBase
PassManagerBase - An abstract interface to allow code to add passes to a pass manager without having ...
Definition LegacyPassManager.h:40

llvm::raw_pwrite_stream
An abstract base class for streams implementations that also support a pwrite operation.
Definition raw_ostream.h:435

PassBuilder.h
Interfaces for registering analysis passes, producing common pass manager configurations,...

llvm_unreachable
#define llvm_unreachable(msg)
Marks that the current location is not supposed to be reachable.
Definition ErrorHandling.h:164

llvm::AMDGPUAS::LOCAL_ADDRESS
@ LOCAL_ADDRESS
Address space for local memory.
Definition AMDGPUAddrSpace.h:36

llvm::AMDGPUAS::CONSTANT_ADDRESS
@ CONSTANT_ADDRESS
Address space for constant memory (VTX2).
Definition AMDGPUAddrSpace.h:37

llvm::AMDGPUAS::UNKNOWN_ADDRESS_SPACE
@ UNKNOWN_ADDRESS_SPACE
Definition AMDGPUAddrSpace.h:85

llvm::AMDGPUAS::FLAT_ADDRESS
@ FLAT_ADDRESS
Address space for flat memory.
Definition AMDGPUAddrSpace.h:32

llvm::AMDGPUAS::GLOBAL_ADDRESS
@ GLOBAL_ADDRESS
Address space for global memory (RAT0, VTX0).
Definition AMDGPUAddrSpace.h:33

llvm::AMDGPUAS::PRIVATE_ADDRESS
@ PRIVATE_ADDRESS
Address space for private memory.
Definition AMDGPUAddrSpace.h:38

llvm::AMDGPUOOBMode::BufferFlag
constexpr StringLiteral BufferFlag("amdgpu.buffer.oob.mode")

llvm::AMDGPUOOBMode::TBufferFlag
constexpr StringLiteral TBufferFlag("amdgpu.tbuffer.oob.mode")

llvm::AMDGPU::VirtRegFlag::WWM_REG
@ WWM_REG
Definition SIDefines.h:1118

llvm::AMDGPU::getSchedStrategy
StringRef getSchedStrategy(const Function &F)
Definition AMDGPUTargetMachine.cpp:590

llvm::AMDGPU::SchedulingPhase::PostRA
@ PostRA
Definition AMDGPUIGroupLP.h:19

llvm::AMDGPU::SchedulingPhase::Initial
@ Initial
Definition AMDGPUIGroupLP.h:19

llvm::AMDGPU::isFlatGlobalAddrSpace
bool isFlatGlobalAddrSpace(unsigned AS)
Definition AMDGPUAddrSpace.h:94

llvm::AMDGPU::isModuleEntryFunctionCC
LLVM_READNONE constexpr bool isModuleEntryFunctionCC(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1524

llvm::AMDGPU::isEntryFunctionCC
LLVM_READNONE constexpr bool isEntryFunctionCC(CallingConv::ID CC)
Definition AMDGPUBaseInfo.h:1485

llvm::CallingConv::C
@ C
The default llvm calling convention, compatible with C.
Definition CallingConv.h:34

llvm::CodeModel
Definition CodeGen.h:29

llvm::Loc
Definition DwarfDebug.h:130

llvm::MIPatternMatch::m_Not
BinaryOp_match< SrcTy, SpecificConstantMatch, TargetOpcode::G_XOR, true > m_Not(const SrcTy &&Src)
Matches a register not-ed by a G_XOR.
Definition MIPatternMatch.h:943

llvm::PatternMatch
Definition PatternMatch.h:51

llvm::PatternMatch::m_c_And
BinaryOp_match< LHS, RHS, Instruction::And, true > m_c_And(const LHS &L, const RHS &R)
Matches an And with LHS and RHS in either order.
Definition PatternMatch.h:3092

llvm::PatternMatch::match
bool match(Val *V, const Pattern &P)
Definition PatternMatch.h:53

llvm::PatternMatch::m_Deferred
match_deferred< Value > m_Deferred(Value *const &V)
Like m_Specific(), but works if the specific value to match is determined as part of the same match()...
Definition PatternMatch.h:951

llvm::PatternMatch::m_Intrinsic
IntrinsicID_match m_Intrinsic()
Match intrinsic calls like this: m_Intrinsic<Intrinsic::fabs>(m_Value(X))
Definition PatternMatch.h:2848

llvm::PatternMatch::m_Value
auto m_Value()
Match an arbitrary value and ignore it.
Definition PatternMatch.h:135

llvm::Reloc::Model
Model
Definition CodeGen.h:25

llvm::Reloc::PIC_
@ PIC_
Definition CodeGen.h:25

llvm::cl::opt< bool >
template class LLVM_TEMPLATE_ABI opt< bool >
Definition CommandLine.cpp:79

llvm::cl::Hidden
@ Hidden
Definition CommandLine.h:138

llvm::cl::values
ValuesClass values(OptsTy... Options)
Helper to build a ValuesClass by forwarding a variable number of arguments as an initializer list to ...
Definition CommandLine.h:712

llvm::cl::init
initializer< Ty > init(const Ty &Val)
Definition CommandLine.h:444

llvm::cl::location
LocationClass< Ty > location(Ty &L)
Definition CommandLine.h:464

llvm::mdconst::dyn_extract_or_null
std::enable_if_t< detail::IsValidPointer< X, Y >::value, X * > dyn_extract_or_null(Y &&MD)
Extract a Value from Metadata, if any, allowing null.
Definition Metadata.h:709

llvm
This is an optimization pass for GlobalISel generic memory operations.
Definition FunctionInfo.h:25

llvm::createSchedLive
ScheduleDAGMILive * createSchedLive(MachineSchedContext *C)
Create the standard converging machine scheduler.
Definition MachineScheduler.h:1434

llvm::createFlattenCFGPass
LLVM_ABI FunctionPass * createFlattenCFGPass()
Definition FlattenCFGPass.cpp:81

llvm::createAMDGPUBarrierLatencyDAGMutation
std::unique_ptr< ScheduleDAGMutation > createAMDGPUBarrierLatencyDAGMutation(MachineFunction *MF)
Definition AMDGPUBarrierLatency.cpp:118

llvm::createFastRegisterAllocator
LLVM_ABI FunctionPass * createFastRegisterAllocator()
FastRegisterAllocation Pass - This pass register allocates as fast as possible.
Definition RegAllocFast.cpp:1920

llvm::ScanOptions::DPP
@ DPP
Definition AMDGPU.h:110

llvm::ScanOptions::None
@ None
Definition AMDGPU.h:110

llvm::ScanOptions::Iterative
@ Iterative
Definition AMDGPU.h:110

llvm::EarlyMachineLICMID
LLVM_ABI char & EarlyMachineLICMID
This pass performs loop invariant code motion on machine instructions.
Definition MachineLICM.cpp:328

llvm::createAMDGPUAAWrapperPass
ImmutablePass * createAMDGPUAAWrapperPass()
Definition AMDGPUAliasAnalysis.cpp:33

llvm::PostRAHazardRecognizerID
LLVM_ABI char & PostRAHazardRecognizerID
PostRAHazardRecognizer - This pass runs the post-ra hazard recognizer.
Definition PostRAHazardRecognizer.cpp:70

llvm::RegAllocFilterFunc
std::function< bool(const TargetRegisterInfo &TRI, const MachineRegisterInfo &MRI, const Register Reg)> RegAllocFilterFunc
Filter function for register classes during regalloc.
Definition RegAllocCommon.h:25

llvm::createAMDGPUSetWavePriorityPass
FunctionPass * createAMDGPUSetWavePriorityPass()

llvm::createLCSSAPass
LLVM_ABI Pass * createLCSSAPass()
Definition LCSSA.cpp:525

llvm::initializeAMDGPUMarkLastScratchLoadLegacyPass
void initializeAMDGPUMarkLastScratchLoadLegacyPass(PassRegistry &)

llvm::initializeAMDGPUInsertDelayAluLegacyPass
void initializeAMDGPUInsertDelayAluLegacyPass(PassRegistry &)

llvm::initializeSIOptimizeExecMaskingPreRALegacyPass
void initializeSIOptimizeExecMaskingPreRALegacyPass(PassRegistry &)

llvm::GCNPreRAOptimizationsID
char & GCNPreRAOptimizationsID
Definition GCNPreRAOptimizations.cpp:92

llvm::GCLoweringID
LLVM_ABI char & GCLoweringID
GCLowering Pass - Used by gc.root to perform its default lowering operations.
Definition GCRootLowering.cpp:108

llvm::initializeSIInsertHardClausesLegacyPass
void initializeSIInsertHardClausesLegacyPass(PassRegistry &)

llvm::createSIAnnotateControlFlowLegacyPass
FunctionPass * createSIAnnotateControlFlowLegacyPass()
Create the annotation pass.
Definition SIAnnotateControlFlow.cpp:453

llvm::createSIModeRegisterPass
FunctionPass * createSIModeRegisterPass()
Definition SIModeRegister.cpp:162

llvm::initializeGCNPreRAOptimizationsLegacyPass
void initializeGCNPreRAOptimizationsLegacyPass(PassRegistry &)

llvm::initializeSILowerWWMCopiesLegacyPass
void initializeSILowerWWMCopiesLegacyPass(PassRegistry &)

llvm::createGreedyRegisterAllocator
LLVM_ABI FunctionPass * createGreedyRegisterAllocator()
Greedy register allocation pass - This pass implements a global register allocator for optimized buil...
Definition RegAllocGreedy.cpp:334

llvm::initializeAMDGPUAAWrapperPassPass
void initializeAMDGPUAAWrapperPassPass(PassRegistry &)

llvm::initializeSIShrinkInstructionsLegacyPass
void initializeSIShrinkInstructionsLegacyPass(PassRegistry &)

llvm::createAMDGPULowerBufferFatPointersPass
ModulePass * createAMDGPULowerBufferFatPointersPass()
Definition AMDGPULowerBufferFatPointers.cpp:2622

llvm::initializeR600ClauseMergePassPass
void initializeR600ClauseMergePassPass(PassRegistry &)

llvm::createAMDGPUCtorDtorLoweringLegacyPass
ModulePass * createAMDGPUCtorDtorLoweringLegacyPass()

llvm::dyn_cast
decltype(auto) dyn_cast(const From &Val)
dyn_cast<X> - Return the argument parameter cast to the specified type.
Definition Casting.h:643

llvm::createModuleToFunctionPassAdaptor
ModuleToFunctionPassAdaptor createModuleToFunctionPassAdaptor(FunctionPassT &&Pass, bool EagerlyInvalidate=false)
A function to deduce a function pass type and wrap it in the templated adaptor.
Definition PassManager.h:897

llvm::createAMDGPUSwLowerLDSLegacyPass
ModulePass * createAMDGPUSwLowerLDSLegacyPass(const AMDGPUTargetMachine *TM=nullptr)
Definition AMDGPUSwLowerLDS.cpp:1350

llvm::initializeGCNRewritePartialRegUsesLegacyPass
void initializeGCNRewritePartialRegUsesLegacyPass(llvm::PassRegistry &)

llvm::initializeAMDGPURewriteUndefForPHILegacyPass
void initializeAMDGPURewriteUndefForPHILegacyPass(PassRegistry &)

llvm::GCNRewritePartialRegUsesID
char & GCNRewritePartialRegUsesID
Definition GCNRewritePartialRegUses.cpp:470

llvm::initializeAMDGPUSwLowerLDSLegacyPass
void initializeAMDGPUSwLowerLDSLegacyPass(PassRegistry &)

llvm::inconvertibleErrorCode
LLVM_ABI std::error_code inconvertibleErrorCode()
The value returned by this function can be returned from convertToErrorCode for Error values where no...
Definition Error.cpp:94

llvm::initializeAMDGPULowerVGPREncodingLegacyPass
void initializeAMDGPULowerVGPREncodingLegacyPass(PassRegistry &)

llvm::AMDGPUWaitSGPRHazardsLegacyID
char & AMDGPUWaitSGPRHazardsLegacyID
Definition AMDGPUWaitSGPRHazards.cpp:554

llvm::initializeSILowerSGPRSpillsLegacyPass
void initializeSILowerSGPRSpillsLegacyPass(PassRegistry &)

llvm::createLoadStoreVectorizerPass
LLVM_ABI Pass * createLoadStoreVectorizerPass()
Create a legacy pass manager instance of the LoadStoreVectorizer pass.

llvm::createIGroupLPDAGMutation
std::unique_ptr< ScheduleDAGMutation > createIGroupLPDAGMutation(AMDGPU::SchedulingPhase Phase)
Phase specifes whether or not this is a reentry into the IGroupLPDAGMutation.
Definition AMDGPUIGroupLP.cpp:2728

llvm::initializeAMDGPUDAGToDAGISelLegacyPass
void initializeAMDGPUDAGToDAGISelLegacyPass(PassRegistry &)

llvm::createAMDGPURegBankCombiner
FunctionPass * createAMDGPURegBankCombiner(bool IsOptNone)
Definition AMDGPURegBankCombiner.cpp:600

llvm::createNaryReassociatePass
LLVM_ABI FunctionPass * createNaryReassociatePass()
Definition NaryReassociate.cpp:165

llvm::AMDGPUReserveWWMRegsLegacyID
char & AMDGPUReserveWWMRegsLegacyID

llvm::initializeAMDGPUWaitSGPRHazardsLegacyPass
void initializeAMDGPUWaitSGPRHazardsLegacyPass(PassRegistry &)

llvm::PatchableFunctionID
LLVM_ABI char & PatchableFunctionID
This pass implements the "patchable-function" attribute.
Definition PatchableFunction.cpp:80

llvm::SIOptimizeExecMaskingLegacyID
char & SIOptimizeExecMaskingLegacyID
Definition SIOptimizeExecMasking.cpp:116

llvm::PostRASchedulerID
LLVM_ABI char & PostRASchedulerID
PostRAScheduler - This pass performs post register allocation scheduling.
Definition PostRASchedulerList.cpp:202

llvm::initializeAMDGPUNextUseAnalysisLegacyPassPass
void initializeAMDGPUNextUseAnalysisLegacyPassPass(PassRegistry &)

llvm::initializeR600ExpandSpecialInstrsPassPass
void initializeR600ExpandSpecialInstrsPassPass(PassRegistry &)

llvm::initializeR600PacketizerPass
void initializeR600PacketizerPass(PassRegistry &)

llvm::createVOPDPairingMutation
std::unique_ptr< ScheduleDAGMutation > createVOPDPairingMutation()
Definition GCNVOPDUtils.cpp:311

llvm::createAMDGPUExportKernelRuntimeHandlesLegacyPass
ModulePass * createAMDGPUExportKernelRuntimeHandlesLegacyPass()

llvm::createAMDGPUAlwaysInlinePass
ModulePass * createAMDGPUAlwaysInlinePass(bool GlobalOpt=true)
Definition AMDGPUAlwaysInlinePass.cpp:164

llvm::initializeAMDGPUAsmPrinterPass
void initializeAMDGPUAsmPrinterPass(PassRegistry &)

llvm::ExpandVariadicsMode::Lowering
@ Lowering
Definition ExpandVariadics.h:23

llvm::initializeSIFoldOperandsLegacyPass
void initializeSIFoldOperandsLegacyPass(PassRegistry &)

llvm::SILoadStoreOptimizerLegacyID
char & SILoadStoreOptimizerLegacyID
Definition SILoadStoreOptimizer.cpp:949

llvm::initializeAMDGPUGlobalISelDivergenceLoweringPass
void initializeAMDGPUGlobalISelDivergenceLoweringPass(PassRegistry &)

llvm::CGSCCPassManager
PassManager< LazyCallGraph::SCC, CGSCCAnalysisManager, LazyCallGraph &, CGSCCUpdateResult & > CGSCCPassManager
The CGSCC pass manager.
Definition CGSCCPassManager.h:143

llvm::getStandardCSEConfigForOpt
LLVM_ABI std::unique_ptr< CSEConfigBase > getStandardCSEConfigForOpt(CodeGenOptLevel Level)
Definition CSEInfo.cpp:85

llvm::getTheR600Target
Target & getTheR600Target()
The target for R600 GPUs.
Definition AMDGPUTargetInfo.cpp:20

llvm::MachineSchedulerID
LLVM_ABI char & MachineSchedulerID
MachineScheduler - This pass schedules machine instructions.
Definition MachineScheduler.cpp:410

llvm::createStructurizeCFGPass
LLVM_ABI Pass * createStructurizeCFGPass(bool SkipUniformRegions=false)
When SkipUniformRegions is true the structizer will not structurize regions that only contain uniform...
Definition StructurizeCFG.cpp:1442

llvm::PostMachineSchedulerID
LLVM_ABI char & PostMachineSchedulerID
PostMachineScheduler - This pass schedules machine instructions postRA.
Definition MachineScheduler.cpp:441

llvm::createLICMPass
LLVM_ABI Pass * createLICMPass()
Definition LICM.cpp:386

llvm::SIFormMemoryClausesID
char & SIFormMemoryClausesID
Definition SIFormMemoryClauses.cpp:93

llvm::initializeSILoadStoreOptimizerLegacyPass
void initializeSILoadStoreOptimizerLegacyPass(PassRegistry &)

llvm::initializeAMDGPULowerModuleLDSLegacyPass
void initializeAMDGPULowerModuleLDSLegacyPass(PassRegistry &)

llvm::CGSCCAnalysisManager
AnalysisManager< LazyCallGraph::SCC, LazyCallGraph & > CGSCCAnalysisManager
The CGSCC analysis manager.
Definition CGSCCPassManager.h:123

llvm::initializeAMDGPUCtorDtorLoweringLegacyPass
void initializeAMDGPUCtorDtorLoweringLegacyPass(PassRegistry &)

llvm::EarlyIfConverterLegacyID
LLVM_ABI char & EarlyIfConverterLegacyID
EarlyIfConverter - This pass performs if-conversion on SSA form by inserting cmov instructions.
Definition EarlyIfConversion.cpp:859

llvm::LoopAnalysisManager
AnalysisManager< Loop, LoopStandardAnalysisResults & > LoopAnalysisManager
The loop analysis manager.
Definition LoopAnalysisManager.h:75

llvm::createAMDGPUUniformIntrinsicCombineLegacyPass
FunctionPass * createAMDGPUUniformIntrinsicCombineLegacyPass()
Definition AMDGPUUniformIntrinsicCombine.cpp:199

llvm::initializeAMDGPURegBankCombinerPass
void initializeAMDGPURegBankCombinerPass(PassRegistry &)

llvm::ThinOrFullLTOPhase
ThinOrFullLTOPhase
This enumerates the LLVM full LTO or ThinLTO optimization phases.
Definition Pass.h:77

llvm::ThinOrFullLTOPhase::FullLTOPostLink
@ FullLTOPostLink
Full LTO postlink (backend compile) phase.
Definition Pass.h:87

llvm::AMDGPUUnifyDivergentExitNodesID
char & AMDGPUUnifyDivergentExitNodesID
Definition AMDGPUUnifyDivergentExitNodes.cpp:85

llvm::initializeAMDGPUPrepareAGPRAllocLegacyPass
void initializeAMDGPUPrepareAGPRAllocLegacyPass(PassRegistry &)

llvm::createAMDGPUAtomicOptimizerPass
FunctionPass * createAMDGPUAtomicOptimizerPass(ScanOptions ScanStrategy)
Definition AMDGPUAtomicOptimizer.cpp:986

llvm::createAMDGPUPreloadKernArgPrologLegacyPass
FunctionPass * createAMDGPUPreloadKernArgPrologLegacyPass()

llvm::SIOptimizeVGPRLiveRangeLegacyID
char & SIOptimizeVGPRLiveRangeLegacyID
Definition SIOptimizeVGPRLiveRange.cpp:634

llvm::ShadowStackGCLoweringID
LLVM_ABI char & ShadowStackGCLoweringID
ShadowStackGCLowering - Implements the custom lowering mechanism used by the shadow stack GC.
Definition ShadowStackGCLowering.cpp:131

llvm::GCNNSAReassignID
char & GCNNSAReassignID
Definition GCNNSAReassign.cpp:111

llvm::initializeAMDGPURewriteOutArgumentsPass
void initializeAMDGPURewriteOutArgumentsPass(PassRegistry &)

llvm::getEffectiveRelocModel
static Reloc::Model getEffectiveRelocModel(std::optional< Reloc::Model > RM)
Definition AVRTargetMachine.cpp:40

llvm::initializeAMDGPUExternalAAWrapperPass
void initializeAMDGPUExternalAAWrapperPass(PassRegistry &)

llvm::formatv
auto formatv(bool Validate, const char *Fmt, Ts &&...Vals)
Definition FormatVariadic.h:249

llvm::initializeAMDGPULowerKernelArgumentsPass
void initializeAMDGPULowerKernelArgumentsPass(PassRegistry &)

llvm::initializeSIModeRegisterLegacyPass
void initializeSIModeRegisterLegacyPass(PassRegistry &)

llvm::getEffectiveCodeModel
CodeModel::Model getEffectiveCodeModel(std::optional< CodeModel::Model > CM, CodeModel::Model Default)
Helper method for getting the code model, returning Default if CM does not have a value.
Definition CodeGenTargetMachineImpl.h:81

llvm::initializeAMDGPUPreloadKernelArgumentsLegacyPass
void initializeAMDGPUPreloadKernelArgumentsLegacyPass(PassRegistry &)

llvm::createExpandVariadicsPass
LLVM_ABI ModulePass * createExpandVariadicsPass(ExpandVariadicsMode)

llvm::SILateBranchLoweringPassID
char & SILateBranchLoweringPassID
Definition SILateBranchLowering.cpp:87

llvm::createFunctionToLoopPassAdaptor
FunctionToLoopPassAdaptor createFunctionToLoopPassAdaptor(LoopPassT &&Pass, bool UseMemorySSA=false)
A function to deduce a loop pass type and wrap it in the templated adaptor.
Definition LoopPassManager.h:438

llvm::BranchRelaxationPassID
LLVM_ABI char & BranchRelaxationPassID
BranchRelaxation - This pass replaces branches that need to jump further than is supported by a branc...
Definition BranchRelaxation.cpp:142

llvm::createSinkingPass
LLVM_ABI FunctionPass * createSinkingPass()
Definition Sink.cpp:275

llvm::createCGSCCToFunctionPassAdaptor
CGSCCToFunctionPassAdaptor createCGSCCToFunctionPassAdaptor(FunctionPassT &&Pass, bool EagerlyInvalidate=false, bool NoRerun=false)
A function to deduce a function pass type and wrap it in the templated adaptor.
Definition CGSCCPassManager.h:502

llvm::initializeSIMemoryLegalizerLegacyPass
void initializeSIMemoryLegalizerLegacyPass(PassRegistry &)

llvm::createAMDGPULowerIntrinsicsLegacyPass
ModulePass * createAMDGPULowerIntrinsicsLegacyPass()
Definition AMDGPULowerIntrinsics.cpp:217

llvm::initializeR600MachineCFGStructurizerPass
void initializeR600MachineCFGStructurizerPass(PassRegistry &)

llvm::CodeGenFileType
CodeGenFileType
These enums are meant to be passed into addPassesToEmitFile to indicate what type of file to emit,...
Definition CodeGen.h:111

llvm::GCNDPPCombineLegacyID
char & GCNDPPCombineLegacyID

llvm::ModulePassManager
PassManager< Module > ModulePassManager
Convenience typedef for a pass manager over modules.
Definition PassManager.h:261

llvm::createStoreClusterDAGMutation
LLVM_ABI std::unique_ptr< ScheduleDAGMutation > createStoreClusterDAGMutation(const TargetInstrInfo *TII, const TargetRegisterInfo *TRI, bool ReorderWhileClustering=false)
If ReorderWhileClustering is set to true, no attempt will be made to reduce reordering due to store c...
Definition MachineScheduler.cpp:2065

llvm::createLoopDataPrefetchPass
LLVM_ABI FunctionPass * createLoopDataPrefetchPass()
Definition LoopDataPrefetch.cpp:151

llvm::createAMDGPULowerKernelArgumentsPass
FunctionPass * createAMDGPULowerKernelArgumentsPass()
Definition AMDGPULowerKernelArguments.cpp:398

llvm::AMDGPUInsertDelayAluID
char & AMDGPUInsertDelayAluID
Definition AMDGPUInsertDelayAlu.cpp:534

llvm::createAMDGPUMacroFusionDAGMutation
std::unique_ptr< ScheduleDAGMutation > createAMDGPUMacroFusionDAGMutation()
Note that you have to add: DAG.addMutation(createAMDGPUMacroFusionDAGMutation()); to AMDGPUTargetMach...
Definition AMDGPUMacroFusion.cpp:62

llvm::StackMapLivenessID
LLVM_ABI char & StackMapLivenessID
StackMapLiveness - This pass analyses the register live-out set of stackmap/patchpoint intrinsics and...
Definition StackMapLivenessAnalysis.cpp:85

llvm::initializeGCNPreRALongBranchRegLegacyPass
void initializeGCNPreRALongBranchRegLegacyPass(PassRegistry &)

llvm::SILowerWWMCopiesLegacyID
char & SILowerWWMCopiesLegacyID
Definition SILowerWWMCopies.cpp:82

llvm::createUnifyLoopExitsPass
LLVM_ABI FunctionPass * createUnifyLoopExitsPass()
Definition UnifyLoopExits.cpp:64

llvm::SIOptimizeExecMaskingPreRAID
char & SIOptimizeExecMaskingPreRAID
Definition SIOptimizeExecMaskingPreRA.cpp:82

llvm::createFixIrreduciblePass
LLVM_ABI FunctionPass * createFixIrreduciblePass()
Definition FixIrreducible.cpp:166

llvm::initializeR600EmitClauseMarkersPass
void initializeR600EmitClauseMarkersPass(PassRegistry &)

llvm::FuncletLayoutID
LLVM_ABI char & FuncletLayoutID
This pass lays out funclets contiguously.
Definition FuncletLayout.cpp:36

llvm::DetectDeadLanesID
LLVM_ABI char & DetectDeadLanesID
This pass adds dead/undef flags after analyzing subregister lanes.
Definition DetectDeadLanes.cpp:411

llvm::initializeAMDGPULowerExecSyncLegacyPass
void initializeAMDGPULowerExecSyncLegacyPass(PassRegistry &)

llvm::initializeAMDGPUPostLegalizerCombinerPass
void initializeAMDGPUPostLegalizerCombinerPass(PassRegistry &)

llvm::createGCNNoopPostMachineScheduler
ScheduleDAGInstrs * createGCNNoopPostMachineScheduler(MachineSchedContext *C)
Definition AMDGPUCoExecSchedStrategy.cpp:719

llvm::initializeAMDGPUExportKernelRuntimeHandlesLegacyPass
void initializeAMDGPUExportKernelRuntimeHandlesLegacyPass(PassRegistry &)

llvm::CodeGenOptLevel
CodeGenOptLevel
Code generation optimization level.
Definition CodeGen.h:82

llvm::CodeGenOptLevel::Less
@ Less
-O1
Definition CodeGen.h:84

llvm::CodeGenOptLevel::Aggressive
@ Aggressive
-O3
Definition CodeGen.h:86

llvm::CodeGenOptLevel::None
@ None
-O0
Definition CodeGen.h:83

llvm::initializeSIInsertWaitcntsLegacyPass
void initializeSIInsertWaitcntsLegacyPass(PassRegistry &)

llvm::createAMDGPUPreloadKernelArgumentsLegacyPass
ModulePass * createAMDGPUPreloadKernelArgumentsLegacyPass(const TargetMachine *)

llvm::createAMDGPUPrintfRuntimeBinding
ModulePass * createAMDGPUPrintfRuntimeBinding()
Definition AMDGPUPrintfRuntimeBinding.cpp:79

llvm::StackSlotColoringID
LLVM_ABI char & StackSlotColoringID
StackSlotColoring - This pass performs stack slot coloring.
Definition StackSlotColoring.cpp:192

llvm::createAlwaysInlinerLegacyPass
LLVM_ABI Pass * createAlwaysInlinerLegacyPass(bool InsertLifetime=true)
Create a legacy pass manager instance of a pass to inline and remove functions marked as "always_inli...
Definition AlwaysInliner.cpp:252

llvm::initializeR600ControlFlowFinalizerPass
void initializeR600ControlFlowFinalizerPass(PassRegistry &)

llvm::initializeAMDGPUImageIntrinsicOptimizerPass
void initializeAMDGPUImageIntrinsicOptimizerPass(PassRegistry &)

llvm::initializeSILateBranchLoweringLegacyPass
void initializeSILateBranchLoweringLegacyPass(PassRegistry &)

llvm::initializeSILowerControlFlowLegacyPass
void initializeSILowerControlFlowLegacyPass(PassRegistry &)

llvm::initializeSIFormMemoryClausesLegacyPass
void initializeSIFormMemoryClausesLegacyPass(PassRegistry &)

llvm::SIPreAllocateWWMRegsLegacyID
char & SIPreAllocateWWMRegsLegacyID
Definition SIPreAllocateWWMRegs.cpp:91

llvm::make_error
Error make_error(ArgTs &&... Args)
Make a Error instance representing failure using the given error info type.
Definition Error.h:340

llvm::createAMDGPULowerModuleLDSLegacyPass
ModulePass * createAMDGPULowerModuleLDSLegacyPass(const AMDGPUTargetMachine *TM=nullptr)
Definition AMDGPULowerModuleLDSPass.cpp:1598

llvm::initializeAMDGPUPreLegalizerCombinerPass
void initializeAMDGPUPreLegalizerCombinerPass(PassRegistry &)

llvm::createAMDGPUPromoteAlloca
FunctionPass * createAMDGPUPromoteAlloca()
Definition AMDGPUPromoteAlloca.cpp:277

llvm::createSeparateConstOffsetFromGEPPass
LLVM_ABI FunctionPass * createSeparateConstOffsetFromGEPPass(bool LowerGEP=false)
Definition SeparateConstOffsetFromGEP.cpp:506

llvm::initializeAMDGPUReserveWWMRegsLegacyPass
void initializeAMDGPUReserveWWMRegsLegacyPass(PassRegistry &)

llvm::SIPreEmitPeepholeID
char & SIPreEmitPeepholeID

llvm::SIPostRABundlerLegacyID
char & SIPostRABundlerLegacyID

llvm::createAMDGPURemoveIncompatibleFunctionsPass
ModulePass * createAMDGPURemoveIncompatibleFunctionsPass(const TargetMachine *)

llvm::initializeGCNRegPressurePrinterPass
void initializeGCNRegPressurePrinterPass(PassRegistry &)

llvm::initializeSILowerI1CopiesLegacyPass
void initializeSILowerI1CopiesLegacyPass(PassRegistry &)

llvm::SILowerSGPRSpillsLegacyID
char & SILowerSGPRSpillsLegacyID
Definition SILowerSGPRSpills.cpp:120

llvm::createBasicRegisterAllocator
LLVM_ABI FunctionPass * createBasicRegisterAllocator()
BasicRegisterAllocation Pass - This pass implements a degenerate global register allocator using the ...
Definition RegAllocBasic.cpp:253

llvm::initializeGlobalISel
LLVM_ABI void initializeGlobalISel(PassRegistry &)
Initialize all passes linked into the GlobalISel library.
Definition GlobalISel.cpp:17

llvm::SILowerControlFlowLegacyID
char & SILowerControlFlowLegacyID
Definition SILowerControlFlow.cpp:183

llvm::createR600OpenCLImageTypeLoweringPass
ModulePass * createR600OpenCLImageTypeLoweringPass()
Definition R600OpenCLImageTypeLoweringPass.cpp:372

llvm::createAMDGPUCodeGenPreparePass
FunctionPass * createAMDGPUCodeGenPreparePass()
Definition AMDGPUCodeGenPrepare.cpp:2575

llvm::initializeSIAnnotateControlFlowLegacyPass
void initializeSIAnnotateControlFlowLegacyPass(PassRegistry &)

llvm::createAMDGPUISelDag
FunctionPass * createAMDGPUISelDag(TargetMachine &TM, CodeGenOptLevel OptLevel)
This pass converts a legalized DAG into a AMDGPU-specific.
Definition AMDGPUISelDAGToDAG.cpp:165

llvm::initializeGCNCreateVOPDLegacyPass
void initializeGCNCreateVOPDLegacyPass(PassRegistry &)

llvm::initializeAMDGPUUniformIntrinsicCombineLegacyPass
void initializeAMDGPUUniformIntrinsicCombineLegacyPass(PassRegistry &)

llvm::createGCNCoExecMachineScheduler
ScheduleDAGInstrs * createGCNCoExecMachineScheduler(MachineSchedContext *C)
Definition AMDGPUCoExecSchedStrategy.cpp:709

llvm::initializeSIPreAllocateWWMRegsLegacyPass
void initializeSIPreAllocateWWMRegsLegacyPass(PassRegistry &)

llvm::initializeSIFixVGPRCopiesLegacyPass
void initializeSIFixVGPRCopiesLegacyPass(PassRegistry &)

llvm::getTheGCNTarget
Target & getTheGCNTarget()
The target for GCN GPUs.
Definition AMDGPUTargetInfo.cpp:26

llvm::initializeSIFixSGPRCopiesLegacyPass
void initializeSIFixSGPRCopiesLegacyPass(PassRegistry &)

llvm::initializeAMDGPUAtomicOptimizerPass
void initializeAMDGPUAtomicOptimizerPass(PassRegistry &)

llvm::initializeAMDGPULowerIntrinsicsLegacyPass
void initializeAMDGPULowerIntrinsicsLegacyPass(PassRegistry &)

llvm::createGVNPass
LLVM_ABI FunctionPass * createGVNPass()
Definition GVN.cpp:4013

llvm::initializeAMDGPURewriteAGPRCopyMFMALegacyPass
void initializeAMDGPURewriteAGPRCopyMFMALegacyPass(PassRegistry &)

llvm::initializeAMDGPUNextUseAnalysisPrinterLegacyPassPass
void initializeAMDGPUNextUseAnalysisPrinterLegacyPassPass(PassRegistry &)

llvm::initializeSIPostRABundlerLegacyPass
void initializeSIPostRABundlerLegacyPass(PassRegistry &)

llvm::createAMDGPURegBankSelectPass
FunctionPass * createAMDGPURegBankSelectPass()
Definition AMDGPURegBankSelect.cpp:74

llvm::createAMDGPURegBankLegalizePass
FunctionPass * createAMDGPURegBankLegalizePass()
Definition AMDGPURegBankLegalize.cpp:90

llvm::MachineCSELegacyID
LLVM_ABI char & MachineCSELegacyID
MachineCSE - This pass performs global CSE on machine instructions.
Definition MachineCSE.cpp:161

llvm::SIWholeQuadModeID
char & SIWholeQuadModeID
Definition SIWholeQuadMode.cpp:270

llvm::createLoadClusterDAGMutation
LLVM_ABI std::unique_ptr< ScheduleDAGMutation > createLoadClusterDAGMutation(const TargetInstrInfo *TII, const TargetRegisterInfo *TRI, bool ReorderWhileClustering=false)
If ReorderWhileClustering is set to true, no attempt will be made to reduce reordering due to store c...
Definition MachineScheduler.cpp:2056

llvm::FunctionPassManager
PassManager< Function > FunctionPassManager
Convenience typedef for a pass manager over functions.
Definition PassManager.h:270

llvm::LiveVariablesID
LLVM_ABI char & LiveVariablesID
LiveVariables pass - This pass computes the set of blocks in which each variable is life and sets mac...
Definition LiveVariables.cpp:61

llvm::initializeAMDGPUCodeGenPreparePass
void initializeAMDGPUCodeGenPreparePass(PassRegistry &)

llvm::createAMDGPURewriteUndefForPHILegacyPass
FunctionPass * createAMDGPURewriteUndefForPHILegacyPass()
Definition AMDGPURewriteUndefForPHI.cpp:191

llvm::initializeSIOptimizeExecMaskingLegacyPass
void initializeSIOptimizeExecMaskingLegacyPass(PassRegistry &)

llvm::call_once
void call_once(once_flag &flag, Function &&F, Args &&... ArgList)
Execute the function specified as a parameter once.
Definition Threading.h:86

llvm::createSILowerI1CopiesLegacyPass
FunctionPass * createSILowerI1CopiesLegacyPass()
Definition SILowerI1Copies.cpp:914

llvm::createAMDGPUPostLegalizeCombiner
FunctionPass * createAMDGPUPostLegalizeCombiner(bool IsOptNone)
Definition AMDGPUPostLegalizerCombiner.cpp:517

llvm::initializeAMDGPULowerKernelAttributesPass
void initializeAMDGPULowerKernelAttributesPass(PassRegistry &)

llvm::SIInsertHardClausesID
char & SIInsertHardClausesID
Definition SIInsertHardClauses.cpp:320

llvm::DS_Warning
@ DS_Warning
Definition DiagnosticInfo.h:52

llvm::SIFixSGPRCopiesLegacyID
char & SIFixSGPRCopiesLegacyID
Definition SIFixSGPRCopies.cpp:197

llvm::initializeGCNDPPCombineLegacyPass
void initializeGCNDPPCombineLegacyPass(PassRegistry &)

llvm::HighlightColor::Error
@ Error
Definition WithColor.h:34

llvm::GCNCreateVOPDID
char & GCNCreateVOPDID
Definition GCNCreateVOPD.cpp:200

llvm::SIPeepholeSDWALegacyID
char & SIPeepholeSDWALegacyID

llvm::VirtRegRewriterID
LLVM_ABI char & VirtRegRewriterID
VirtRegRewriter pass.
Definition VirtRegMap.cpp:258

llvm::SIFixVGPRCopiesID
char & SIFixVGPRCopiesID

llvm::SIFoldOperandsLegacyID
char & SIFoldOperandsLegacyID

llvm::initializeGCNNSAReassignLegacyPass
void initializeGCNNSAReassignLegacyPass(PassRegistry &)

llvm::createLowerSwitchPass
LLVM_ABI FunctionPass * createLowerSwitchPass()
Definition LowerSwitch.cpp:592

llvm::initializeAMDGPUPreloadKernArgPrologLegacyPass
void initializeAMDGPUPreloadKernArgPrologLegacyPass(PassRegistry &)

llvm::createVirtRegRewriter
LLVM_ABI FunctionPass * createVirtRegRewriter(bool ClearVirtRegs=true)
Definition VirtRegMap.cpp:782

llvm::initializeR600VectorRegMergerPass
void initializeR600VectorRegMergerPass(PassRegistry &)

llvm::AMDGPURewriteAGPRCopyMFMALegacyID
char & AMDGPURewriteAGPRCopyMFMALegacyID
Definition AMDGPURewriteAGPRCopyMFMA.cpp:660

llvm::createAMDGPULowerExecSyncLegacyPass
ModulePass * createAMDGPULowerExecSyncLegacyPass()
Definition AMDGPULowerExecSync.cpp:242

llvm::AMDGPULowerVGPREncodingLegacyID
char & AMDGPULowerVGPREncodingLegacyID
Definition AMDGPULowerVGPREncoding.cpp:659

llvm::createAMDGPUGlobalISelDivergenceLoweringPass
FunctionPass * createAMDGPUGlobalISelDivergenceLoweringPass()
Definition AMDGPUGlobalISelDivergenceLowering.cpp:306

llvm::createSIMemoryLegalizerPass
FunctionPass * createSIMemoryLegalizerPass()
Definition SIMemoryLegalizer.cpp:2590

llvm::initializeAMDGPULateCodeGenPrepareLegacyPass
void initializeAMDGPULateCodeGenPrepareLegacyPass(PassRegistry &)

llvm::initializeSIOptimizeVGPRLiveRangeLegacyPass
void initializeSIOptimizeVGPRLiveRangeLegacyPass(PassRegistry &)

llvm::initializeSIPeepholeSDWALegacyPass
void initializeSIPeepholeSDWALegacyPass(PassRegistry &)

llvm::initializeAMDGPURegBankLegalizePass
void initializeAMDGPURegBankLegalizePass(PassRegistry &)

llvm::TwoAddressInstructionPassID
LLVM_ABI char & TwoAddressInstructionPassID
TwoAddressInstruction - This pass reduces two-address instructions to use two operands.
Definition TwoAddressInstructionPass.cpp:267

llvm::FunctionAnalysisManager
AnalysisManager< Function > FunctionAnalysisManager
Convenience typedef for the Function analysis manager.
Definition PassManager.h:586

llvm::createAMDGPUPreLegalizeCombiner
FunctionPass * createAMDGPUPreLegalizeCombiner(bool IsOptNone)
Definition AMDGPUPreLegalizerCombiner.cpp:290

llvm::initializeAMDGPURegBankSelectPass
void initializeAMDGPURegBankSelectPass(PassRegistry &)

llvm::createAMDGPULateCodeGenPrepareLegacyPass
FunctionPass * createAMDGPULateCodeGenPrepareLegacyPass()
Definition AMDGPULateCodeGenPrepare.cpp:616

llvm::createAtomicExpandLegacyPass
LLVM_ABI FunctionPass * createAtomicExpandLegacyPass()
AtomicExpandPass - At IR level this pass replace atomic instructions with __atomic_* library calls,...
Definition AtomicExpandPass.cpp:503

llvm::createGCNMCRegisterInfo
MCRegisterInfo * createGCNMCRegisterInfo(AMDGPUDwarfFlavour DwarfFlavour)
Definition AMDGPUMCTargetDesc.cpp:71

llvm::createStraightLineStrengthReducePass
LLVM_ABI FunctionPass * createStraightLineStrengthReducePass()
Definition StraightLineStrengthReduce.cpp:630

llvm::BumpPtrAllocator
BumpPtrAllocatorImpl<> BumpPtrAllocator
The standard BumpPtrAllocator which just uses the default template parameters.
Definition Allocator.h:383

llvm::createAMDGPUImageIntrinsicOptimizerPass
FunctionPass * createAMDGPUImageIntrinsicOptimizerPass(const TargetMachine *)
Definition AMDGPUImageIntrinsicOptimizer.cpp:325

llvm::initializeAMDGPULowerBufferFatPointersPass
void initializeAMDGPULowerBufferFatPointersPass(PassRegistry &)

llvm::initializeAMDGPUUnifyDivergentExitNodesLegacyPass
void initializeAMDGPUUnifyDivergentExitNodesLegacyPass(PassRegistry &)

llvm::createSIInsertWaitcntsPass
FunctionPass * createSIInsertWaitcntsPass()
Definition SIInsertWaitcnts.cpp:1804

llvm::createAMDGPUAnnotateUniformValuesLegacy
FunctionPass * createAMDGPUAnnotateUniformValuesLegacy()
Definition AMDGPUAnnotateUniformValues.cpp:149

llvm::createEarlyCSEPass
LLVM_ABI FunctionPass * createEarlyCSEPass(bool UseMemorySSA=false)
Definition EarlyCSE.cpp:1946

llvm::initializeSIWholeQuadModeLegacyPass
void initializeSIWholeQuadModeLegacyPass(PassRegistry &)

llvm::PHIEliminationID
LLVM_ABI char & PHIEliminationID
PHIElimination - This pass eliminates machine instruction PHI nodes by inserting copy instructions.
Definition PHIElimination.cpp:206

llvm::NoKernelInfoEndLTO
LLVM_ABI llvm::cl::opt< bool > NoKernelInfoEndLTO

llvm::parseNamedRegisterReference
LLVM_ABI bool parseNamedRegisterReference(PerFunctionMIParsingState &PFS, Register &Reg, StringRef Src, SMDiagnostic &Error)
Definition MIParser.cpp:4002

llvm::initializeAMDGPUResourceUsageAnalysisWrapperPassPass
void initializeAMDGPUResourceUsageAnalysisWrapperPassPass(PassRegistry &)

llvm::createSIShrinkInstructionsLegacyPass
FunctionPass * createSIShrinkInstructionsLegacyPass()

llvm::AMDGPUPrepareAGPRAllocLegacyID
char & AMDGPUPrepareAGPRAllocLegacyID

llvm::AMDGPUMarkLastScratchLoadID
char & AMDGPUMarkLastScratchLoadID
Definition AMDGPUMarkLastScratchLoad.cpp:157

llvm::RegAllocType
RegAllocType
Definition CGPassBuilderOption.h:31

llvm::RegAllocType::Default
@ Default
Definition CGPassBuilderOption.h:31

llvm::RegAllocType::Basic
@ Basic
Definition CGPassBuilderOption.h:31

llvm::RegAllocType::Greedy
@ Greedy
Definition CGPassBuilderOption.h:31

llvm::RegAllocType::Fast
@ Fast
Definition CGPassBuilderOption.h:31

llvm::RegAllocType::PBQP
@ PBQP
Definition CGPassBuilderOption.h:31

llvm::RenameIndependentSubregsID
LLVM_ABI char & RenameIndependentSubregsID
This pass detects subregister lanes in a virtual register that are used independently of other lanes ...
Definition RenameIndependentSubregs.cpp:119

llvm::initializeAMDGPUAnnotateUniformValuesLegacyPass
void initializeAMDGPUAnnotateUniformValuesLegacyPass(PassRegistry &)

llvm::createAMDGPUExportClusteringDAGMutation
std::unique_ptr< ScheduleDAGMutation > createAMDGPUExportClusteringDAGMutation()
Definition AMDGPUExportClustering.cpp:142

llvm::initializeAMDGPUPrintfRuntimeBindingPass
void initializeAMDGPUPrintfRuntimeBindingPass(PassRegistry &)

llvm::initializeAMDGPUPromoteAllocaPass
void initializeAMDGPUPromoteAllocaPass(PassRegistry &)

llvm::initializeAMDGPURemoveIncompatibleFunctionsLegacyPass
void initializeAMDGPURemoveIncompatibleFunctionsLegacyPass(PassRegistry &)

llvm::createAMDGPUHazardLatencyDAGMutation
std::unique_ptr< ScheduleDAGMutation > createAMDGPUHazardLatencyDAGMutation(MachineFunction *MF)
Definition AMDGPUHazardLatency.cpp:75

llvm::initializeAMDGPUAlwaysInlinePass
void initializeAMDGPUAlwaysInlinePass(PassRegistry &)

llvm::Wave32
@ Wave32
Definition AMDGPUMCTargetDesc.h:33

llvm::Wave64
@ Wave64
Definition AMDGPUMCTargetDesc.h:33

llvm::DeadMachineInstructionElimID
LLVM_ABI char & DeadMachineInstructionElimID
DeadMachineInstructionElim - This pass removes dead machine instructions.
Definition DeadMachineInstructionElim.cpp:74

llvm::initializeSIPreEmitPeepholeLegacyPass
void initializeSIPreEmitPeepholeLegacyPass(PassRegistry &)

llvm::ModuleAnalysisManager
AnalysisManager< Module > ModuleAnalysisManager
Convenience typedef for the Module analysis manager.
Definition MIRParser.h:39

llvm::AMDGPUPerfHintAnalysisLegacyID
char & AMDGPUPerfHintAnalysisLegacyID
Definition AMDGPUPerfHintAnalysis.cpp:467

llvm::createExternalAAWrapperPass
LLVM_ABI ImmutablePass * createExternalAAWrapperPass(std::function< void(Pass &, Function &, AAResults &)> Callback)
A wrapper pass around a callback which can be used to populate the AAResults in the AAResultsWrapperP...

llvm::GCNPreRALongBranchRegID
char & GCNPreRALongBranchRegID

llvm::getCGPassBuilderOption
LLVM_ABI CGPassBuilderOption getCGPassBuilderOption()
Definition TargetPassConfig.cpp:499

llvm::reportFatalUsageError
LLVM_ABI void reportFatalUsageError(Error Err)
Report a fatal error that does not indicate a bug in LLVM.
Definition Error.cpp:177

llvm::initializeAMDGPUPromoteKernelArgumentsPass
void initializeAMDGPUPromoteKernelArgumentsPass(PassRegistry &)

N
#define N

llvm::AMDGPUAlwaysInlinePass
Definition AMDGPU.h:309

llvm::AMDGPUAtomicOptimizerPass
Definition AMDGPU.h:289

llvm::AMDGPUAttributorOptions
Definition AMDGPU.h:368

llvm::AMDGPUAttributorOptions::IsClosedWorld
bool IsClosedWorld
Definition AMDGPU.h:369

llvm::AMDGPUFunctionArgInfo::PrivateSegmentBuffer
ArgDescriptor PrivateSegmentBuffer
Definition AMDGPUArgumentUsageInfo.h:127

llvm::AMDGPUFunctionArgInfo::WorkGroupIDY
ArgDescriptor WorkGroupIDY
Definition AMDGPUArgumentUsageInfo.h:138

llvm::AMDGPUFunctionArgInfo::WorkGroupIDZ
ArgDescriptor WorkGroupIDZ
Definition AMDGPUArgumentUsageInfo.h:139

llvm::AMDGPUFunctionArgInfo::PrivateSegmentSize
ArgDescriptor PrivateSegmentSize
Definition AMDGPUArgumentUsageInfo.h:133

llvm::AMDGPUFunctionArgInfo::DispatchID
ArgDescriptor DispatchID
Definition AMDGPUArgumentUsageInfo.h:131

llvm::AMDGPUFunctionArgInfo::ImplicitArgPtr
ArgDescriptor ImplicitArgPtr
Definition AMDGPUArgumentUsageInfo.h:145

llvm::AMDGPUFunctionArgInfo::PrivateSegmentWaveByteOffset
ArgDescriptor PrivateSegmentWaveByteOffset
Definition AMDGPUArgumentUsageInfo.h:141

llvm::AMDGPUFunctionArgInfo::WorkGroupInfo
ArgDescriptor WorkGroupInfo
Definition AMDGPUArgumentUsageInfo.h:140

llvm::AMDGPUFunctionArgInfo::WorkItemIDZ
ArgDescriptor WorkItemIDZ
Definition AMDGPUArgumentUsageInfo.h:154

llvm::AMDGPUFunctionArgInfo::WorkItemIDY
ArgDescriptor WorkItemIDY
Definition AMDGPUArgumentUsageInfo.h:153

llvm::AMDGPUFunctionArgInfo::LDSKernelId
ArgDescriptor LDSKernelId
Definition AMDGPUArgumentUsageInfo.h:134

llvm::AMDGPUFunctionArgInfo::QueuePtr
ArgDescriptor QueuePtr
Definition AMDGPUArgumentUsageInfo.h:129

llvm::AMDGPUFunctionArgInfo::KernargSegmentPtr
ArgDescriptor KernargSegmentPtr
Definition AMDGPUArgumentUsageInfo.h:130

llvm::AMDGPUFunctionArgInfo::WorkItemIDX
ArgDescriptor WorkItemIDX
Definition AMDGPUArgumentUsageInfo.h:152

llvm::AMDGPUFunctionArgInfo::FlatScratchInit
ArgDescriptor FlatScratchInit
Definition AMDGPUArgumentUsageInfo.h:132

llvm::AMDGPUFunctionArgInfo::DispatchPtr
ArgDescriptor DispatchPtr
Definition AMDGPUArgumentUsageInfo.h:128

llvm::AMDGPUFunctionArgInfo::ImplicitBufferPtr
ArgDescriptor ImplicitBufferPtr
Definition AMDGPUArgumentUsageInfo.h:148

llvm::AMDGPUFunctionArgInfo::FirstKernArgPreloadReg
Register FirstKernArgPreloadReg
Definition AMDGPUArgumentUsageInfo.h:159

llvm::AMDGPUFunctionArgInfo::WorkGroupIDX
ArgDescriptor WorkGroupIDX
Definition AMDGPUArgumentUsageInfo.h:137

llvm::AMDGPUImageIntrinsicOptimizerPass
Definition AMDGPU.h:82

llvm::AMDGPUInsertDelayAluPass
Definition AMDGPU.h:300

llvm::AMDGPULowerBufferFatPointersPass
Definition AMDGPU.h:156

llvm::AMDGPULowerExecSyncPass
Definition AMDGPU.h:322

llvm::AMDGPULowerIntrinsicsPass
Definition AMDGPU.h:167

llvm::AMDGPULowerKernelAttributesPass
Definition AMDGPU.h:137

llvm::AMDGPULowerModuleLDSPass
Definition AMDGPU.h:145

llvm::AMDGPUPerfHintAnalysisPass
Definition AMDGPUPerfHintAnalysis.h:65

llvm::AMDGPUPrintfRuntimeBindingPass
Definition AMDGPU.h:487

llvm::AMDGPUPromoteAllocaPass
Definition AMDGPU.h:271

llvm::AMDGPUPromoteAllocaToVectorPass
Definition AMDGPU.h:280

llvm::AMDGPUPromoteKernelArgumentsPass
Definition AMDGPU.h:128

llvm::AMDGPUSimplifyLibCallsPass
Definition AMDGPU.h:76

llvm::AMDGPUSwLowerLDSPass
Definition AMDGPU.h:332

llvm::AMDGPUUniformIntrinsicCombinePass
Definition AMDGPU.h:606

llvm::AMDGPUUseNativeCallsPass
Definition AMDGPU.h:91

llvm::ArgDescriptor
Definition AMDGPUArgumentUsageInfo.h:23

llvm::ArgDescriptor::createStack
static ArgDescriptor createStack(unsigned Offset, unsigned Mask=~0u)
Definition AMDGPUArgumentUsageInfo.h:41

llvm::ArgDescriptor::createArg
static ArgDescriptor createArg(const ArgDescriptor &Arg, unsigned Mask)
Definition AMDGPUArgumentUsageInfo.h:47

llvm::ArgDescriptor::createRegister
static ArgDescriptor createRegister(Register Reg, unsigned Mask=~0u)
Definition AMDGPUArgumentUsageInfo.h:35

llvm::CGPassBuilderOption
Definition CGPassBuilderOption.h:50

llvm::DenormalMode::Input
DenormalModeKind Input
Denormal treatment kind for floating point instruction inputs in the default floating-point environme...
Definition FloatingPointMode.h:97

llvm::DenormalMode::PreserveSign
@ PreserveSign
The sign of a flushed-to-zero number is preserved in the sign of 0.
Definition FloatingPointMode.h:81

llvm::DenormalMode::IEEE
@ IEEE
IEEE-754 denormal numbers preserved.
Definition FloatingPointMode.h:78

llvm::DenormalMode::Output
DenormalModeKind Output
Denormal flushing mode for floating point instruction results in the default floating point environme...
Definition FloatingPointMode.h:92

llvm::EarlyCSEPass
A simple and fast domtree-based CSE pass.
Definition EarlyCSE.h:31

llvm::FixIrreduciblePass
Definition FixIrreducible.h:15

llvm::FlattenCFGPass
Definition FlattenCFG.h:20

llvm::InferAddressSpacesPass
Definition InferAddressSpaces.h:16

llvm::LICMOptions
Definition LICM.h:48

llvm::LowerSwitchPass
Definition LowerSwitch.h:21

llvm::MachineFunctionInfo
MachineFunctionInfo - This class can be derived from and used by targets to hold private target-speci...
Definition MachineFunction.h:104

llvm::MachineFunctionInfo::create
static FuncInfoTy * create(BumpPtrAllocator &Allocator, const Function &F, const SubtargetTy *STI)
Factory function: default behavior is to call new using the supplied allocator.
Definition MachineFunction.h:112

llvm::MachineSchedContext
MachineSchedContext provides enough context from the MachineScheduler pass for the target to instanti...
Definition MachineScheduler.h:145

llvm::PerFunctionMIParsingState
Definition MIParser.h:167

llvm::PerFunctionMIParsingState::SM
SourceMgr * SM
Definition MIParser.h:170

llvm::PerFunctionMIParsingState::VRegInfosNamed
StringMap< VRegInfo * > VRegInfosNamed
Definition MIParser.h:179

llvm::PerFunctionMIParsingState::MF
MachineFunction & MF
Definition MIParser.h:169

llvm::PerFunctionMIParsingState::VRegInfos
DenseMap< Register, VRegInfo * > VRegInfos
Definition MIParser.h:178

llvm::RegisterTargetMachine
RegisterTargetMachine - Helper template for registering a target machine implementation,...
Definition TargetRegistry.h:1288

llvm::RequireAnalysisPass
A utility pass template to force an analysis result to be available.
Definition PassManager.h:923

llvm::SIModeRegisterDefaults::DX10Clamp
bool DX10Clamp
Used by the vector ALU to force DX10-style treatment of NaNs: when set, clamp NaN to zero; otherwise,...
Definition SIModeRegisterDefaults.h:29

llvm::SIModeRegisterDefaults::FP64FP16Denormals
DenormalMode FP64FP16Denormals
If this is set, neither input or output denormals are flushed for both f64 and f16/v2f16 instructions...
Definition SIModeRegisterDefaults.h:37

llvm::SIModeRegisterDefaults::IEEE
bool IEEE
Floating point opcodes that support exception flag gathering quiet and propagate signaling NaN inputs...
Definition SIModeRegisterDefaults.h:25

llvm::SIModeRegisterDefaults::FP32Denormals
DenormalMode FP32Denormals
If this is set, neither input or output denormals are flushed for most f32 instructions.
Definition SIModeRegisterDefaults.h:33

llvm::StructurizeCFGPass
Definition StructurizeCFG.h:15

llvm::cl::desc
Definition CommandLine.h:410

llvm::once_flag
The llvm::once_flag structure.
Definition Threading.h:67

llvm::yaml::MachineFunctionInfo
Targets should override this in a way that mirrors the implementation of llvm::MachineFunctionInfo.
Definition MIRYamlMapping.h:791

llvm::yaml::SIArgument
Definition SIMachineFunctionInfo.h:91

llvm::yaml::SIMachineFunctionInfo
Definition SIMachineFunctionInfo.h:262

llvm::yaml::SIMachineFunctionInfo::SGPRForEXECCopy
StringValue SGPRForEXECCopy
Definition SIMachineFunctionInfo.h:300

llvm::yaml::SIMachineFunctionInfo::WWMReservedRegs
SmallVector< StringValue > WWMReservedRegs
Definition SIMachineFunctionInfo.h:282

llvm::yaml::SIMachineFunctionInfo::FrameOffsetReg
StringValue FrameOffsetReg
Definition SIMachineFunctionInfo.h:285

llvm::yaml::SIMachineFunctionInfo::LongBranchReservedReg
StringValue LongBranchReservedReg
Definition SIMachineFunctionInfo.h:301

llvm::yaml::SIMachineFunctionInfo::NumKernargPreloadSGPRs
unsigned NumKernargPreloadSGPRs
Definition SIMachineFunctionInfo.h:309

llvm::yaml::SIMachineFunctionInfo::VGPRForAGPRCopy
StringValue VGPRForAGPRCopy
Definition SIMachineFunctionInfo.h:299

llvm::yaml::SIMachineFunctionInfo::Mode
SIMode Mode
Definition SIMachineFunctionInfo.h:297

llvm::yaml::SIMachineFunctionInfo::HasInitWholeWave
bool HasInitWholeWave
Definition SIMachineFunctionInfo.h:303

llvm::yaml::SIMachineFunctionInfo::ArgInfo
std::optional< SIArgumentInfo > ArgInfo
Definition SIMachineFunctionInfo.h:291

llvm::yaml::SIMachineFunctionInfo::SpillPhysVGPRS
SmallVector< StringValue, 2 > SpillPhysVGPRS
Definition SIMachineFunctionInfo.h:281

llvm::yaml::SIMachineFunctionInfo::ScratchRSrcReg
StringValue ScratchRSrcReg
Definition SIMachineFunctionInfo.h:284

llvm::yaml::SIMachineFunctionInfo::StackPtrOffsetReg
StringValue StackPtrOffsetReg
Definition SIMachineFunctionInfo.h:286

llvm::yaml::SIMode::IEEE
bool IEEE
Definition SIMachineFunctionInfo.h:220

llvm::yaml::SIMode::DX10Clamp
bool DX10Clamp
Definition SIMachineFunctionInfo.h:221

llvm::yaml::SIMode::FP64FP16OutputDenormals
bool FP64FP16OutputDenormals
Definition SIMachineFunctionInfo.h:225

llvm::yaml::SIMode::FP64FP16InputDenormals
bool FP64FP16InputDenormals
Definition SIMachineFunctionInfo.h:224

llvm::yaml::SIMode::FP32OutputDenormals
bool FP32OutputDenormals
Definition SIMachineFunctionInfo.h:223

llvm::yaml::SIMode::FP32InputDenormals
bool FP32InputDenormals
Definition SIMachineFunctionInfo.h:222

llvm::yaml::StringValue
A wrapper around std::string which contains a source range that's being set during parsing.
Definition MIRYamlMapping.h:35