Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik Chip Power Scaling [Azizi 2010] Chip power does not scale 2 © Hardavellas Voltage Scaling Has Slowed 14 Scaling Factor 12 10 8 Transistor Scaling (Moore's Law) 6 4 2 0 2003 2006 2009 2012 2015 Year In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough 3 © Hardavellas Pin Bandwidth Scaling 14 Transistor Scaling (Moore's Law) Scaling Factor 12 10 Pin Bandwidth 8 6 4 2 0 2003 2006 2009 2012 2015 Year [TU Berlin] Cannot feed cores with data fast enough to keep them busy 4 © Hardavellas Data Scaling March’11: 1.6PB data (Tier-1) • Large Synoptic Survey Telescope 30 TB/night 2x Sloan Digital Sky Surveys/day OS Dataset Scaling (Muhrvold's Law) Transistor Scaling (Moore's Law) TPC Dataset (Historic) 20 Scaling Factor • SPEC, TPC datasets growth: faster than Moore • Same trends in scientific, personal computing • Large Hadron Collider 15 10 5 0 Sloan: more data than entire history of astronomy before it 2004 2007 2010 2013 2016 2019 Year More data more computing power to process them 5 © Hardavellas Galaxy: Optically-Connected Disintegrated Processors [Pan, WINDS 2010] • Physical constraints limit single-chip designs Processing Processing Element Element Area, Yield, Power, Bandwidth • Multi-chip designs break free of these limitations Processing Element Element Processing Processor disintegration Macrochip Macrochip Macro-chip integration PP M M R R PP PP R R M M R R PP PP R R M M R R PP M M R R P P P PP M M M R R R P P P R R R M M M R R R PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE P M P M P M R R R R R RPE R R R PE P M P M P M R R R R R RPE R R R PE P M P M P M R R R R R R PE PE P M P M R R R R R R PE PE P M P M R R R R R R PE PE PE P M P M PE PE R PER R PER R R PE PE PE P M P M PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE P M P M P M R R RPE PE PE PE P M P M P M R R R PE PE PE PE P M PP M M R R PE PE PE PE P M P M R R PE PE PE PE P M P M R R PE PE PE PE PE PE P M P M R R PE PE PE PE PE PE P M P M P P P P P P R R R Macrochip Macrochip PE PE PE PE PE PE PE PE 6 PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE M M M M M M P P P P P P P P P P P P M M M M M M R R R R R R P P P P P P P P P P P P R R R R R R M M M M M M R R R R R R P P P P P P P P P P P P M M M M M M P P P P M M M M M M P P P P P P M M M M M M M M M M R R R R P P P P R R R R M M M M R R R R P P P P M M M M P P M M M M R R R R P P P P R R M M R R M M M M R R R R R R R R R R R R P P P P M M M M P P P M M M M R R R R R R R R R R R R R P P P P M M M M P P P M M R R R R R R R R R R R R P P M M M M P P P M M R R R R R R R R R R R R R R R R R R R R R R R R M M M M M M P P M M P P P M M R R R R R R R R R R R R R R R R R R R R R R R R R M M M M M M P P M M P P M M R R R R R R R R R R R R R R M M P P M M M M P P R R R R R R R R R R R R R R R R P P M M M M P PP P M M R R R R R R R R R R R R R R R R R R M M M M P PP P M M M M P P R R R R R R R R R R R R R R R R P PP P M M M M P PP P M M M M M M R R R R R R R R R R R R R R R R M M M M P PP P M M P PP P R R R R R R R R R R R R R R P PP P M M PP M M M M R R R R R R R R R R P PP P M M R R M M M M R R P P R R M M R R Multiple Chi Multiple Chiplets P P P P M M M M P P P P R R R R R R R R P P P P PE PER R R R P P PP PE PE M M M M PE PER R R R M M M M PE PE PE PE PE PE M M M M R R R R P P M M P P M M R R R R R R R R P M P M P M P M PE PE PE PE PER PE R R R R R P M P M M PP M PE PE PE PE PE PE P P PE PE PER PE R P P PE PE PE PE M M PE PE PE PE R R M M PE PE PE PE P P PE PE PE PE R R P P PE PE PE PE M M PE PE PE PE PE PE M M PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE Multiple Chip Multiple Chiplets PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PEHardavellas PE PE PE PE PE PE PE PE © Outline • Introduction ➔ Background • Galaxy Architecture • Experimental Methodology • Results Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling • Conclude • Overview of Other Research 7 © Hardavellas Nanophotonic Components resonant detectors Ge-doped coupler waveguide off-chip laser source resonant modulators Selective: couple optical energy of a specific wavelength 8 © Hardavellas Modulation and Detection 10001011 11010101 16 - 64 wavelengths DWDM 5 - 20μm waveguide pitch 10Gbps per link 10001011 11010101 8 Tbps/mm bandwidth density or more !!! 9 © Hardavellas Outline • Introduction • Background ➔ Galaxy Architecture • Experimental Methodology • Results Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling • Conclude • Overview of Other Research 10 © Hardavellas Galaxy Architecture Optical Fiber Bundle Off-Chip Laser Chiplet 3 Couplers Chiplet 2 Electrical Ring Network Off-Chip Laser Waveguide Bundle Chiplet 4 Chiplet 0 (a) 11 Chiplet 1 © Hardavellas Routing Example Laser Source Optic Fiber 1 3 2 13 15 5 7 6 16 14 28 18 9 11 17 20 10 21 30 24 22 Chiplet 0 29 25 26 Chiplet 1 12 © Hardavellas Galaxy Architecture Optical Fiber Bundle Off-Chip Laser Chiplet 3 Couplers Chiplet 2 Electrical Ring Network Off-Chip Laser Waveguide Bundle Chiplet 4 Chiplet 0 (a) 13 Chiplet 1 © Hardavellas Galaxy MWSR Optical Crossbar Read Write Off-Chip Laser Couple Electrical Input Ports Electrical VC/Switch Allocator Electrical Output Ports Downstream Channel Upstream Channel (b) Optical Token Arbiter Optical Output Ports (c) More energy-efficient than SWMR at that scale MWSR avoids broadcast bus, but requires arbitration 14 © Hardavellas Token-Based Arbitration VC Token forward traversal Data Channel VC Token back traversal 8 cycles on average for token arbitration (5 chiplets) 15 © Hardavellas Dense Off-Chip Coupling • Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010] • ~3.8dB loss, 8 Tbps/mm demonstrated • Misalignment <0.7μm, 0.4μm, 0.7μm> loss <1 dB Loss comparable to optical proximity couplers 16 © Hardavellas Nanophotonic Parameters 17 © Hardavellas Outline • Introduction • Background • Galaxy Architecture ➔ Experimental Methodology • Results Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling • Conclude • Overview of Other Research 18 © Hardavellas Architectural Parameters 19 © Hardavellas Modeling Infrastructure Cycle Accurate Full System Simulation DVFS for Temperature Limiting Flexus 4.0 Booksim 2.0 DRAMSim 2.0 SimFlex sampling 95% confidence Power Calculations with Runtime Statistics photonic-layer ring heating Operating Temperature 3D-stack model Accurate Lekage and Dynamic Interconnect Cores,Cache, Power Analytical MCs + Model + McPat 0.8 DSENT Single Chip Design Multi-Chip Design HotSpot 5.0 FloTherm 9.2 Thermal Modeling 20 © Hardavellas Outline • • • • • Introduction Background Galaxy Architecture Experimental Methodology Results ➔ Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling • Conclude • Overview of Other Research 21 © Hardavellas Load-Latency Curves Average Latency (cycles) 40 35 30 25 20 15 10 5 1 token 8 tokens 16 tokens 24 tokens unlimited tokens 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Injection Rate 16 tokens provide optimal buffer depth 22 © Hardavellas Laser Power Sensitivity to Optical Parameters Coupler Loss Waveguide & Filter Drop Loss Off-Ring Loss Modulator Insertion Loss Highly sensitive to coupler loss, insensitive to other losses 23 © Hardavellas Sensitivity to Fiber Density • 116mm2 chiplets 43mm along the chip edge • Enough room for 172 fibers @ 250μm pitch 128 fibers: within 3% of max performance 24 © Hardavellas Outline • • • • • Introduction Background Galaxy Architecture Experimental Methodology Results Sensitivity Studies ➔ Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling • Conclude • Overview of Other Research 25 © Hardavellas Performance Against “Unlimited” Designs • Unlimited power (max speed of design, irrespective of temp.) • Mesh_20MC & Corona_20MC Also unlimited bandwidth (20 MCs per chip, 5x more pins) Galaxy matches the performance of “unlimited” designs 26 © Hardavellas Performance Against Realistic Designs • Realistic: within power and bandwidth envelopes • Galaxy chiplets within 66.2oC chiplets run at max speed Galaxy: 2.2x speedup on average (3.4 max) 27 © Hardavellas Energy-Delay Product Photonics 0.2 Core+Cache Dyn 0 Core+Cache Leak Appbt Em3d Ocean Tomcatv Barnes Mesh Corona Galaxy MC Leak Mesh Corona Galaxy 0.4 Mesh Corona Galaxy MC Dyn Mesh Corona Galaxy 0.6 Mesh Corona Galaxy Electrical Net Leak Mesh Corona Galaxy 0.8 Mesh Corona Galaxy Electrical Net Dyn Mesh Corona Galaxy 1 Mesh Corona Galaxy EDP (J x sec) 1.2 Fmm Moldyn Water Average • Cool chiplets minimize leakage Galaxy: 2.4x-2.8x smaller EDP on average (6.8x max) 28 © Hardavellas Outline • • • • • Introduction Background Galaxy Architecture Experimental Methodology Results Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) ➔ Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling • Conclude • Overview of Other Research 29 © Hardavellas Comparison Against Multi-Chip Alternatives 30 © Hardavellas Comparison Against Multi-Chip Alternatives Fiber Galaxy: 2.5x over Oracle Macrochip (6.8x max) 31 © Hardavellas Tapered vs. Optical Proximity Couplers 6x less laser power than Oracle Macrochip with demonstrated couplers 32 © Hardavellas Outline • • • • • Introduction Background Galaxy Architecture Experimental Methodology Results Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) ➔ Thermal Modeling • Conclude • Overview of Other Research 33 © Hardavellas 80-core 5-chiplet Galaxy Thermal CFD Modeling 88.20C 8cm spacing allows cooling with cheap passive heatsinks 34 © Hardavellas 9-chiplet Dense Array (Oracle Macrochip) 2490C Tight arrangement points to liquid cooling requirement 35 © Hardavellas 9-chiplet Galaxy 2D 1100C Cooling 9 chiplets with passive heatsinks 36 © Hardavellas 83.60C 9-chiplet Galaxy 3D Flexible fibers allow “virtual chip” to break free of 2D planar designs 37 © Hardavellas Galaxy Summary • “Virtual chips” with the performance of unlimited designs • Breaks free of typical physical constraints Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall • Processor disintegration 2.2x avg. speedup (3.4 max) 2.4x-2.8x avg. smaller EDP (6.8x max) • Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links 38 © Hardavellas Outline • • • • • Introduction Background Galaxy Architecture Experimental Methodology Results Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling • Conclude ➔ Overview of Other Research 39 © Hardavellas Energy is Shaping the IT Industry #1 of Grand Challenges for Humanity in the Next 50 Years [Smalley Institute for Nanoscale Research and Technology, Rice U.] • Computing worldwide: ~408 TWh in 2010 [Gartner] • Datacenter energy consumption in US ~150 TWh in 2011 [EPA] 3.8% of domestic power generation, $15B CO2-equiv. emissions ≈ Airline Industry (2%) • Carbon footprint of world’s data centers ≈ Czech Republic • Exascale @ 20MW: 200x lower energy/instr. (2nJ 10pJ) 3% of the output of an average nuclear plant! • 10% annual growth on installed computers worldwide [Gartner] Exponential increase in energy consumption 40 © Hardavellas Overall Focus: Energy-Efficient Computing • Integer add: 0.5pJ; FP-FMA: 50pJ. Where does energy go? Data movement: 1200pJ across 400mm2 chip, 16000pJ memory Elastic caches: minimize data transfers through adapting caches to workload demands [ISCA’09, IEEEMicro’10, DATE’12] Processing: ~1500pJ to schedule the operation SeaFire: specialized computing on dark silicon to eliminate generalpurpose computing’s overheads [IEEEMicro’11, USENIX-Login’11] Circuits: wide voltage guardbands Low voltages, process variation timing errors computing errors Elastic fidelity: allow errors at select code/data segments to save energy while maintaining fidelity contract with user [CoRR abs/1111.4279] • Chips fundamentally limited by physical constraints. Need to break free. Galaxy: processor disintegration/macrochip integration using photonic interconnects [WINDS’10] Thank You! 42 © Hardavellas Overcoming Data Movement and Processing Overheads • Elastic caches: adapt cache to workload’s demands Significant energy on data movements and coherence requests Co-locate data, metadata, and computation Decouple address from placement location Capitalize on existing OS events simplify hardware Cut on-chip interconnect traffic by half • Seafire: specialized computing on dark silicon Repurpose dark silicon to implement specialized cores Macrochip Application cherry-picks a few cores, rest of chip is powered off Vast unused area many specialized cores likely to find good matches 12x lower energy (conservative) 43 Pr PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE © Hardavellas Overcoming Voltage Guardbands • Elastic fidelity: selectively trade accuracy for energy We don’t always need 100% accuracy, but HW always provides it Language constructs specify required fidelity for code/data segments Steer computation to exec/storage units with appropriate fidelity and lower voltage 35% lower energy No errors 10% errors 44 © Hardavellas