Galaxy - Northwestern University

advertisement
Galaxy:
High-Performance Energy-Efficient
Multi-Chip Architectures Using
Photonic Interconnects
Nikos Hardavellas
PARAG@N – Parallel Architecture Group
Northwestern University
Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik
Chip Power Scaling
[Azizi 2010]
Chip power does not scale
2
© Hardavellas
Voltage Scaling Has Slowed
14
Scaling Factor
12
10
8
Transistor
Scaling
(Moore's Law)
6
4
2
0
2003
2006
2009
2012
2015
Year
In last decade: 13x transistors but 30% lower voltage
Cannot run all transistors fast enough
3
© Hardavellas
Pin Bandwidth Scaling
14
Transistor Scaling
(Moore's Law)
Scaling Factor
12
10
Pin Bandwidth
8
6
4
2
0
2003
2006
2009
2012
2015
Year
[TU Berlin]
Cannot feed cores with data fast enough to keep them busy
4
© Hardavellas
Data Scaling

March’11: 1.6PB data (Tier-1)
• Large Synoptic Survey Telescope


30 TB/night
2x Sloan Digital Sky Surveys/day
OS Dataset Scaling (Muhrvold's Law)
Transistor Scaling (Moore's Law)
TPC Dataset (Historic)
20
Scaling Factor
• SPEC, TPC datasets growth:
faster than Moore
• Same trends in scientific,
personal computing
• Large Hadron Collider
15
10
5
0
 Sloan: more data than entire
history of astronomy before it
2004 2007 2010 2013 2016 2019
Year
More data  more computing power to process them
5
© Hardavellas
Galaxy: Optically-Connected Disintegrated Processors
[Pan, WINDS 2010]
• Physical constraints limit single-chip designs
Processing
Processing
Element Element
 Area, Yield, Power, Bandwidth
• Multi-chip designs break free of these limitations
Processing
Element Element
Processing
 Processor disintegration
Macrochip
Macrochip
 Macro-chip integration
PP
M
M
R
R
PP
PP
R
R
M
M
R
R
PP
PP
R
R
M
M
R
R
PP
M
M
R
R
P
P
P
PP
M
M
M
R
R
R
P
P
P
R
R
R
M
M
M
R
R
R
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
P
M
P
M
P
M
R
R
R
R
R
RPE R
R
R
PE
P
M
P
M
P
M
R
R
R
R
R
RPE R
R
R
PE
P
M
P
M
P
M
R
R
R
R
R
R
PE
PE
P
M
P
M
R
R
R
R
R
R
PE
PE
P
M
P
M
R
R
R
R
R
R
PE
PE
PE
P
M
P
M
PE
PE
R PER
R PER
R
R
PE
PE
PE
P
M
P
M
PE
PE PE
PE
PE
PE
PE
PE PE
PE
PE
PE PE
PE
PE
PE
PE
PE PE
PE
PE
PE PE
PE
PE
PE
PE
PE PE
PE
PE
PE PE
PE
PE
PE
PE
PE PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
P
M
P
M
P
M
R
R
RPE
PE
PE
PE
P
M
P
M
P
M
R
R
R
PE
PE
PE
PE
P
M
PP
M
M
R
R
PE
PE
PE
PE
P
M
P
M
R
R
PE
PE
PE
PE
P
M
P
M
R
R
PE
PE
PE
PE
PE
PE
P
M
P
M
R
R
PE
PE
PE
PE
PE
PE
P
M
P
M
P
P
P
P
P
P
R
R
R
Macrochip
Macrochip
PE
PE
PE
PE
PE
PE
PE
PE
6
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
M
M
M
M
M
M
P
P
P
P
P
P
P
P
P
P
P
P
M
M
M
M
M
M
R
R
R
R
R
R
P
P
P
P
P
P
P
P
P
P
P
P
R
R
R
R
R
R
M
M
M
M
M
M
R
R
R
R
R
R
P
P
P
P
P
P
P
P
P
P
P
P
M
M
M
M
M
M
P
P
P
P
M
M
M
M
M
M
P
P
P
P
P
P
M
M
M
M
M
M
M
M
M
M
R
R
R
R
P
P
P
P
R
R
R
R
M
M
M
M
R
R
R
R
P
P
P
P
M
M
M
M
P
P
M
M
M
M
R
R
R
R
P
P
P
P
R
R
M
M
R
R
M
M
M
M
R
R
R
R
R
R
R
R
R
R
R
R
P
P
P
P
M
M
M
M
P
P
P
M
M
M
M
R
R
R
R
R
R
R
R
R
R
R
R
R
P
P
P
P
M
M
M
M
P
P
P
M
M
R
R
R
R
R
R
R
R
R
R
R
R
P
P
M
M
M
M
P
P
P
M
M
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
M
M
M
M
M
M
P
P
M
M
P
P
P
M
M
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
M
M
M
M
M
M
P
P
M
M
P
P
M
M
R
R
R
R
R
R
R
R
R
R
R
R
R
R
M
M
P
P
M
M
M
M
P
P
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
P
P
M
M
M
M
P
PP
P
M
M
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
M
M
M
M
P
PP
P
M
M
M
M
P
P
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
P
PP
P
M
M
M
M
P
PP
P
M
M
M
M
M
M
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
R
M
M
M
M
P
PP
P
M
M
P
PP
P
R
R
R
R
R
R
R
R
R
R
R
R
R
R
P
PP
P
M
M
PP
M
M
M
M
R
R
R
R
R
R
R
R
R
R
P
PP
P
M
M
R
R
M
M
M
M
R
R
P
P
R
R
M
M
R
R
Multiple Chi
Multiple Chiplets
P
P
P
P
M
M
M
M
P
P
P
P
R
R
R
R
R
R
R
R
P
P
P
P
PE
PER
R
R
R
P
P
PP
PE
PE
M
M
M
M
PE
PER
R
R
R
M
M
M
M
PE
PE
PE
PE
PE
PE
M
M
M
M
R
R
R
R
P
P
M
M
P
P
M
M
R
R
R
R
R
R
R
R
P
M
P
M
P
M
P
M
PE
PE
PE
PE
PER
PE
R
R
R
R
R
P
M
P
M
M
PP
M
PE
PE
PE
PE
PE
PE
P
P
PE
PE
PER
PE
R
P
P
PE
PE
PE
PE
M
M
PE
PE
PE
PE
R
R
M
M
PE
PE
PE
PE
P
P
PE
PE
PE
PE
R
R
P
P
PE
PE
PE
PE
M
M
PE
PE
PE
PE
PE
PE
M
M
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
Multiple Chip
Multiple Chiplets
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PEHardavellas
PE PE
PE
PE
PE
PE PE
PE
©
Outline
• Introduction
➔ Background
• Galaxy Architecture
• Experimental Methodology
• Results
 Sensitivity Studies
 Single-Chip Comparisons (Processor Disintegration)
 Multi-Chip Comparisons (Macrochip Integration)
 Thermal Modeling
• Conclude
• Overview of Other Research
7
© Hardavellas
Nanophotonic Components
resonant
detectors
Ge-doped
coupler
waveguide
off-chip
laser
source
resonant
modulators
Selective: couple optical energy of a specific wavelength
8
© Hardavellas
Modulation and Detection
10001011
11010101
16 - 64 wavelengths DWDM
5 - 20μm waveguide pitch
10Gbps per link
10001011 11010101
8 Tbps/mm bandwidth density or more !!!
9
© Hardavellas
Outline
• Introduction
• Background
➔ Galaxy Architecture
• Experimental Methodology
• Results
 Sensitivity Studies
 Single-Chip Comparisons (Processor Disintegration)
 Multi-Chip Comparisons (Macrochip Integration)
 Thermal Modeling
• Conclude
• Overview of Other Research
10
© Hardavellas
Galaxy Architecture
Optical Fiber Bundle
Off-Chip
Laser
Chiplet 3
Couplers
Chiplet 2
Electrical
Ring
Network
Off-Chip
Laser
Waveguide
Bundle
Chiplet 4
Chiplet 0
(a)
11
Chiplet 1
© Hardavellas
Routing Example
Laser
Source
Optic Fiber
1
3
2
13
15
5
7
6
16
14
28
18
9
11
17
20
10
21
30
24
22
Chiplet 0
29
25
26
Chiplet 1
12
© Hardavellas
Galaxy Architecture
Optical Fiber Bundle
Off-Chip
Laser
Chiplet 3
Couplers
Chiplet 2
Electrical
Ring
Network
Off-Chip
Laser
Waveguide
Bundle
Chiplet 4
Chiplet 0
(a)
13
Chiplet 1
© Hardavellas
Galaxy MWSR Optical Crossbar
Read
Write
Off-Chip
Laser
Couple
Electrical
Input
Ports
Electrical VC/Switch
Allocator
Electrical
Output
Ports
Downstream
Channel
Upstream
Channel
(b)
Optical Token
Arbiter
Optical
Output
Ports
(c)
More energy-efficient than SWMR at that scale
MWSR avoids broadcast bus, but requires arbitration
14
© Hardavellas
Token-Based Arbitration
VC Token
forward
traversal
Data Channel
VC Token
back
traversal
8 cycles on average for token arbitration (5 chiplets)
15
© Hardavellas
Dense Off-Chip Coupling
• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]
• ~3.8dB loss, 8 Tbps/mm demonstrated
• Misalignment <0.7μm, 0.4μm, 0.7μm>  loss <1 dB
Loss comparable to optical proximity couplers
16
© Hardavellas
Nanophotonic Parameters
17
© Hardavellas
Outline
• Introduction
• Background
• Galaxy Architecture
➔ Experimental Methodology
• Results
 Sensitivity Studies
 Single-Chip Comparisons (Processor Disintegration)
 Multi-Chip Comparisons (Macrochip Integration)
 Thermal Modeling
• Conclude
• Overview of Other Research
18
© Hardavellas
Architectural Parameters
19
© Hardavellas
Modeling Infrastructure
Cycle Accurate Full System Simulation
DVFS for
Temperature
Limiting
Flexus 4.0
Booksim 2.0
DRAMSim 2.0
SimFlex sampling
95% confidence
Power Calculations with
Runtime Statistics
photonic-layer
ring heating
Operating
Temperature
3D-stack model
Accurate Lekage
and Dynamic
Interconnect
Cores,Cache,
Power
Analytical
MCs
+ Model +
McPat 0.8
DSENT
Single Chip
Design
Multi-Chip
Design
HotSpot
5.0
FloTherm
9.2
Thermal Modeling
20
© Hardavellas
Outline
•
•
•
•
•
Introduction
Background
Galaxy Architecture
Experimental Methodology
Results
➔ Sensitivity Studies
 Single-Chip Comparisons (Processor Disintegration)
 Multi-Chip Comparisons (Macrochip Integration)
 Thermal Modeling
• Conclude
• Overview of Other Research
21
© Hardavellas
Load-Latency Curves
Average Latency (cycles)
40
35
30
25
20
15
10
5
1 token
8 tokens
16 tokens
24 tokens
unlimited tokens
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Injection Rate
16 tokens provide optimal buffer depth
22
© Hardavellas
Laser Power Sensitivity to Optical Parameters
Coupler Loss
Waveguide & Filter Drop Loss
Off-Ring Loss
Modulator Insertion Loss
Highly sensitive to coupler loss, insensitive to other losses
23
© Hardavellas
Sensitivity to Fiber Density
• 116mm2 chiplets  43mm along the chip edge
• Enough room for 172 fibers @ 250μm pitch
128 fibers: within 3% of max performance
24
© Hardavellas
Outline
•
•
•
•
•
Introduction
Background
Galaxy Architecture
Experimental Methodology
Results
 Sensitivity Studies
➔ Single-Chip Comparisons (Processor Disintegration)
 Multi-Chip Comparisons (Macrochip Integration)
 Thermal Modeling
• Conclude
• Overview of Other Research
25
© Hardavellas
Performance Against “Unlimited” Designs
• Unlimited power (max speed of design, irrespective of temp.)
• Mesh_20MC & Corona_20MC
 Also unlimited bandwidth (20 MCs per chip, 5x more pins)
Galaxy matches the performance of “unlimited” designs
26
© Hardavellas
Performance Against Realistic Designs
• Realistic: within power and bandwidth envelopes
• Galaxy chiplets within 66.2oC  chiplets run at max speed
Galaxy: 2.2x speedup on average (3.4 max)
27
© Hardavellas
Energy-Delay Product
Photonics
0.2
Core+Cache Dyn
0
Core+Cache Leak
Appbt
Em3d
Ocean Tomcatv Barnes
Mesh
Corona
Galaxy
MC Leak
Mesh
Corona
Galaxy
0.4
Mesh
Corona
Galaxy
MC Dyn
Mesh
Corona
Galaxy
0.6
Mesh
Corona
Galaxy
Electrical Net Leak
Mesh
Corona
Galaxy
0.8
Mesh
Corona
Galaxy
Electrical Net Dyn
Mesh
Corona
Galaxy
1
Mesh
Corona
Galaxy
EDP (J x sec)
1.2
Fmm
Moldyn
Water
Average
• Cool chiplets minimize leakage
Galaxy: 2.4x-2.8x smaller EDP on average (6.8x max)
28
© Hardavellas
Outline
•
•
•
•
•
Introduction
Background
Galaxy Architecture
Experimental Methodology
Results
 Sensitivity Studies
 Single-Chip Comparisons (Processor Disintegration)
➔ Multi-Chip Comparisons (Macrochip Integration)
 Thermal Modeling
• Conclude
• Overview of Other Research
29
© Hardavellas
Comparison Against Multi-Chip Alternatives
30
© Hardavellas
Comparison Against Multi-Chip Alternatives
Fiber
Galaxy: 2.5x over Oracle Macrochip (6.8x max)
31
© Hardavellas
Tapered vs. Optical Proximity Couplers
6x less laser power than Oracle Macrochip with demonstrated couplers
32
© Hardavellas
Outline
•
•
•
•
•
Introduction
Background
Galaxy Architecture
Experimental Methodology
Results
 Sensitivity Studies
 Single-Chip Comparisons (Processor Disintegration)
 Multi-Chip Comparisons (Macrochip Integration)
➔ Thermal Modeling
• Conclude
• Overview of Other Research
33
© Hardavellas
80-core 5-chiplet Galaxy Thermal CFD Modeling
88.20C
8cm spacing allows cooling with cheap passive heatsinks
34
© Hardavellas
9-chiplet Dense Array (Oracle Macrochip)
2490C
Tight arrangement points to liquid cooling requirement
35
© Hardavellas
9-chiplet Galaxy 2D
1100C
Cooling 9 chiplets with passive heatsinks
36
© Hardavellas
83.60C
9-chiplet Galaxy 3D
Flexible fibers allow “virtual chip” to break free of 2D planar designs
37
© Hardavellas
Galaxy Summary
• “Virtual chips” with the performance of unlimited designs
• Breaks free of typical physical constraints
 Large aggregate area
 Improved yield (break-even point : 60% yield for photonics)
 Tb/s/mm bandwidth density
 Pushes back power wall
• Processor disintegration
 2.2x avg. speedup (3.4 max)
 2.4x-2.8x avg. smaller EDP (6.8x max)
• Macrochip integration
 2.5x speedup over Oracle Macrochip (6.8x max)
 6x more power efficient links
38
© Hardavellas
Outline
•
•
•
•
•
Introduction
Background
Galaxy Architecture
Experimental Methodology
Results
 Sensitivity Studies
 Single-Chip Comparisons (Processor Disintegration)
 Multi-Chip Comparisons (Macrochip Integration)
 Thermal Modeling
• Conclude
➔ Overview of Other Research
39
© Hardavellas
Energy is Shaping the IT Industry
#1 of Grand Challenges for Humanity in the Next 50 Years
[Smalley Institute for Nanoscale Research and Technology, Rice U.]
• Computing worldwide: ~408 TWh in 2010 [Gartner]
• Datacenter energy consumption in US ~150 TWh in 2011 [EPA]
 3.8% of domestic power generation, $15B
 CO2-equiv. emissions ≈ Airline Industry (2%)
• Carbon footprint of world’s data centers ≈ Czech Republic
• Exascale @ 20MW: 200x lower energy/instr. (2nJ  10pJ)
 3% of the output of an average nuclear plant!
• 10% annual growth on installed computers worldwide [Gartner]
Exponential increase in energy consumption
40
© Hardavellas
Overall Focus: Energy-Efficient Computing
• Integer add: 0.5pJ; FP-FMA: 50pJ. Where does energy go?
 Data movement: 1200pJ across 400mm2 chip, 16000pJ memory
Elastic caches: minimize data transfers through adapting caches to
workload demands [ISCA’09, IEEEMicro’10, DATE’12]
 Processing: ~1500pJ to schedule the operation
SeaFire: specialized computing on dark silicon to eliminate generalpurpose computing’s overheads [IEEEMicro’11, USENIX-Login’11]
 Circuits: wide voltage guardbands
 Low voltages, process variation  timing errors  computing errors
Elastic fidelity: allow errors at select code/data segments to save energy
while maintaining fidelity contract with user [CoRR abs/1111.4279]
• Chips fundamentally limited by physical constraints. Need to break free.
Galaxy: processor disintegration/macrochip integration using photonic
interconnects [WINDS’10]
Thank You!
42
© Hardavellas
Overcoming Data Movement and Processing Overheads
• Elastic caches: adapt cache to workload’s demands
 Significant energy on data movements and coherence requests
 Co-locate data, metadata, and computation
 Decouple address from placement location
 Capitalize on existing OS events  simplify hardware
 Cut on-chip interconnect traffic by half
• Seafire: specialized computing on dark silicon
 Repurpose dark silicon to implement specialized cores
Macrochip
 Application cherry-picks a few cores, rest of chip is powered off
 Vast unused area  many specialized cores
 likely to find good matches
 12x lower energy (conservative)
43
Pr
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
© Hardavellas
Overcoming Voltage Guardbands
• Elastic fidelity: selectively trade accuracy for energy
 We don’t always need 100% accuracy, but HW always provides it
 Language constructs specify required fidelity for code/data segments
 Steer computation to exec/storage units with appropriate fidelity and
lower voltage
 35% lower energy
No errors
10% errors
44
© Hardavellas
Download