HY Blog

New post every day (with probability 0.03).

Sincronia SIGCOMM 2018

Near-Optimal Network Design for Coflows

核心思想 设计一个能够基于任何支持优先级调度的传输协议的coflow调度机制。最大的贡献是理论证明了:只要给定一个合适的coflow的ordering, 任何per-flow的rate allocation按照这个ordering优先级调度, 都能够达到平均coflow完成时间是最优调度的4$\times$以内。 Motivation: 以前的coflow调度机制(Varys, Aalo...

Rate-Aware Flow Scheduling Infocom 2017

Rate-Aware Flow Scheduling for Commodity Data Center Networks

核心思想 已有流调度工作(pFabric, PASE, and PIAS)根据 Shortest Remaining Time First (SRTF)进行调度,认为剩余完成时间仅由流的size决定,没有考虑到应用产生数据的速率。论文设计了RAX,通过获取应用产生数据的速率以及size计算更加准确的剩余完成时间。 为什么要考虑data generation rate ...

DCQCN+ ICNP 2018

Taming Large-scale Incast Congestion in RDMA

解决问题 DCQCN是目前RDMA over Ethernet Networks的拥塞控制算法,但是大规模的incast导致其性能下降。 核心思想 动态参数控制:发送端需要知悉incast的规模, using a long period and a small increase step for large-scale incast, and a short period and a ...

Size-aware Sharding NSDI 2019

Size-aware Sharding For Improving Tail Latencies in In-memory Key-value Stores

解决问题 现有key-value store 99th percentile latency 大, 因为小的 request(请求的item size小)阻塞在大 request(请求的item size大)后面. 论文在background里通过实验说明了request的处理时间与item的size几乎成正比. 这是这篇论文基于size的方法的一个重要observation和前提. 核...

In-band Network Telemetry (INT)

In-band Network Telemetry

In-band Network Telemetry(Specification) Towards Knowledge-Defined Networking using In-band Network Telemetry INTCollector: A High-performance Collector for In-band Network Telemetry

2D CoNEXT 2018

Workload Adaptive Flow Scheduling

核心思想 实现不同特征workload下的adaptive scheduling, 而以前的调度策略只针对特定特征的workload. 2D指的是 multiplexing (比如fair sharing) 和 serialization (比如FIFO SRPT). Observations and Insights Within-workload variabil...

Dapper SOSR 2017

Data plane performance diagnosis of TCP

核心思想 针对多租户场景在 network edge (e.g., hypervisor, NIC, or ToR switch) monitor TCP性能,诊断出一个connection是server-limited,network-limited还是receiver-limited. 主要挑战 需要在硬件(SmartNIC)上减少per-flow state存储开销 Des...

PASE SIGCOMM 2014

经典论文:对dc transport 总结

核心思想 对已有dc transport 工作总结,结合各类方法的优势提出新的传输优化。 已有工作分类 (1)Self adjusting endpoints:发送端独立地根据自己探测到的网络状况调整速率,TCP,DCTCP等都属于此类。 网络拥塞状况通过拥塞信号获知,包括隐式的(丢包)和显式的(ECN)。当拥塞发生时,窗口会被减少,如果以追求公平性为目标,所有流的窗口都减相同的fa...

NetBouncer NSDI 2019

Failure Localization in Data Center Networks

核心思想 通过IP-in-IP 的probe探测,定位数据中心故障,包括device故障和link故障。(微软) Network Troubleshooting三个requirement(Motivation) End host’s perspective: 交换机无法观察到gray failure. gray failure: 交换机不会记录. e.g. drop packet...

Cloud Monitoring IMC 2018

Experiences and Challenges

核心思想 指出VNET的monitor和physical网路的monitor不同 提出三个问题 数据中心运营者能monitor VNET性能吗?之前那些用于物理网络的工具(Pingmesh,Everflow等)能够适用于VNET吗? 已有的monitor方法在测量VNET性能时准确度多高?能够detect出customer-impacting的问题吗?precision和rec...