精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Android發熱監控實現過程解析

OSC開源社區 ? 來源:OSC開源社區 ? 2023-11-10 10:38 ? 次閱讀

背景

相信移動端高度普及的現在,大家或多或少都會存在電量焦慮,擁有過手機發熱發燙的糟糕體驗。而發熱問題是一個長時間、多場景的指標存在,且涉及到端側應用層、手機 ROM 廠商系統、外界環境等多方面的影響。如何有效衡量發熱場景、定位發熱現場、以及歸因發熱問題成為了端側應用層發熱監控的面前的三座大山。本文通過得物 Android 端側現有的一些監控實踐,不深入功耗計算場景無法自拔,優先聚焦于發熱場景本身,希望能給大家一些參考。

發熱定義

溫度是最直觀能反映發熱問題的指標,當前 Android 側,我們以體感溫度 37° 以上作為分界線,向上每 3° 作為一個發熱溫度區間,區間細分上限溫度 49° ,即劃分出 37-40,40-43,43-46,46-49,49+ 五個等級。

以手機溫度、CPU 使用率作為第一、第二要素來判斷用戶是否發熱的同時,獲取其他參數來支撐發熱現場情況。

具體指標如下:

手機溫度CPU 使用率、GPU 使用率;

線程堆棧;

系統服務使用頻次;

設備前后臺、亮滅屏時長;

電量、充電情況;

熱緩解發熱等級;

系統機型、版本;

....

指標獲取

溫度

電池溫度

系統 BatteryManger 已經提供了一系列自帶的接口和粘性廣播獲取電池信息

BatteryManager.EXTRA_TEMPERATURE 廣播,獲取的溫度值是攝氏度為單位的 10 倍數值。


//獲取電池溫度BatteryManager.EXTRA_TEMPERATURE,華氏溫度需要除以10
fun getBatteryTempImmediately(context: Context): Float {
    return try {
        val batIntent = getBatteryStickyIntent(context) ?: return 0f
        batIntent.getIntExtra(BatteryManager.EXTRA_TEMPERATURE, 0) / 10F
    } catch (e: Exception) {
        0f
    }
}


private fun getBatteryStickyIntent(context: Context): Intent? {
    return try {
        context.registerReceiver(null, IntentFilter(Intent.ACTION_BATTERY_CHANGED))
    } catch (e: Exception) {
        null
    }
}

BatteryManager 除支持電池溫度的系統廣播外,也包含電量、充電狀態等額外信息的讀取,均定義在其源碼中。


以下羅列幾個值得關注的:
//BATTERY_PROPERTY_CHARGE_COUNTER 剩余電池容量,單位為微安時
//BATTERY_PROPERTY_CURRENT_NOW 瞬時電池電流,單位為微安
//BATTERY_PROPERTY_CURRENT_AVERAGE 平均電池電流,單位為微安
//BATTERY_PROPERTY_CAPACITY 剩余電池容量,顯示為整數百分比
//BATTERY_PROPERTY_ENERGY_COUNTER 剩余能量,單位為納瓦時
// EXTRA_BATTERY_LOW  是否認為電量低
// EXTRA_HEALTH  電量健康常量的常數
// EXTRA_LEVEL  電量值
// EXTRA_VOLTAGE 電壓
// ACTION_CHARGING   進入充電狀態
// ACTION_DISCHARGING  進入放電狀態

傳感器溫度

Android是基于Linux 基礎上修改的開源操作系統,同樣的在手機系統sys/class/thermal/ 目錄下存在以 thermal_zoneX 為代表各傳感器的溫度分區,以及 cooling_deviceX 為代表風扇或散熱器等冷卻設備。

以一加 9 為例,共存在 105 個溫度傳感器 or 溫度分區,以及 48 個冷卻設備。

7327db30-7eef-11ee-939d-92fbcf53809c.png

每個溫度分區下記錄下具體的參數類型,我們重點關注的是 type 文件和temp 文件,分別記錄了該傳感器設備的名稱,以及當前的傳感器溫度。以 thermal_zone29 為例,代表了 CPU 第一核心的 第五處理單元的溫度值為 33.2 攝氏度。而對單一設備來說分區對應的名稱是固定的,從而我們可以通過讀取 thermal_zone 文件的方式來記錄當前第一個 type 文件名稱包含 CPU 的傳感器作為 CPU 溫度。

734ad0ae-7eef-11ee-939d-92fbcf53809c.png

殼溫

Android 10 Google 官方推出了熱緩解框架,通過 HAL2.0 框架監聽底層硬件傳感器(主要為 USB 傳感器、Skin 傳感器)提供 USB、殼溫的熱信號等級變更監聽, 系統 PowerManager 源碼提供了對應發熱等級變更的回調和發熱等級的獲取,共 7 個等級,提供給開發者主動或被動獲取。

735bf96a-7eef-11ee-939d-92fbcf53809c.png


final PowerManager powerManager = (PowerManager) mContext.getSystemService(Context.POWER_SERVICE);
powerManager.addThermalStatusListener(new PowerManager.OnThermalStatusChangedListener() {
    @Override
    public void onThermalStatusChanged(int status) {
       //返回對應的熱狀態
    }
});

但對于發熱等級來說,殼溫無疑是最為能夠反應手機的發熱情況的。可以看到 Android 系統的 API 實際上是提供了 AIDL 接口,可以直接注冊 Thermal 變更事件的監聽,獲取到 Temperature 對象。但由于標識了 Hide API 。常規應用層是無法獲取到的,在考慮好 Android 版本兼容性前提下,通過反射代理 ThermalManagerService 方式進行讀取。

7370b15c-7eef-11ee-939d-92fbcf53809c.png

但事與愿違,國內廠商并沒有完全適配官方熱緩解框架,熱狀態回調時常不夠準確,而是需要單獨接入每個廠商的熱緩解 SDK 去直接獲取到殼溫,具體 API 則以各應用廠商的內部接入文檔為準。

CPU使用率

CPU 使用率的采集通過讀取解析 Proc stat 文件的方式進行計算。

在系統 proc/[pid]/stat 和 /proc/[pid]/task/[tid]/stat 分別記錄了對應進程 ID、進程 ID 下的線程 ID 的 CPU 信息。具體的字段描述在此不進行贅述,詳見:https://man7.org/linux/man-pages/man5/procfs.5.html。

7387ab64-7eef-11ee-939d-92fbcf53809c.png

我們重點關注 14.15 位的信息,分別代表進程/線程的用戶態運行的時間和內核態運行的時間。

739807de-7eef-11ee-939d-92fbcf53809c.png

通過解析當前進程的 Stat 文件,以及 Task 目錄下所有線程的 Stat 文件,在兩次采樣周期內(當前設置為 1s)的 utime+stime 之和的差值/采樣間隔,即可認為是進線程的 CPU 的使用率。即 進線程 CPU 使用率 = ((utime+stime)-(lastutime+laststime)) / period

GPU使用率

高通芯片的設備,我們可以參考 /sys/class/kgsl/kgsl-3d0/gpubusy 下文件內容,參考高通官網的說明。

GPU 的使用率 = (下圖)數值 1 / 數值 2 * 100,經過驗證與 SnapDragonProfiler 信息采集獲取的數值基本一致。

73b143ac-7eef-11ee-939d-92fbcf53809c.png

73bfecea-7eef-11ee-939d-92fbcf53809c.png

聯發科芯片的設備,我們可以直接通過讀取/d/ged/hal/gpu_utilization下的使用率數值。

同樣的通過指定周期(每秒 1 次)的采樣間隔,即可獲取到每秒的當前 GPU 使用率。

系統服務使用

Android 系統服務包括 Warelock、Alarm、Sensor、Wifi、Net、Location、Bluetooth、Camera等。

與市面上常規的監控手段差異不大,都是通過系統 Hook ServiceManager 的方式,監聽系統服務的 Binder 通信,匹配對應的調用方法名,做對應中間層監控的回調記錄處理。

熟悉 Android 開發的同學知道 Android 的 Zygote 進程是 Android 系統啟動時的第一個進程。在 Zygote Fork 進程中會孵化出系統服務相關的進程 SystemServer,在其核心的 RUN 方法中,會注冊啟動大量的系統服務,并通過 ServiceManager 進行管理。

73de9bf4-7eef-11ee-939d-92fbcf53809c.png

故我們可以通過反射代理 ServiceManager 的方式,以 LocationManager 為例進行監聽,攔截對應 LocationManager 內對應的方法,記錄我們期望獲取的數據。

// 獲取 ServiceManager 的 Class 對象
Class serviceManagerClass = Class.forName("android.os.ServiceManager");
// 獲取 getService 方法
Method getServiceMethod = serviceManagerClass.getDeclaredMethod("getService", String.class);
// 通過反射調用 getService 方法獲取原始的 IBinder 對象
IBinder originalBinder = (IBinder) getServiceMethod.invoke(null, "location");
// 創建一個代理對象 Proxy
Class iLocationManagerStubClass = Class.forName("android.location.ILocationManager$Stub");
Method asInterfaceMethod = iLocationManagerStubClass.getDeclaredMethod("asInterface", IBinder.class);
final Object originalLocationManager = asInterfaceMethod.invoke(null, originalBinder);
Object proxyLocationManager = Proxy.newProxyInstance(context.getClassLoader(),
        new Class[]{Class.forName("android.location.ILocationManager")},
        new InvocationHandler() {
            @Override
            public Object invoke(Object proxy, Method method, Object[] args) throws Throwable {
                // 在這里進行方法的攔截和處理
                Log.d("LocationManagerProxy", "Intercepted method: " + method.getName());
                // 執行原始的方法
                return method.invoke(originalLocationManager, args);
            }
        });
// 替換原始的 IBinder 對象
getServiceMethod.invoke(null, "location", proxyLocationManager);

同理 我們獲取在固定采樣周期內 各系統服務對應 申請次數、計算間隔時長等進行記錄。

源碼Power_profile文件中定義了每個系統服務狀態下的電流量定義。

我們在需要記錄每個元器件在不同狀態的工作時間之后,通過以下計算方式,可以得出元器件的發熱貢獻排行,即:

元器件 電量消耗(發熱貢獻) ~~ 電流量 * 運行時長 * 電壓(一般為固定值,可忽略)

73f0a43e-7eef-11ee-939d-92fbcf53809c.png

線程堆棧

由于發熱問題是一個綜合性的問題,并不像 Crash 問題一樣,在發生現場我們就可以知道是哪個線程觸發的。如果將所有線程的堆棧都進行 Dump 記錄的話,得物當前運行時的子線程數量在 200+,全部進行存儲的話無疑是不合理的。問題就轉變為 如何較為準確的找到發熱代碼的線程堆棧?

上文說到 在計算 CPU 使用率的時讀取進程下所有線程的 Stat 文件,我們可以獲取到子線程的 CPU 使用率,對其使用率進行倒排,篩選超過閾值(當前定義 50% ) 或 占用 Top N 的線程進行存儲。由于堆棧頻繁采集時機上是有性能折損的,故犧牲了部分的堆棧采樣精度和準確性,在溫度、CPU 使用率等指標超過閾值定義后,才開始采集 指定下發時間的堆棧信息。

我們還要明確一個概念,線程 Stat 文件的文件名即為線程標識名,Thread.id 是指線程ID。

其兩者并不等價,但 Native 方法中給我們提供了對應的方式去建立兩者的映射關系。

在 Art Thread.cc 方法中,將 Java 中的 Thread 對象轉換成 C++ 中的 Thread 對象,調用 ShortDump 打印線程的相關信息,我們通過字符串匹配到核心的 Tid= 的信息,即可獲取到線程的 Tid。

7408e8c8-7eef-11ee-939d-92fbcf53809c.png

核心代碼邏輯如下:


 //獲取隊列中最近一次cpu采樣的數據
 val threadCpuUsageData = cpuProfileStoreQueue.last().threadUsageDataList
       val hotStacks = mutableListOf()
        if (threadCpuUsageData != null) {
            val dataCount = if (threadCpuUsageData.size <= TOP_THREAD_COUNT) {
                threadCpuUsageData.size
            } else {
                TOP_THREAD_COUNT
            }
            val traces: MutableMap> = Thread.getAllStackTraces()
            //定義tid 和 thread的映射關系map
            val tidMap: MutableMap = mutableMapOf()
            traces.keys.forEach { thread ->
                //調用native方法獲取到tid信息
                val tidInfo = hotMonitorListener?.findTidInfoByThread(thread)
                tidInfo?.let {
                    findTidByTidInfo(tidInfo).let { tid ->
                        if (tid.isNotEmpty()) {
                            tidMap[tid] = thread
                        }
                    }
                }
            }
            //采集topN的發熱堆棧
            for (index in 1..dataCount) {
                val singleThreadData = threadCpuUsageData[index - 1]
                val isMainThread = singleThreadData.pid == singleThreadData.tid
                val thread = tidMap[singleThreadData.tid.toString()]
                thread?.let { findThread ->
                    traces[findThread]?.let { findStackTrace ->
                        //獲取當前的線程堆棧
                        val sb = StringBuilder()
                        for (element in findStackTrace) {
                            sb.append(element.toString()).append("
")
                        }
                        sb.append("
")
                        if (findStackTrace.isNotEmpty()) {
                            //是否為主線程
                            //組裝hotStack
                            val hotStack = HotStack(
                                //進程id
                                singleThreadData.pid,
                                singleThreadData.tid,
                                singleThreadData.name,
                                singleThreadData.cpuUseRate,
                                sb.toString(),
                                thread.state
                                isMainThread
                            )
//                        Log.d("HotMonitor", sb.toString())
                            hotStacks.add(hotStack)
                        }
                    }
                }


            }
        }

監控方案

了解核心指標數據是如何獲取的前提下,其實監控方案的核心思路無非就是通過遠端 APM 配置中心下發的采樣閾值、采樣周期、各模塊數據開關等限定采樣配置,子線程 Handler 定時發消息,采集各個模塊的數據進行組裝,在合適的時機進行數據上報即可,具體的數據拆解、分析工作則由發熱平臺進一步處理。

模塊整體架構

7428a794-7eef-11ee-939d-92fbcf53809c.png

上報時機

743ad69e-7eef-11ee-939d-92fbcf53809c.png

核心采集流程

744bb144-7eef-11ee-939d-92fbcf53809c.png

線上線下區分

由于所有子線程的 CPU 采集、堆棧采集實際上是會對性能有折損的,200+ 的線程的讀取耗時整體在 200ms 左右,采樣子線程的 CPU 使用率在 10%,考慮到線上用戶體驗問題,并不能全量開啟高頻率采樣。

745e5182-7eef-11ee-939d-92fbcf53809c.png

747f42d4-7eef-11ee-939d-92fbcf53809c.png

故整體方案來說:線下場景以重點側重發現、排查、治理全量問題,上報全量日志,以 CPU、GPU 使用率為第一衡量指標;

線上場景以重點側重觀察整體發熱大盤趨勢、分析潛在問題場景,上報核心日志,以電池溫度為第一衡量指標。

發熱平臺

在平臺側同學的支持下,發熱現場數據經過平臺側進行消費,將核心的發熱堆棧經過 Android 堆棧反混淆服務進行聚合,補齊充電狀態、主線程 CPU 使用率、問題類型、電池溫度等基礎字段,平臺側就具備發現、分析、解決的流程化監控推進的能力。

具體的堆棧信息 & 發熱信息平臺展示如下:

7498bec6-7eef-11ee-939d-92fbcf53809c.png

74b0f248-7eef-11ee-939d-92fbcf53809c.png

由于電池溫度、CPU 使用率是針對運行時發熱場景最直觀的指標,且我們一期重點關注發熱場景的治理,不針對元器件 Hook 等耗電場景進行持續深入分析,故當前得物側是以電池溫度、CPU 使用率為第一第二指標 建立核心的發熱問題四象限,優先關注高溫、高 CPU 的問題場景。

74c4d3e4-7eef-11ee-939d-92fbcf53809c.png

在數據分析過程中,我們遇到了數據上的效率排查效率不夠高、問題精度不夠準的情況。

如何定位是高溫場景是發生在 App 內部,且在使用過程中明顯上升的?通過過濾從啟動開始即高溫、后臺切換回來即高溫的場景,重點關注在 App 內部溫度上升的場景。

線上的采樣后仍舊單日有 6w+ 數據的上報,我們如何篩選出更為核心的數據?當前的做法是定義了溫度跨度的概念,優先看在 App 內部溫度跨度較大的 Case。

線程存在調用 Wait 等方法阻塞的堆棧,消耗內核態的時間分配,但實際不消耗整體 CPU 的誤報數據。補充了線程的運行狀態和 Proc 文件中記錄的 State,方便優先處理 RUNNABLE線程的 CPU 高溫高占用問題。

手機溫度上升作為漸進式的場景,如何實現溫度上升場景下的頁面精確歸因?增加溫度采樣頻率的同時,匯總 CPU 使用率和實時堆棧等瞬時數據作為數據支撐,但考慮到數據體量的情況,數據上報聚合裁剪方式仍在逐步探索更為合理的方式,力求在兩者之間找到一個平衡點。

74de059e-7eef-11ee-939d-92fbcf53809c.png

74fa69aa-7eef-11ee-939d-92fbcf53809c.png

收益

Android 端側發熱監控自上線以來,背靠平臺側的支撐,陸續發現了一些問題并聯合開發同學做了對應場景的治理優化工作,如:

耗時獨立線程任務 接入統一線程池調度管理;

動畫執行死循環監測修復;

高 IO 場景的文件讀寫策略優化;

高并發任務鎖粒度優化;

日志庫等 Json 解析頻繁場景 采用效率更高的序列化方;

系統相機等系統功率過高的采集參數設備分級嘗試;

基于 Webgl 的游戲場景 幀率降低和資源及時回收優化運行時內存;

....

這無疑給未來體驗工作的場景技術選型、技術實現沉淀了一些有價值的經驗,符合對 App 體驗追求極致的高標準、高要求。

未來展望

手機發熱作為漸進式的體驗場景,涉及手機硬件、系統服務、軟件使用、外界環境多方位因素。對于端側的排查上來說,當前優先級聚焦于應用層的不合理使用上,對于排查工具鏈路增強、問題業務歸因、低電量、低功耗模式下的動態策略降低、自動化診斷報告等環節仍舊有很多值得深入挖掘的點,例如:

監控/工具增強

App 浮層分析工具 (CPUGPU/頻率/溫度/功耗等信息)

借鑒 BatteryHistorian、SnapdragonProfiler、Systrace 等工具,實現自研TeslaLab 能力增強。

業務歸因

發熱堆棧自動分配

調用溯源歸因精細化

場景策略、降級

CPU 調頻、動態幀率、分辨率降級

端內低功耗模式探索

自動化診斷報告

單用戶定向自動化分析輸出診斷報告

總結

在此也只是粗略介紹當前已經做的針對發熱治理的一些初步工作,以及對未來發熱功耗相關開展的思路,希望能讓 App 帶來更好的體驗,給用戶帶來更對美好事物的向往的感受。

編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2548

    文章

    50678

    瀏覽量

    752018
  • Android
    +關注

    關注

    12

    文章

    3923

    瀏覽量

    127143
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10825

    瀏覽量

    211155
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4701

    瀏覽量

    128707
  • 操作系統
    +關注

    關注

    37

    文章

    6738

    瀏覽量

    123190

原文標題:Android發熱監控實踐

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    求一種基于Android和Zigbee技術實現的家庭環境監控系統的設計方案

    齊全、運行穩定的家庭監控系統將具有非常大的市場競爭力。本文提出了一種基于Android和Zigbee技術實現的家庭環境監控系統的設計方案,該方案應用于室內環境中感知數據(溫濕度、光亮度
    發表于 07-26 08:08

    Android Runtime源碼解析》+深入體會第六章ART的執行(4)

    接上三篇。 《Android Runtime源碼解析》+原創學習心得首發(1)《Android Runtime源碼解析》+原創學習心得首發(2) 《
    發表于 11-17 01:33

    基于Opc技術的過程監控的設計與實現

    在分析實驗室現存設備控制情況下,選用WinCC 工業軟件來實現對西門子公司PLC 和A-B 公司PLC 的過程監控,本文著重論述如何使用Opc 方式實現WinCC 與A-B PLC之間
    發表于 07-07 14:03 ?24次下載

    摩托Android手機全解析(上)

    摩托Android手機全解析(上) 摩托羅拉Droid配備了3.7英寸的WVGA級別480×854分辨率的觸控屏幕,功能鍵部分也是采用虛擬
    發表于 02-01 09:19 ?1214次閱讀

    摩托首款Android手機解析(下)

    摩托首款Android手機解析(下) ● 摩托羅拉Droid整體及細節設計 雖然機身體積較大,但是在厚度上摩托羅拉明顯為這款產品做了纖薄處理。
    發表于 02-01 09:25 ?1154次閱讀

    電源設計過程解析

    本內容介紹了電源設計過程解析
    發表于 05-31 17:21 ?530次下載
    電源設計<b class='flag-5'>過程</b>全<b class='flag-5'>解析</b>

    Android手機天氣預報系統設計及實現

    本文在介紹基于Android 平臺的應用程序設計原理的基礎上,提出了Android 用戶界面設計、獲取并解析城市列表數據的一種方法,給出了在用戶界面上呈現數據的原理與設計過程,最后通過
    發表于 01-18 11:35 ?7836次閱讀
    <b class='flag-5'>Android</b>手機天氣預報系統設計及<b class='flag-5'>實現</b>

    電源器件莫名發熱問題的解決過程

    解決電源器件莫名發熱的問題
    發表于 12-14 11:03 ?1577次閱讀

    Android系統文件夾結構解析

    Android系統文件夾結構解析
    發表于 03-19 11:23 ?0次下載

    Android開發中難點解析及幫助

    根本說講述的是Android 開發中難點解析及幫助,希望對各位工程師朋友有所幫助。
    發表于 09-14 20:24 ?1次下載

    基于Android系統流量監控設計

    實時連續地采集網絡數據并對其進行統計,以確保可以設計實現該安全軟件。結果證實,設計實現基于Android系統流量監控的安全軟件,不僅可以有效發揮系統流量
    發表于 11-02 17:11 ?5次下載
    基于<b class='flag-5'>Android</b>系統流量<b class='flag-5'>監控</b>設計

    電機發熱的八大原因解析

    電機作為人們生產和生活中不可缺少的重要的動力提供者,在使用的過程中很多的電機會出現發熱很嚴重的現象,但是很多時候不知道怎么去解決,更加嚴重的是不知道是什么原因導致的電機發熱,這應該是在電機的使用
    的頭像 發表于 03-24 09:36 ?4w次閱讀

    AndroidSVG圖片解析和渲染工具

    /androidsvg 追蹤到原項目。 移植版本:Release_1.4 項目名稱:androidsvg 所屬系列:OHOS的第三方組件適配移植 功能: 1.實現svg格式圖片的解析
    發表于 03-22 13:41 ?1次下載

    Android校園應用開發過程

    電子發燒友網站提供《Android校園應用開發過程.pdf》資料免費下載
    發表于 10-19 11:36 ?0次下載
    <b class='flag-5'>Android</b>校園應用開發<b class='flag-5'>過程</b>

    Android日志與logd交互過程

    2.2.3 Android日志與logd交互過程 2.2.3.1 Android日志傳遞給logd Android app層或framework層,通過調用Log/Slog/Rlog中
    的頭像 發表于 11-23 17:06 ?882次閱讀
    <b class='flag-5'>Android</b>日志與logd交互<b class='flag-5'>過程</b>