Ferret-UIは、モバイルUIの画面上で、多様な入力形式(点、ボックス、スケッチ)を用いて参照タスク(ウィジェット分類、アイコン認識、OCRなど)を実行し、グラウンディングタスク(ウィジェット検索、アイコン検索、テキスト検索、ウィジェットリスティングなど)を行える。またスクリーンショットの詳細な説明、質疑応答の対話、スクリーンの全体的な機能や目的を推測するタスクなども行える。Ferret-UIは、同社が2023年10月に発表した画像内の形や場所を言葉で説明するAI「Ferret」をベースに開発。しかし、UIの画面は一般的に自然画像よりも細長いアスペクト比を持ち、アイコンやテキストなどの小さなオブジェクトが多数存在するという特徴がある。そのため、画面全体を低解像度のまま入力するだけでは、重要な視覚情報が失われてしまう恐れがあった。
この問題を解決するために、Ferret-UIでは「any-resolution」(anyres)技術を導入。この技術により、画面を複数のサブ画像に分割し、それぞれを別々にエンコードすることで、ディテールを拡大し、豊かな視覚的特徴を活用できるようになった。学習には、基本的なUIタスクと高度なUIタスクのデータを生成する。基本的なUIタスクには、アイコン認識やテキスト検出などがあり、これらはモデルにUIエレメントのセマンティクスと空間的な位置関係を理解させるために重要である。Ferret-UIの能力を評価するために、研究者らは参照タスクとグラウンディングタスクに関する14種類のモバイルUIタスクからなる包括的なテストベンチマークを開発した。
このベンチマークを用いてiPhoneとAndroidで評価した結果、Ferret-UIは他のオープンソースのMLLMやGPT-4Vと比較して、基本的なUIタスクにおいて大幅に優れたパフォーマンスを示すことが明らかに。さらに、高度なタスクにおいても、FuyuやCogAgentといった既存のモデルを上回る性能を発揮した。Source and Image Credits: Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan. Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs.
日本 最新ニュース, 日本 見出し
Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。
ソース: gigazine - 🏆 80. / 51 続きを読む »
ソース: asciijpeditors - 🏆 98. / 51 続きを読む »
ソース: cnet_japan - 🏆 100. / 51 続きを読む »
ソース: internet_watch - 🏆 23. / 63 続きを読む »
ソース: cnet_japan - 🏆 100. / 51 続きを読む »
ソース: PRTIMES_JP - 🏆 114. / 51 続きを読む »